万维读者网 > 数码科技 > 正文

苹果Vision Pro头显AI助手来袭：18般武艺俱全

www.creaders.net | 2023-06-13 15:54:11 量子位 | 0条评论 | 查看/发表评论

要是苹果Vision Pro头显加上AI助手，有多强？

南洋理工大学与微软雷蒙德研究所带来一个震撼概念演示。

人在飞机上，不知道怎么降落？带上头显把画面传给AI，就能一步一步你操作。

这个多模态AI助手名叫Otter（水獭），以视频为输入，能完成多模态感知、推理、和上下文学习，也经过专门的遵循指令训练。

更贴近生活一些的场景，在麻将桌上，Otter分分钟教你胡几次大的。

‍而当你锻炼身体时，Otter可以充当你的计数器。

调酒师小哥忘记配方时，也能分分钟化解尴尬。

Otter一共支持八种语言，中文也包括在内。

训练过程中，团队专门使用了适用于AR头显的第一视角视频，宣传上也明示就是为苹果头显准备的。

不过也有网友发现了华点。

结果，Otter在各测试项目上的平均成绩比传统的MiniGPT-4、OpenFlamingo等传统模型高出十余个百分点。

如何实现

其中核心的视觉模块是基于改进版本的LLaVA进行训练的。

Otter整体的工作流程大概是这样的：

首先要对视觉信息进行处理，并结合系统信息生成prompt。

生成好的prompt会被传递给ChatGPT，得到指令-回应数据。

这样得到的答案再经过一步筛选器筛选之后，由ChatGPT翻译成用户选择的语言并输出。

在主线流程之外，团队还引入了 冷启动机制，用于发现数据库中可用的情景实例。

接下来，让我们看一下当中最关键的环节，也就是视觉信息的解释。

为了训练Otter，研究团队专门提出了 Mult I- Modal In- ContextInstruction Tuning（多模式场景下的指令调整）数据集。

MIMIC-IT涵盖了大量的现实生活场景，而且不同于传统的LLaVa等只有一张图片和语言描述的数据集，MIMIC-IT包含多种模式。

第一步是对场景化信息的学习，这一部中使用的是经过调整的LLaVA数据集。

对数据集中的每个指令-相应组，团队都基于文字或图片相似性为其检索了是个场景化实例。

为了更好地适应真实世界，下一步的训练主要是让模型发现图像之间的差别。

而这些差别又被分为了一般差别和微小差别两种类型。

对于一般差别，通过prompt让ChatGPT进行图像分析和物体检测生成注释。

而对于微小差别，则使用自然语言描述作为注释。

拥有了发现差别的能力之后，就要让模型尝试着“讲故事”了。

由于图像注释无法直观反映时间线等要素，研究团队让ChatGPT充当观众并回答一系列问题。

每一个场景之中都包含图像和对应的指令-响应组。

为了扩展模型的视野，研究团队还让它学习了包含大量说明的长视频片段。

说明信息包括视频内容、人的动作和行为、事件发生的顺序和因果关系等。

为了增强模型的社交推理能力和对人物复杂动态行为的理解，研究团队最后把电视剧作为了训练材料。

介绍完一般场景，我们再来看看第一人称场景又是如何分析的。

第一人称场景既包括视觉上直观看到的内容，也包括观察者的内心感受。

研究团队从ScanNetv2数据集中搜集了一些场景并进行采样，转化为多个第一人称视角的二维视觉信息。

研究团队还让ChatGPT基于隐式设定的人物性格指导人类的行为，为模型生成训练数据。

作者简介

研究团队的成员主要来自南洋理工大学S实验室，第一作者是该实验室的博士生李博。

2017年，李博获得中国大学生编程比赛银奖。

2018年至今，李博先后在滴滴、英伟达、微软等机构先后从事研究工作。

李博的导师刘子纬助理教授是本文的通讯作者。

此外，微软雷蒙德研究院首席研究员Chunyuan Li也参与了本项目。

Otter的介绍视频在B站也有发布。

0

相关新闻

Grok“一键脱衣”难了　马斯克限缩X生成功能	中国对Meta收购Manus展开调查
黄仁勋刚放出的“核弹” 对中国真不是好消息	少子化、老年化有救了？黄仁勋：靠“它”全解决
赚翻 10项AI副业收入排名出炉	苹果公开最新 AI 黑科技
看傻了！凌晨1点，老黄扔“核弹”...	ChatGPT实体化？OpenAI首款AI硬件曝光
“奇点就在2026”！再见，程序员	滚！腾讯“元宝”骂用户
AI 真是个犟种	AI应用遍地开花　今年半导体销售估破1万亿美元
马斯克Grok遭批生成不雅内容　国际社会密切关注	特斯拉车主横跨整个美国全程没碰方向盘
2026年的AI，真的要“抢饭碗”了	人工智能真的能帮人们找到爱情吗？
可怕！美专家警告：AI误判恐在几分钟内引爆核战	华尔街分析师：2026年最看好的5支AI概念股
辉达携手台积电冲刺中企200万颗H200大单	14亿年薪还不够美巨头再砸140亿收购华人AI公司

“人工智能AI”

当前新闻共有0条评论

分享到：

评论前需要先登录或者注册哦

全部评论

暂无评论上一页下一页

实用资讯

抗癌明星组合多年口碑保证！天然植物萃取有效对抗癌细胞
中老年补钙必备，2星期消除夜间抽筋、腰背疼痛，防治骨质疏松立竿见影

24小时新闻排行榜

1	突发：换格陵兰加入美国美提出超诱惑方案
2	美军突袭委军为何“全瘫痪”? 中媒曝惊人内
3	哽咽大骂习近平惊传被捕　本人发声了
4	出现不祥预兆中国面临大灾难
5	震惊全美：他突然去世，撼动川普对众院控制

48小时新闻排行榜

1	突发！川普重磅宣布：协议达成
2	两个大国，仇恨的种子已经埋下了
3	突发：换格陵兰加入美国美提出超诱惑方案
4	美军突袭委军为何“全瘫痪”? 中媒曝惊人内
5	哽咽大骂习近平惊传被捕　本人发声了
6	出现不祥预兆中国面临大灾难
7	一条被低估的重磅消息，震动整个华盛顿
8	社交清醒：永远不要在熟人面前说这5种话
9	震惊全美：他突然去世，撼动川普对众院控制
10	马斯克预言成真全球疯抢中国成最大救

热门专题

1 委内瑞拉	6 万维专栏	11 AI
2 川普	7 四中全会	12 中共两会
3 俄乌战争	8 美伊冲突	13 大S
4 中美冷战	9 以伊战争	14 洛杉矶大火
5 中日关系	10 何卫东	15 叙利亚

一周博客排行

1	元旦“马折后蹄”，洛阳神级隐	雷歌747
2	杨纯华：暴君毛泽东	万维网友来
3	马杜罗被抓美国吵翻天/中共外	体育老师
4	中美真正差距在此	山货郎
5	马杜罗被白头鹰叼走了，委国人	阿妞不牛
6	《无言的忠诚》五部曲第一部	麒麟儿
7	川普说曾亲自直接对马杜罗劝降	高伐林
8	一觉醒来，马杜罗被抓了	湮灭之城
9	中共粉红见识不凡	阿妞不牛
10	大陆疯传多条恐怖的“美国斩杀	文庙

一周博文回复排行榜

1	社会主义必然指向贫穷	施化
2	马杜罗被白头鹰叼走了，委国人	阿妞不牛
3	关于美国抓捕委内瑞拉总统的一	俞先生
4	中美真正差距在此	山货郎
5	马杜罗夫妇被擒，世界更接近和	施化
6	马杜罗被抓的真正动机是川普在	右撇子
7	中共粉红见识不凡	阿妞不牛
8	川普说曾亲自直接对马杜罗劝降	高伐林
9	台湾：不愿统一，又不愿为独立	随意生活
10	大陆疯传多条恐怖的“美国斩杀	文庙


关于本站 \| 广告服务 \| 联系我们 \| 招聘信息 \| 网站导航 \| 隐私保护
Copyright (C) 1998-2026. Creaders.NET. All Rights Reserved.