万维读者网 > 数码科技 > 正文  

苹果Vision Pro头显AI助手来袭:18般武艺俱全

www.creaders.net | 2023-06-13 15:54:11  量子位 | 0条评论 | 查看/发表评论

苹果Vision Pro头显AI助手来袭:18般武艺俱全

要是苹果Vision Pro头显加上AI助手,有多强?

南洋理工大学与微软雷蒙德研究所带来一个震撼概念演示。

人在飞机上,不知道怎么降落?带上头显把画面传给AI,就能一步一步你操作。

这个多模态AI助手名叫Otter(水獭),以视频为输入,能完成多模态感知、推理、和上下文学习,也经过专门的遵循指令训练。

更贴近生活一些的场景,在麻将桌上,Otter分分钟教你胡几次大的。

‍而当你锻炼身体时,Otter可以充当你的计数器。

调酒师小哥忘记配方时,也能分分钟化解尴尬。

Otter一共支持八种语言, 中文也包括在内。

训练过程中,团队专门使用了适用于AR头显的第一视角视频,宣传上也明示就是为苹果头显准备的。

苹果Vision Pro头显AI助手来袭:18般武艺俱全

苹果Vision Pro头显AI助手来袭:18般武艺俱全

苹果Vision Pro头显AI助手来袭:18般武艺俱全

苹果Vision Pro头显AI助手来袭:18般武艺俱全

苹果Vision Pro头显AI助手来袭:18般武艺俱全

苹果Vision Pro头显AI助手来袭:18般武艺俱全

不过也有网友发现了华点。

结果,Otter在各测试项目上的平均成绩比传统的MiniGPT-4、OpenFlamingo等传统模型高出十余个百分点。

如何实现

其中核心的视觉模块是基于改进版本的LLaVA进行训练的。

Otter整体的工作流程大概是这样的:

首先要对视觉信息进行处理,并结合系统信息生成prompt。

生成好的prompt会被传递给ChatGPT,得到指令-回应数据。

这样得到的答案再经过一步筛选器筛选之后,由ChatGPT翻译成用户选择的语言并输出。

在主线流程之外,团队还引入了 冷启动机制,用于发现数据库中可用的情景实例。

苹果Vision Pro头显AI助手来袭:18般武艺俱全

接下来,让我们看一下当中最关键的环节,也就是视觉信息的解释。

为了训练Otter,研究团队专门提出了 Mult I- Modal In- ContextInstruction Tuning(多模式场景下的指令调整)数据集。

MIMIC-IT涵盖了大量的现实生活场景,而且不同于传统的LLaVa等只有一张图片和语言描述的数据集,MIMIC-IT包含多种模式。

苹果Vision Pro头显AI助手来袭:18般武艺俱全

苹果Vision Pro头显AI助手来袭:18般武艺俱全

第一步是对场景化信息的学习,这一部中使用的是经过调整的LLaVA数据集。

对数据集中的每个指令-相应组,团队都基于文字或图片相似性为其检索了是个场景化实例。

苹果Vision Pro头显AI助手来袭:18般武艺俱全

为了更好地适应真实世界,下一步的训练主要是让模型发现图像之间的差别。

而这些差别又被分为了一般差别和微小差别两种类型。

对于一般差别,通过prompt让ChatGPT进行图像分析和物体检测生成注释。

而对于微小差别,则使用自然语言描述作为注释。

拥有了发现差别的能力之后,就要让模型尝试着“讲故事”了。

由于图像注释无法直观反映时间线等要素,研究团队让ChatGPT充当观众并回答一系列问题。

每一个场景之中都包含图像和对应的指令-响应组。

为了扩展模型的视野,研究团队还让它学习了包含大量说明的长视频片段。

说明信息包括视频内容、人的动作和行为、事件发生的顺序和因果关系等。

为了增强模型的社交推理能力和对人物复杂动态行为的理解,研究团队最后把电视剧作为了训练材料。

苹果Vision Pro头显AI助手来袭:18般武艺俱全

介绍完一般场景,我们再来看看第一人称场景又是如何分析的。

第一人称场景既包括视觉上直观看到的内容,也包括观察者的内心感受。

研究团队从ScanNetv2数据集中搜集了一些场景并进行采样,转化为多个第一人称视角的二维视觉信息。

研究团队还让ChatGPT基于隐式设定的人物性格指导人类的行为,为模型生成训练数据。

作者简介

研究团队的成员主要来自南洋理工大学S实验室,第一作者是该实验室的博士生李博。

2017年,李博获得中国大学生编程比赛银奖。

2018年至今,李博先后在滴滴、英伟达、微软等机构先后从事研究工作。

李博的导师刘子纬助理教授是本文的通讯作者。

此外,微软雷蒙德研究院首席研究员Chunyuan Li也参与了本项目。

Otter的介绍视频在B站也有发布。

   0


24小时新闻排行榜 更多>>
1 华尔街大鳄警告 它是一个“巨大的泡沫”
2 突发:全球最大光刻机巨头爆雷 股价跳水
3 复旦研究生珠峰地区登山死亡 真相更令人愤
4 火箭军又将大地震?习四个字批示
5 惊曝:俄乌签署协议最后一刻,乌方突然退出

48小时新闻排行榜 更多>>
1 北京扣动扳机 人民币贬值开始了
2 撤出中国,苹果跑的也太快了
3 铁拳再现!中国将禁止公布这些数据
4 不好,爆雷越来越密集了
5 中共情色档案中的薄熙来情妇有名有姓
6 重庆,又一次刷新了底线
7 这一幕,终于在深圳上演了
8 拜登祭出重招 堵上北京这个漏洞
9 华尔街大鳄警告 它是一个“巨大的泡沫”
10 突发:全球最大光刻机巨头爆雷 股价跳水
热门专题
1
以哈战争
6
中共两会
11
秦刚失踪
2
中美冷战
7
台湾大选
12
火箭军悬案
3
乌克兰战争
8
李克强猝逝
13
台海风云
4
万维专栏
9
中国爆雷
14
战狼外交
5
美国大选
10
李尚福出事
15
普里戈津
一周博客排行 更多>>
1 习近平一盘神秘大棋成就了大日 文庙
2 周傥:美国迫在眉睫的危险 万维网友来
3 速战速决 伊朗真乃大丈夫也 体育老师
4 康生的儿子死了/漂亮国的象征 体育老师
5 达唐:故宫博物院遭公开举报 万维网友来
6 谁是中国人? 谢盛友文集
7 日本电影《追捕》中的杜丘和真 弓长贝占郎
8 现代战争目的:摧毁战争意志 施化
9 辛峰:特鲁多为什么不信加拿大 万维网友来
10 前瞻:习马再相会 花蜜蜂
一周博文回复排行榜 更多>>
1 川普就是美国的毛泽东 右撇子
2 前瞻:习马再相会 花蜜蜂
3 警惕有人把民主党与共和党的关 karkar
4 美国为何选择这个时候公布中共 山蛟龙
5 周傥:美国迫在眉睫的危险 万维网友来
6 习近平一盘神秘大棋成就了大日 文庙
7 现代战争目的:摧毁战争意志 施化
8 抖音在大选年被禁的可能性不大 随意生活
9 去......化 山蛟龙
10 康生的儿子死了/漂亮国的象征 体育老师
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2024. CyberMedia Network/Creaders.NET. All Rights Reserved.