|
|
|
要是苹果Vision Pro头显加上AI助手,有多强?
南洋理工大学与微软雷蒙德研究所带来一个震撼概念演示。
人在飞机上,不知道怎么降落?带上头显把画面传给AI,就能一步一步你操作。
更贴近生活一些的场景,在麻将桌上,Otter分分钟教你胡几次大的。
而当你锻炼身体时,Otter可以充当你的计数器。
调酒师小哥忘记配方时,也能分分钟化解尴尬。
Otter一共支持八种语言, 中文也包括在内。
训练过程中,团队专门使用了适用于AR头显的第一视角视频,宣传上也明示就是为苹果头显准备的。
不过也有网友发现了华点。
结果,Otter在各测试项目上的平均成绩比传统的MiniGPT-4、OpenFlamingo等传统模型高出十余个百分点。
如何实现
其中核心的视觉模块是基于改进版本的LLaVA进行训练的。
Otter整体的工作流程大概是这样的:
首先要对视觉信息进行处理,并结合系统信息生成prompt。
生成好的prompt会被传递给ChatGPT,得到指令-回应数据。
这样得到的答案再经过一步筛选器筛选之后,由ChatGPT翻译成用户选择的语言并输出。
在主线流程之外,团队还引入了 冷启动机制,用于发现数据库中可用的情景实例。
接下来,让我们看一下当中最关键的环节,也就是视觉信息的解释。
为了训练Otter,研究团队专门提出了 Mult I- Modal In- ContextInstruction Tuning(多模式场景下的指令调整)数据集。
MIMIC-IT涵盖了大量的现实生活场景,而且不同于传统的LLaVa等只有一张图片和语言描述的数据集,MIMIC-IT包含多种模式。
第一步是对场景化信息的学习,这一部中使用的是经过调整的LLaVA数据集。
对数据集中的每个指令-相应组,团队都基于文字或图片相似性为其检索了是个场景化实例。
为了更好地适应真实世界,下一步的训练主要是让模型发现图像之间的差别。
而这些差别又被分为了一般差别和微小差别两种类型。
对于一般差别,通过prompt让ChatGPT进行图像分析和物体检测生成注释。
而对于微小差别,则使用自然语言描述作为注释。
拥有了发现差别的能力之后,就要让模型尝试着“讲故事”了。
由于图像注释无法直观反映时间线等要素,研究团队让ChatGPT充当观众并回答一系列问题。
每一个场景之中都包含图像和对应的指令-响应组。
为了扩展模型的视野,研究团队还让它学习了包含大量说明的长视频片段。
说明信息包括视频内容、人的动作和行为、事件发生的顺序和因果关系等。
为了增强模型的社交推理能力和对人物复杂动态行为的理解,研究团队最后把电视剧作为了训练材料。
介绍完一般场景,我们再来看看第一人称场景又是如何分析的。
第一人称场景既包括视觉上直观看到的内容,也包括观察者的内心感受。
研究团队从ScanNetv2数据集中搜集了一些场景并进行采样,转化为多个第一人称视角的二维视觉信息。
研究团队还让ChatGPT基于隐式设定的人物性格指导人类的行为,为模型生成训练数据。
作者简介
研究团队的成员主要来自南洋理工大学S实验室,第一作者是该实验室的博士生李博。
2017年,李博获得中国大学生编程比赛银奖。
2018年至今,李博先后在滴滴、英伟达、微软等机构先后从事研究工作。
李博的导师刘子纬助理教授是本文的通讯作者。
此外,微软雷蒙德研究院首席研究员Chunyuan Li也参与了本项目。
Otter的介绍视频在B站也有发布。
当前新闻共有0条评论 | 分享到: |
|
||||||||||
评论前需要先 登录 或者 注册 哦 |
|
24小时新闻排行榜 | 更多>> |
|
1 | 华尔街大鳄警告 它是一个“巨大的泡沫” |
2 | 突发:全球最大光刻机巨头爆雷 股价跳水 |
3 | 复旦研究生珠峰地区登山死亡 真相更令人愤 |
4 | 火箭军又将大地震?习四个字批示 |
5 | 惊曝:俄乌签署协议最后一刻,乌方突然退出 |
|
48小时新闻排行榜 | 更多>> |
|
1 | 北京扣动扳机 人民币贬值开始了 |
2 | 撤出中国,苹果跑的也太快了 |
3 | 铁拳再现!中国将禁止公布这些数据 |
4 | 不好,爆雷越来越密集了 |
5 | 中共情色档案中的薄熙来情妇有名有姓 |
6 | 重庆,又一次刷新了底线 |
7 | 这一幕,终于在深圳上演了 |
8 | 拜登祭出重招 堵上北京这个漏洞 |
9 | 华尔街大鳄警告 它是一个“巨大的泡沫” |
10 | 突发:全球最大光刻机巨头爆雷 股价跳水 |
|
热门专题 |
|
|
一周博客排行 | 更多>> |
|
一周博文回复排行榜 | 更多>> |
1 | 川普就是美国的毛泽东 | 右撇子 |
2 | 前瞻:习马再相会 | 花蜜蜂 |
3 | 警惕有人把民主党与共和党的关 | karkar |
4 | 美国为何选择这个时候公布中共 | 山蛟龙 |
5 | 周傥:美国迫在眉睫的危险 | 万维网友来 |
6 | 习近平一盘神秘大棋成就了大日 | 文庙 |
7 | 现代战争目的:摧毁战争意志 | 施化 |
8 | 抖音在大选年被禁的可能性不大 | 随意生活 |
9 | 去......化 | 山蛟龙 |
10 | 康生的儿子死了/漂亮国的象征 | 体育老师 |