国产AI训练，为什么要用外国视频？

www.creaders.net | 2024-05-14 14:53:02 酷玩实验室 | 0条评论 | 查看/发表评论

生成式AI的这股浪潮翻涌到现在，已经一年多了。

如果要论在这股浪潮中，哪一类模型是AI领域“王冠上的宝石”，那一定是文生视频模型莫属。

从技术层面来说，Sora、Vidu这列视频大模型，最核心的价值，在于它们实现了跨媒介的信息合成与创造，从而形成了文本、图像、与视频等不同模态的“大一统”。

而这样的“大一统”，或许正是人类通向AGI的关键。

在这个“大一统”的框架下，数据不再被单一模态所限，而是作为多维度信息的综合体被理解和运用。

正如图灵奖得主，AI三巨头之一的Yann LeCun所提出的“世界模型”理论所述，现如今的 LLM （大模型）都只是在文本上训练的，因此只能非常粗浅地理解世界。

即使 LLM 凭借大量参数和海量训练数据，能展现出过人的文本理解能力，但它们本质上捕获的依然只是文本的统计规律，并不真正理解文本在现实世界中所代表的含义。

而如果模型能使用更多感官信号（比如视觉）学习世界的运作模式，那么就能更加深刻地理解现实。从而感知

那些无法仅凭文字传达的规律、现象。

从这个角度来说，谁能率先通过多模态的世界模型，让AI掌握现实物理的规律，谁或许就能率先突破文本和语义的限制，在通往AGI的路上先登上一个大台阶。

这也是为什么，OpenAI当前如此倾注于Sora的原因。

虽然前段时间，Vidu的出现给国产视频技术长脸了，在Sora这样的行业霸主面前挺直了腰板，但大家伙儿在欢欣鼓舞的同时，细心一看Vidu的演示视频，发现个挺有意思的事儿：

里面老外的脸蛋特别多。

这一下子，可让大家伙儿琢磨开了，感觉像是无意中扯出了咱们在收集视频资料这块儿的一个小辫子——高质量数据不足。

数据之困

如果说，现阶段真有制约视频生成模型发展的硬门槛，那么这样的门槛，无非就是算力、算法与数据。

而其中的前两者，实际上只要有钱，有人才，实际上都能搞得定，唯独数据，一旦落下了，后面想追平，可就得费老大劲儿了。就像身高一样，拉开了就很难追赶。

讲真，虽然从绝对总量来看，中文互联网上视频内容也不少了，但其中真正可用于AI训练的高质量数据，却并不如外网丰富。

例如，在视频目标检测方面，YouTube视频数据集VIS包含2,904个视频序列,共超过25万个标注目标实例。国内视频目标检测数据集，如华为的OTB-88，仅包含88个视频序列。

而在行为识别数据集方面，由国际上同样知名的HACS数据集，包含了140万个视频片段，涵盖200个人类日常行为类别。相较之下，国内阿里云的天池行为识别数据集，虽然也是涵盖200个行为类别，但仅仅包含了20万个视频片段。

造成这一差距的原因，从视频生态上来说，主要是因为国内的很多主流视频网站，例如爱优腾，发布的大都是一些影视剧、综艺、娱乐等内容。

而流量最大的抖音、快手这些短视频平台，也都是满屏的搞笑段子、生活小窍门，本来时长就很短了，其中还不乏很多剪辑、搬运、抄袭的作品。

这么一来，AI想找点“正经饭”吃，还真不容易。

对于视频AI训练来说，这样的视频，要么过于集中于特定类型，缺乏日常生活等多样化的场景，要么时长太短，缺乏深度和连贯的叙事，这不利于AI学习到长序列的连贯性、故事逻辑和因果关系。

与之相比，专业团队制作的电影、纪录片等内容，往往才是视频AI所需的高质量数据。

因为这些题材不仅种类丰富，时长够长，并且十分重细节呈现，更有利于AI模型捕捉到光线变化、物体材质方面的区别，从而提升其生成的精准度。

视频数据这块儿地儿，咱们不光是缺高质量的内容，还有个头疼的事儿——数据标注，这可是块难啃的骨头。就算视频拍得质量再高，但你直接甩给AI，它也不能分清其中的物品。

所以收集好视频数据后，得有人耐着性子，一帧一帧地告诉AI：“瞧见没，这条线动的是车流，那个两脚走路的是行人。”

要搞定数据标注这个既费劲又海量的活儿，没点厉害的家伙事儿可不成。例如，为提升标注效率，国外就涌现出了一批交互式视频标注工具，如CVAT， iMerit等。这些工具集成了自动跟踪、插值等算法，能够大幅减少人工标注的工作量。

反观咱们国内，由于自动化标注工具不那么普及，多半还是靠人海战术，大批的标注小分队加班加点地手动肝。

这么干吧，虽说标注的量上去了，可问题也跟着来了——这批临时拉起来的大军，没个统一的、客观的标准，培训啥的也不到位，全凭个人感觉在那儿判断对错好坏，这样一来，数据质量参差不齐就成了常态，有的地方标得好一些，有的地方可能就马马虎虎。

更让人头大的是，这种活儿，不仅枯燥乏味，累死累活，还挣不了几个钱，你说谁乐意干长久？

根据多家视频数据标注公司的反馈，大多数标注员的月薪在3000-5000元之间，国内视频标注行业的

年流失率普遍在30%-50%之间，个别公司甚至高达80%。

这行当人员流动跟走马灯似的，公司得不停地招新人、培训新人，刚教会一批，转头又走了一波。这直接把数据标注的质量稳定性给搅和了。

讲真，在数据总量、多样性、标注环节均不如外网的情况下，国内的视频AI要想崛起，该怎么跨过数据这道难关呢？

合成数据

如果高质量数据实在难找，那走合成数据这条路，用人工素材来“投喂”AI，是否可行呢？讲真，在Sora问世前，就已经有人这么做了，例如英伟达在2021年发布的

Omniverse Replicator就是这样一个例子。

说白了，Omniverse Replicator就是个合成数据的平台，专攻那种超逼真的3D场景。这玩意儿牛就牛在，它造出来的视频数据啊，每个细节都严丝合缝地遵循物理定律，就像是从真实世界里直接摘出来的一样。

这玩意儿对谁最管用？哦，那可多了去了，自动驾驶，机器人训练什么的，或者任何想要AI准确理解物理动态的项目。

在进行数据合成时，Omniverse Replicator首先会将各种3D模型、贴图和真实的材质拖进自己的平台中，之后就像搭积木那样，用这些素材构建出各种场景，例如城市街道，工作中的车间，或者是繁忙的马路等等。

接下来，为了让制造出来的数据不那么“死板”、“单调”，Replicator有个厉害的功能，就是能让人设定很多变化的因素。比如物体放哪儿、朝哪边、长啥样、颜色咋变、表面摸起来啥感觉，甚至是灯光怎么打，都能让它自己随机变来变去。

这样做有个大好处，就是能让最后得到的数据五花八门，能让AI见识各种情况。

这对AI数据合成来说，是至关重要的一步。

再之后，为了精确模拟现实中的物理交互，Omniverse Replicator中的NVIDIA PhysX等物理引擎，会根据牛顿力学等物理法则，在物体发生碰撞或接触的时候啊，计算它们的运动状态改变，比如速度、加速度、旋转和摩擦力等。

同时添加重力、弹性、摩擦力、流体阻力等约束条件，从而让模拟更接近现实。

虽然Omniverse Replicator可以生成高质量的视觉和动态3D场景，但它最擅长的是处理那些遵循物理定律的东西，比如怎么让虚拟的球按正确的方式弹跳。而对于那些抽象的，具有连贯逻辑和叙事性的内容，就超出了它的能力范畴了。

比如，如果人们想在视频里展现一个人开心的样子，就得让AI先学会“笑”这个表情，这可不是物理模拟能搞定的东西……

再比如，人们喝完水后，如果杯子不是一次性的，人们往往就会将水杯放回原位，而不是随手丢掉，这样的行为，其实更多地

遵循的是人类常识，而不是纯粹的物理规律。

在理论上，Omniverse Replicator无法单独生成训练Sora这类视频模型所需的所有数据，特别是那些涉及高级语义理解、连贯叙事和高度抽象概念，以及复杂的人类情感和社会互动的实例，这些都是Omniverse Replicator目前的设计和功能范围之外的。

另辟蹊径

实际上，除了Omniverse Replicator这种路子外，使用虚幻5引擎生成相关数据，也是一种备选策略。

在之前Sora放出的视频中，人们就已经发现，某些视频片段的效果，跟此前写实、逼真的画风有点不一样，看上去更像是某种“3D风格”，例如下面的这个大眼睛、长睫毛、口喷冷气的小白龙。

虽然OpenAI官方并未承认，但眼尖的网友一看就感觉到了，这玩意儿有虚幻5的影子！

但即使这种猜测是真的，虚幻5能提供的，大概率也只是对光线、场景、3D信息和物理交互的模拟数据，本质上和Omniverse Replicator一样，只能提供一些很“硬”的物质层面的模拟。

要真想捣鼓出一个啥都有的世界级视频大杂烩数据集，就得想想新招。

一个挺极端的法子就是让AI自产自销，自己造视频来训练自己。但这里头有个坑，要是这些AI亲手做的视频在训练材料里占太多了，就会出现“模型自噬”的风险。

换句话说，就是生成的东西越来越差。

在极端情况下，持续使用自我生成的数据，可能会导致模型性能急剧下降，甚至模型完全失效，因为AI可能会将前代模型的缺陷一代代放大。

去年，莱斯大学和斯坦福团队发现，将AI生成的内容喂给模型，只会导致性能下降。

研究人员对此给出一种解释，叫做“模型自噬障碍”（MAD）。

研究发现在使用AI数据，经过第5次迭代训练后，模型就会患上MAD。

在合成数据上训练AI模型会逐渐放大伪影，这其中的机理，和生物学上因“近亲繁殖”导致后代产生缺陷的情况十分类似。

正如近亲繁殖中的个体因遗传池缩小而限制了遗传多样性，过度依赖AI生成的数据，也会限制模型学习的多样性，

因为它反映的是前代模型的固有的理解，而非原始的真实世界多样性。

如果将模型比作人的话，那么任何模型，即使数据质量再高，也始终会存在稀缺的内容，就像一个人的基因即使再好，也总会存在某些稀缺的因子。

这些“缺陷”在前代模型中不明显或可接受，通过迭代训练过程，这些缺陷仍有可能被放大，尤其是在缺乏外部多样性的情况下。

研究还发现，提高合成质量会损害合成多样性。

对大模型来说，如果想表现出更好的泛化能力（所谓的举一反三），就需要不断适应新的数据和场景，应对新的挑战，从而总结出新规律、新关联。

这就是为什么数据多样性，对模型如此重要的原因。

既然这中文互联网上的高质量数据，本来就不是很多，合成数据这条路，从技术上似乎也很难走得通，那么国产视频大模型想要超过Sora，还能有哪些路子呢？

自我进化

如果有一种办法，能让模型在自己生成数据的同时，不陷入“自噬”的漩涡，还能不断自我进化，这岂不美哉？

讲真，国内已经有部分AI企业走出了这条路子，例如智子引擎团队开发的新型多模态大模型——Awaker 1.0就是这么个例子。

简单地来说，Awaker 1.0这个模型，之所以能突破以往的数据瓶颈，主要归功于自身独特的三大功能：

自动生成数据、自我反思、持续更新。

首先，在自动生成数据方面，Awaker 1.0主要通过网络和物理世界两种途径来搜集数据，也就是说，它不光在网上到处搜索，看新闻、读文章、学东西，还能在跟真实世界里的智能设备配合时，通过摄像头看东西、听声音，理解周围发生的事儿。

不过，与简单的数据爬取不同的是，在搜集了这些多模态的数据后，Awaker 1.0还能理解和消化这些信息，并以此生成新的内容，比如文字、图像甚至视频。之后再根据这些“反刍”后的内容，不断优化和更新自己。

接下来，强化后的Awaker 1.0可以生成质量更高、更有创意的新数据，如此循环往复，就形成了一个自我训练的闭环。

换句话说，这实际上是一种动态合成数据的方法，外部数据只是给它提供了“种子”，通过不断地自生自吞，它可以不断放大和扩展这些初始数据，持续为自己生成新的训练数据。

这就像是一个强悍的“增程发动机”，则巧妙地利用了少量的燃料（数据），通过一个循环放大的过程，产生出远超燃料本身能量的动力输出。

同时，为了在这个闭环中，纠正数据可能的偏差，Awaker 1.0不仅会对生成的数据进行质量评分和反思，过滤掉质量不高的样本，并且还会通过持续在线学习和迭代，根据新的外部数据和反馈，确保数据的实时性和准确性。

如此一来，模型既避免了受限于有限的外部数据源，也避免了陷入纯合成数据可能导致的“模型自噬”现象。

而这种自我反馈和学习的机制，实际上也暗合了AI领域要统一理解侧和生成侧的想法。

Sora问世后，越来越多声音表示，要通往AGI，必须达成“理解和生成的大一统”。

这是因为，人类智能的本质就是对世界的理解和创造，目前的AI往往是专门从事理解任务(如分类、检测)或生成任务(如语言模型、图像生成)。但真正的智能需要打通理解和生成，形成闭环。

说白了，要让AI模仿人类大脑的学习模式，边看边想，同时在自我输出的过程中，根据不断变化的现实进行反思和调整。

用中国人的话来说，就是知行合一。

AI要做到这一点，就需要能够自己生成数据来训练自己，并从中不断成长，随着时间推移而不断进化。

这样，即便面对从未见过的新情况，AI也能像人一样，灵活应对，甚至有所创造，这就是在实现AGI上的重要一步。

Meta业务大洗牌查克柏格宣布组建新部门	苹果首款AI眼镜终极曝光要引爆整个行业?
苹果AI发展缓慢被批恐会步Nokia后尘	热议：10大最易被AI淘汰职业！第一名超意外
辉达下一个“万亿级美元商机”，来了	比DeepSeek还具威胁性！这家中国AI公司引发关注
2名中国AI人才高调加入辉达晒与黄仁勋合影	跟谷歌、微软拼了 OpenAI将推AI版Office
AI学会撒谎与威胁？专家忧发展失控	OpenAI开始租用Google芯片
逮住OpenAI猛薅 Meta又挖走4位知名研究人员	“机器人胶囊” 震撼世界吞下能无痛检查胃
软银拼当超级AI领头羊	川普高招果然有用 DeepSeek新模型难产
英伟达夺回全球市值王黄仁勋身价暴增	人类会与AI相爱吗？
扎克伯格开出$1亿天价挖人亲发邀请被误为诈骗	Tesla试运营无人出租车安全员陪同每次$4.2
华为鸿蒙6来了众多关键能力升级全面拥抱AI	全球扫地机器人5强中国企业包办前4

1	空姐坦白：机组人员在飞行中这样“发生性
2	红色家族海外财产达二十万亿习近平犯下两
3	习亲自指挥谋害传遗孀程虹爆李克强死前心
4	重磅！川普放话，关税大消息
5	坐实了！这机构刚刚成立习近平的手脚被绑

1	比恒大还多1.14万亿的巨头，倒了
2	北京出了啥事？美前顶级情报头子发话
3	普京沉痛宣布:我们被骗了
4	空姐坦白：机组人员在飞行中这样“发生性
5	红色家族海外财产达二十万亿习近平犯下两
6	习亲自指挥谋害传遗孀程虹爆李克强死前心
7	4年倒闭5万多家中国最暴利行业要彻底消
8	刚刚！美联储，突传重磅
9	哈梅内伊又装了一回，代价也来了
10	重磅！川普放话，关税大消息

1 美伊冲突	6 俄乌战争	11 大S
2 以伊战争	7 万维专栏	12 洛杉矶大火
3 四中全会	8 何卫东	13 叙利亚
4 中美冷战	9 AI	14 苗华被抓
5 川普	10 中共两会	15 美国大选

1	俺吃错过药	阿妞不牛
2	空前绝后：24岁的中共总书记及	赵大夫话室
3	人养金毛犬，我养白眼狼：伊朗	高伐林
4	回国避坑：既不能评论国内好坏	aoe2
5	人死后灵魂还在吗？	骆驼
6	走出中国城，走活中国人	解滨
7	中美空军相差多远？看运-20和C	弓长贝占郎
8	共产革命之前的上海和伊斯兰革	陈家梁子
9	习大大唱独角戏，听床师们情何	蛇形刁手
10	浅谈2022年至今中共高层和习近	刘反共2012

1	人死后灵魂还在吗？	骆驼
2	文明、优雅、格局	体育老师
3	俺吃错过药	阿妞不牛
4	奇袭伊朗.高法裁决.外交内政.	木秀于林
5	走出中国城，走活中国人	解滨
6	相信固执己见可以治愈	施化
7	2024回国：海南环岛游	马黑
8	人养金毛犬，我养白眼狼：伊朗	高伐林
9	再反转：B-2只炸了个皮毛？	北栖
10	老川什么时候拿诺贝尔和平奖？	山蛟龙


关于本站 \| 广告服务 \| 联系我们 \| 招聘信息 \| 网站导航 \| 隐私保护
Copyright (C) 1998-2025. Creaders.NET. All Rights Reserved.

全部评论