兵马俑跳《科目三》，是我万万没想到的

www.creaders.net | 2024-01-04 11:24:58 量子位 | 0条评论 | 查看/发表评论

家人们，火爆全球的魔性舞蹈《科目三》，谁能料到，就连兵马俑也开始跳上了！

热度还居高不下，瞬间被轰上了热搜，小伙伴们纷纷惊掉了下巴表示“闻所未闻，见所未见”。

这到底是怎么一回事？

原来，是有人借助了阿里之前走红的AI技术——

AnimateAnyone，生成出来了这个舞蹈片段。

技术圈的盆友对这个技术都不陌生，“出道”至今仅仅1个月时间，这个项目便已经在GitHub上斩获了超1.1万个star。

呼唤它能让更多人轻松上手体验的声音，也越来越多。

好消息是，现在AnimateAnyone已经可以免费体验了！

而且“入口”还直接被嵌进了阿里通义千问APP——名曰：

通义舞王。

很快，各种效果、各种玩法、各种人物，都动了起来……例如微博网友“Simon_阿文”，让拿破仑表演了一把……

这标致的舞姿，这反差的形象，着实算是把脑洞给打开了。

也有不少网友换了个思路：

想用自己照片试试；以后投宅舞视频可以直接生成了。

所以效果究竟行不行，我们也忍不住实测了一波~

让贝索斯舞一段《极乐净土》

打开通义千问APP，我们只需要点击对话框中的“一张照片来跳舞”：

或者在输入框内敲“通义舞王”或“全民舞王”

等关键词，就可以跳转到相应界面了：

接下来的操作，也正如我们刚才所说：极、其、简、单。

首先，在众多已经提供的模板中，pick一个。

目前通义千问APP提供了12个模板，这次我们就选择二次元最爱、宅舞《极乐净土》测试一下~

然后，选一位测试对象。比如我们找了（前）全球首富贝索斯：

需要说明的是，在选择照片的时候，还是需要一点“技巧”的，“通义舞王”也有相应提示：

正面站立

全身照

全身无遮挡

无仰俯角

在此之后，直接点击“立即生成”，静候几分钟，贝索斯大跳《极乐净土》的视频，就诞生了：

是不是效果还行？虽然还不能讲“真假难辨”，但首富都能这样为你跳一曲了，还要什么自行车。

不仅如此，“通义舞王”除了能够生成真人风格之外，还有其他风格可玩。

例如动漫风格的小姐姐跳DJ慢摇：

还有卡通风格的人物热舞：

总而言之，现在你想让任何人跳舞——一张全身照就够了。

不过有一说一，虽然“通义舞王”已经成功吸引了众多网友前来玩耍，反响火爆，但它也还没到完美无瑕的境界。

例如等待时长，现在平均时间大约在10分钟左右（有点久，但毕竟是免费的，还要啥自行车啊）。

还有就是从视频效果来看，如果照片角度不好或者清晰度不够也会影响AI对于人物手部的处理。

这些问题，实际都与背后的技术原理和技术挑战，密不可分。

怎么做到的？在视觉生成任务中，目前较为主流的方法便是扩散模型。

但在仅靠一张照片就生成视频这件事上，它还面临着诸多的挑战，例如人物形象一致性（consistency）的问题。

简单来说，就是如何保证照片人物在动起来的过程中，各种细节能够和原照片保持一致。

为此，阿里团队在扩散模型的基础之上，提出了一个新的算法，也就是我们刚才提到的AnimateAnyone。

从一致性、可控性和稳定性三个方面，保证了视频输出的效果和质量。

例如在一致性方面，阿里团队引入的是ReferenceNet，用于捕捉和保留原图像信息，可高度还原人物、表情及服装细节。

具体而言，在参考图特征提取上，ReferenceNet采用的是与去噪UNet类似的框架，但没有包含时间层；它继承了原始扩散模型的权重，并独立进行权重更新。

在将ReferenceNet的特征融合到去噪UNet时，首先将来自ReferenceNet的特征图x₂复制t次，并与去噪UNet的特征图x₁沿w维度连接；然后进行自注意力处理，并提取特征图的前半部分作为输出。

虽然ReferenceNet引入了与去噪UNet相当数量的参数，但在基于扩散的视频生成中，所有视频帧都需要多次去噪，而ReferenceNet只需在整个过程中提取一次特征，因此在推理过程中不会导致显著增加计算开销。

在可控性方面，阿里团队使用的是Pose Guider姿态引导器。

Pose Guider姿势引导器采用的是一个轻量级设计，而不是引入一个额外的控制网络。

具体来说，使用了四个卷积层（卷积核大小为4×4，步幅为2×2，通道数分别为16、32、64、128），这些卷积层用于将姿势图像对齐到与噪声潜变量相同的分辨率。

处理后的姿势图像会被加到噪声潜变量上，然后一起输入到去噪UNet中，从而在不显著增加计算复杂性的情况下，为去噪UNet提供姿势控制。

最后是在稳定性方面，阿里团队引入的是一个时序生成模块。

时序层的设计灵感来源于AnimateDiff，通过在特征图上执行时间维度的自注意力，以及通过残差连接，其特征被整合到原始特征中。

同样的，这个模块的作用之下，满足了在保持时间连续性和细节平滑性的同时，减少了对复杂运动建模的需求。

最终，在AnimateAnyone的加持之下，从效果上来看，保证了图像与视频中人物的一致性。

这也是AnimateAnyone背后的技术原理。

然而，阿里之所以不断在AnimateAnyone上攻坚优化，并非完全出于技术很酷很有潜力，还藏着一颗引领视频生成技术的野心。

因为大家都在问“What is the Next？”的时候，LVM（Large Vision Model），已经潮水声轰鸣了。

What is the Next？

实际上，在AnimateAnyone火了之后，阿里还有另一项视频生成技术在同时出圈。

它叫DreaMoving，只需一张脸部照片、一句话描述，就能让你在任何地方跳舞！

例如下面这段《擦玻璃》的舞蹈视频：

你所需要做的就是“投喂”一张人像，以及一段prompt：

一个女孩，微笑着，在秋天的金色树叶中跳舞，穿着浅蓝色的连衣裙。

而且随着prompt的变化，人物背景和身上的衣服也会随之发生改变。例如我们再换两句：

一个女孩，微笑着，在木屋里跳舞，穿着毛衣和长裤。

一个女孩，微笑着，在时代广场跳舞，穿着连衣裙般的白衬衫，长袖，长裤。

和AnimateAnyone一样的，它也是真人、卡通、动漫人物统统都能hold住。

当时也引来了不少网友们的热玩和惊呼。

这些都是阿里在视频生成上的“沿途下蛋”，都是“勇攀珠峰”——死磕AI视频生成技术的证明和结果。

为什么？

因为纵观去年一整年的AIGC发展的脉络，AI视频生成的爆发趋势似乎越来越明确了。

2022年底以来，从最初ChatGPT引爆大语言模型，全球科技巨头乃至初创企业纷纷入局，到后来各家不仅限于自然语言技术，更是将文生图、文生音频、文生视频、图生视频等多模态技术“玩”出了新高度。

产业是什么？LLM（大语言模型）正在逐步向LMM（多模态大模型）发展。

并且从这期间学术界、产业界所交出的一份份“作业”中，也能印证这一点：

Pika1.0发布，刚出道就成行业顶流，引来一众大佬围观；

Runway家升级Gen2，分分钟打造高质量小电影；

李飞飞W.A.L.T紧随其后，同样也是发力于此；

谷歌Gemini发布现场，大秀多种模态的联动玩法。

因此，多模态大模型、AI视频生成领域，正是现如今AIGC这波顶流中的顶流，阿里频频在此发力，也就不难理解了。

不仅如此，在岁末年初之际，更是有众多AI大佬将2024年的预测押注于此。

例如Meta研究院Martin Signoux非常直接地表态“再见LLM，你好LMM”，这个预测也得到了LeCun的转发和点赞。

因此，如果要问谁是下一个ChatGPT，可能没有人可以给出准确预判。

但如果问下一个ChatGPT会从哪个赛道来？AI视频生成，就是自带鼓风机的那一个，而在这个赛道里，阿里已经抢占了先机。

相关新闻

2026年的AI，真的要“抢饭碗”了	人工智能真的能帮人们找到爱情吗？
可怕！美专家警告：AI误判恐在几分钟内引爆核战	华尔街分析师：2026年最看好的5支AI概念股
辉达携手台积电冲刺中企200万颗H200大单	14亿年薪还不够美巨头再砸140亿收购华人AI公司
中国AI机器人“造反”视频疯传	豪掷20亿：Meta收购Manus，肖弘出任副总裁
软银卖光英伟达持股含泪完成对OpenAI承诺	60后到00后，我家两代4位程序员戳中的残酷真相
最强7大AI工具排行榜出炉最大黑马杀出	他杀死83岁母亲！AI的温柔正在杀人
硅谷一线峰会，这一幕令大佬们清醒	长期与AI聊天，会诱发这种精神病
YouTube推荐影片1/5竟是“AI废片”	174名北大学生能否考过AI？结果很意外
人类正走进高度不确定未来 AI教父最深层恐惧	暴跌27.5%！美国码农，正被“大屠杀”
北大老师专为AI设计的期中考试结果出乎意料	华为全球悬赏300万人民币求解难题

“人工智能AI”

当前新闻共有0条评论

分享到：

评论前需要先登录或者注册哦

全部评论

实用资讯

抗癌明星组合多年口碑保证！天然植物萃取有效对抗癌细胞
中老年补钙必备，2星期消除夜间抽筋、腰背疼痛，防治骨质疏松立竿见影

24小时新闻排行榜

更多>>

1	习家“储君”出事？皇侄齐明正突然消失
2	北京七环大爆炸，传老习两口子躲了整整两天
3	习走错“关键一步” 渐失话语权
4	跨年夜，中国多个大城市现诡异一幕
5	大蒜是尿酸的杀手？想要肾脏健康这些蔬菜要

48小时新闻排行榜

更多>>

1	明明是世界领土大国，她偏要伪装成弹丸小国
2	爆北京拉响警报：2026头号风险浮出水面
3	北京七环隧道大爆炸传出惊人内幕
4	鸡身上一个部位真心劝你给孩子少吃点
5	消息：中共少校飞行员驾机自戕身亡
6	中国金融圈炸锅，投行“第一美女”栽了
7	上海“五条斩杀线”炸锅了！
8	习家“储君”出事？皇侄齐明正突然消失
9	官方出手倪萍栽了这些事瞒不住了
10	雪崩开始！习家军影视圈核心“马仔”主动自

热门专题

1 俄乌战争	6 四中全会	11 中共两会
2 中日关系	7 美伊冲突	12 大S
3 中美冷战	8 以伊战争	13 洛杉矶大火
4 万维专栏	9 何卫东	14 叙利亚
5 川普	10 AI	15 苗华被抓

一周博客排行

更多>>

1	2026年1月1日A4白纸自由宣言	万维网友来
2	刷屏的美国“斩杀线”与中共的	解滨
3	回国杂感：仓颉造字成真，有图	思芦
4	梅兰芳和兩位仍然在世的入室弟	玉质
5	安芃：男人的出轨和女人的出轨	水沫
6	美国斩杀线：愚昧和麻木	汪翔
7	70%美国大学毕业生找不到工作	乐维
8	美国巨变：特朗普把三大最争议	文礼
9	海外中文出版的新路基本开通，	高伐林
10	特朗普与德皇威廉二世	谢盛友文集

一周博文回复排行榜

更多>>

1	台湾问题：麻将停牌	随意生活
2	川普到底卖了乌克兰没有？	山蛟龙
3	梅兰芳和兩位仍然在世的入室弟	玉质
4	第一美女：《越人歌》-宋祖英	YOLO宥乐
5	做这道题，知道明年你要去哪？	末班车
6	关于离岸爱国	阿里克斯Y
7	海外中文出版的新路基本开通，	高伐林
8	70%美国大学毕业生找不到工作	乐维
9	大湾区的整合梦	文庙
10	给菓趣的回复，你至少有放风的	renweida


关于本站 \| 广告服务 \| 联系我们 \| 招聘信息 \| 网站导航 \| 隐私保护
Copyright (C) 1998-2026. Creaders.NET. All Rights Reserved.