![]() |
|
蒸馏大法好。
今天,AI行业突然传出一个爆论:
斯坦福用50美元就跑出了媲美DeepSeek的大模型。
但是后来我发现居然是真的。
主要找到两个信息:
1、跑出这个模型的人是李飞飞
李飞飞是业界公认的国内最顶尖的AI人员,号称AI教母,她16岁才去的美国,甚至表示以后得了诺贝尔奖的话要以中国人的身份领奖,有她做背书,可信度大大提升。
2、我找到了这个大模型论文原文
发在论文预印本网站arxiv上的(https://arxiv.org/html/2501.19393v1),那就更不可能有假了。
但我还是觉得震惊。
机翻了一下论文,终于了解了一个大概。
这个模型叫S1,是怎么训练成功的呢?
先说结论:
S1是用知识蒸馏的方式通过低成本训练出了推理能力。
再详细来说:
S1本身是有一个大模型,名字就不说了,这个大模型的推理能力不太行,李飞飞团队是怎么做的呢?
蒸馏了1000条谷歌Gemini 2.0的数据,然后用16块H100 GPU、26分钟就训练出了推理能力。
当然,这个50美元只是云计算的费用,不包括购置显卡的硬件费用,因为硬件不是一次性使用,26分钟的使用摊薄费用也没必要。
接下来,由这个具备了推理能力的S1对原来的大模型进行监督微调,就这样之前的大模型瞬间有了灵魂脱胎换骨,直接可以媲美DeepSeek甚至是OpenAI。
我的理解就是:
推理能力是核心,一旦训练出来就一通百通。
这个研究其实跑出了一个新方向:
只要蒸馏的数据质量足够高,很低的成本就可以训练出高质量的推理能力,这简直把AI的天给翻了。
算力还是王道吗?知识蒸馏才是大法好啊。
现在我有点相信,DeepSeek可能真的只花了600万美元就训练出这么厉害的模型了。
这简直是开创了AI新时代。
以后小模型训练更方便了,甚至每个人都能训练自己的小模型了,信息平权的时代这么快就到了?
OpenAI现在堵知识蒸馏的口子还来得及吗?要不然干脆放开付费调用吧。
笑。
就这样。
当前新闻共有0条评论 | 分享到: |
|
||||||||||
评论前需要先 登录 或者 注册 哦![]() |
24小时新闻排行榜 | 更多>> |
1 | 北京突传重磅消息 |
2 | 不是习,中南海突传重大人事变动 |
3 | 送到医院已死 李克强或死于水中电击 |
4 | 疑似习近平病历被曝 传彭丽媛回山东 习彭分 |
5 | 一张照片证明李强真实地位 |
48小时新闻排行榜 | 更多>> |
1 | 传国母不伦恋震动中南海 |
2 | 北京突传重磅消息 |
3 | 中南海或有重大人事变动 |
4 | 体制内良心人士惊爆:中共外交部出大事了 |
5 | 炸了!老军头痛骂彭丽媛祸军 |
6 | 不是习,中南海突传重大人事变动 |
7 | 中宣部泄漏习病情加剧?何立峰地盘受清洗 |
8 | 62岁李连杰19岁抑郁症女儿交代后事 仪式从 |
9 | 送到医院已死 李克强或死于水中电击 |
10 | 240炮开轰!金门夜战火炮齐射 |
一周博客排行 | 更多>> |
1 | 汪洋接总书记 张又侠不答应 | 胡亥 |
2 | 包子学歇业公告 | 阿妞不牛 |
3 | 当年举报毕福剑的张清遭天谴 | 体育老师 |
4 | 张大帅治国与党指挥枪 | 文庙 |
5 | 说一下阎润涛 | 席琳 |
6 | 不低头的硬汉! 怀念北京大学 | 甲申秋立 |
7 | Wow,今天MRNA疫苗股一枝独秀 | 体育老师 |
8 | 榨干了最后一块铜板,够狠够缺 | 席琳 |
9 | 埃及成为了中共国新的洗厂地热 | 山蛟龙 |
10 | 马德里万花筒 | lone-sheph |
一周博文回复排行榜 | 更多>> |
1 | 同志—称谓残简 | 阿妞不牛 |
2 | 两岸统一将会是一场腥风血雨的 | 山货郎 |
3 | 汪洋接总书记 张又侠不答应 | 胡亥 |
4 | 包子学歇业公告 | 阿妞不牛 |
5 | Wow,今天MRNA疫苗股一枝独秀 | 体育老师 |
6 | 俄乌战争:阿川第三张牛皮又吹 | 随意生活 |
7 | 说一下阎润涛 | 席琳 |
8 | 张大帅治国与党指挥枪 | 文庙 |
9 | 俄乌战争:谁不意愿立即结束? | 随意生活 |
10 | 当年举报毕福剑的张清遭天谴 | 体育老师 |