![]() |
|
蒸馏大法好。
今天,AI行业突然传出一个爆论:
斯坦福用50美元就跑出了媲美DeepSeek的大模型。
但是后来我发现居然是真的。
主要找到两个信息:
1、跑出这个模型的人是李飞飞
李飞飞是业界公认的国内最顶尖的AI人员,号称AI教母,她16岁才去的美国,甚至表示以后得了诺贝尔奖的话要以中国人的身份领奖,有她做背书,可信度大大提升。
2、我找到了这个大模型论文原文


发在论文预印本网站arxiv上的(https://arxiv.org/html/2501.19393v1),那就更不可能有假了。
但我还是觉得震惊。
机翻了一下论文,终于了解了一个大概。

这个模型叫S1,是怎么训练成功的呢?
先说结论:
S1是用知识蒸馏的方式通过低成本训练出了推理能力。
再详细来说:
S1本身是有一个大模型,名字就不说了,这个大模型的推理能力不太行,李飞飞团队是怎么做的呢?
蒸馏了1000条谷歌Gemini 2.0的数据,然后用16块H100 GPU、26分钟就训练出了推理能力。
当然,这个50美元只是云计算的费用,不包括购置显卡的硬件费用,因为硬件不是一次性使用,26分钟的使用摊薄费用也没必要。
接下来,由这个具备了推理能力的S1对原来的大模型进行监督微调,就这样之前的大模型瞬间有了灵魂脱胎换骨,直接可以媲美DeepSeek甚至是OpenAI。
我的理解就是:
推理能力是核心,一旦训练出来就一通百通。
这个研究其实跑出了一个新方向:
只要蒸馏的数据质量足够高,很低的成本就可以训练出高质量的推理能力,这简直把AI的天给翻了。
算力还是王道吗?知识蒸馏才是大法好啊。
现在我有点相信,DeepSeek可能真的只花了600万美元就训练出这么厉害的模型了。
这简直是开创了AI新时代。
以后小模型训练更方便了,甚至每个人都能训练自己的小模型了,信息平权的时代这么快就到了?
OpenAI现在堵知识蒸馏的口子还来得及吗?要不然干脆放开付费调用吧。
笑。
就这样。
| 当前新闻共有0条评论 | 分享到: |
|
||||||||||
| 评论前需要先 登录 或者 注册 哦 |
||||||||||||
| 24小时新闻排行榜 | 更多>> |
| 1 | 8比0!日本队打疯了,横扫世界冠军 |
| 2 | 正国级出事?最新爆料来了… |
| 3 | 不出3年,国内贬值最快的不是现金,而是这4 |
| 4 | 美最新民调惊人转向!习近平大梦要黄 |
| 5 | 网疯传韩正出事 |
| 48小时新闻排行榜 | 更多>> |
| 1 | 政治局会议内幕 传习交代了这句话 |
| 2 | 8比0!日本队打疯了,横扫世界冠军 |
| 3 | 正国级出事?最新爆料来了… |
| 4 | 不出3年,国内贬值最快的不是现金,而是这4 |
| 5 | “全国没收公民护照” 中共已经秘密“锁国 |
| 6 | 不装了!军队突颁新规 习张摊牌 |
| 7 | 这国宣布:将对中国游客实施入境免签 |
| 8 | 美最新民调惊人转向!习近平大梦要黄 |
| 9 | 网疯传韩正出事 |
| 10 | 香港大火烧穿中南海 李家超突然反水 |
| 一周博客排行 | 更多>> |
| 1 | 毛泽东时代的中国上层有多么的 | 横断万重山 |
| 2 | 习近平《五个进一步到位》:像 | 万维网友来 |
| 3 | 38军军长徐勤先“六四抗命”庭 | 艺萌 |
| 4 | 川习再次通话后,余散未尽的绵 | 沽渎 |
| 5 | 这个要表扬中共 | 阿妞不牛 |
| 6 | 突发:习派死党陈伟俊落马,马 | 雷歌747 |
| 7 | “我不干!”详解徐勤先拒命被 | 文礼 |
| 8 | 毛时代:伟大是抽象的,苦难是 | 老贫农 |
| 9 | 神秘的“981首长健康工程”到 | 文礼 |
| 10 | 回国享受美食 | 山货郎 |
| 一周博文回复排行榜 | 更多>> |
| 1 | 被告徐勤先 | 不列颠地主 |
| 2 | 中东和平新进展.女版社会主义 | 木秀于林 |
| 3 | 这个要表扬中共 | 阿妞不牛 |
| 4 | 东西方冲突源于不同的思维逻辑 | 施化 |
| 5 | 从一件大事看邓小平伟大胸怀! | 横断万重山 |
| 6 | 毛时代:伟大是抽象的,苦难是 | 老贫农 |
| 7 | 大将罗瑞卿被打倒之迷初探 | 横断万重山 |
| 8 | 找到了!那个父子平辈的意拳传 | 京都静源 |
| 9 | 台湾匪谍记忆 之 施水环 | 席琳 |
| 10 | 台湾匪谍记忆 之 卢觉慧 | 席琳 |