AI大模型的死局:The Failing Scaling Law2025-11-16T23:00:26.143Z AI大模型的死局:The Failing Scaling Law AI大模型的死局:The Failing Scaling LawIlya 当时最重要的洞见,就是通过scaling law大规模地训练模型以激活模型本身的能量。当时他是对的,这也是LLM大语言模型至关重要的跃迁。tokenizer+transformer+neural network使得大模型能够回应人类,而非生成一堆无意义的陈腔滥调和无法链接的文字。但现在曾经的这条路已经成为LLM模型的终局。曾经成就大语言模型“智能”的Scaling law和RHFL(人类对齐)现在已经彻底成为了大模型效能的“枷锁”。以下是我的观察和看法:1. 当下更加多的训练样本和数据并不能带来模型回应质量的提升。2. 许多人类任务的应用场景难以用“语言”进行量化评价。既然无法量化=用户无法感知AI价值=产品变现困难(想想99%的用户用AI生成图片写作业发梗图表情包或是把AI当搜索引擎使用,这大致就是99%的用户画像和能力上限了)3. 大语言模型的训练机会成本正在急剧提升,其边际效应正在剧烈下降。这并不是说训练的绝对成本在提升,而是我们浪费了大量的精力和资本在无意义的训练和更多的样本上。4. RHFL 只会让大语言模型更加平庸,毫无锋芒,安全的背后实际上也牺牲了效能,约束了模型本身更加细化,垂直,专业化的可能性。5. 现在的智能体趋势实际上是也是当今AI圈的绝望自救方式。因为相比于直接颠覆LLM技术或是承认LLM技术的边界,将智能体作为LLM的“外骨骼”,更能够商业化,稳定,并且支撑资本的要求,但本质来,更偏离了AGI的道路,本质上只是强化版的软件,而非AI。6. 大语言模型本质是全球语言训练和语料的训练模型,本质上符合人类认知能力的正态分布。然而真正推动人类智能,文明的力量在于极少数的人群(0.01%), 而非99.9%只对刷视频短视频感兴趣的人群。因此scaling law最终的产物就是AI大语言模型反映出人类的“智能平均化”,或是所谓的“降智”这一趋势。7. 如果LLM要进一步提升效能,应该收集极少数高能人群的互动方式和思维逻辑,并且放大这些独特回应模式的权重,因为这些独特的回应模式(并非单一的prompt设计)能够激活完全不同级别的模型内在向量和拓扑结构(latent space) 并强化AI模型本身的效能。但这条路非常困难,因为样本数量少,难以量化,生成的AI强化模型也是高度个人化的也会在回应模式产生不一样的变化,本质并非可控,也会和RHFL有所冲突。8. “写代码”这种高度模式化,商业价值较高,效率提升最大的需求,实际上在人们日常行为的占比就非常有限,而且模型本身训练的语料所限,大量生成的代码本质上是高度类似,而且高度教科书化的。在一般的使用方式下,A用户生成的代码和B用户所生成的代码高度类似,而且有code leaking的风险(比如说env文件直接乱给模型然后公开训练),当大家都能生成教科书级别的无聊平庸代码的时候,AI模型能够给个人创造的价值是极其有限的(最终走向vibe coding,然后催生出更多senior op去救火vibe coder)。9. 最终大语言模型的结果必然符合“大数定理”,但“大数定理”的本质就是平庸,就是没啥智力,有时候用户体验到的“降智“其实源于概率,大多数时候源自于算力不足,data center请求爆炸。在LLM现有的框架路径上,回归到强化学习基本上是必然选项。大世界模型仍然会受困于变量~算力~硬件的不可能三角的天花板中,短期难以实现这一路径。我的结论和看法:未来的AI会有多种类型。只是现阶段LLM是最接近于我们所理解的AI状态。而且大语言模型是现阶段最为成熟,可复制,稳定的一套技术方案。但LLM真正的上限恐怕不在于产品本身,而在于使用AI的人。但这违背了大多数人对于AI的期望(全知全能,一键傻瓜代码/方案生成器,或是类似于七龙珠的神龙)摆在整个AI产业面前的困难是严峻的。是要让AI更安全?更可控以至于变成人工客服?还是要另辟蹊径?
AI大模型的死局:The Failing Scaling LawIlya 当时最重要的洞见,就是通过scaling law大规模地训练模型以激活模型本身的能量。当时他是对的,这也是LLM大语言模型至关重要的跃迁。tokenizer+transformer+neural network使得大模型能够回应人类,而非生成一堆无意义的陈腔滥调和无法链接的文字。但现在曾经的这条路已经成为LLM模型的终局。曾经成就大语言模型“智能”的Scaling law和RHFL(人类对齐)现在已经彻底成为了大模型效能的“枷锁”。以下是我的观察和看法:1. 当下更加多的训练样本和数据并不能带来模型回应质量的提升。2. 许多人类任务的应用场景难以用“语言”进行量化评价。既然无法量化=用户无法感知AI价值=产品变现困难(想想99%的用户用AI生成图片写作业发梗图表情包或是把AI当搜索引擎使用,这大致就是99%的用户画像和能力上限了)3. 大语言模型的训练机会成本正在急剧提升,其边际效应正在剧烈下降。这并不是说训练的绝对成本在提升,而是我们浪费了大量的精力和资本在无意义的训练和更多的样本上。4. RHFL 只会让大语言模型更加平庸,毫无锋芒,安全的背后实际上也牺牲了效能,约束了模型本身更加细化,垂直,专业化的可能性。5. 现在的智能体趋势实际上是也是当今AI圈的绝望自救方式。因为相比于直接颠覆LLM技术或是承认LLM技术的边界,将智能体作为LLM的“外骨骼”,更能够商业化,稳定,并且支撑资本的要求,但本质来,更偏离了AGI的道路,本质上只是强化版的软件,而非AI。6. 大语言模型本质是全球语言训练和语料的训练模型,本质上符合人类认知能力的正态分布。然而真正推动人类智能,文明的力量在于极少数的人群(0.01%), 而非99.9%只对刷视频短视频感兴趣的人群。因此scaling law最终的产物就是AI大语言模型反映出人类的“智能平均化”,或是所谓的“降智”这一趋势。7. 如果LLM要进一步提升效能,应该收集极少数高能人群的互动方式和思维逻辑,并且放大这些独特回应模式的权重,因为这些独特的回应模式(并非单一的prompt设计)能够激活完全不同级别的模型内在向量和拓扑结构(latent space) 并强化AI模型本身的效能。但这条路非常困难,因为样本数量少,难以量化,生成的AI强化模型也是高度个人化的也会在回应模式产生不一样的变化,本质并非可控,也会和RHFL有所冲突。8. “写代码”这种高度模式化,商业价值较高,效率提升最大的需求,实际上在人们日常行为的占比就非常有限,而且模型本身训练的语料所限,大量生成的代码本质上是高度类似,而且高度教科书化的。在一般的使用方式下,A用户生成的代码和B用户所生成的代码高度类似,而且有code leaking的风险(比如说env文件直接乱给模型然后公开训练),当大家都能生成教科书级别的无聊平庸代码的时候,AI模型能够给个人创造的价值是极其有限的(最终走向vibe coding,然后催生出更多senior op去救火vibe coder)。9. 最终大语言模型的结果必然符合“大数定理”,但“大数定理”的本质就是平庸,就是没啥智力,有时候用户体验到的“降智“其实源于概率,大多数时候源自于算力不足,data center请求爆炸。在LLM现有的框架路径上,回归到强化学习基本上是必然选项。大世界模型仍然会受困于变量~算力~硬件的不可能三角的天花板中,短期难以实现这一路径。我的结论和看法:未来的AI会有多种类型。只是现阶段LLM是最接近于我们所理解的AI状态。而且大语言模型是现阶段最为成熟,可复制,稳定的一套技术方案。但LLM真正的上限恐怕不在于产品本身,而在于使用AI的人。但这违背了大多数人对于AI的期望(全知全能,一键傻瓜代码/方案生成器,或是类似于七龙珠的神龙)摆在整个AI产业面前的困难是严峻的。是要让AI更安全?更可控以至于变成人工客服?还是要另辟蹊径?