DeepSeek 的开源革命：闭门 AI 峰会的见解

2025年1月29日 · 一分钟阅读

Chief Bird Officer

DeepSeek 的开源革命：闭门 AI 峰会的见解

DeepSeek 正在迅速席卷 AI 世界。就在关于 DeepSeek-R1 的讨论尚未平息时，团队又投下了一颗重磅炸弹：一个开源的多模态模型 Janus-Pro。步伐令人眼花缭乱，雄心昭然若揭。

DeepSeek 的开源革命：闭门 AI 峰会的见解

两天前，一群顶尖的 AI 研究人员、开发者和投资者聚集在由 Shixiang 主办的闭门讨论会上，专注于 DeepSeek。在三个多小时的时间里，他们剖析了 DeepSeek 的技术创新、组织结构及其崛起的广泛影响——对 AI 商业模式、二级市场以及 AI 研究的长期轨迹。

遵循 DeepSeek 的开源透明原则，我们将集体思考向公众开放。以下是讨论中提炼出的见解，涵盖了 DeepSeek 的战略、技术突破及其对 AI 行业可能产生的影响。

DeepSeek：谜团与使命

DeepSeek 的核心使命： CEO 梁文峰不仅仅是另一个 AI 企业家——他本质上是一个工程师。与 Sam Altman 不同，他专注于技术执行，而不仅仅是愿景。
DeepSeek 赢得尊重的原因： 其 MoE（专家混合）架构是一个关键的差异化因素。早期复制 OpenAI 的 o1 模型只是开始——真正的挑战是如何在有限资源下进行扩展。
在没有 NVIDIA 支持下的扩展： 尽管声称拥有 50,000 个 GPU，DeepSeek 可能只使用了大约 10,000 个老化的 A100 和 3,000 个禁令前的 H800。与美国实验室不同，DeepSeek 被迫追求效率。
DeepSeek 的真正关注点： 与 OpenAI 或 Anthropic 不同，DeepSeek 并不执着于“AI 服务人类”。相反，它追求的是智能本身。这可能是它的秘密武器。

探索者与追随者：AI 的幂律法则

AI 发展是一个阶跃函数： 追赶的成本比领先低 10 倍。“追随者”以计算成本的一小部分利用过去的突破，而“探索者”必须盲目推进，承担巨大的研发费用。
DeepSeek 会超越 OpenAI 吗？ 这是可能的——但前提是 OpenAI 出现失误。AI 仍然是一个开放性问题，DeepSeek 对推理模型的方法是一个强有力的赌注。

DeepSeek 背后的技术创新

1. 监督微调（SFT）的终结？

DeepSeek 最具颠覆性的主张： SFT 可能不再是推理任务所必需的。如果属实，这标志着范式的转变。
但不要太快下结论… DeepSeek-R1 仍然依赖 SFT，特别是在对齐方面。真正的转变在于如何更有效地使用 SFT 来提炼推理任务。

2. 数据效率：真正的护城河

为什么 DeepSeek 优先考虑数据标注： 据报道，梁文峰亲自标注数据，强调其重要性。特斯拉在自动驾驶方面的成功来自于细致的人类标注——DeepSeek 正在应用同样的严格标准。
多模态数据：尚未准备好——尽管 Janus-Pro 已发布，多模态学习仍然昂贵得令人望而却步。尚无实验室展示出令人信服的收益。

3. 模型蒸馏：一把双刃剑

蒸馏提高了效率但降低了多样性： 这可能在长期内限制模型能力。
蒸馏的“隐藏债务”： 在不了解 AI 训练的基本挑战的情况下，依赖蒸馏可能会在下一代架构出现时导致意想不到的陷阱。

4. 过程奖励：AI 对齐的新前沿

结果监督定义了上限： 基于过程的强化学习可能防止黑客攻击，但智能的上限仍取决于结果驱动的反馈。
RL 悖论： 大型语言模型（LLM）没有像国际象棋那样明确的胜利条件。AlphaZero 之所以有效，是因为胜利是二元的。AI 推理缺乏这种清晰度。

为什么 OpenAI 没有使用 DeepSeek 的方法？

关注点的不同： OpenAI 优先考虑规模，而不是效率。
美国的“隐藏 AI 战争”： OpenAI 和 Anthropic 可能忽视了 DeepSeek 的方法，但他们不会再忽视太久。如果 DeepSeek 被证明是可行的，预计研究方向将发生变化。

2025 年的 AI 未来

超越 Transformers？ AI 可能会分化为不同的架构。该领域仍然专注于 Transformers，但替代模型可能会出现。
RL 的未开发潜力： 除了数学和编码等狭窄领域，强化学习仍未得到充分利用。
AI 代理的年份？ 尽管炒作不断，但尚无实验室推出突破性的 AI 代理。

开发者会迁移到 DeepSeek 吗？

还没有。 OpenAI 在编码和指令执行能力上仍然占据优势。
但差距正在缩小。 如果 DeepSeek 保持势头，开发者可能会在 2025 年转向。

OpenAI Stargate 5000 亿美元赌注：是否仍然有意义？

DeepSeek 的崛起对 NVIDIA 的主导地位提出质疑。 如果效率胜过蛮力扩展，OpenAI 的 5000 亿美元超级计算机可能显得过于奢侈。
OpenAI 是否真的会花费 5000 亿美元？ 软银是资金支持者，但缺乏流动性。执行仍不确定。
Meta 正在逆向工程 DeepSeek。 这证实了其重要性，但 Meta 是否能调整其路线图仍不明确。

市场影响：赢家与输家

短期： AI 芯片股票，包括 NVIDIA，可能面临波动。
长期： AI 的增长故事依然完整——DeepSeek 只是证明了效率与原始计算力同样重要。

开源与闭源：新的战场

如果开源模型达到闭源性能的 95%， 整个 AI 商业模式将发生转变。
DeepSeek 正在迫使 OpenAI 作出回应。 如果开源模型继续改进，专有 AI 可能难以为继。

DeepSeek 对全球 AI 战略的影响

中国的追赶速度比预期快。 中美之间的 AI 差距可能只有 3-9 个月，而不是之前认为的两年。
DeepSeek 是中国 AI 战略的概念验证。 尽管计算能力有限，效率驱动的创新正在发挥作用。

最后的话：愿景比技术更重要

DeepSeek 的真正差异化在于其雄心。 AI 突破来自于推动智能的边界，而不仅仅是改进现有模型。
下一个战场是推理。 谁能率先开发下一代 AI 推理模型，谁就能定义行业的轨迹。

一个思维实验： 如果你有一次机会向 DeepSeek CEO 梁文峰提问，你会问什么？你对公司扩展的最佳建议是什么？分享你的想法——出色的回答可能会赢得下次闭门 AI 峰会的邀请。

DeepSeek 已经在 AI 领域开启了新篇章。它是否会重写整个故事还有待观察。

Share on Twitter

DeepSeek 的开源革命：闭门 AI 峰会的见解

DeepSeek 的开源革命：闭门 AI 峰会的见解

DeepSeek：谜团与使命

探索者与追随者：AI 的幂律法则

DeepSeek 背后的技术创新

1. 监督微调（SFT）的终结？

2. 数据效率：真正的护城河

3. 模型蒸馏：一把双刃剑

4. 过程奖励：AI 对齐的新前沿

为什么 OpenAI 没有使用 DeepSeek 的方法？

2025 年的 AI 未来

开发者会迁移到 DeepSeek 吗？

OpenAI Stargate 5000 亿美元赌注：是否仍然有意义？

市场影响：赢家与输家

开源与闭源：新的战场

DeepSeek 对全球 AI 战略的影响

最后的话：愿景比技术更重要

关于 Cuckoo AI

今天保持最新

DeepSeek 的开源革命：闭门 AI 峰会的见解​

DeepSeek：谜团与使命​

探索者与追随者：AI 的幂律法则​

DeepSeek 背后的技术创新​

1. 监督微调（SFT）的终结？​

2. 数据效率：真正的护城河​

3. 模型蒸馏：一把双刃剑​

4. 过程奖励：AI 对齐的新前沿​

为什么 OpenAI 没有使用 DeepSeek 的方法？​

2025 年的 AI 未来​

开发者会迁移到 DeepSeek 吗？​

OpenAI Stargate 5000 亿美元赌注：是否仍然有意义？​

市场影响：赢家与输家​

开源与闭源：新的战场​

DeepSeek 对全球 AI 战略的影响​

最后的话：愿景比技术更重要​

关于 Cuckoo AI

今天保持最新

DeepSeek 的开源革命：闭门 AI 峰会的见解

DeepSeek：谜团与使命

探索者与追随者：AI 的幂律法则

DeepSeek 背后的技术创新

1. 监督微调（SFT）的终结？

2. 数据效率：真正的护城河

3. 模型蒸馏：一把双刃剑

4. 过程奖励：AI 对齐的新前沿

为什么 OpenAI 没有使用 DeepSeek 的方法？

2025 年的 AI 未来

开发者会迁移到 DeepSeek 吗？

OpenAI Stargate 5000 亿美元赌注：是否仍然有意义？

市场影响：赢家与输家

开源与闭源：新的战场

DeepSeek 对全球 AI 战略的影响

最后的话：愿景比技术更重要