Перейти к основному содержимому

Революция с открытым исходным кодом от DeepSeek: Взгляд из закрытого саммита по ИИ

· 6 минут чтения
Lark Birdy
Chief Bird Officer

Революция с открытым исходным кодом от DeepSeek: Взгляд из закрытого саммита по ИИ

DeepSeek захватывает мир ИИ. Только обсуждения вокруг DeepSeek-R1 не успели остыть, как команда сделала еще один громкий анонс: открытая мультимодальная модель Janus-Pro. Темп головокружительный, амбиции ясны.

Революция с открытым исходным кодом от DeepSeek: Взгляд из закрытого саммита по ИИ

Два дня назад группа ведущих исследователей ИИ, разработчиков и инвесторов собралась для закрытого обсуждения, организованного Шисяном, сосредоточенного исключительно на DeepSeek. В течение трех часов они анализировали технические инновации DeepSeek, организационную структуру и более широкие последствия его роста — на бизнес-модели ИИ, вторичные рынки и долгосрочную траекторию исследований ИИ.

Следуя принципу прозрачности с открытым исходным кодом DeepSeek, мы открываем наши коллективные мысли для общественности. Вот основные выводы из обсуждения, охватывающие стратегию DeepSeek, его технические прорывы и влияние, которое он может оказать на индустрию ИИ.

DeepSeek: Тайна и миссия

  • Основная миссия DeepSeek: Генеральный директор Лян Вэньфэн не просто еще один предприниматель в области ИИ — он инженер в душе. В отличие от Сэма Альтмана, он сосредоточен на техническом исполнении, а не только на видении.
  • Почему DeepSeek заслужил уважение: Его архитектура MoE (смесь экспертов) является ключевым отличием. Ранняя репликация модели o1 от OpenAI была лишь началом — настоящая задача заключается в масштабировании с ограниченными ресурсами.
  • Масштабирование без благословения NVIDIA: Несмотря на утверждения о наличии 50 000 графических процессоров, DeepSeek, вероятно, работает с примерно 10 000 устаревших A100 и 3 000 предзапретных H800. В отличие от американских лабораторий, которые бросают вычислительные мощности на каждую проблему, DeepSeek вынужден стремиться к эффективности.
  • Истинный фокус DeepSeek: В отличие от OpenAI или Anthropic, DeepSeek не зациклен на «ИИ, служащем людям». Вместо этого он стремится к самому интеллекту. Это может быть его секретным оружием.

Исследователи против последователей: законы силы в ИИ

  • Разработка ИИ — это ступенчатая функция: Стоимость догоняющих в 10 раз ниже, чем у лидеров. «Последователи» используют прошлые прорывы за небольшую часть стоимости вычислений, в то время как «исследователи» должны двигаться вперед вслепую, неся огромные расходы на НИОКР.
  • Сможет ли DeepSeek превзойти OpenAI? Это возможно, но только если OpenAI оступится. ИИ все еще является открытой проблемой, и подход DeepSeek к моделям рассуждений — это сильная ставка.

Технические инновации DeepSeek

1. Конец контролируемой тонкой настройки (SFT)?

  • Самое разрушительное утверждение DeepSeek: SFT может больше не быть необходимым для задач рассуждения. Если это правда, это знаменует собой смену парадигмы.
  • Но не так быстро… DeepSeek-R1 все еще полагается на SFT, особенно для выравнивания. Настоящий сдвиг заключается в том, как используется SFT — более эффективное дистиллирование задач рассуждения.

2. Эффективность данных: настоящая защита

  • Почему DeepSeek уделяет приоритетное внимание маркировке данных: Сообщается, что Лян Вэньфэн сам маркирует данные, подчеркивая их важность. Успех Tesla в автономном вождении был достигнут благодаря тщательной человеческой аннотации — DeepSeek применяет ту же строгость.
  • Мультимодальные данные: еще не готовы — несмотря на выпуск Janus-Pro, мультимодальное обучение остается чрезмерно дорогим. Ни одна лаборатория еще не продемонстрировала убедительных достижений.

3. Дистилляция моделей: палка о двух концах

  • Дистилляция повышает эффективность, но снижает разнообразие: это может ограничить возможности моделей в долгосрочной перспективе.
  • «Скрытый долг» дистилляции: без понимания фундаментальных проблем обучения ИИ, полагаясь на дистилляцию, можно столкнуться с непредвиденными трудностями, когда появятся архитектуры следующего поколения.

4. Награда за процесс: новый рубеж в выравнивании ИИ

  • Контроль результатов определяет потолок: обучение с подкреплением на основе процессов может предотвратить взлом, но верхняя граница интеллекта все еще зависит от обратной связи, основанной на результатах.
  • Парадокс RL: у больших языковых моделей (LLM) нет определенного условия победы, как в шахматах. AlphaZero работал, потому что победа была бинарной. Рассуждения ИИ лишены этой ясности.

Почему OpenAI не использует методы DeepSeek?

  • Вопрос фокуса: OpenAI уделяет приоритетное внимание масштабу, а не эффективности.
  • «Скрытая война ИИ» в США: OpenAI и Anthropic могли игнорировать подход DeepSeek, но это будет недолго. Если DeepSeek окажется жизнеспособным, ожидайте изменения направления исследований.

Будущее ИИ в 2025 году

  • За пределами трансформеров? ИИ, вероятно, разделится на разные архитектуры. Область все еще зациклена на трансформерах, но могут появиться альтернативные модели.
  • Нереализованный потенциал RL: обучение с подкреплением остается недооцененным за пределами узких областей, таких как математика и программирование.
  • Год ИИ-агентов? Несмотря на ажиотаж, ни одна лаборатория еще не представила прорывного ИИ-агента.

Перейдут ли разработчики на DeepSeek?

  • Пока нет. Превосходные возможности OpenAI в кодировании и следовании инструкциям все еще дают ему преимущество.
  • Но разрыв сокращается. Если DeepSeek сохранит импульс, разработчики могут перейти в 2025 году.

Ставка OpenAI Stargate в $500 млрд: имеет ли она смысл?

  • Рост DeepSeek ставит под сомнение доминирование NVIDIA. Если эффективность превзойдет масштабирование грубой силы, суперкомпьютер OpenAI за $500 млрд может показаться чрезмерным.
  • Потратит ли OpenAI действительно $500 млрд? SoftBank является финансовым спонсором, но у него нет ликвидности. Исполнение остается неопределенным.
  • Meta реверсирует DeepSeek. Это подтверждает его значимость, но остается неясным, сможет ли Meta адаптировать свою дорожную карту.

Влияние на рынок: победители и проигравшие

  • Краткосрочная перспектива: акции производителей чипов для ИИ, включая NVIDIA, могут столкнуться с волатильностью.
  • Долгосрочная перспектива: история роста ИИ остается неизменной — DeepSeek просто доказывает, что эффективность важна не меньше, чем сырая мощность.

Открытый исходный код против закрытого: новый фронт борьбы

  • Если модели с открытым исходным кодом достигнут 95% производительности закрытых моделей, вся бизнес-модель ИИ изменится.
  • DeepSeek вынуждает OpenAI действовать. Если открытые модели продолжат улучшаться, проприетарный ИИ может стать нежизнеспособным.

Влияние DeepSeek на глобальную стратегию ИИ

  • Китай догоняет быстрее, чем ожидалось. Разрыв в ИИ между Китаем и США может составлять всего 3-9 месяцев, а не два года, как считалось ранее.
  • DeepSeek — это доказательство концепции для стратегии ИИ Китая. Несмотря на ограничения вычислительных мощностей, инновации, основанные на эффективности, работают.

Заключительное слово: видение важнее технологий

  • Настоящее отличие DeepSeek — его амбиции. Прорывы в ИИ происходят от расширения границ интеллекта, а не просто от совершенствования существующих моделей.
  • Следующая битва — это рассуждения. Тот, кто станет пионером следующего поколения моделей рассуждений ИИ, определит траекторию индустрии.

Мыслительный эксперимент: Если бы у вас была одна возможность задать вопрос генеральному директору DeepSeek Ляну Вэньфэну, что бы это было? Какой ваш лучший совет для компании в процессе масштабирования? Оставьте свои мысли — выдающиеся ответы могут получить приглашение на следующий закрытый саммит по ИИ.

DeepSeek открыл новую главу в ИИ. Останется ли он в истории, еще предстоит выяснить.