Революция с открытым исходным кодом от DeepSeek: Взгляд из закрытого саммита по ИИ
Революция с открытым исходным кодом от DeepSeek: Взгляд из закрытого саммита по ИИ
DeepSeek захватывает мир ИИ. Только обсуждения вокруг DeepSeek-R1 не успели остыть, как команда сделала еще один громкий анонс: открытая мультимодальная модель Janus-Pro. Темп головокружительный, амбиции ясны.
Два дня назад группа ведущих исследователей ИИ, разработчиков и инвесторов собралась для закрытого обсуждения, организованного Шисяном, сосредоточенного исключительно на DeepSeek. В течение трех часов они анализировали технические инновации DeepSeek, организационную структуру и более широкие последствия его роста — на бизнес-модели ИИ, вторичные рынки и долгосрочную траекторию исследований ИИ.
Следуя принципу прозрачности с открытым исходным кодом DeepSeek, мы открываем наши коллективные мысли для общественности. Вот основные выводы из обсуждения, охватывающие стратегию DeepSeek, его технические прорывы и влияние, которое он может оказать на индустрию ИИ.
DeepSeek: Тайна и миссия
- Основная миссия DeepSeek: Генеральный дир ектор Лян Вэньфэн не просто еще один предприниматель в области ИИ — он инженер в душе. В отличие от Сэма Альтмана, он сосредоточен на техническом исполнении, а не только на видении.
- Почему DeepSeek заслужил уважение: Его архитектура MoE (смесь экспертов) является ключевым отличием. Ранняя репликация модели o1 от OpenAI была лишь началом — настоящая задача заключается в масштабировании с ограниченными ресурсами.
- Масштабирование без благословения NVIDIA: Несмотря на утверждения о наличии 50 000 графических процессоров, DeepSeek, вероятно, работает с примерно 10 000 устаревших A100 и 3 000 предзапретных H800. В отличие от американских лабораторий, которые бросают вычислительные мощности на каждую проблему, DeepSeek вынужден стремиться к эффективности.
- Истинный фокус DeepSeek: В отличие от OpenAI или Anthropic, DeepSeek не зациклен на «ИИ, служащем людям». Вместо этого он стремится к самому интеллекту. Это может быть его секретным оружием.
Исследователи против последователей: законы силы в ИИ
- Разработка ИИ — это ступенчатая функция: Стоимость догоняющих в 10 раз ниже, чем у лидеров. «Последователи» используют прошлые прорывы за небольшую часть стоимости вычислений, в то время как «исследователи» должны двигаться вперед вслепую, неся огромные расходы на НИОКР.
- Сможет ли DeepSeek превзойти OpenAI? Это возможно, но только если OpenAI оступится. ИИ все еще является открытой проблемой, и подход DeepSeek к моделям рассуждений — это сильная ставка.
Технические инновации DeepSeek
1. Конец контролируемой тонкой настройки (SFT)?
- Самое разрушительное утверждение DeepSeek: SFT может больше не быть необходимым для задач рассуждения. Если это правда, это знаменует собой смену парадигмы.
- Но не так быстро… DeepSeek-R1 все еще полагается на SFT, особенно для выравнивания. Настоящий сдвиг заключается в том, как используется SFT — более эффективное дистиллирование задач рассуждения.
2. Эффективность данных: настоящая защита
- Почему DeepSeek уделяет приоритетное внимание маркировке данных: Сообщается, что Лян Вэньфэн сам маркирует данные, подчеркивая их важность. Успех Tesla в автономном вождении был достигнут благодаря тщательной человеческой аннотации — DeepSeek применяет ту же строгость.
- Мультимодальные данные: еще не готовы — несмотря на выпуск Janus-Pro, мультимодальное обучение остается чрезмерно дорогим. Ни одна лаборатория еще не продемонстрировала убедительных достижений.
3. Дистилляция моделей: палка о двух концах
- Дистилляция повышает эффективность, но снижает разнообразие: это может ограничить возможности моделей в долгосрочной перспективе.
- «Скрытый долг» дистилляции: без понимания фундаментальных проблем обучения ИИ, полагаясь на дистилляцию, можно столкнуться с непредвиденными трудностями, когда появятся архитектуры следующего поколения.
4. Награда за процесс: новый рубеж в выравнивании ИИ
- Контроль результатов определяет потолок: обучение с подкреплением на основе процессов может предотвратить взлом, но верхняя граница интеллекта все еще зависит от обратной связи, основанной на результатах.
- Парадокс RL: у больших языковых моделей (LLM) нет определенного условия победы, как в шахматах. AlphaZero работал, потому что победа была бинарной. Рассуждения ИИ лишены этой ясности.
Почему OpenAI не использует методы DeepSeek?
- Вопрос фокуса: OpenAI уделяет приоритетное внимание масштабу, а не эффективности.
- «Скрытая война ИИ» в США: OpenAI и Anthropic могли игнорировать подход DeepSeek, но это будет недолго. Если DeepSeek окажется жизнеспособным, ожидайте изменения направления исследований.
Будущее ИИ в 2025 году
- За пределами трансформеров? ИИ, вероятно, разделится на разные архитектуры. Область все еще зациклена на трансформерах, но могут появиться альтернативные модели.
- Нереализованный потенциал RL: обучение с подкреплением остается недооцененным за пределами узких областей, таких как математика и программирование.
- Год ИИ-агентов? Несмотря на ажиотаж, ни одна лаборатория еще не представила прорывного ИИ-агента.
Перейдут ли разработчики на DeepSeek?
- Пока нет. Превосходные возможности OpenAI в кодировании и следовании инструкциям все еще дают ему преимущество.
- Но разрыв сокращается. Если DeepSeek сохранит импульс, разработчики могут перейти в 2025 году.
Ставка OpenAI Stargate в $500 млрд: имеет ли она смысл?
- Рост DeepSeek ставит под сомнение доминирование NVIDIA. Если эффективность превзойдет масштабирование грубой силы, суперкомпьютер OpenAI за $500 млрд может показаться чрезмерным.
- Потратит ли OpenAI действительно $500 млрд? SoftBank является финансовым спонсором, но у него нет ликвидности. Исполнение остается неопределенным.
- Meta реверсирует DeepSeek. Это подтверждает его значимость, но остается неясным, сможет ли Meta адаптировать свою дорожную карту.
Влияние на рынок: победители и проигравшие
- Краткосрочная перспектива: акции производителей чипов для ИИ, включая NVIDIA, могут столкнуться с волатильностью.
- Долгосрочная перспектива: история роста ИИ остается неизменной — DeepSeek просто доказывает, что эффективность важна не меньше, чем сырая мощность.
Открытый исходный код против закрытого: новый фронт борьбы
- Если модели с открытым исходным кодом достигнут 95% производительности закрытых моделей, вся бизнес-модель ИИ изменится.
- DeepSeek вынуждает OpenAI действовать. Если открытые модели продолжат улучшаться, проприетарный ИИ может стать нежизнеспособным.
Влияние DeepSeek на глобальную стратегию ИИ
- Китай догоняет быстрее, чем ожидалось. Разрыв в ИИ между Китаем и США может составлять всего 3-9 месяцев, а не два года, как считалось ранее.
- DeepSeek — это доказательство концепции для стратегии ИИ Китая. Несмотря на ограничения вычислительных мощностей, инновации, основанные на эффективности, работают.
Заключительное слово: видение важнее технологий
- Настоящее отличие DeepSeek — его амбиции. Прорывы в ИИ происходят от расширения границ интеллекта, а не просто от совершенствования существующих моделей.
- Следующая битва — это рассуждения. Тот, кто станет пионером следующего поколения моделей рассуждений ИИ, определит траекторию индустрии.
Мыслительный эксперимент: Если бы у вас была одна возможность задать вопрос генеральному директору DeepSeek Ляну Вэньфэну, что бы это было? Какой ваш лучший совет для компании в процессе масштабирования? Оставьте свои мысли — выдающиеся ответы могут получить приглашение на следующий закрытый саммит по ИИ.
DeepSeek открыл новую главу в ИИ. Останется ли он в истории, еще предстоит выяснить.