Перейти к основному содержимому

3 записи с тегом "исследование"

Посмотреть все теги

· 4 мин. чтения
Lark Birdy

Спрос на развертывание больших языковых моделей (LLM) на мобильных устройствах растет, что обусловлено необходимостью повышения конфиденциальности, снижения задержек и эффективного использования полосы пропускания. Однако большие требования LLM к памяти и вычислительным ресурсам создают значительные проблемы. Решение представляет собой LinguaLinked — новая система, разработанная группой исследователей из UC Irvine, которая позволяет выполнять децентрализованную, распределенную инференцию LLM на нескольких мобильных устройствах, используя их коллективные возможности для эффективного выполнения сложных задач.

Проблема

Развертывание LLM, таких как GPT-3 или BLOOM, на мобильных устройствах сопряжено с трудностями из-за:

  • Ограничений памяти: LLM требуют значительных объемов памяти, часто превышающих возможности отдельных мобильных устройств.
  • Вычислительных ограничений: Мобильные устройства обычно обладают ограниченной вычислительной мощностью, что затрудняет выполнение больших моделей.
  • Проблем конфиденциальности: Отправка данных на централизованные серверы для обработки вызывает вопросы конфиденциальности.

Решение от LinguaLinked

LinguaLinked решает эти проблемы с помощью трех ключевых стратегий:

  1. Оптимизированное распределение модели:
  • Система разделяет LLM на более мелкие подграфы с использованием линейной оптимизации, чтобы сопоставить каждый сегмент с возможностями устройства.
  • Это обеспечивает эффективное использование ресурсов и минимизирует передачу данных между устройствами.
  1. Балансировка нагрузки в реальном времени:
  • LinguaLinked активно отслеживает производительность устройств и перераспределяет задачи, чтобы предотвратить узкие места.
  • Этот динамический подход обеспечивает эффективное использование всех доступных ресурсов, повышая общую отзывчивость системы.
  1. Оптимизированная коммуникация:
  • Эффективные карты передачи данных направляют поток информации между устройствами, сохраняя структурную целостность модели.
  • Этот метод снижает задержку и обеспечивает своевременную обработку данных по всей сети мобильных устройств.

Одна большая языковая модель (LLM) разбивается на различные части (или сегменты) и распределяется между несколькими мобильными устройствами. Этот подход позволяет каждому устройству обрабатывать только часть общей вычислительной и хранения данных, что делает возможным выполнение сложных моделей даже на устройствах с ограниченными ресурсами. Вот как это работает:

Сегментация и распределение модели

  1. Сегментация модели:
  • Большая языковая модель преобразуется в вычислительный граф, где каждая операция в сети представлена узлом.
  • Этот граф затем разделяется на более мелкие подграфы, каждый из которых способен функционировать независимо.
  1. Оптимизированное распределение модели:
  • С использованием линейной оптимизации эти подграфы (или сегменты модели) назначаются различным мобильным устройствам.
  • Назначение учитывает вычислительные и памятьные возможности каждого устройства, обеспечивая эффективное использование ресурсов и минимизируя нагрузку на передачу данных между устройствами.
  1. Совместное выполнение инференции:
  • Каждое мобильное устройство обрабатывает свой назначенный сегмент модели.
  • Устройства взаимодействуют друг с другом для обмена промежуточными результатами по мере необходимости, обеспечивая правильное выполнение общей задачи инференции.
  • Оптимизированные стратегии коммуникации применяются для поддержания целостности исходной структуры модели и обеспечения эффективного потока данных.

Пример сценария

Представьте себе, что большая языковая модель, такая как GPT-3, разделена на несколько частей. Одно мобильное устройство может обрабатывать начальные токенные эмбеддинги и первые несколько слоев модели, в то время как другое устройство обрабатывает средние слои, а третье завершает финальные слои и генерирует результат. На протяжении всего этого процесса устройства обмениваются промежуточными результатами, чтобы обеспечить бесшовное выполнение полной инференции модели.

Производительность и результаты

Эффективность LinguaLinked была продемонстрирована в ходе обширных тестов на различных устройствах Android, как высококлассных, так и низкоклассных. Основные результаты включают:

  • Скорость инференции: По сравнению с базовой линией, LinguaLinked ускоряет производительность инференции на 1,11× до 1,61× в однопоточных режимах и на 1,73× до 2,65× с многопоточностью.
  • Балансировка нагрузки: Балансировка нагрузки во время выполнения задач дополнительно увеличивает производительность, обеспечивая общую ускорение от 1,29× до 1,32×.
  • Масштабируемость: Более крупные модели значительно выигрывают от оптимизированного распределения модели LinguaLinked, демонстрируя свою масштабируемость и эффективность в обработке сложных задач.

Применение и сценарии использования

LinguaLinked особенно подходит для сценариев, где важны конфиденциальность и эффективность. Примеры применения включают:

  • Генерация и суммаризация текста: Локальная генерация связного и контекстуально релевантного текста на мобильных устройствах.
  • Анализ настроений: Эффективная классификация текстовых данных без ущерба для конфиденциальности пользователя.
  • Перевод в реальном времени: Обеспечение быстрого и точного перевода непосредственно на устройстве.

Будущее направления

LinguaLinked прокладывает путь для дальнейших достижений в мобильных ИИ:

  • Энергоэффективность: Будущие версии будут сосредоточены на оптимизации энергопотребления, чтобы предотвратить разрядку батареи и перегрев во время интенсивных задач.
  • Улучшенная конфиденциальность: Продолжение улучшений в децентрализованной обработке данных обеспечит еще большую защиту конфиденциальности данных.
  • Мультимодальные модели: Расширение LinguaLinked для поддержки мультимодальных моделей для различных реальных приложений.

Заключение

LinguaLinked представляет собой значительный шаг вперед в развертывании LLM на мобильных устройствах. Распределяя вычислительную нагрузку и оптимизируя использование ресурсов, он делает передовые ИИ доступными и эффективными на широком диапазоне устройств. Эта инновация не только улучшает производительность, но и обеспечивает конфиденциальность данных, создавая условия для более персонализированных и безопасных мобильных приложений на основе ИИ.

· 5 мин. чтения
Lark Birdy

В децентрализованной инференции ИИ обеспечение целостности и надежности поставщиков GPU является критически важным. Протокол Proof of Sampling (PoSP), описанный в недавних исследованиях Holistic AI, предоставляет сложный механизм для стимулирования добросовестных участников и наказания недобросовестных. Давайте посмотрим, как работает этот протокол, его экономические стимулы, штрафы и применение в децентрализованной инференции ИИ.

Стимулы для честного поведения

Экономические награды

В основе протокола PoSP лежат экономические стимулы, направленные на поощрение честного участия. Узлы, выступающие в роли утверждающих и валидаторов, получают вознаграждение в зависимости от их вклада:

  • Утверждающие: Получают награду (RA), если их рассчитанный результат верен и не оспаривается.
  • Валидаторы: Делят награду (RV/n), если их результаты совпадают с результатами утверждающего и признаны корректными.

Уникальное равновесие Нэша

Протокол PoSP спроектирован таким образом, чтобы достичь уникального равновесия Нэша в чистых стратегиях, когда все узлы мотивированы действовать честно. Соответствие индивидуальной прибыли с безопасностью системы гарантирует, что честность является наиболее прибыльной стратегией для участников.

Наказания за нечестное поведение

Механизм штрафов

Чтобы предотвратить нечестное поведение, протокол PoSP использует механизм штрафов. Если утверждающий или валидатор уличены в нечестности, они сталкиваются с серьезными экономическими штрафами (S). Это гарантирует, что стоимость нечестности значительно превышает возможные краткосрочные выгоды.

Механизм вызовов

Случайные вызовы дополнительно защищают систему. С заранее определенной вероятностью (p) протокол инициирует вызов, при котором несколько валидаторов повторно вычисляют результат утверждающего. Если обнаружены расхождения, недобросовестные участники наказываются. Этот случайный процесс делает сложно для недобросовестных участников вступить в сговор и обмануть систему, оставаясь незамеченными.

Шаги протокола PoSP

  1. Выбор утверждающего: Узел выбирается случайным образом для выполнения роли утверждающего, вычисления и вывода значения.

  2. Вероятность вызова:

    Система может инициировать вызов на основе заранее определенной вероятности.

  • Без вызова: Утверждающий получает награду, если вызов не инициируется.
  • Вызов инициирован: Определенное количество (n) валидаторов случайным образом выбирается для проверки результата утверждающего.
  1. Валидация:

    Каждый валидатор независимо вычисляет результат и сравнивает его с результатом утверждающего.

  • Совпадение: Если все результаты совпадают, и утверждающий, и валидаторы получают награду.
  • Несоответствие: Процесс арбитража определяет честность утверждающего и валидаторов.
  1. Наказания: Нечестные узлы наказываются, а честные валидаторы получают свою долю награды.

spML

Протокол spML (sampling-based Machine Learning) является реализацией протокола Proof of Sampling (PoSP) в рамках децентрализованной сети инференции ИИ.

Основные шаги

  1. Ввод пользователя: Пользователь отправляет свои данные на случайно выбранный сервер (утверждающий) вместе с цифровой подписью.
  2. Вывод сервера: Сервер вычисляет результат и отправляет его пользователю вместе с хешем результата.
  3. Механизм вызова:
  • С заранее определенной вероятностью (p) система инициирует вызов, при котором случайным образом выбирается другой сервер (валидатор) для проверки результата.
  • Если вызов не инициирован, утверждающий получает награду (R), и процесс завершается.
  1. Проверка:
  • Если вызов инициирован, пользователь отправляет те же данные валидатору.
  • Валидатор вычисляет результат и отправляет его пользователю вместе с хешем.
  1. Сравнение:
  • Пользователь сравнивает хеши результатов утверждающего и валидатора.
  • Если хеши совпадают, утверждающий и валидатор получают награду, а пользователь получает скидку на основную плату.
  • Если хеши не совпадают, пользователь транслирует оба хеша в сеть.
  1. Арбитраж:
  • Сеть голосует, чтобы определить честность утверждающего и валидатора на основе выявленных несоответствий.
  • Честные узлы получают вознаграждение, а нечестные подвергаются наказанию (сокращению доли).

Основные компоненты и механизмы

  • Детерминированное выполнение ML: Использует фиксированную арифметику и программные библиотеки для работы с плавающей точкой, чтобы обеспечить согласованные и воспроизводимые результаты.
  • Бездействующий дизайн: Обрабатывает каждый запрос независимо, сохраняя статическую природу процесса ML.
  • Участие без разрешений: Позволяет любому присоединиться к сети и внести свой вклад, запустив сервер ИИ.
  • Операции вне цепи: Инференции ИИ вычисляются вне цепи для снижения нагрузки на блокчейн, результаты и цифровые подписи передаются непосредственно пользователям.
  • Операции на цепи: Критические функции, такие как расчеты баланса и механизмы вызова, выполняются на блокчейне для обеспечения прозрачности и безопасности.

Преимущества spML

  • Высокая безопасность: Достигается безопасность через экономические стимулы, гарантируя, что узлы действуют честно из-за возможных наказаний за нечестность.
  • Низкая вычислительная нагрузка: Валидаторам в большинстве случаев нужно только сравнивать хеши, что снижает вычислительную нагрузку при проверке.
  • Масштабируемость: Система способна обрабатывать высокую сетевую активность без значительного снижения производительности.
  • Простота: Сохраняет простоту реализации, облегчая интеграцию и обслуживание.

Сравнение с другими протоколами

  • Optimistic Fraud Proof (opML):
    • Основывается на экономических дезинцентивах для недобросовестного поведения и механизме разрешения споров.
    • Уязвим для мошеннической активности, если недостаточно валидаторов действуют честно.
  • Zero Knowledge Proof (zkML):
    • Обеспечивает высокую безопасность через криптографические доказательства.
    • Сталкивается с проблемами масштабируемости и эффективности из-за высокой вычислительной нагрузки.
  • spML:
    • Сочетает высокую безопасность через экономические стимулы, низкую вычислительную нагрузку и высокую масштабируемость.
    • Упрощает процесс проверки, фокусируясь на сравнении хешей, что снижает необходимость в сложных вычислениях при вызовах.

Заключение

Протокол Proof of Sampling (PoSP) эффективно балансирует необходимость стимулировать добросовестных участников и устранять недобросовестных, обеспечивая общую безопасность и надежность децентрализованных систем. Совмещая экономические награды с жесткими наказаниями, PoSP создает среду, в которой честное поведение не только поощряется, но и становится необходимым для успеха. По мере роста децентрализованных систем ИИ такие протоколы, как PoSP, станут необходимыми для поддержания целостности и надежности этих передовых систем.

· 5 мин. чтения
Dora Noda

Сочетание блокчейна и искусственного интеллекта (ИИ) привлекает значительное внимание на рынке. С ростом числа пользователей ChatGPT, достигшего сотен миллионов за короткое время, и восьмикратным увеличением стоимости акций Nvidia в 2023 году, ИИ прочно утвердился как доминирующая тенденция. Это влияние распространяется и на смежные отрасли, такие как блокчейн, где исследуются приложения ИИ.

Децентрализация ИИ: Обзор

В настоящее время криптовалюта играет вспомогательную роль в ИИ, предлагая значительный потенциал для роста. Большинство организаций все еще находятся на этапе исследования, сосредоточившись на токенизации вычислительных мощностей (облако и рынок), моделей (агенты ИИ) и хранения данных.

Децентрализованные криптотехнологии не напрямую повышают эффективность или снижают затраты на обучение ИИ, но способствуют торговле активами, привлекая ранее неиспользуемые вычислительные мощности. Это приносит прибыль в условиях нынешнего дефицита вычислительных ресурсов. Токенизация моделей позволяет децентрализованное владение или использование сообществом, снижая барьеры и предлагая альтернативу централизованному ИИ. Однако токенизация данных в децентрализованной среде остается сложной задачей, требующей дальнейших исследований.

Хотя на рынке еще нет консенсуса по поводу ИИ и криптовалют, экосистема формируется. Вот несколько категорий, которые мы рассмотрим сегодня: облачные сервисы Infrastructure-as-a-Service, рынки вычислительных мощностей, токенизация и обучение моделей, агенты ИИ, токенизация данных, ZKML и приложения ИИ.

Облачные сервисы Infrastructure-as-a-Service

С ростом рынка ИИ проекты облачных вычислений на базе GPU и рынки становятся одними из первых, кто получает выгоду. Они стремятся интегрировать неиспользуемые ресурсы GPU в централизованные сети, снижая затраты на вычисления по сравнению с традиционными услугами.

Эти облачные сервисы не считаются децентрализованными решениями, но являются неотъемлемой частью экосистемы web3 + AI. Идея заключается в том, что GPU являются дефицитными ресурсами и обладают внутренней ценностью.

Ключевые проекты:

  • Akash Network: Децентрализованный рынок облачных вычислений на основе Cosmos SDK, использующий Kubernetes для оркестрации и обратное аукционное ценообразование для снижения затрат. Фокусируется на вычислениях с использованием CPU и GPU.
  • Ritual: Сеть инфраструктуры ИИ, интегрирующая модели ИИ в протоколы блокчейна. Платформа Infernet позволяет смарт-контрактам напрямую обращаться к моделям.
  • Render Network: Децентрализованная платформа для рендеринга на GPU, сосредоточенная как на рендеринге, так и на вычислениях ИИ. Перешла на Solana для улучшения производительности и снижения затрат.
  • NetMind.AI: Экосистема ИИ, предоставляющая рынок вычислительных ресурсов, чат-бота и услуги ассистента по жизни. Поддерживает широкий спектр моделей GPU и интегрируется с Google Colab.
  • CUDOS: Сеть вычислений на блокчейне, аналогичная Akash, с акцентом на вычислениях на GPU через Cosmos SDK.
  • Nuco.cloud: Децентрализованный облачный сервис на основе Ethereum и Telos, предлагающий различные решения.
  • Dynex: Блокчейн для нейроморфных вычислений, использующий Proof-of-Useful-Work для повышения эффективности.
  • OctaSpace: Децентрализованный облачный сервис, работающий на собственном блокчейне для ИИ и обработки изображений.
  • AIOZ Network: Децентрализованная платформа вычислений уровня 1 для ИИ, хранения и потоковой передачи данных.
  • Phoenix: Инфраструктура блокчейна Web3 для вычислений ИИ и сетей, основанных на данных.
  • Aethir: Облачная инфраструктура для игр и ИИ на основе Arbitrum.
  • Iagon: Децентрализованный рынок хранения и вычислений на Cardano.
  • OpFlow: Облачная платформа, ориентированная на ИИ и рендеринг, использующая GPU от NVIDIA.
  • OpSec: Новая децентрализованная облачная платформа, стремящаяся создать суперкомпьютер нового поколения.

Рынки вычислительных ресурсов

Децентрализованные рынки вычислительных ресурсов используют предоставленные пользователями GPU и CPU для задач ИИ, обучения и вывода. Эти рынки мобилизуют неиспользуемые вычислительные мощности, вознаграждая участников и снижая барьеры для входа.

Эти рынки вычислений на GPU часто сосредотачиваются на нарративе децентрализации, а не на полезности услуг. Такие проекты, как io.net и Nosana, использующие Solana и концепции DePin, демонстрируют огромный потенциал роста. Инвестиции на ранних стадиях в рынки GPU в периоды пикового спроса могут предложить высокую доходность через стимулы и возврат инвестиций.

Ключевые проекты:

  • Cuckoo AI: Децентрализованный рынок, который вознаграждает майнеров GPU за обслуживание моделей ИИ ежедневными платежами в ERC20. Использует смарт-контракты блокчейна и сосредоточен на прозрачности, конфиденциальности и модульности.
  • Clore.ai: Платформа аренды GPU, использующая PoW. Пользователи могут арендовать GPU для обучения ИИ, рендеринга и майнинга. Вознаграждения зависят от количества удерживаемых токенов.
  • Nosana: Провайдер облачных вычислений на GPU с открытым исходным кодом, основанный на Solana. Сфокусирован на выводе ИИ и разрабатывает коннекторы для PyTorch, HuggingFace, TensorFlow и библиотек сообщества.
  • io.net: Сеть облачных вычислений ИИ, использующая технологию блокчейна Solana. Предлагает экономичные ресурсы GPU, поддерживая пакетный вывод и параллельное обучение.
  • Gensyn: Протокол L1 для обучения моделей глубокого обучения. Стремится улучшить эффективность обучения через доверенную, распределенную систему. Сфокусирован на снижении затрат на обучение и повышении доступности.
  • Nimble: Децентрализованная экосистема ИИ, объединяющая данные, вычислительные мощности и разработчиков. Стремится сделать обучение ИИ более доступным и имеет децентрализованную, составную структуру.
  • Morpheus AI: Децентрализованный рынок вычислений, основанный на Arbitrum. Помогает пользователям создавать агентов ИИ для взаимодействия со смарт-контрактами.
  • Kuzco: Распределенный кластер GPU для вывода LLM на Solana. Предлагает эффективный локальный хостинг моделей и вознаграждает участников KZO поинтами.
  • Golem: Рынок вычислений на CPU на основе Ethereum, расширившийся до GPU. Один из первых пиринговых вычислительных сетей.
  • Node AI: Облачный рынок GPU, предлагающий доступные аренды GPU через EyePerformance.
  • GPU.Net: Децентрализованная сеть GPU, предоставляющая инфраструктуру для генеративного ИИ, Web3 и высококачественного рендеринга графики.
  • GamerHash: Платформа, использующая избыточную вычислительную мощность геймеров для майнинга криптовалюты, внедряя модель play-to-earn для устройств низкого класса.
  • NodeSynapse: Рынок GPU, предлагающий инфраструктуру Web3, вычисления на GPU, хостинг серверов и уникальную модель распределения доходов для держателей токенов.

Токенизация и обучение моделей

Токенизация и обучение моделей включает в себя преобразование моделей ИИ в ценные активы и их интеграцию в блокчейн-сети. Этот подход позволяет децентрализованное владение, обмен данными и принятие решений. Это обещает улучшенную прозрачность, безопасность и возможности монетизации, создавая новые каналы для инвестиций.

Ключевым фактором является признание проектов с реальными инновациями и техничес