LinguaLinked : Autonomiser les appareils mobiles avec des modèles de langage distribués
La demande de déploiement de modèles de langage de grande taille (LLM) sur des appareils mobiles augmente, motivée par le besoin de confidentialité, de réduction de la latence et d'utilisation efficace de la bande passante. Cependant, les exigences étendues en mémoire et en calcul des LLM posent des défis significatifs. Voici LinguaLinked, un nouveau système développé par un groupe de chercheurs de l'UC Irvine, conçu pour permettre une inférence LLM décentralisée et distribuée sur plusieurs appareils mobiles, en tirant parti de leurs capacités collectives pour effectuer des tâches complexes de manière efficace.

Le Défi
Déployer des LLM comme GPT-3 ou BLOOM sur des appareils mobiles est difficile en raison de :
- Contraintes de mémoire : Les LLM nécessitent une mémoire substantielle, souvent supérieure à la capacité des appareils mobiles individuels.
- Limitations computationnelles : Les appareils mobiles ont généralement une puissance de traitement limitée, rendant difficile l'exécution de grands modèles.
- Préoccupations de confidentialité : Envoyer des données à des serveurs centralisés pour traitement soulève des problèmes de confidentialité.
La Solution de LinguaLinked

LinguaLinked répond à ces défis avec trois stratégies clés :
-
Affectation optimisée des modèles :
- Le système segmente les LLM en sous-graphes plus petits en utilisant l'optimisation linéaire pour faire correspondre chaque segment aux capacités d'un appareil.
- Cela assure une utilisation efficace des ressources et minimise la transmission de données entre appareils.
-
Équilibrage de charge à l'exécution :
- LinguaLinked surveille activement les performances des appareils et redistribue les tâches pour éviter les goulets d'étranglement.
- Cette approche dynamique assure une utilisation efficace de toutes les ressources disponibles, améliorant la réactivité globale du système.
-
Communication optimisée :
- Des cartes de transmission de données efficaces guident le flux d'informations entre les appareils, maintenant l'intégrité structurelle du modèle.
- Cette méthode réduit la latence et assure un traitement des données en temps opportun à travers le réseau d'appareils mobiles.

Un seul modèle de langage de grande taille (LLM) est divisé en différentes parties (ou segments) et distribué sur plusieurs appareils mobiles. Cette approche permet à chaque appareil de gérer seulement une fraction des exigences totales de calcul et de stockage, rendant possible l'exécution de modèles complexes même sur des appareils aux ressources limitées. Voici un aperçu de comment cela fonctionne :
Segmentation et Distribution du Modèle
- Segmentation du modèle :
- Le grand modèle de langage est transformé en un graphe computationnel où chaque opération au sein du réseau est représentée comme un nœud.
- Ce graphe est ensuite partitionné en sous-graphes plus petits, chacun capable de fonctionner indépendamment.
- Affectation optimisée des modèles :
- En utilisant l'optimisation linéaire, ces sous-graphes (ou segments de modèle) sont assignés à différents appareils mobiles.
- L'affectation prend en compte les capacités computationnelles et de mémoire de chaque appareil, assurant une utilisation efficace des ressources et minimisant la surcharge de transmission de données entre appareils.
- Exécution collaborative de l'inférence :
- Chaque appareil mobile traite son segment assigné du modèle.
- Les appareils communiquent entre eux pour échanger les résultats intermédiaires selon les besoins, garantissant que la tâche d'inférence globale est complétée correctement.
- Des stratégies de communication optimisées sont employées pour maintenir l'intégrité de la structure originale du modèle et assurer un flux de données efficace.