部署大语言模型(LLMs)到移动设备的需求日益增长,这一趋势主要由隐私保护、降低延迟以及高效带宽使用的需求驱动。然而,LLM的庞大内存需求和计算要求构成了巨大挑战。为应对这一挑战,LinguaLinked应运而生。这个由加州大学欧文分校的一组研究人员开发的新系统,旨在通过分布式推理,将LLM推理过程分布在多个移动设备上,利用它们的集体能力高效地执行复杂任务。
挑战
在移动设备上部署如GPT-3或BLOOM之类的大语言模型面临以下挑战:
- 内存限制:LLM需要大量内存,往往超出单个移动设备的容量。
- 计算能力限制:移动设备通常计算能力有限,难以运行大型模型。
- 隐私问题:将数据发送到中央服务器进行处理可能引发隐私问题。