Reddit 用户对主要 LLM 聊天工具的反馈
概述: 本报告分析了 Reddit 上关于四个流行 AI 聊天工具的讨论——OpenAI 的 ChatGPT、Anthropic 的 Claude、Google 的 Gemini (Bard) 和 开源 LLMs(例如基于 LLaMA 的模型)。总结了用户对每个工具常见的痛点、最常请求的功能、未满足的需求或感到未被服务的用户群体,以及开发者、普通用户和商业用户之间的感知差异。包括 Reddit 线程中的具体示例和引用以说明这些观点。
ChatGPT(OpenAI)
常见痛点和限制
-
有限的上下文记忆: 一个主要的抱怨是 ChatGPT 无法处理长对话或大型文档而不忘记之前的细节。用户经常遇到上下文长度限制(几千个标记),必须截断或总结信息。一位 用户指出 “增加上下文窗口的大小将是最大的改进……这是我最常遇到的限制”。当超过上下文时,ChatGPT 会忘记初始指令或内容,导致会话中途质量下降。
-
GPT-4 的消息限制: ChatGPT Plus 用户抱怨 GPT-4 使用的 25 条消息/3 小时限制(2023 年的限制)。达到此限制迫使他们等待,打断工作。重度用户发现这种限制是一个主要痛点。
-
严格的内容过滤(“削弱”): 许多 Reddit 用户认为 ChatGPT 变得过于严格,经常拒绝以前版本能处理的请求。一个高票帖子抱怨 “现在几乎任何你问它的问题都会返回‘抱歉,无法帮助你’……这怎么从最有用的工具变成了 Google 助手的等价物?” 用户举例说明 ChatGPT 拒绝重新格式化他们自己的文本(例如登录凭证)因为假设的误用。付费订阅者认为 “一些模糊的概念认为用户可能做‘坏事’……不应该成为不显示结果的理由”,因为他们想要模型的输出并会负责任地使用它。
-
幻觉和错误: 尽管具有先进的能力,ChatGPT 仍可能自信地产生错误或虚构的信息。一些用户观察到这种情况随着时间的推移变得更糟,怀疑模型被“削弱”了。例如,一位金融用户表示 ChatGPT 过去能正确计算像 NPV 或 IRR 这样的指标,但更新后 “我得到了很多错误答案……即使在纠正后,它仍然产生错误答案。我真的相信它自从更改后变得更笨了。” 这种不可预测的不准确性削弱了对需要事实精确任务的信任。
-
不完整的代码输出: 开发人员经常使用 ChatGPT 来获取编码帮助,但他们报告有时会遗漏解决方案的一部分或截断长代码。一位用户分享说 ChatGPT 现在 “遗漏代码,产生无用的代码,并且在我需要它做的事情上表现糟糕……它经常遗漏太多代码,我甚至不知道如何整合它的解决方案。” 这迫使用户提出后续提示以引出其余部分,或者手动拼接答案——这是一个繁琐的过程。
-
性能和正常运行时间问题: 存在一种看法,即随着企业使用增加,ChatGPT 对个人用户的性能下降。一位沮丧的 Plus 订阅者表示 “我认为他们正在将带宽和处理能力分配给企业,并从用户那里剥离,这在考虑到订阅费用时是无法忍受的!”。在高峰时段的停机或减速已被非正式地注意到,这可能会中断工作流程。
常见请求的功能或改进
-
更长的上下文窗口/记忆: 最常请求的改进是更大的上下文长度。用户希望进行更长的对话或提供大型文档而无需重置。许多人建议将 ChatGPT 的上下文扩展到与 GPT-4 的 32K 标记能力(目前通过 API 可用)或更高。一位用户表示,“GPT 在上下文中表现最好,当它不记得初始上下文时,我会感到沮丧……如果关于上下文 PDF 的传言属实,那将解决我所有的问题。” 对于上传文档或链接个人数据以便 ChatGPT 能够在整个会话中记住和引用它们的功能有很高的需求。
-
文件处理和集成: 用户经常要求更简单的方法将文件或数据输入 ChatGPT。在讨论中,人们提到希望 “复制并粘贴我的 Google Drive 并让它工作” 或者有插件可以让 ChatGPT 直接从个人文件中获取上下文。一些人尝试了变通方法(如 PDF 阅读器插件或 链接 Google Docs),但抱怨错误和限制。一位用户描述了他们理想的插件是一个 “像 Link Reader 一样但用于个人文件……选择我的驱动器中的哪些部分用于对话……这将解决我目前与 GPT-4 的所有问题。” 简而言之,对外部知识(超出训练数据)的更好本地支持是一个受欢迎的请求。
-
减少对付费用户的限制: 由于许多 Plus 用户达到 GPT-4 消息限制,他们呼吁提高限制或提供更多支付选项以获得无限访问。25 条消息限制被视为任意的,并阻碍了密集使用。人们更希望使用基于使用的模型或更高的上限,以便长时间的问题解决会话不会被中断。
-
“非审查”或自定义审核模式: 一部分用户希望能够切换内容过滤的严格性,特别是在为自己使用 ChatGPT 时(而不是面向公众的内容)。他们认为“研究”或“非审查”模式——带有警告但没有硬性拒绝——会让他们更自由地探索。正如一位用户所说,付费客户将其视为一种工具,并相信 “我为[它]付钱。” 他们希望能够即使在边缘查询上也能得到答案。虽然 OpenAI 必须平衡安全性,但这些用户建议在私人聊天中放松政策的标志或设置。
-
改进的事实准确性和更新: 用户通常要求更及时的知识和更少的幻觉。ChatGPT 的知识截止(早期版本为 2021 年 9 月)是 Reddit 上经常提出的限制。OpenAI 随后引入了浏览和插件,一些用户利用了这些功能,但其他人只是要求基础模型更频繁地更新新数据。减少明显错误——特别是在数学和编码等领域——是一个持续的愿望。一些开发人员在 ChatGPT 出错时提供反馈,希望模型改进。
-
更好的代码输出和工具: 开发人员有功能请求,例如改进的代码解释器,不会遗漏内容,并与 IDE 或版本控制的集成。(OpenAI 的代码解释器插件——现在是“高级数据分析”的一部分——是朝这个方向迈出的一步,并受到赞扬。)尽管如此,用户经常请求在代码生成中有更细致的控制:例如,即使代码很长,也可以选择输出完整的、未过滤的代码,或者在 AI 出错时轻松修复代码的机制。基本上,他们希望 ChatGPT 更像一个可靠的编码助手,而无需多次提示来完善答案。
-
持久的用户档案或记忆: 另一个改进是让 ChatGPT 在会话之间记住用户的事情(在同意的情况下)。例如,记住一个人的写作风格,或者他们是一名软件工程师,而不必在每次新聊天时重述。这可以与 API 微调或“档案”功能结合起来。用户现在手动将重要上下文复制到新聊天中,因此内置的个人偏好记忆将节省时间。
未满足的需求或用户群体
-
研究人员和拥有长文档的学生: 希望 ChatGPT 分析长篇研究论文、书籍或大型数据集的人感到未被满足。当前的限制迫使他们切割文本或满足于摘要。这个群体将从更大的上下文窗口或处理长文档的功能中受益匪浅(如众多帖子所证实,试图绕过标记限制)。
-
寻求超出限制的创造性故事或角色扮演的用户: 虽然 ChatGPT 经常用于创意写作,但一些故事讲述者感到模型在长篇故事中忘记早期情节或拒绝成人/恐怖内容时受到限制。他们转向替代模型或黑客继续他们的叙述。这些创意用户将更好地由具 有更长记忆和在合理范围内对虚构暴力或成熟主题更灵活的 ChatGPT 版本服务。正如一位小说作家所说,当 AI 失去对故事的跟踪时,“我必须提醒它确切的格式或上下文……我感到沮丧,因为它在两个提示前还很棒,但现在我必须让 AI 赶上。”。
-
高级用户和领域专家: 在专业领域(金融、工程、医学)的专业人士有时发现 ChatGPT 的答案在他们的领域缺乏深度或准确性,特别是如果问题涉及最近的发展。这些用户希望获得更可靠的专家知识。一些人尝试通过 API 或自定义 GPT 进行微调。那些无法微调的人会欣赏 ChatGPT 的领域特定版本或嵌入可信数据库的插件。在默认形式中,ChatGPT 可能未能满足需要高度准确、领域特定信息的用户(他们经常需要仔细检查其工作)。
-
需要非审查或边缘案例内容的用户: 一小部分用户(测试安全场景的黑客、极端小说的作家等)发现 ChatGPT 的内容限制对他们的需求过于限制。官方产品目前未能满足他们的需求(因为它明确避免某些内容)。这些用户经常尝试越狱提示或使用开源模型以获得他们想要的响应。这是 OpenAI 的故意差距(以维护安全性),但这意味着这些用户寻找其他地方。
-
注重隐私的个人和企业: 一些用户(尤其是在企业环境中)由于隐私问题而不愿将敏感数据发送到 ChatGPT。OpenAI 的政策是不使用 API 数据进行训练,但 ChatGPT 的 Web UI 历史上没有提供这样的保证,直到添加了选择退出功能。处理机密数据的公司(法律、医疗保健等)通常觉得他们无法充分利用 ChatGPT,除非他们构建自托管解决方案。例如,一位 Reddit 用户提到他们的公司出于隐私原因转向本地 LLM 。在 ChatGPT 的本地或私有实例可用之前,这个群体仍然谨慎或使用较小的专业供应商。
不同用户类型的感知差异
-
开发者/技术用户: 开发者往往是 ChatGPT 的最大支持者和最严厉的批评者。他们喜欢它解释代码、生成样板和协助调试的能力。然而,他们敏锐地感受到其在更长上下文和代码准确性方面的限制。正如一位开发者抱怨的那样,ChatGPT 开始*“产生无用的代码”并遗漏重要部分,这“让我很生气……我不想告诉它‘不要懒惰’——我只想要完整的结果”*。开发者经常注意到模型更新后质量的细微变化,并在 Reddit 上非常直言不讳地表达对“削弱”或编码能力下降的看法。他们还推动极限(构建复杂提示、链接工具),因此他们渴望扩展上下文、减少消息限制和更好地与编码工具集成的功能。总之,开发者重视 ChatGPT 加快日常任务的速度,但也迅速指出逻辑或代码中的错误——他们将其视为仍需监督的初级助手。
-
普通/日常用户: 更多普通用户——那些寻求一般知识、建议或乐趣的人——通常对 ChatGPT 的能力感到惊讶,但他们也有自己的不满。普通用户常见的挫折是当 ChatGPT 拒绝一个在他们看来无害的请求时(可能触发了政策规则)。一个线程中的原始发帖人就此举例,“当我写一个它不应该有问题的提示而它现在拒绝时,我感到非常生气”。普通用户也可能遇到知识截止(发现机器人无法处理非常当前的事件,除非明确更新)并有时注 意到 ChatGPT 给出明显错误的答案。与开发者不同,他们可能不会总是仔细检查 AI,这可能导致如果他们根据错误采取行动而失望。积极的一面是,许多普通用户发现 ChatGPT Plus 的更快响应和 GPT-4 的改进输出值得每月 20 美元——除非“拒绝”问题或其他限制破坏了体验。他们通常希望一个有用的、通用的助手,当 ChatGPT 回复政策声明或需要复杂提示才能得到简单答案时会感到沮丧。
-
商业/专业用户: 商业用户通常从生产力和可靠性的角度接触 ChatGPT。他们欣赏快速起草电子邮件、总结文档或生成想法。然而,他们关心数据安全性、一致性和工作流程集成。在 Reddit 上,专业人士讨论了希望 ChatGPT 集成到 Outlook、Google Docs 或作为其内部系统中的 API 中。一些人注意到,随着 OpenAI 转向服务企业客户,产品的重点似乎发生了转变:有一种感觉,免费或个人用户体验略有下降(例如,变得更慢或“更不聪明”),因为公司扩大规模以服务更大的客户。无论这是否属实,它突显了一种感知:商业用户希望获得可靠性和优先服务,而个人用户担心他们现在是二等公民。此外,专业人士需要正确的输出——一个华而不实但错误的答案可能比没有答案更糟。因此,这个群体对准确性很敏感。对他们来说,像更长的上下文(用于阅读合同、分析代码库)和保证的正常运行时间这样的功能至关重要。他们可能会为高级服务水平支付更多费用,前提是他们的合规性和隐私要求得到满足。一些企业甚至探索本地部署或使用 OpenAI 的 API 进行严格的数据处理规则以满足其 IT 政策。
Claude(Anthropic)
常见痛点和限制
-
使用限制和访问限制: Claude 因免费提供强大的模型(Claude 2)而受到赞扬,但用户很快遇到了使用限制(尤其是在免费层)。在一定数量的提示或大量文本后,Claude 可能会停止并说类似 “对不起,我现在必须结束这次对话。请稍后再来。” 这种限制让那些将 Claude 视为扩展编码或写作伙伴的用户感到沮丧。即使是 Claude Pro(付费)用户也*“不保证无限时间”*,正如一位用户指出的那样;达到配额仍然会产生“稍后再来”的消息。此外,Claude 曾经长期受到地理限制(最初仅在美国/英国可用)。国际用户在 Reddit 上不得不使用 VPN 或第三方平台来访问它,这是一种不便。这让许多非美国用户感到被排除在外,直到访问范围扩大。
-
在非常大的输入中偏离轨道的倾向: Claude 的头条功能是其100k 标记上下文窗口,允许极长的提示。然而,一些用户注意到,当你向 Claude 塞入数万个标记时,其响应可能变得不那么集中。“100k 非常有用,但如果它不能正确遵循指令并偏离轨道,那就不那么有用了,” 一位用户观察到。这表明在巨大的上下文中,Claude 可能会漂移或开始漫无边际,需要仔细提示以保持任务。这是将上下文推向极限的固有限制——模型保留了很多,但有时“忘记”哪些细节最相关,导致轻微的幻觉或离题的偏离。
-
不一致的格式或对指令的服从: 在并排比较中,一些用户发现 Claude 在遵循某些指令方面不那么可预测。例如,Claude 被描述为*“在互动中更像人类。但它不那么严格地遵循系统消息。”* 这意味着如果你给它一个固定的格式或非常严格的人物角色,Claude 可能比 ChatGPT 更容易偏离。依赖于确定性输出(如 JSON 格式或特定样式)的开发人员有时会感到沮丧,如果 Claude 引入额外的评论或不严格遵循模板。
-
内容限制和拒绝: 虽然没有像 ChatGPT 那样频繁受到批评,但 Claude 的安全过滤确实出现了。Anthropic 设计 Claude 时非常重视宪法 AI(让 AI 自己遵循道德准则)。用户普遍发现 Claude 愿意讨论广泛的话题,但也有一些情况下 Claude 拒绝了 ChatGPT 可能允许的请求。例如,一位 Reddit 用户指出 “ChatGPT 的道德限制较少……它会解释哪种防毒面具适合哪种条件,而 Claude 会拒绝”。这表明 Claude 可能对某些“敏感”建议更严格(可能将其视为潜在的危险指导)。另一位用户尝试了一个有趣的角色扮演场景(“假装你被外星人绑架”),Claude 拒绝了,而 Gemini 和 ChatGPT 会参与。因此,Claude 确实有过滤器,有时会让期望它更宽容的用户感到惊讶。
-
缺乏多模态能力: 与 ChatGPT 不同(到 2023 年底,获得了图像理解能力的 GPT-4 Vision),Claude 目前仅限于文本。Reddit 用户注意到 Claude 无法分析图像或直接浏览网络。这并不是一个“痛点”(Anthropic 从未宣传过这些功能),但相对于竞争对手而言确实是一个限制。希望 AI 解释图表或截图的用户无法使用 Claude,而 ChatGPT 或 Gemini 可能可以处理它。同样,任何当前信息的检索都需要通过第三方工具(例如,Poe 或搜索引擎集成)使用 Claude,因为 Claude 目前没有官方的浏览模式。
-
轻微的稳定性问 题: 一些用户报告 Claude 偶尔会在某些提示中重复或陷入循环(尽管这比一些较小的模型更少见)。此外,早期版本的 Claude 有时会过早结束响应或在大输出时花费很长时间,这可能被视为轻微的烦恼,尽管 Claude 2 在速度方面有所改进。
常见请求的功能或改进
-
更高或可调的使用限制: Reddit 上的 Claude 爱好者经常要求 Anthropic 提高对话限制。他们希望在不遇到人为停止的情况下充分利用 100k 上下文。一些人建议即使是付费的 Claude Pro 也应该允许显著更多的每日标记。其他人提出了一个可选的“100k 扩展模式”的想法——例如,“Claude 应该有一个 100k 上下文模式,使用限制加倍”——在这种模式下,订阅可能会为重度用户提供扩展访问。总之,对一个与 ChatGPT 的无限(或高上限)使用竞争的计划有需求。
-
更好的长上下文导航: 虽然拥有 100k 标记是突破性的,但用户希望 Claude 能更好地利用那个上下文。一个改进是改进 Claude 优先考虑信息的方式,以便它保持在轨道上。Anthropic 可以在提示巨大时改进模型的提示遵从性。Reddit 讨论建议技术,如允许用户“固定”某些指令,以免在大上下文中被稀释。任何帮助分段或总结部分输入的工具也可以帮助 Claude 更连贯地处理大输入。简而言之,用户喜欢将整本书喂给 Claude 的可能性——他们只是希望它在整个过程中保持敏锐。
-
插件或网络浏览: 许多 ChatGPT 用户已经习惯了 插件(例如,浏览、代码执行等),他们对 Claude 拥有类似的可扩展性表示兴趣。一个常见的请求是让 Claude 拥有一个官方的网络搜索/浏览功能,以便它可以按需获取最新信息。目前,Claude 的知识大多是静态的(训练数据截至 2023 年初,有一些更新)。如果 Claude 能够查询网络,这将缓解这一限制。同样,一个 Claude 可以使用第三方工具(如计算器或数据库连接器)的插件系统可以扩展其对高级用户的实用性。这仍然是 Claude 缺乏的一个功能,Reddit 用户经常提到 ChatGPT 的插件生态系统在某些任务中给它带来了优势。
-
多模态输入(图像或音频): 一些用户也想知道 Claude 是否会支持图像输入或生成图像。Google 的 Gemini 和 OpenAI 的 GPT-4 具有多模态能力,因此为了保持竞争力,用户期望 Anthropic 探索这一点。一个常见的请求是:“我可以上传一个 PDF 或图像让 Claude 分析吗?” 目前答案是否定的(除了将图像转换为文本的变通方法)。即使只是允许图像到文本(OCR 和描述)也会满足许多希望一站式助手的用户。这在愿望清单上,尽管截至 2025 年初,Anthropic 尚未宣布类似的计划。
-
微调或定制化: 高级用户和企业有时会问他们是否可以在自己的数据上微调 Claude 或获得自定义版本。OpenAI 提供了一些模型的微调(尚未针对 GPT-4,但针对 GPT-3.5)。Anthropic 早些时候发布了 Claude 1.3 的微调界面,但对于 Claude 2 并未广泛宣传。Reddit 用户询问是否可以在公司知识或个人写作风格上训练 Claude。除了每次提示注入之外,更简单的方法将非常受欢迎,因为它可以将 Claude 转变为记住特定知识库或人物角色的个性化助手。
-
更广泛的可用性: 非美国用户经常要求 Claude 在他们的国家正式推出。来自加拿大、欧洲、印度等地的帖子询问他们何时可以在没有 VPN 的情况下使用 Claude 的网站,或者 Claude API 何时会更广泛开放。Anthropic 一直很谨慎,但需求是全球性的——在许多人看来,可能的改进只是“让更多人使用它”。该公司逐步扩展访问权限已经部分解决了这一问题。
未满足的需求或用户群体
-
国际用户群体: 如前所述,Claude 的主要用户群体长期以来受到地理限制。这让许多潜在用户未被满足。例如,一位对 Claude 的 100k 上下文感兴趣的德国开发者没有官方途径使用它。虽然存在变通方法(第三方平台,或 VPN + 在受支持国家的电话验证),但这些障碍意味着普通国际用户实际上被锁定在外。相比之下,ChatGPT 在大多数国家都可用。因此,非美国英语使用者,尤其是非英语使用者,由于 Claude 的有限推出而未被满足。他们可能仍然依赖 ChatGPT 或本地模型,仅仅因为访问问题。
-
需要严格输出格式的用户: 如前所述,Claude 有时在响应中采取自由。需要高度结构化输出的用户(如应用程序的 JSON,或遵循精确格式的答案)可能会发现 Claude 在这方面不如 ChatGPT 可靠。这些用户——通常是将 AI 集成到系统中的开发人员——是一个可以更好地服务的群体,如果 Claude 允许“严格模式”或改进其对指令的遵从性。他们目前可能会避免在此类任务中使用 Claude,而是坚持使用已知更严格遵循格式的模型。
-
普通 问答用户(与创意用户相比): Claude 经常因创意任务而受到赞扬——它产生流畅、类人类的散文和深思熟虑的文章。然而,一些 Reddit 用户指出,对于简单的问题回答或事实查询,Claude 有时会给出冗长的答案,而简洁就足够了。比较 ChatGPT 和 Claude 的用户表示,ChatGPT 倾向于简洁和要点,而 Claude 默认给出更多叙述。只想要快速事实答案的用户(如“X 的首都和人口是多少?”)可能会觉得 Claude 有点间接。这些用户更适合像准确搜索或简洁模型这样的东西。Claude 可以做到这一点,如果被要求,但其风格可能不符合简洁问答的期望,这意味着这个群体可能会转向其他工具(如 Bing Chat 或 Google)。
-
安全关键用户: 相反,一些需要非常小心遵循安全的用户(例如,与学生一起使用 AI 的教育工作者,或希望零风险输出的企业客户)可能会认为 Claude 的对齐是一个优点,但由于 ChatGPT 也相当对齐并且具有更多企业功能,那些用户可能不会特别选择 Claude。这是一个小群体,但可以说 Claude 尚未明确捕获它。他们可能未被满足,因为他们没有简单的方法来增加 Claude 的保障或查看其“思维链”(Anthropic 通过宪法 AI 方法在内部拥有,但最终用户无法直接与之交互,除了注意到 Claude 的通常礼貌语气)。
-
非英语使用者(输出质量): Claude 主要用英语训练(像大多数大型 LLM 一样)。一些用户在其他语言中测试了它;它可以用多种语言响应,但质量可能会有所不同。如果说,用户希望用法语或印地语得到非常细致的答案,Claude 的能力可能没有像 ChatGPT 那样在这些语言中精细调整(GPT-4 在某些基准测试中表现出强大的多语言性能,通常高于其他模型)。主要用非英语交流 的用户可能会发现 Claude 的流利度或准确性略弱。这个群体有些未被满足,仅仅因为 Anthropic 尚未公开强调多语言训练作为优先事项。
不同用户类型的感知差异
-
开发者/技术用户: Reddit 上的开发者越来越赞赏 Claude,尤其是 Claude 2 / Claude 3.5,用于编码任务。2024 年末的感知变化显著:许多开发者开始更喜欢 Claude 而不是 ChatGPT 用于编程协助。他们引用*“在编码方面表现出色”*的性能和一次性处理更大代码库的能力。例如,一位用户写道 “Claude Sonnet 3.5 在与代码(分析、生成)方面比 ChatGPT 更好。” 开发者欣赏 Claude 能够处理大量项目代码或日志并产生连贯的分析或改进,这要归功于其巨大的上下文。然而,他们也注意到其怪癖——如有时注入更多对话性废话或不严格遵循规范。总的来说,许多开发者手头同时保留 ChatGPT 和 Claude:一个用于严格的逐步逻辑(ChatGPT),一个用于广泛的上下文和富有同情心的理解(Claude)。一个评论者说 “如果我必须选择一个,我会选择 Claude”,这表明高级用户中非常积极的感知,尤其是用于头脑风暴、代码审查或架构建议等用例。开发者唯一常见的抱怨是当他们尝试大力推动 Claude 时(例如,提供 50K 标记提示以分析整个存储库)达到 Claude 的使用限制。总之,开发者将 Claude 视为一个非常强大的工具——在某些情况下优于 ChatGPT——仅受可用性和格式不确定性限制。
-
普通/非技术用户: 试用过 Claude 的普通用户经常评论它友好和清晰。Claude 的风格倾向于对话性、礼貌和详细。一个新用户将其与 ChatGPT 比较时观察到 “Claude 更富有同情心,并遵循对话语气……ChatGPT 太频繁地默认使用要点”。这种类人类的温暖使 Claude 对于使用它进行创意写作、建议或只是聊天以获取信息的人具有吸引力。有些人甚至将 Claude 人格化为具有“个性”的同情心。普通用户还喜欢 Claude 的免费版本允许访问相当于 GPT-4 级别的智能,而无需订阅(至少在速率限制内)。另一方面,普通用户确实会遇到 Claude 在某些主题上的拒绝,并可能不理解为什么(因为 Claude 会礼貌但坚定地表达)。如果普通用户询问一些边缘问题并从 Claude 那里得到拒绝,他们可能会认为它不那么有能力或过于受限,而没有意识到这是一种政策立场。另一个方面是 Claude 缺乏知名度——许多普通用户可能甚至不知道尝试它,除非他们与 AI 社区有联系。那些尝试过的人通常评论说它感觉*“像在和人交谈”,以一种好的方式。他们对 Claude 处理开放式或个人问题的能力感到非常满意。因此,普通用户对 Claude 的输出质量和语气*的感知大多是积极的,对其可用性(必须在特定应用程序或地区使用)和偶尔的“不能这样做”时刻感到困惑或沮丧。
-
商业/专业用户: 从公共 Reddit 上很难判断商业对 Claude 的看法(因为很少有企业用户详细发布),但有一些趋势浮现。首先,Anthropic 将 Claude 定位为更注重隐私并愿意签署企业协议——这对担心 OpenAI 数据的公司很有吸引力。确实,一些 Reddit 讨论提到 Claude 在 Slack 或 Notion 等工具中的上下文中,作为助手进行集成。使用这些集成的专业人士可能甚至没有意识到 Claude 是引擎,但当他们意识到时,他们在写作风格和消化大型企业文档的能力方面对其进行积极比较。例如,一个团队可能会将长季度报告提供给 Claude 并获得不错的摘要——这是 ChatGPT 的较小上下文难以处理的事情。也就是说,商业用户也注意到缺乏某些生态系统功能;例如,OpenAI 提供系统消息控制、函数调用等,而 Anthropic 的支持较少。一位开发人员在开发商业解决方案时表示 Claude 在对话中更易于引导,而 ChatGPT 更倾向于更严格……[但] ChatGPT 具有网络访问功能,这可能非常有帮助。这意味着对于商业用户可能需要的研究或数据查找任务(如竞争情报),ChatGPT 可以直接获取信息,而 Claude 需要单独的步骤。总体而言,商业用户认为 Claude 是一个非常有能力的 AI——在某些情况下更好用于内部分析任务——但可能尚未在集成方面达到功能丰富。成本是另一个因素:Claude 的 API 定价和条款不像 OpenAI 那样公开,一些 Reddit 上的初创公司提到对 Claude 的定价或稳定性的不确定性。总之,专业人士尊重 Claude 的能力(尤其是在遵循高级指令和总结大型输入方面的可靠性),但他们密切关注其在集成、支持和全球可用性方面的发展,然后才完全承诺使用它而不是更成熟的 ChatGPT。
Google Gemini(Bard)
常见痛点和限制
-
不准确或“愚蠢”的响应: 当 Google 推出其由 Gemini 驱动的 Bard 升级时,出现了大量的 Reddit 反馈,其中大部分是负面的。用户抱怨 Gemini 在基本问答中表现不佳,与 ChatGPT 相比。一篇题为“对 Google Gemini 的 100% 诚实评价”的直率评估指出:“这是一个破碎、不准确的 LLM 聊天机器人”。另一位沮丧的用户问道:“Gemini 怎么还这么糟糕?我问 Gemini 的次数,它要么给我错误答案,要么给我不完整答案,真是荒谬”。他们将其与 ChatGPT-4 并排比较,发现 ChatGPT 给出了*“完美、正确、有效的答案,一次就搞定”*,而 Gemini 则冗长,需要多次提示才能得到一个半满意的答案。实质上,早期用户认为 Gemini 经常产生幻觉或错过问题的重点,需要过多的提示努力才能提取正确的信息。鉴于对 Gemini 的炒作,这种质量不一致是一个重大失望。
-
过多的冗长和废话: 许多用户注意到 Gemini(以新 Bard 的形式)倾向于产生冗长的答案,而不是直奔主题。正如一个人所描述的,“它冗长……3 段 AI 垃圾……即便如此,它[仅]最终在废话段落中提到了答案”。这与 ChatGPT 形成鲜明对比,ChatGPT 通常在适当时提供更简洁的答案或要点。当用户必须在大量文本中筛选简单事实时,冗长成为一个痛点。一些人推测 Google 可能调整它以便更具对话性或“有帮助”,但过度解释而没有实质内容。
-
与 Google 自有服务的集成不佳: Google 的 AI 助手的卖点之一应该是与 Google 生态系统(Gmail、Docs、Drive 等)的集成。然而,早期用户体验在这方面非常令人失望。一位用户发泄道:“别让我开始谈论它几乎无法与 Google 自己的产品集成,这应该是一个‘功能’(它显然不知道它有)。” 例如,人们会尝试要求 Gemini(通过 Bard)总结 Google Doc 或根据一些信息起草电子邮件——Google 广告的功能——而机器人会回答它无法访问该数据。一位 r/GooglePixel 上的用户写道:“每次我尝试使用 Gemini 与我的 Google Docs 或 Drive 时,它告诉我无法对其做任何事情。有什么意义呢?” 这表明承诺的能力与实际表现之间存在显著差距,让用户感到“AI 助手”在 Google 自己的生态系统中没有提供太多帮助。
-
拒绝和能力混乱: 用户还遇到了 Gemini 的奇怪拒绝或矛盾。同一位 Reddit 用户指出 Gemini “无缘无故地拒绝做事情,忘记它可以做其他事情……前几天它告诉我它没有互联网/实时数据访问。什么。” 这表明 Gemini 有时会拒绝它应该能够做的任务(如检索实时信息,Bard 已连接到)或对其自身能力做出不正确的声明。这样的经历给人的印象是一个不仅不太聪明,而且不太可靠或自知的 AI。另一位用户的生动评论:“Gemini 是绝对的垃圾。你有没有过那种时刻,你只想举起双手说,‘他们在想什么?’” 概括了这种挫折感。本质上,Gemini 的产品集成和一致性问题让许多早期用户感到它半成品。
-
不显著的编码能力: 虽然不像一般问答那样广泛讨论,但有几位用户测试了 Gemini(Bard)的编码任务,发现其表现不佳。在 AI 论坛中,Gemini 的编码能力通常被评为低于 GPT-4,甚至低于 Claude。例如,一位用户简单地表示 “Claude 3.5 Sonnet 在编码方面明显优于 ChatGPT 4o……Gemini 在那种情况下绝对是垃圾”。共识是,Gemini 可以编写简单代码或解释基本算法,但在更复杂的问题上经常绊倒或产生错误代码。其缺乏广泛的开发工具集(例如,它没有 Code Interpreter 或强大的函数调用 等同)也意味着它不是程序员的首选。因此,虽然并非所有普通用户都关心代码,但这是该群体的一个限制。
-
移动设备限制: Gemini 作为 Google 助手的一部分在 Pixel 手机上推出(品牌为“Assistant with Bard”)。一些 Pixel 用户注意到将其用作语音助手替代品存在问题。与旧版 Google 助手相比,它有时无法准确接收语音提示或响应时间过长。还有关于需要选择加入并失去一些经典助手功能的评论。这创造了一种Gemini 在设备上的集成尚未完全准备好的印象,让 Google 生态系统的高级用户感到他们必须在智能助手和功能助手之间做出选择。
常见请求的功能或改进
-
显著提高准确性和推理能力: 用户对 Gemini 的首要改进要求是变得更聪明和更可靠。Reddit 反馈明确表示,Google 需要缩小答案质量的差距。用户期望 Gemini 利用 Google 的广泛信息访问来提供事实、直接的答案,而不是冗长或不正确的答案。因此,要求(通常以讽刺的方式表达)归结为:让它在一般知识和推理方面与 GPT-4 一样好或更好。 这包括更好地处理后续问题和复杂提示。基本上,“修复 Gemini 的大脑”——利用那些所谓的多模态训练优势,使其不再错过明显的细节。Google 可能已经听到了这一点:许多帖子比较了 ChatGPT 表现出色而 Gemini 失败的具体答案,这为改进提供了非正式的错误报告。
-
更好的集成和上下文意识: 用户希望 Gemini 实现无缝 Google 生态 系统助手的承诺。这意味着它应该正确地与 Gmail、Calendar、Docs、Drive 等接口。如果用户要求“总结我打开的文档”或“起草对我老板最后一封电子邮件的回复”,AI 应该做到——并且做到安全。目前,要求是 Google 启用这些功能并让 Gemini 实际识别何时可以执行此类任务。Bard 被宣传为可以连接到用户内容(在获得许可的情况下),因此用户实际上要求 Google“打开”或修复此集成。这是商业用户的一个关键功能。此外,在网络浏览方面:Bard(Gemini)可以搜索网络,但一些用户希望它更清楚地引用来源或更及时地纳入突发新闻。因此,改进 Gemini 的连接特性是一个常见请求。
-
简洁性控制: 鉴于冗长的抱怨,一些用户建议添加一个切换响应风格的功能。例如,一个*“简短模式”*,默认情况下 Gemini 给出简短、直截了当的答案,除非要求详细说明。相反,也许是一个“详细模式”适合那些想要非常全面答案的人。ChatGPT 通过用户提示隐含地允许其中一些(“保持简短”);对于 Gemini,用户感到即使他们没有要求详细说明,它也过度解释。因此,内置设置或更好地调整以在适当时生成简洁答案将是一个受欢迎的改进。本质上,调整冗长的刻度。
-
与 ChatGPT 的功能对等(编码、插件等): Reddit 上的高级用户明确比较功能。他们要求 Google 的 Gemini/Bard 提供类似于 ChatGPT 的 Code Interpreter 的代码执行沙箱,上传图像/PDF 进行分析的能力(因为 Gemini 是多模态的,用户希望实际提供自定义图像,而不仅仅是描述提供的图像)。另一个经常提到的功能是更好的会话内记忆——虽然 Bard 确实记住了一些过去的互动,但用户希望它像 ChatGPT 一样好地引用 早期上下文,甚至拥有像 ChatGPT 的聊天历史那样的持久会话存储,可以滚动查看和重新访问。基本上,Google 被要求赶上所有 ChatGPT Plus 用户拥有的生活质量功能:聊天历史、插件生态系统(或至少强大的第三方集成)、编码协助等。
-
移动应用和语音改进: 许多普通用户请求一个专用的 Bard/Gemini 移动应用程序(类似于 ChatGPT 移动应用程序)。依赖于 Web 界面或仅限于 Pixel 助手是有限的。一个跨 iOS/Android 的官方应用程序,具有语音输入、语音响应(以获得真正的助手感觉)和紧密集成可以大大改善用户体验。除此之外,Pixel 用户希望 Assistant with Bard 更快更实用——基本上,他们希望旧版 Google 助手的最佳功能(快速、精确的操作)与 Gemini 的智能相结合。例如,继续允许“Hey Google”智能家居语音命令,而不仅仅是聊天响应。Google 可以改进 Gemini 的语音模式,以真正取代传统助手而不失去功能。
-
透明度和控制: 一些用户要求 Bard 的来源更多的洞察力或一种微调其风格的方法。例如,显示 Bard 从哪个 Google 结果中提取信息(以验证准确性)——Bing Chat 就通过引用链接做到这一点。此外,由于 Bard 偶尔会产生错误信息,用户希望能够标记或纠正它,理想情况下 Bard 应该从这些反馈中学习。拥有一个简单的反馈机制(“不喜欢——这是不正确的,因为……”)可以快速改进模型,将增强用户对 Google 正在倾听的信心。基本上,功能使 AI 更像一个协作助手而不是一个黑盒子。
未满足的需求或用户群体
-
寻求可靠个人助手的用户: 具有讽刺意味的是,Google 目标的群体——希望强大个人助手的人——在当前形式的 Gemini 中感到最未被满足。切换到新 Bard 基于助手的早期采用者期望升级,但许多人觉得在实际意义上是降级。例如,如果有人希望语音助手准确回答琐事、设置提醒、控制设备并从他们的帐户中集成信息,Gemini 表现不佳。这让非常依赖助手提高生产力的繁忙专业人士或小工具爱好者感到他们的需求没有得到满足。一位用户评论说,如果 Pixel 的“Assistant with Bard”“超过 Google 助手”,他们会考虑付费,暗示它还没有。因此,这个群体仍在等待一个可靠、真正有帮助的 AI 助手——如果 Gemini 改进,他们会立即使用。
-
非母语英语使用者/本地化: Google 产品通常具有出色的本地化,但尚不清楚 Bard/Gemini 在推出时是否在所有语言中同样强大。一些国际用户报告说 Bard 用他们的母语回答的答案不够流利或有用,将他们推回到本地竞争对手。如果 Gemini 的训练数据或优化偏向英语,那么非英语用户未被满足。他们可能更喜欢 ChatGPT 或本地模型,这些模型明确优化了多语言能力。这是 Google 传统上可以擅长的领域(鉴于其翻译技术),但用户对此的反馈很少——可能表明 Gemini 尚未令这些社区惊艳。
-
企业客户(迄今为止): 大型组织尚未广泛采用 Bard/Gemini,基于公开讨论,通常是因为信任和能力差距。企业需要一致性、引用和与其工作流程的集成(Office 365 通过 MS Copilot 深度集成了 OpenAI 的技术)。Google 的等效产品(Duet AI with Gemini)仍在发展中。直到 Gemini/Bard 证明它可以可靠地起 草电子邮件、创建幻灯片或在 Google Sheets 中分析数据,达到或超过 GPT-4 的水平,企业用户会觉得 Google 的解决方案没有完全满足他们的需求。一些 r/Bard 上的专业人士的帖子是这样的:“我尝试过 Bard 进行工作任务,它不如 ChatGPT,所以我们会观望。” 这表明企业用户目前是未被满足的群体——他们想要一个可以插入 Google Workspace 并真正提高生产力的 AI,而无需不断验证输出。
-
在 Google 生态系统中偏好一站式解决方案的用户: 有一部分用户使用 Google 做所有事情(搜索、电子邮件、文档),如果它一样好,他们会乐意使用 Google AI 满足所有聊天机器人需求。现在,这些用户有些未被满足,因为他们最终在某些事情上使用 ChatGPT,而在其他事情上使用 Bard。他们可能会问 ChatGPT 事实问题,因为他们更信任其答案质量,但使用 Bard 进行其浏览或集成尝试。这种分裂的体验并不理想。这些用户真的只想留在一个应用程序/助手中。如果 Gemini 改进,他们会围绕它整合,但在此之前,他们的“一个助手统治一切”的用例没有得到满足。
-
Google Cloud 上的开发者/数据科学家: Google 确实通过其 Vertex AI 平台发布了 Gemini 模型供开发者使用。然而,早期报告和基准测试表明 Gemini(特别是可用的“Gemini Pro”模型)没有击败 GPT-4。偏好 Google Cloud 进行 AI 服务的开发者因此在模型质量方面有些未被满足——他们要么接受稍微逊色的模型,要么单独集成 OpenAI 的 API。这个企业开发者群体渴望一个强大的 Google 模型,以便他们可以将一切保持在一个堆栈中。直到 Gemini 的性能在某些领域明显超越,或者定价提供了令人信服的理由,它尚未完全满足这个群体的需求。
不同用户类型的感知差异
-
开发者/技术爱好者: 技术用户对 Gemini 寄予厚望(毕竟是 Google)。他们的感知在动手测试后迅速恶化。许多 Reddit 上的开发者运行基准测试或他们最喜欢的棘手问题通过 Gemini,发现它落后。一位程序员直言不讳地表示,“Gemini 是绝对的垃圾,就像 Llama 3.0 曾经是”,表明他们甚至将其排在一些开放模型之下。开发者对逻辑错误和冗长特别敏感。因此,当 Gemini 给出冗长但不正确的答案时,它很快失去了信誉。另一方面,开发者认识到 Google 的潜力;一些人抱有希望,“通过更多的微调,Gemini 会变得更好”,并在更新后定期重新测试它。目前,然而,大多数开发者认为它在几乎所有严肃任务中劣于 GPT-4(编码、复杂问题解决)。他们确实欣赏某些东西:例如,Gemini 可以访问实时信息(通过 Google 搜索)而无需插件,这对于最新查询很有用。开发者可能会使用 Bard 进行类似“搜索并总结最新论文 X”的事情,在那里它可以引用网络数据。但对于自包含的推理,他们倾向于其他模型。总之,技术爱好者将 Gemini 视为一个有前途的未完成作品,目前感觉落后一代。它尚未赢得他们的完全信任,他们经常发布并排比较,突出其错误以刺激 Google 改进它。
-
普通/日常用户: 包括那些通过手机或网络获得新 Bard 访问权限的普通用户,感受混杂。许多普通用户最初接触 Bard(Gemini),因为它是免费的,使用 Google 帐户很容易访问,而 GPT-4 是收费的。一些 普通用户实际上报告了简单用途的不错体验:例如,r/Bard 中的一位 Reddit 用户给出了积极的评价,指出 Gemini 帮助他们处理法律文件审查、文案写作,甚至是识别照片中的衣服尺码的有趣用例。他们说 “Gemini 一直是回答我问题的宝贵资源……最新信息……我已经习惯了付费版本,以至于我不记得免费版本的表现如何。”——这表明至少一些投入时间(和金钱)到 Bard Advanced 的普通用户发现它在日常生活中有用。这些用户倾向于将其用于实用、日常帮助,可能不会将模型推向极限。然而,许多其他普通用户(尤其是那些也尝试过 ChatGPT 的用户)感到失望。询问旅行建议、琐事或任务帮助的普通人发现 Bard 的答案不够清晰或有用。这里的感知是分裂的:品牌忠诚的 Google 用户与已经被 ChatGPT 宠坏的用户。前者群体,如果他们没有太多使用 ChatGPT,有时发现 Bard/Gemini 对他们的需求“相当不错”,并欣赏它与搜索集成且免费。后者群体几乎总是比较并发现 Gemini 不如人意。他们可能会说,“为什么我会使用 Bard,当 ChatGPT 90% 的时间更好?” 因此,普通用户的感知真的取决于他们的先前参考框架。那些对 AI 助手不熟悉的人可能会将 Gemini 评为一个有用的新奇事物;那些对竞争对手有经验的人则将其视为一个失望,“仍然表现得如此糟糕”,需要改进。
-
商业/专业用户: 许多专业人士在 Google Workspace 集成(Duet AI)推出时试用了 Bard。这个群体的感知是谨慎的怀疑。一方面,他们信任 Google 的企业承诺,关于数据隐私和集成(例如,通过 AI 编辑文档,从日历邀请中总结会议等)。另一方面,早期测试经常显示 Gemini 制造事实错误或提供通用输出,这对商业用途来说并不令人放心。例如,专业人士可能会要求 Bard 起草客户报告——如果 Bard 插入错误数据或弱见解,可能会比帮助更麻烦。因此,专业用户倾向于在非关键任务上试用 Bard,但仍依赖 GPT-4 或 Claude 进行重要输出。还有一种感知是 Google 在追赶:许多人认为 Bard“尚未准备好”,决定等待。一些积极的感知存在于实时数据查询等领域——例如,r/Bard 上的一位金融分析师指出 Bard 可以通过 Google 搜索提取最新市场信息,而 ChatGPT 除非启用插件,否则无法做到。因此,在当前数据是关键的领域,一些专业人士看到了优势。另一个细微差别:在 Google 生态系统中的人(例如,专门使用 Google Workspace 的公司)对其的看法略微更积极,因为 Bard/Gemini 是适合他们环境的选项。他们希望它改进,而不是切换到完全不同的生态系统。总之,商业用户将 Gemini 视为潜在非常有用(鉴于 Google 的数据和工具集成),但截至 2025 年初,它尚未赢得完全信任。他们将其视为“尚未完全准备好的新竞争者”——值得关注,但尚未成为关键任务的首选。Google 的声誉为这个群体赢得了一些耐心,但不是无限的;如果 Gemini 没有显著改进,专业人士可能不会广泛采用它,而是坚持使用其他解决方案。
开源 LLMs(例如基于 LLaMA 的模型)
常见痛点和限制
-
硬件和设置要求: 与云聊天机器人不同,开源 LLMs 通常需要用户在本地硬件或服务器上运行它们。这立即带来了一个痛点:许多模型(例如,70 亿参数的 LLaMA 模型)需要一个强大的 GPU 和大量 VRAM 才能顺利运行。正如一位 Reddit 用户简洁地说,“在大多数消费者硬件上运行本地 LLMs 不会有复杂开发所需的精度。” 对于只有 8GB 或 16GB GPU(或仅 CPU)的普通人来说,运行高质量模型可能很慢或根本不可行。用户可能会求助于适合的小型模型,但这些模型通常会产生较低质量的输出(“更愚蠢”的响应)。设置的复杂性是另一个问题——安装模型权重、设置环境(如 Oobabooga 或 LangChain)、管理标记化库等,对于非开发者来说可能是令人生畏的。即使是技术娴熟的用户也描述它为跟上新模型版本、GPU 驱动程序怪癖等的麻烦。一篇题为“说真的,你如何实际使用本地 LLMs?”的帖子中,人们分享说许多模型*“要么表现不佳,要么在我的硬件上运行不顺利”*,并寻求实际建议。
-
性能低于最先进的封闭模型: 开源模型取得了快速进展,但截至 2025 年,许多用户注意到它们在复杂推理、编码和事实准确性方面仍落后于顶级专有模型(GPT-4、Claude)。一个生动的例子:r/LocalLLaMA 上的一位用户在其母语中比较输出并说 “我尝试过的其他模型都失败了……它们甚至接近不了 [GPT-4]。ChatGPT 4 在写作方面绝对令人惊叹”。这种情绪广泛存在:虽然较小的开放模型(如微调的 13B 或 7B)对于其大小来说令人印象深刻,但它们在需要深刻理解或多步骤逻辑的任务中表现不佳。即使是较大的开放模型(65B、70B)接近 GPT-3.5 水平,仍然可能在 GPT-4 处理的棘手问题上绊倒。用户观察到开放模型中更多的幻觉和错误,尤其是在利基知识或提示略微偏离训练分布时。因此,原始能力的差距是一个痛点——使用本地模型时必须降低期望,这对于习惯于 ChatGPT 可靠性的人来说可能令人沮丧。
-
有限的上下文长度: 大多数开源 LLMs 传统上具有较小的上下文窗口(2048 个标记,可能 4k 个标记),与 ChatGPT 或 Claude 提供的相比。一些较新的微调和架构正在扩展这一点(例如,有 LLaMA-2 的 8K 或 16K 标记版本,研究如 MPT-7B 具有 16K 上下文)。然而,非常长上下文开放模型的实际使用仍处于早期阶段。这意味着本地模型用户面临类似的记忆问题——除非他们实施外部记忆方案(如用于检索的向量数据库),否则模型会忘记对话或文本的早期部分。在 Reddit 讨论中,用户经常提到必须手动总结或截断历史以保持在限制内,这很费力。这是一个显著的限制,特别是因为专有模型正在进一步推动上下文长度(如 Claude 的 100k)。
-
某些模型中缺乏微调的指令遵循: 虽然许多开放模型经过指令调优(Alpaca、LLaMA-2-Chat 等),但并非所有模型都像 ChatGPT 那样经过严格的 RLHF 训练。这可能导致本地模型有时对指令或系统提示的响应较差。例如,原始 LLaMA 模型只会继续文本,完全忽略用户提示格式——必须使用聊天调优版本。即便如此,调优数据的质量也很重要。一些 Reddit 用户注意到某些指令模型要么过度拒绝(因为它们经过重安全调优,例如一些 Facebook LLaMA-2 聊天会回复类似于 ChatGPT 的政策拒绝)或表现不佳(不精确遵循查询)。GitHub 上关于 CodeLlama-70B-instruct 的用户抱怨说它 “被审查得基本上无用”,显示了对开放模型采用相同严格性而没有关闭它的替代方案的沮丧。因此,根据选择的模型,用户可能会面临要么模型过于松散(并给出不相关的延续),要么过于严格/受限。获得良好的指令遵循行为通常需要尝试多个微调。
-
碎片化和快速变化: 开源 LLM 领域发展极快,每周都有新模型和技术(量化、LoRA 微调等)出现。虽然令人兴奋,但对于不想不断调整设置的用户来说,这是一个痛点。上个月有效的东西可能在这个月就过时了。一位 Reddit 用户幽默地将其比作狂野西部,称社区正在*“寻找‘假装’它感觉像是类似 [GPT-4]”*,但通常这些是权宜之计。对于普通用户来说,从数十个模型名称(Vicuna、Alpaca、Mythomax、Mistral 等)中选择是令人生畏的,每个都有多个版本和分支。没有一个统一的平台,用户依赖社区指南——这可能会令人困惑——来决定哪个模型适合他们的需求。工具和模型质量的这种碎片化是一个间接的痛点:它提高了进入门槛和维护努力。
-
没有官方支持或保证: 当本地 LLM 出现问题时(例如,模型输出冒犯性内容或崩溃),没有客户支持可以求助。用户只能依靠自己或社区帮助。对于爱好者来说,这很好,但对于专业用途来说,这种缺乏正式支持是一个障碍。一些在公司工作的 Reddit 用户指出,虽然他们喜欢开放模型的隐私,但他们担心如果模型出现故障或需要更新时该找谁。基本上,使用开源是 DIY——既是优点也是缺点。
常见请求的功能或改进
-
更好的效率(量化和优化): 社区的一个主要关注点(因此是一个常见请求)是让大型模型在较小的硬件上运行。用户热切期待能够让 70B 模型像 7B 模型一样顺畅运行的技术。已经有 4 位或 8 位量化,线程经常讨论新的方法,如 AWQ 或类似 RNN 的适配器。一位用户引用研究表明改进的量化可以在较低的位精度下保持质量。愿望本质上是:“让我在我的 PC 上运行一个 GPT-4 级别的模型而不卡顿。” 每一个接近的突破(如更高效的变压器架构或 GPU 卸载到 CPU)都受到庆祝。因此,对更好的工具(如下一代 llama.cpp 或其他加速器)的请求很常见——任何减少硬件障碍的东西。
-
更大和更好的模型(缩小质量差距): 社区不断推动新的最先进开放模型。用户对 LLaMA 3 等项目(如果/当 Meta 发布一个)或可能产生 100B+ 开放模型的合作感到兴奋。许多人对*“到今年年底我们将在我们的机器上拥有本地 GPT-4 模型”*感到乐观。在那句话中,用户押注 LLaMA 3 加上微调可以提供 GPT-4 级别的性能。因此,可以说“请求的功能”只是:更多权重,更多训练——社区希望科技公司或研究小组开源更大、更好的模型,以便他们可以本地运行它们。每次新模型(如 Mistral 7B 或 Falcon 40B)出现时,用户都会测试它是否击败了上一个。最终请求是一个真正与 GPT-4 竞争的开放模型,消除了那些可以托管它的人对封闭 AI 的需求。
-
用户友好的界面和一键设置: 为了扩大采用,许多用户要求更简单的方法来使用本地 LLMs。这包括 GUI 界面,用户可以在其中下载模型并开始聊天,而无需命令行工作。有项目正在解决这一问题(Oobabooga 的 text-generation-webui、LM Studio 等),但新手仍然感到困难。最近的 Reddit 线 程可能会问,“如何在本地设置一个类似 ChatGPT 的 LLM?”,用户请求分步指南。因此,一个频繁的愿望是简化安装——也许是一个官方应用程序或 Docker 容器,捆绑所有需要的东西,或者集成到流行软件中(想象一个扩展,将本地 LLM 引入 VSCode 或 Chrome 中)。基本上,减少技术开销,以便不太精通技术的人也能享受私人 LLMs。
-
更长的上下文和本地模型的记忆: 开源开发者和用户正在尝试扩展上下文(通过位置嵌入调整或专用模型)。许多用户请求新模型默认具有更长的上下文窗口——例如,一个具有 32k 上下文的开放模型将非常有吸引力。在此之前,一些人依赖于外部“检索”解决方案(LangChain 与向量存储一起提供相关信息到提示中)。r/LocalLLaMA 上的用户经常讨论他们的伪长上下文设置,但也表达了对模型本身处理更多的愿望。因此,他们寻求的改进是:“给我们一个本地 Claude——一个具有数万标记上下文的东西。” 这将允许他们在本地进行书籍分析、长对话或大型代码库工作。
-
改进的微调工具和模型定制: 另一个要求是使微调或个性化模型更容易。虽然存在用于在新数据上微调模型的库(Alpaca 用 52K 指令完成,低秩适应(LoRA)允许有限计算的微调等),但仍然有些复杂。用户希望有更多可访问的工具,例如,提供他们所有的写作或公司文档给模型并让其适应。LoRA 等项目是朝这个方向迈出的一步,但更自动化的解决方案(也许是一个向导 UI:“在这里上传您的文档以进行微调”)将受到欢迎。基本上,将 OpenAI 通过 API 提供的能力(在自定义数据上微调模型)带到本地领域,以用户友好的方式。
-
社区驱动的安全和审核工 具: 鉴于开放模型可以产生任何内容(包括不允许的内容),一些用户请求或开始开发用户可以切换或调整的审核层。这有点小众,但想法是拥有可选的过滤器,以捕捉如果有人想要的极端输出(例如,如果孩子或学生可能在本地与模型互动)。由于开放模型不会自行停止,拥有一个插件或脚本来扫描输出以查找极端内容可能会有用。社区中的一些人正在开发“道德护栏”,您可以选择加入,这很有趣,因为它赋予用户控制权。因此,围绕控制模型行为的功能——无论是为了使其更安全还是移除安全——经常被讨论和请求,具体取决于用户的目标。
未满足的需求或用户群体
-
重视隐私的非技术用户: 目前,本地 LLMs 主要迎合技术爱好者。一个不精通计算机但关心数据隐私的人(例如,想要 AI 帮助分析笔记但无法将其上传到云的心理治疗师)未被满足。他们需要一个简单且安全的本地解决方案,但复杂性是一个障碍。在本地 AI 变得像安装应用程序一样容易之前,这些用户仍然处于边缘——要么妥协使用云 AI 并冒隐私风险,要么根本不使用 AI。这个群体——注重隐私但不太技术的个人——显然未被当前的开源产品满足。
-
预算有限的用户在互联网不佳的地区: 另一个受益于本地模型的群体是没有可靠互联网或无法负担 API 调用的人。如果有人可以在低端机器上获得一个不错的离线聊天机器人,那将是有价值的(想象一下偏远地区的教育工作者或学生)。目前,离线质量可能不够好,除非你有高端 PC。有一些非常小的模型可以在手机上运行,但它们的能力有限。因此,需要离线 AI 的用户——由于连接或成本——是一个开源可以服务的群体,但当前的模型可能在弱设备上太慢。他们将随着模型变得更高效而得到更好的服务。
-
NSFW 或专业内容的创作者: 开放模型流行的一个原因是它们可以不受审查,支持封闭 AI 禁止的用例(色情角色扮演、探索暴力小说等)。虽然这个“未被满足”的群体有争议,但它是真实存在的——许多 Reddit 社区(例如,AI Dungeon 或角色聊天机器人)在 OpenAI 和其他公司收紧内容规则后转向本地模型。这些用户现在部分依赖于开放模型,但他们通常必须找到或微调专门用于此目的的模型(如 Mythomax 用于讲故事等)。他们偶尔会抱怨许多开放模型仍然有安全训练的残余(拒绝某些请求)。因此,他们希望明确调整用于不受审查创意的模型。可以说他们正在被服务(因为他们有解决方案),但不是通过主流默认设置——他们依赖于小众社区分支。
-
语言和文化社区: 开源模型可以针对特定语言或本地知识进行微调,但大多数知名模型都是以英语为中心的。来自非英语社区的用户可能未被满足,因为 OpenAI 或开放模型都不能完美地满足他们的语言/俚语/文化背景。有努力(如 BLOOM 和 XLM 变体)构建多语言开放模型,本地用户请求西班牙语、阿拉伯语等语言的微调。如果有人想要一个在他们的区域方言中流利或在他们的语言中了解最新本地新闻的聊天机器人,主要模型可能无法提供。这是一个开放模型可以很好服务的群体(通过社区微调)——在 Reddit 上我们确实看到 人们合作,例如,开发一个日语调优的 LLM。但在此类模型普遍可用且高质量之前,这些用户仍然有些未被满足。
-
小企业和自托管者: 一些小公司或高级用户希望在内部部署 AI 模型,以避免发送数据出去。他们在某种程度上被开源服务,因为这是可能的,但他们在确保质量和维护方面面临挑战。与大企业不同(可以支付 OpenAI 或托管解决方案),小企业可能尝试自托管以节省成本并保护知识产权。当他们这样做时,他们可能会发现模型不如预期,或者很难保持更新。这个群体处于中间地带——不够大,无法从头开始构建自己的模型,但足够有能力尝试使用开放模型。他们经常在 Reddit 上分享关于哪个模型适合客户服务机器人的提示等。他们可以从更多基于开放模型的即用型解决方案中受益(一些初创公司正在这个领域出现)。
不同用户类型的感知差异
-
开发者/爱好者: 这个群体是 Reddit 上开源 LLM 社区的支柱(例如,r/LocalLLaMA 充满了他们)。他们的感知通常是乐观和热情的。他们像收藏家一样交换模型和基准。许多开发者对开放模型在短时间内取得的进展感到兴奋。例如,一位用户分享说,一个泄露的 70B 模型经过微调(Miqu-1 70B)感觉*“对于我需要的东西来说与 GPT-4 相当……我几个月前取消了我的 ChatGPT+ 订阅,从未回头”。这体现了设法定制一个满足个人用例的开放解决方案的开发者子集——他们将开放模型视为解放和节省成本。另 一方面,开发者对限制有清醒的认识。另一位用户回应说他们很想取消 ChatGPT,“如果有任何东西可以与 ChatGPT 4 相比……[但]其他模型都失败了……它们接近不了”*,特别提到创意写作质量。因此,在这个群体中,感知因他们使用 AI 的目的而异。一般来说:如果任务是头脑风暴或编码,容忍一些错误,许多开发者已经对本地模型感到满意。如果任务是高风险准确性或顶级创意,他们承认开放模型尚未达到。但即使承认不足,语气是充满希望的——他们经常说“我们几乎到了”或只是时间问题。重要的是,开发者享受开放模型的自由和控制。他们可以调整、微调,甚至窥探模型的工作原理,而封闭的 API 不允许这样做。这培养了一种社区所有权感。因此,他们的感知是开放 LLMs 是一个值得的努力,快速改进,并在哲学上与技术自由一致。他们接受粗糙的边缘作为这种自由的代价。
-
普通用户: 纯普通用户(不是特别注重隐私或技术)通常根本不麻烦使用开源 LLMs——如果他们这样做,也是通过一些简化的应用程序。因此,他们的感知有些缺席或由传闻塑造。如果一个非技术人员尝试一个本地 LLM,它很慢或给出奇怪的答案,他们可能会得出结论,它不值得麻烦。例如,一个游戏玩家或学生可能会出于乐趣尝试一个 7B 模型,看到它与 ChatGPT 相比表现不佳,然后放弃。因此,在普通观察者中,开放模型的感知可能是*“极客的玩具”*或仅适用于那些真正关心不使用云服务的人。这种情况正在慢慢改变,因为更多用户友好的应用程序出现,但总体上典型的普通用户在 Reddit 上并不热衷于开放 LLMs——他们通常在讨论 ChatGPT 或 Bard,因为这些是可访问的。也就是说,主要 想要不受审查角色扮演的普通用户子集已经学会下载类似 TavernAI 的东西,并且他们将其视为适合那个特定用途的好东西。他们甚至可能不知道模型的名称(只知道它是一个“不会评判我的不受审查的 AI”)。总之,普通用户的平均感知要么是冷漠(他们没有尝试过),要么是开放源码对于日常使用来说有点太原始和复杂。
-
商业/专业用户: 专业用户对开放 LLMs 的态度是务实的。一些