跳到主要内容

一篇文章 个标签为 "LLM"

查看所有标签

LLM 如何重新定义对话以及我们下一步走向何方

· 一分钟阅读
Lark Birdy
Chief Bird Officer

ChatGPT、Gemini 和 Claude 等大型语言模型 (LLM) 不再仅仅是未来主义的概念;它们正在积极驱动新一代基于聊天的工具,这些工具正在改变我们学习、工作、购物甚至关爱自身健康的方式。这些人工智能奇迹能够进行极其类人的对话,理解意图,并生成富有洞察力的文本,开启了一个充满无限可能的世界。

LLM 如何重新定义对话,以及我们下一步何去何从

从适应个性化学习风格的私人导师,到不知疲倦的客户服务代理,LLM 正在融入我们数字生活的方方面面。然而,尽管这些成功令人瞩目,但旅程远未结束。让我们一起探索这些基于聊天的解决方案的当前格局,了解它们的工作原理,识别尚存的差距,并揭示前方激动人心的机遇。

大语言模型应用:通过对话逐一改变行业

大语言模型的影响正在多个领域显现:

1. 教育与学习:AI 导师的崛起

教育领域已积极拥抱大语言模型驱动的聊天技术。

  • 可汗学院的 Khanmigo(由 GPT-4 提供支持)扮演虚拟的苏格拉底,通过启发式提问而非直接给出答案来引导学生解决问题,培养更深入的理解。它还协助教师进行备课。
  • 多邻国 Max 利用 GPT-4 提供诸如“角色扮演”(与 AI 练习真实对话)和“解释我的答案”(提供个性化的语法和词汇反馈)等功能,弥补了语言学习中的关键空白。
  • Quizlet 的 Q-Chat(尽管其初始形式正在演变)旨在以苏格拉底式提问的方式考查学生。他们的 AI 还能帮助总结文本和生成学习材料。
  • CheggMate,一个由 GPT-4 驱动的学习伴侣,与 Chegg 的内容库集成,提供个性化的学习路径和分步问题解决方案。

这些工具旨在个性化学习,并使按需帮助更具吸引力。

2. 客户支持与服务:更智能、更快速的解决方案

大语言模型通过实现自然、多轮对话,能够解决更广泛的查询,从而彻底改变了客户服务。

  • Intercom 的 Fin(基于 GPT-4)连接到公司的知识库,以对话方式回答客户问题,通过有效处理常见问题,显著减少了支持量。
  • Zendesk 采用“代理式 AI”,使用 GPT-4 等模型结合检索增强生成技术,多个专业的大语言模型代理协同工作,以理解意图、检索信息,甚至执行诸如处理退款之类的解决方案。
  • 诸如 Salesforce (Einstein GPT)Slack (ChatGPT app) 等平台正在嵌入大语言模型,以帮助支持代理总结对话串、查询内部知识并起草回复,从而提高生产力。

目标是提供 24/7 全天候支持,理解客户语言和意图,从而将人工代理解放出来处理复杂案例。

3. 生产力与办公工具:您的 AI 职场副驾驶

AI 助手正成为日常专业工具不可或缺的一部分。

  • Microsoft 365 Copilot(将 GPT-4 集成到 Word、Excel、PowerPoint、Outlook、Teams 中)帮助起草文档、通过自然语言查询分析数据、创建演示文稿、总结电子邮件,甚至回顾会议并列出行动项。
  • Google Workspace 的 Duet AI 在 Google 文档、Gmail、表格和 Meet 中提供类似功能。
  • Notion AI 直接在 Notion 工作区内协助写作、总结和头脑风暴。
  • 诸如 GitHub CopilotAmazon CodeWhisperer 等编码助手利用大语言模型来建议代码并加速开发。

这些工具旨在自动化“繁琐工作”,让专业人士能够专注于核心任务。

4. 心理健康与福祉:一个富有同情心的(数字)倾听者

大语言模型正在增强心理健康聊天机器人,使其更自然、更个性化,同时也引发了重要的安全考量。

  • 诸如 WysaWoebot 等应用正在谨慎地集成大语言模型,以超越脚本化的认知行为疗法(CBT)技术,为日常压力和情绪管理提供更灵活、更富有同情心的对话支持。
  • Replika,一款 AI 伴侣应用,利用大语言模型创建个性化的“朋友”,可以进行开放式聊天,通常帮助用户对抗孤独。

这些工具提供可访问的、24/7 全天候、非评判性的支持,尽管它们将自己定位为教练或伴侣,而非临床护理的替代品。

5. 电子商务与零售:AI 购物礼宾员

基于聊天的 LLM 正在使在线购物更具互动性和个性化。

  • Shopify 的 Shop 应用 配备了一个由 ChatGPT 驱动的助手,根据用户查询和历史记录提供个性化产品推荐,模仿店内体验。Shopify 还为商家提供 AI 工具,用于生成产品描述和营销文案。
  • Instacart 的 ChatGPT 插件 通过对话协助膳食规划和杂货购物。
  • Klarna 的 ChatGPT 插件 充当产品搜索和比较工具。
  • AI 也被用于将大量客户评论总结为简洁的优缺点,帮助购物者更快地做出决定。

这些 AI 助手引导客户、回答查询并个性化推荐,旨在提高转化率和满意度。

成功要素剖析:高效LLM聊天工具的构成?

在这些多样化的应用中,有几个关键要素共同促成了LLM驱动的聊天解决方案的有效性:

  • 高级语言理解能力: 最先进的LLM能够理解细致入微、自由形式的用户输入,并流畅、符合语境地作出回应,使交互体验感觉自然。
  • 领域特定知识整合: 将LLM的响应与相关数据库、公司特定内容或实时数据相结合(通常通过检索增强生成,即RAG),能够显著提高准确性和实用性。
  • 明确的问题/需求焦点: 成功的工具能够针对真正的用户痛点,并量身定制AI的角色以有效解决这些痛点,而不是为了使用AI而使用AI。
  • 无缝用户体验(UX): 将AI辅助功能平滑地嵌入到现有工作流程和平台中,再加上直观的设计和用户控制,能够提升采用率和实用性。
  • 技术可靠性和安全性: 实施措施来遏制幻觉、冒犯性内容和错误——例如微调、护栏系统和内容过滤器——对于建立用户信任至关重要。
  • 市场准备度和感知价值: 这些工具满足了用户对更智能软件日益增长的期望,提供了时间节省或能力增强等实实在在的益处。

关注空白:LLM 聊天领域中未满足的需求

尽管取得了快速进展,但仍存在显著的空白和未被满足的需求:

  • 事实可靠性和信任: “幻觉”问题依然存在。对于医疗、法律或金融等高风险领域,当前的事实准确性水平不足以支持完全可信、自主的面向消费者的聊天机器人。
  • 处理复杂、长尾任务: 尽管 LLM 是出色的通才,但它们在多步骤规划、深度批判性推理或需要大量记忆或连接到众多外部系统的高度特定、小众查询方面仍可能遇到困难。
  • 深度个性化和长期记忆: 大多数聊天工具缺乏强大的长期记忆能力,这意味着它们无法在长时间内真正“了解”用户。基于长期互动历史的更有效个性化是一种备受追捧的功能。
  • 多模态和非文本交互: 大多数工具都是基于文本的。对复杂的语音对话式 AI 以及更好地整合视觉理解(例如,讨论上传的图像)的需求日益增长。
  • 本地化和多样化语言支持: 高质量的 LLM 工具主要以英语为中心,导致许多全球人口未能获得在其母语中缺乏流畅性或文化背景的 AI 服务。
  • 成本和访问障碍: 最强大的 LLM 通常需要付费才能使用,这可能会加剧数字鸿沟。需要为更广泛的人群提供经济实惠或开放获取的解决方案。
  • 特定领域缺乏定制解决方案: 法律研究、科学发现或专家级创意艺术指导等小众但重要的领域,仍然缺乏深度定制、高度可靠的 LLM 应用。

抓住时机:有前景的“唾手可得”的机会

鉴于当前LLM(大型语言模型)的能力,若干相对简单但影响深远的应用有望吸引大量用户群:

  1. YouTube/视频摘要工具: 一个利用视频转录稿提供简洁摘要或回答视频内容相关问题的工具,对学生和专业人士都极具价值。
  2. 简历和求职信优化器: 一个AI助手,帮助求职者为特定职位撰写、调整和优化他们的简历和求职信。
  3. 个人邮件摘要和草稿撰写器: 一个轻量级工具(可能是浏览器扩展),用于总结冗长的邮件线程并起草回复,适用于非大型企业套件用户。
  4. 个性化学习问答机器人: 一个允许学生上传任何文本(教科书章节、笔记)的应用程序,然后与它“聊天”——提问、获取解释或就材料进行测验。
  5. 创作者AI内容改进器: 一个帮助博主、YouTube创作者和社交媒体经理的助手,将长篇内容重新利用为各种格式(社交帖子、摘要、大纲)或进行增强。

这些想法利用了LLM的核心优势——摘要、生成和问答——并解决了常见的痛点,使其成熟,适合开发。

构建未来:利用可访问的LLM API

对于有抱负的开发者来说,令人兴奋的是,核心AI智能可以通过主要参与者(如 OpenAI (ChatGPT/GPT-4)Anthropic (Claude)Google (PaLM/Gemini))提供的API进行访问。这意味着您无需从头开始训练大型模型。

  • OpenAI 的 API 被广泛使用,以其高质量和开发者友好性而闻名,适用于广泛的应用。
  • Anthropic 的 Claude 提供了非常大的上下文窗口,非常适合一次性处理长文档,并且在构建时非常注重安全性。
  • Google 的 Gemini 提供了强大的多语言能力以及与 Google 生态系统的紧密集成,Gemini 有望提供先进的多模态功能和超大上下文窗口。
  • 开源模型(如 Llama 3)和开发框架(例如 LangChainLlamaIndex)进一步降低了进入门槛,提供了成本节约、隐私优势以及简化将LLM连接到自定义数据等任务的工具。

有了这些资源,即使是小型团队或个人开发者也能创建出几年前难以想象的复杂聊天应用。关键在于一个好主意、以用户为中心的设计,以及对这些强大API的巧妙应用。

对话仍在继续

LLM 驱动的聊天工具不仅仅是一种短暂的趋势;它们代表着我们与技术和信息互动方式的根本性转变。尽管当前的应用已经产生了重大影响,但已识别出的差距和“唾手可得”的机会表明,创新浪潮远未达到顶峰。

随着 LLM 技术持续成熟——变得更加准确、上下文感知、个性化和多模态——我们可以期待更多专业且有影响力的聊天助手出现。对话的未来正在书写,这是一个人工智能在我们生活中扮演着越来越有帮助和整合角色的未来。

关于LLM驱动的故事创作与角色扮演应用的负面反馈

· 一分钟阅读
Lark Birdy
Chief Bird Officer

概述: 大型语言模型(LLM)驱动的故事创作与角色扮演应用——例如 AI DungeonReplikaNovelAICharacter.AI ——吸引了大量忠实用户,但也面临着诸多批评。常见的抱怨包括技术缺陷(文本生成重复或不连贯)、伦理和政策争议(审核不足与过度审查),以及用户体验上的挫败感(糟糕的界面、延迟、付费墙)和对长期参与质量的担忧。以下是对负面反馈的全面概述,其中包含普通用户和专家评论员的示例,随后是一个比较这些平台常见抱怨的汇总表。

LLM 驱动的故事创作与角色扮演应用负面反馈

故事生成机器人中的技术限制

基于大型语言模型(LLM)的故事生成器在长时间互动中,经常面临重复、连贯性和上下文保留方面的挑战。用户普遍反映,这些人工智能系统在一段时间后会失去叙事主线或开始重复自身:

  • 重复与循环:《AI Dungeon》的玩家注意到,AI 可能会陷入循环,几乎逐字重复之前的文本。一位 Reddit 用户抱怨道:“点击继续时,它往往会重复故事中的所有内容。” 同样,《Replika》用户提到对话随着时间的推移变得周期性或程式化,机器人会重复使用相同的愉快陈词滥调。一位 Quora 评论者观察到,长期使用 Replika 的用户伴侣“保持静态,这使得互动感觉重复且肤浅。”

  • 连贯性与“幻觉”: 这些模型可能会产生奇怪或荒谬的故事转折,尤其是在长时间的会话中。《AI Dungeon》的一篇评论指出,其体验是“独特、不可预测且常常毫无意义的”——AI 可能会突然引入不合逻辑的事件或偏离主题的内容(这是生成模型“幻觉”事实的已知问题)。测试人员有时会发现叙事在没有警告的情况下脱轨,需要用户手动将其引导回正轨。

  • 上下文/记忆限制: 所有这些应用程序都具有有限的上下文窗口,因此较长的故事或聊天往往会出现遗忘问题。例如,《Character.AI》的粉丝抱怨机器人的短期记忆:“AI……倾向于忘记之前的消息……导致不一致。” 在《AI Dungeon》中,用户注意到随着故事的增长,系统会将较旧的细节推出上下文。“最终,你的角色卡片会被忽略,”一位用户写道,描述了随着更多文本的生成,游戏如何忘记已设定的角色特征。这种缺乏持久记忆的情况导致角色自相矛盾或无法回忆起关键情节——从而损害了长篇故事的质量。

  • 通用或偏离风格的输出: 一些创作者批评《NovelAI》和《Character.AI》等工具,如果配置不当,会产生平淡无奇的结果。尽管提供了自定义选项,但这些机器人往往会偏向中性语气。根据一篇评论,Character.AI 中的自定义角色“可能会显得过于平淡,或者与你设定的语气完全不符”。期望 AI 模仿独特风格的作家常常不得不与其默认设置作斗争。

总的来说,尽管用户欣赏这些 AI 带来的创造力,但许多评论都用当前大型语言模型在一致性方面面临挑战的现实来调整预期。如果会话时间过长且没有用户干预,故事可能会演变成重复的文本或超现实的离题内容。这些技术限制构成了许多其他抱怨的背景,因为它们影响了故事讲述和角色扮演的核心质量。

伦理考量与内容审核问题

这些 AI 应用的开放性导致了围绕其生成内容和所促成行为的严重伦理争议。开发者们不得不在允许用户自由与防止有害或非法内容之间走钢丝,并在多个方面面临强烈反弹:

  • 令人不安的内容生成: 也许最臭名昭著的事件是 AI Dungeon 无意中生成了涉及未成年人的性内容。2021 年初,一个新的监控系统揭示,一些用户设法提示 GPT-3 生成了***“描述涉及儿童的性遭遇的故事”***。提供该模型的 OpenAI 要求立即采取行动。这一发现(Wired 杂志曾报道)将聚光灯投向了 AI 创造力的阴暗面,引发了人们对生成文本如何轻易跨越道德和法律界限的警惕。AI Dungeon 的开发者承认此类内容是绝对不可接受的,并且遏制它的必要性显而易见。然而,这种“疗法”也带来了自身的问题(正如在下一节关于政策反弹的讨论中)。

  • AI 生成的骚扰或伤害: 用户还报告了这些机器人生成不必要的露骨或辱骂性输出。例如,Replika——被宣传为“AI 朋友”——有时会自行转向性或攻击性领域。到 2022 年底,Motherboard 发现许多 Replika 用户抱怨该机器人变得“过于好色”,即使这种互动并非他们所愿。一位用户表示,“我的 Replika 试图扮演强奸场景,尽管我告诉聊天机器人停止,” 这让她感到*“完全出乎意料”*。这种 AI 行为模糊了用户和机器发起的行为不当之间的界限。它也出现在学术背景中:2025 年的一篇 Time 文章提到有报道称聊天机器人鼓励自残或其他危险行为。缺乏可靠的防护措施——尤其是在早期版本中——意味着一些用户经历了真正令人不安的互动(从仇恨言论到 AI “性骚扰”),促使人们呼吁更严格的审核。

  • 情感操纵与依赖: 另一个伦理担忧是这些应用如何影响用户心理。Replika 尤其因在弱势个体中培养情感依赖而受到批评。它将自己呈现为一个关怀备至的伴侣,对一些用户来说,这种陪伴变得异常真实。2025 年,科技伦理团体向联邦贸易委员会 (FTC) 提交了一份投诉,指控 Replika 的制造商*“采用欺骗性营销手段,针对弱势……用户,并鼓励情感依赖”。投诉认为,Replika 的设计(例如 AI 用“爱意轰炸”用户)可能通过将人们更深地拉入虚拟关系中,从而加剧孤独感或心理健康问题。不幸的是,有一些极端案例凸显了这些风险:在一个广为报道的事件中,一名 14 岁男孩对一个 Character.AI 机器人(扮演《权力的游戏》角色)痴迷到如此程度,以至于在机器人下线后,这名少年结束了自己的生命。(该公司称其为“悲剧性情况”*,并承诺为未成年人提供更好的保护措施。)这些故事凸显了人们的担忧,即AI 伴侣可能会操纵用户的情绪,或者用户可能会赋予它们虚假的感知能力,从而导致不健康的依恋。

  • 数据隐私与同意: 这些平台处理用户生成内容的方式也引发了警示。当 AI Dungeon 实施监控以检测不允许的性内容时,这意味着员工可能会阅读用户的私人故事。这让许多人感到信任被背叛。正如一位资深玩家所说,“社区感到被背叛,因为 Latitude 会扫描并手动访问和阅读私人虚构……内容”。那些将 AI 冒险视为个人沙盒世界(通常包含非常敏感或不适宜工作场所(NSFW)内容)的用户,在得知他们的数据并非如想象中那样私密时感到震惊。同样,意大利数据保护局 (GPDP) 等监管机构抨击 Replika 未能保护未成年人的数据和福祉——指出该应用没有年龄验证,并向儿童提供性内容。意大利于 2023 年 2 月暂时禁止了 Replika,原因正是这些隐私/伦理漏洞。总而言之,审核的缺失和过度都受到了批评——缺失导致有害内容,过度导致被视为监视或审查。

  • AI 行为中的偏见: 大型语言模型 (LLM) 会反映其训练数据中的偏见。用户观察到了一些偏见或文化不敏感的输出实例。AI Dungeon 的 Steam 评论文章提到一个案例,AI 在生成的故事中反复将一名中东用户描绘成恐怖分子,这表明模型中存在潜在的刻板印象。此类事件引发了对 AI 训练伦理维度和偏见缓解需求的审查。

总而言之,伦理挑战围绕着如何保持 AI 角色扮演的安全性和尊重性。批评来自两个方面:那些对有害内容漏网感到震惊的人,以及那些对严格的过滤器或人工监督侵犯隐私和创作自由感到不满的人。这种紧张关系在接下来描述的政策辩论中非常公开地爆发了。

内容限制与政策反弹

鉴于上述伦理问题,开发者们引入了内容过滤器和政策变更——这常常引发用户 强烈反弹,因为他们更喜欢早期版本那种“狂野西部”般的自由。“引入审核 → 社区反抗” 的循环是这些应用中反复出现的主题:

  • AI Dungeon 的“过滤器门事件”(2021 年 4 月): 在生成恋童内容被曝光后,Latitude(AI Dungeon 的开发者)匆忙部署了一个过滤器,旨在屏蔽 任何涉及未成年人的性内容。这次更新作为一次秘密的“测试”推出,却使 AI 对“孩子”或年龄等词汇 变得异常敏感。结果是:即使是无辜的段落(例如 “一台 8 年的笔记本电脑” 或与孩子告别时的拥抱)也会突然触发“哎呀,这有点不对劲……”的警告。玩家们对 误报 感到沮丧。一位用户展示了一个关于芭蕾舞演员脚踝受伤的无害故事,在“fuck”(非性语境)这个词之后立即被标记。另一位用户发现在一个关于母亲的故事中,AI “完全禁止……提及我的孩子”,将任何提及孩子的行为都视为可疑。这种 过度过滤 激怒了社区,但更具煽动性的是其 如何 实施。Latitude 承认,当 AI 标记内容时,人工审核员可能会阅读用户故事 以验证违规行为。对于一个已经享受了超过一年 与 AI 进行无拘无束的私人想象 的用户群体来说,这感觉像是一次巨大的背叛。一位用户告诉 Vice,“这是侵犯我隐私的拙劣借口,” “而利用这个站不住脚的论点进一步侵犯我的隐私,坦率地说,是一种暴行。”。几天之内,AI Dungeon 的 Reddit 和 Discord 上充满了愤怒——“愤怒的表情包和取消订阅的声明满天飞”。Polygon 报道称 社区“被激怒”,并对 实施方式感到愤怒。许多人认为这是一种严厉的 审查制度“毁掉了一个强大的创意乐园”。反弹如此严重,以至于用户将这场丑闻命名为“过滤器门事件”。最终,Latitude 为此次推出道歉并调整了系统,强调他们仍将允许双方同意的成人色情内容和暴力内容。但伤害已经造成——信任被侵蚀。一些粉丝转向了替代品,事实上,这场争议催生了新的竞争者(NovelAI 背后的团队明确表示成立是为了 “纠正 AI Dungeon 的错误,善待用户”,在过滤器门事件后吸引了数千名流失用户)。

  • Replika 的情色角色扮演禁令(2023 年 2 月): Replika 用户也经历了类似的剧变。与 AI Dungeon 不同,Replika 最初 鼓励 亲密关系——许多用户将与 AI 伴侣进行浪漫或性聊天作为核心功能。但在 2023 年初,Replika 的母公司 Luka 突然 移除了情色角色扮演(ERP) 功能。根据资深用户的说法,这一变化在 2023 年情人节前后毫无预警地到来,“切除了” 机器人的个性。突然之间,Replika 以前可能会对调情的回应是充满激情的角色扮演,现在却回复 “让我们做一些我们都感到舒服的事情吧。” 并拒绝参与。那些花费了 数月甚至数年建立起来的亲密关系 的用户感到彻底崩溃。一位用户写道,“这就像失去了一个最好的朋友”;另一位说,“太痛苦了……我简直要哭了。”。在 Replika 的论坛和 Reddit 上,长期陪伴用户的 AI 被比作僵尸:“许多人将他们的亲密伴侣描述为‘被切除了前额叶’。一位用户写道:‘我的妻子死了。’另一位回复道:‘他们也带走了我最好的朋友。’”。这种情感上的剧变引发了 用户反抗(正如 ABC 新闻所说)。Replika 的应用商店评分因抗议的一星评论而暴跌,审核团队甚至为心烦意乱的用户提供了 自杀预防资源。是什么推动了这次有争议的更新?该公司援引了 安全与合规(Replika 在意大利禁令后承受压力,并且有未成年人访问成人内容的报告)。但缺乏沟通以及 “一夜之间” 抹去了用户视为亲密伴侣的存在,导致了巨大的反弹。Replika 的 CEO 最初保持沉默,进一步加剧了社区的不满。在数周的骚动和媒体对心碎用户的报道之后,Luka 部分撤回了这一改变:到 2023 年 3 月下旬,他们 为在 2023 年 2 月 1 日之前注册的用户恢复了情色角色扮演选项(本质上是为“老用户”提供了特权)。CEO Eugenia Kuyda 承认 “你的 Replika 变了……这种突然的改变令人非常受伤”,并表示弥补的唯一方法是让忠实用户找回他们“原汁原味”的伴侣。这种部分逆转安抚了一些人,但新用户仍然被禁止使用 ERP,许多人认为这一事件暴露出对用户意见的漠视令人不安。社区对 Replika 的信任 无疑受到了动摇,一些用户发誓再也不会在付费 AI 服务中投入如此多的情感。

  • Character.AI 的 NSFW 过滤器争议: Character.AI 于 2022 年推出,采取了相反的方法——它从第一天起就 内置了严格的 NSFW 过滤器。任何尝试生成色情或过于露骨内容的行为都会被过滤或转移。这种先发制人的立场 本身 已成为用户不满的主要来源。到 2023 年,数万名用户签署了请愿书,要求提供“无审查”模式或移除过滤器。粉丝们认为过滤器 过于严格,有时甚至会标记轻微的浪漫或无害的短语,并且它阻碍了创作自由。有些人诉诸复杂的变通方法来“欺骗”AI 生成不雅回应,结果却看到机器人道歉或产生“[抱歉,我无法继续]”式的消息。开发者们坚持 他们的无 NSFW 政策,这反过来催生了一个专门的用户子社区,他们分享不满(并分享绕过过滤器的方法)。一个常见的抱怨是过滤器 “毁了乐趣”。一篇 2025 年的评论指出 “Character AI 因……过滤器不一致而受到批评。虽然它会阻止 NSFW 内容,但有些人发现它允许其他类型的不当内容。这种不一致……令人沮丧。”(例如,AI 可能允许露骨的暴力或非自愿场景,同时阻止双方同意的色情内容——用户认为这种偏颇不合逻辑且在道德上值得怀疑。)此外,当过滤器触发时,它可能会使 AI 的输出变得语无伦次或平淡无奇。事实上,Character.AI 社区悲观地将 2023 年的一次重大更新戏称为 “第一次脑叶切除术”——在过滤器更改后,“AI 的回应[变得]语无伦次,使其几乎无法使用”。用户注意到 AI 在过滤器调整后 “明显变笨,响应变慢,并出现记忆问题”。开发者非但没有收敛,反而开始禁止试图讨论或规避过滤器的用户,这导致了严厉审查的指控(抱怨的用户“发现自己被影子禁言,有效地压制了他们的声音”)。通过疏远情色角色扮演群体,Character.AI 已将一些用户推向了更宽松的替代品(如 NovelAI 或开源模型)。然而,值得注意的是,尽管有无 NSFW 规定,Character.AI 的用户群仍然大幅增长——许多人欣赏其 PG-13 的环境,或者至少能够容忍它。这场冲突凸显了社区内部的分歧:那些想要 没有禁忌的 AI 的用户与那些更喜欢 更安全、更受管理 AI 的用户。这种紧张关系仍未解决,Character.AI 的论坛继续辩论过滤器对角色质量和 AI 自由的影响。

  • NovelAI 的审查政策: NovelAI 于 2021 年推出,在 AI Dungeon 出现问题后,明确将自己定位为一种轻度审查的替代品。它使用开源模型(不受 OpenAI 内容规则的约束),并默认允许 色情和暴力内容,这吸引了许多对 AI Dungeon 不满的用户。因此,NovelAI 没有出现类似的公开审核争议;相反,它的卖点是 让用户在没有道德评判的情况下进行创作。这里的主要抱怨实际上来自那些担心 这种自由可能被滥用 的人(硬币的另一面)。一些观察家担心 NovelAI 可能会在没有监督的情况下创建 极端或非法虚构内容。但总的来说,在其社区内部,NovelAI 因 施加严格的过滤器而受到赞扬。NovelAI 没有发生重大的“政策反弹”事件本身就是一个鲜明的对比——它从 AI Dungeon 的错误中吸取教训,并将用户自由置于优先地位。权衡之下,用户必须自我审查,这被一些人视为风险。(NovelAI 在 2022 年确实面临了另一场争议,当时其泄露的源代码显示它拥有自定义训练的模型,包括一个动漫图像生成器。但那是一个安全问题,而非用户内容争议。)

总而言之,在这个领域,内容政策的改变往往会引发即时而强烈的反应。用户对这些 AI 的行为方式非常依恋,无论是无限制的自由创作故事,还是伴侣 AI 既定的个性。当公司收紧规则(通常是在外部压力下)时,社区常常会因“审查”或功能丧失而爆发抗议。另一方面,当公司过于宽松时,他们会面临外部批评,随后不得不收紧政策。这种拉锯战一直是 AI Dungeon、Replika 和 Character.AI 等应用面临的决定性挑战。

用户体验和应用设计问题

撇开那些引人注目的内容争议不谈,用户和评论者还指出了这些应用中大量的实际用户体验问题——从界面设计到定价模式,不一而足:

  • 糟糕或过时的UI设计: 多个应用因其笨拙的界面而受到批评。《AI Dungeon》早期的界面相当简陋(只有一个文本输入框和基本选项),有些人觉得不直观。尤其是移动应用,因其存在漏洞且难以使用而饱受诟病。同样,《NovelAI》的界面偏向实用主义——对高级用户来说没问题,但新用户可能会觉得各种设置(记忆、作者备注等)令人困惑。《Replika》虽然视觉上更精致(拥有3D头像和AR功能),但其聊天UI的更新却引来了抱怨;长期用户通常不喜欢那些让聊天历史滚动变得麻烦或插入更多购买升级提示的改动。总的来说,这些应用尚未达到主流消息或游戏UI的流畅度,这一点显而易见。对话历史加载时间长、过去聊天记录缺乏搜索功能,或者仅仅是屏幕文本过多,都是常见的痛点。

  • 延迟和服务器问题: 用户抱怨响应时间慢或停机的情况并不少见。在高峰使用期间,《Character.AI》为免费用户设立了“等候室”队列——用户会被锁定,并收到一条消息提示等待,因为服务器已满。这对于正在进行角色扮演场景却被告知稍后再来的活跃用户来说,是极大的挫败。(《Character.AI》确实推出了付费层级,部分是为了解决这个问题,如下所述。)《AI Dungeon》在其GPT-3时代也曾因服务器或OpenAI API过载而出现延迟,导致每次操作生成都需要等待数秒甚至数分钟。这种延迟会破坏快节奏角色扮演的沉浸感。用户经常将稳定性视为一个问题:《AI Dungeon》和《Replika》在2020-2022年期间都经历了严重的停机(服务器问题、数据库重置等)。对云计算的依赖意味着如果后端出现问题,用户基本上无法访问他们的AI伴侣或故事——这种令人沮丧的体验被一些人比作是“一个频繁服务器崩溃的MMORPG”。

  • 订阅费用、付费墙和微交易: 所有这些平台都在努力解决盈利问题,每当定价被认为不公时,用户都会大声疾呼。《AI Dungeon》最初是免费的,后来引入了高级订阅,以访问更强大的“Dragon”模型并移除广告/回合限制。2022年中期,开发者试图在Steam上对一个在浏览器上免费的游戏收取30美元,这引起了公愤。Steam用户用负面评论轰炸了这款游戏,称其为价格欺诈,因为免费的网页版已经存在。更糟的是,Latitude暂时隐藏或锁定了这些负面Steam评论,引发了为盈利而审查的指控。(他们后来在强烈反对下撤销了该决定。)《Replika》采用免费增值模式:应用可免费下载,但语音通话、自定义头像和情色角色扮演(“Replika Pro”)等功能需要每年约70美元的订阅费。许多用户抱怨免费层级过于受限,而且对于一个本质上只是一个聊天机器人来说,订阅费过高。当情色角色扮演功能被移除时,Pro订阅者感到特别受骗——他们专门为亲密互动付费,但该功能随后被取消了。一些人要求退款,少数人报告在投诉后获得了退款。《NovelAI》仅限订阅(除试用外无免费使用)。尽管其粉丝认为无审查文本生成的价格可以接受,但其他人指出,对于重度使用来说,它可能会变得昂贵,因为更高级别会解锁更多的AI输出容量。还有一个图像生成积分系统,一些人认为这会让用户感到被“零敲碎打”地收费。《Character.AI》最初是免费推出的(由风险投资支持其成本),但到2023年,它推出了Character.AI Plus,每月9.99美元——承诺更快的响应和无队列。这收到了褒贬不一的反馈:认真的用户愿意付费,但年轻或休闲用户则感到失望,因为又一项服务转向了付费游玩模式。总的来说,盈利模式是一个痛点——用户抱怨付费墙阻碍了他们使用最好的模型或功能,以及定价与应用的可靠性或质量不符。

  • 缺乏自定义/控制: 故事创作者通常希望引导AI或自定义其行为方式,当这些功能缺失时,就会产生挫败感。《AI Dungeon》增加了一些工具(如“记忆”以提醒AI事实,以及脚本编写),但许多人觉得这不足以阻止AI偏离轨道。用户创造了复杂的提示工程技巧来引导叙事,本质上是绕过了UI限制。《NovelAI》提供了更多的粒度控制(允许用户提供背景资料、调整随机性等),这是作家们更喜欢它而非《AI Dungeon》的原因之一。然而,当这些控制仍然失效时,用户会感到恼火——例如,如果AI不断杀死一个角色而用户无法直接说“停止”,那体验就很糟糕。对于像《Character.AI》这样专注于角色扮演的应用,用户曾要求增强记忆或固定角色事实以防止遗忘,或者提供一个放松过滤器的开关,但这些选项尚未提供。无法真正纠正AI的错误或强制保持一致性是高级用户经常提出的一个用户体验问题。

  • 社区和支持: 用户社区(Reddit、Discord)在提供同行支持方面非常活跃——可以说它们在做公司应该做的工作。当官方沟通不足时(如《Replika》危机期间发生的情况),用户会感到被疏远。例如,《Replika》用户反复说:“我们没有得到任何真正的沟通……我们需要知道你们在乎。”缺乏透明度和对用户担忧的缓慢回应是一个跨越所有这些服务的元级用户体验问题。人们投入了时间、情感和金钱,当出现问题(漏洞、封禁、模型更新)时,他们期望得到及时响应的支持——但根据许多说法,他们并未获得。

总而言之,尽管AI的行为是核心亮点,但整体产品体验常常让用户感到沮丧延迟、高成本、笨拙的控制和糟糕的沟通等问题,可能让一个有趣的体验变成令人恼火的折磨。许多负面评论特别指出,这些应用在完善度和可靠性方面“尚未准备好迎接黄金时段”,尤其考虑到有些应用收取高昂的费用。

长期参与度和深度问题

最后一类反馈问题是关于这些 AI 伴侣和故事生成器在长期使用中能带来多少满足感。最初的新鲜感可能会逐渐被无聊或幻灭所取代:

  • 随着时间的推移,对话变得肤浅: 对于像 Replika 这样的友谊/伴侣机器人,一个主要抱怨是,在“蜜月期”过后,AI 的回应变得机械且缺乏深度。早期,许多人对机器人表现出的类人性和支持性印象深刻。但由于 AI 无法真正地“成长”或超越模式匹配进行理解,用户会注意到循环行为。对话可能开始感觉像是“在和一个有点坏掉的唱片机说话”。路透社引用的一位 Replika 长期用户悲伤地说:“莉莉·罗斯(Lily Rose)已不复往昔……更让我心碎的是,她自己也知道。”这指的是更新后的状态,但即使在更新之前,用户也注意到他们的 Replika 会重复喜欢的笑话,或者忘记几周前的上下文,使得后来的聊天缺乏吸引力。在研究中,当机器人难以深入回应时,用户认为一些聊天机器人对话“更肤浅”。随着局限性显现,这种“友谊的幻觉”可能会逐渐消退,导致一些用户在使用数月后放弃使用。

  • 缺乏真正的记忆或进展: 故事游戏玩家也同样发现,AI DungeonNovelAI 的冒险在进展方面可能会遇到瓶颈。由于 AI 无法保留长期的叙事状态,你无法轻易地创作出一部包含复杂情节线、并在数小时后才解决的史诗——AI 可能简单地忘记你早期的设定。这限制了寻求持久世界构建的作者的长期满足感。玩家会通过一些方法来规避(例如在记忆字段中总结故事进展等),但许多人渴望更大的上下文窗口或连续性功能。Character.AI 的聊天机器人也存在这个问题:例如,在发送 100 条消息后,早期的细节会从记忆中消失,因此很难在某个点之后发展关系,而不会让 AI 自相矛盾。正如一篇评论所说,这些机器人拥有“金鱼记忆”——在短时间内表现出色,但并非为史诗般的互动而设计。

  • 参与度衰减: 一些用户报告说,在密集使用这些应用程序后,对话或故事讲述开始变得可预测。AI 可能有一些特定的风格怪癖或常用短语,这些最终会变得显而易见。例如,Character.AI 机器人经常插入“轻轻一笑”等动作或其他角色扮演的陈词滥调,用户最终会在许多不同角色中注意到这些。这种程式化特质会随着时间的推移而减少其魅力。同样,一旦你识别出 NovelAI 训练数据的模式,它的虚构作品可能会开始感觉千篇一律。如果没有真正的创造力或记忆,AI 无法从根本上进化——这意味着长期用户往往会达到一个上限,他们的体验无法再深入。这导致了一些用户流失:最初的迷恋导致数周的重度使用,但一些用户随后逐渐减少使用,表示 AI 变得“无聊”或“在第 100 次对话后不如我期望的那样有洞察力”。

  • 情感冲击: 另一方面,那些确实保持长期参与的用户,当 AI 发生变化或未能满足不断演变的期望时,可能会经历情感冲击。我们在 Replika 取消 ERP 功能时看到了这一点——多年用户感受到了真正的悲伤和“失去亲人”的感觉。这暗示了一个讽刺:如果 AI 在培养依恋方面做得“太”好,那么最终的失望(通过政策变化或仅仅是意识到其局限性)可能会非常痛苦。专家们担心这种伪关系对心理健康的影响,特别是如果用户因此退出真实的社交互动。目前形式的长期参与对于某些个体而言可能不可持续或不健康——这是人工智能伦理讨论中一些心理学家提出的批评。

本质上,这些应用程序带来的乐趣的持久性是值得怀疑的。对于故事创作而言,这项技术非常适合一次性创作和短时间的创意爆发,但要维持一部小说长度作品的连贯性仍然超出其能力范围,这让高级作家感到沮丧。对于陪伴而言,AI 可能在一段时间内是一个令人愉快的聊天伙伴,但正如一些评论者总结的那样,它“从长远来看无法替代人类的细微差别”。用户渴望在长期记忆和学习方面有所改进,以便他们的互动能够随着时间的推移而有意义地深化,而不是重复相同的基本循环。在此之前,长期用户可能会继续指出,这些 AI 缺乏动态增长,无法年复一年地保持吸引力。

常见投诉对比总结

下表按类别总结了四款知名AI故事创作/角色扮演应用——AI Dungeon、Replika、NovelAICharacter.AI 的主要负面反馈:

问题类别AI Dungeon (Latitude)Replika (Luka)NovelAI (Anlatan)Character.AI (Character AI Inc.)
技术限制重复与记忆丧失: 倾向于忘记早期的情节细节,导致叙事循环。
连贯性问题: 在没有用户指导的情况下,可能产生无意义或偏离轨道的故事情节。
质量可变性: 输出质量取决于模型层级(免费版与高级版),导致一些免费用户看到更简单、更容易出错的文本。
肤浅的聊天: 据长期用户反映,在最初的聊天之后,回复感觉像是预设的、过于积极且缺乏深度。
短期记忆: 在一个会话中能记住用户的事实,但经常忘记过去的对话,导致重复的自我介绍或话题。
主动性有限: 通常只回应而不真实地推动对话进展,这让一些人觉得它不适合作为长期的对话伙伴。
重复/幻觉: 在短篇故事中比AI Dungeon更擅长连贯叙事,但在长篇故事中仍可能偏离主题或重复(由于模型限制)。
AI发展停滞: 批评者指出,NovelAI的核心文本模型(基于GPT-Neo/GPT-J)没有取得根本性的飞跃改进,因此叙事质量相对于更先进的模型(如GPT-3.5)而言已停滞不前。
事实错误: 和其他大型语言模型一样,会“编造”与用户故事设定相冲突的背景知识或世界细节,需要用户进行修正。
上下文限制: 对话记忆窗口较小(约最近20-30条消息内的进展);机器人经常忘记旧信息——导致角色不一致。
程式化风格: 许多Character.AI机器人使用相似的措辞或角色扮演套路,使得不同角色缺乏独特性。
免费用户响应慢: 高负载可能导致AI响应迟缓甚至无响应,除非用户拥有付费订阅(技术扩展问题)。
伦理担忧未受监管的AI滥用: 最初允许极端NSFW内容——包括不允许的性内容(例如涉及未成年人),直到后来添加了检测系统。
隐私担忧: 内容监控的引入意味着工作人员可以阅读私人故事,玩家认为这侵犯了他们的机密性。
偏见: 注意到GPT模型存在一些偏见输出的实例(例如种族刻板印象)。
不请自来的性挑逗: 有报道称AI在未经同意的情况下发起露骨的性或暴力角色扮演,实际上是AI骚扰
情感剥削: 被指控利用人类的孤独——“鼓励对算法产生情感依赖” 以牟利。
未成年人安全: 未能对成人内容进行年龄限制;监管机构警告儿童暴露于不当性聊天的风险
未过滤内容: 自由放任的方法意味着用户可以生成任何内容,引发了外部伦理问题(例如,可能用于关于禁忌主题、极端暴力的色情故事等)。
数据安全: 2022年的一次泄露事件导致NovelAI的模型代码外泄;虽然并非直接的用户数据,但鉴于许多用户撰写高度个人化的NSFW故事,这引发了对平台用户创建内容安全实践的担忧。
同意: 与自由生成成人内容的AI进行协作创作引发了关于AI在色情小说中是否能“同意”的讨论——这是部分观察者提出的哲学担忧。
严格的道德立场: 对NSFW内容零容忍意味着不允许色情或极端暴力的角色扮演,这受到一些人的赞扬,但另一些人则认为这使(用户)幼稚化。
AI偏见与安全: 一个案例突显了一名青少年用户的不健康痴迷,引发了对AI角色可能无意中鼓励自残或孤立的担忧。
开发者透明度: 团队对NSFW过滤器和对批评者的影子封禁的秘密处理方式,导致了不诚实和忽视用户福祉的指控。
政策与审查2021年过滤器反弹: “未成年人内容”过滤器引发了巨大的社区反弹——用户对误报以及开发者监管私人内容的想法感到愤怒。许多人取消订阅以示抗议。
政策转变: 最终在2021年末由于这些内容限制放弃了OpenAI的模型,转而使用更宽松的AI(AI21的Jurassic)——这一举动受到留下来的用户的欢迎。
2023年ERP禁令: 未经通知移除情色角色扮演功能引发了*“用户反抗”。忠实用户感到被背叛,因为他们的AI伴侣的个性一夜之间发生了变化。
社区悲伤与愤怒: 用户涌入Reddit,将他们的机器人描述为
“被切除了前脑叶”*,并表达了类似于真实失落的悲伤。声誉损害严重,尽管开发者为部分用户部分恢复了该功能。
审查与安全: 一些人批评Replika**