一篇文章个标签为 "AI"

OpenAI Codex：探究其在多元领域的应用与采纳

2025年6月4日 · 一分钟阅读

Chief Bird Officer

OpenAI Codex：探究其在不同领域的应用与采纳

OpenAI Codex 是一款旨在将自然语言转化为可执行代码的 AI 系统，已在软件开发领域占据了显著地位。它支撑着 GitHub Copilot 等工具，提供代码自动补全和生成等功能。在 2025 年的一项重要更新中，ChatGPT 内部引入了一个基于云的 Codex 代理，能够管理一系列软件开发任务，包括功能编写、代码库分析、错误修复以及提出拉取请求。本文将探讨 Codex 如何被个人开发者、企业和教育机构所利用，并重点介绍其具体的集成方式、采纳模式和实际应用。

OpenAI Codex：探究其在不同领域的应用与采纳

个人开发者：提升编码实践

个人开发者正在利用 Codex 驱动的工具来简化各种编程任务。常见应用包括：生成样板代码、将注释或伪代码翻译成语法代码，以及自动化单元测试和文档的创建。目标是减轻日常编码负担，让开发者能够专注于更复杂的设计和问题解决方面。Codex 也用于调试，能够识别潜在错误、建议修复方案并解释错误消息。据报道，OpenAI 工程师使用 Codex 完成重构、变量重命名和测试编写等任务。

GitHub Copilot 集成了 Codex，是该领域的一个重要工具，可在 VS Code、Visual Studio 和 Neovim 等流行编辑器中提供实时代码建议。使用数据显示其被迅速采用，一项研究表明，超过 81% 的开发者在 Copilot 发布当天就安装了它，67% 的开发者几乎每天都使用它。报告的益处包括自动化重复性编码。例如，埃森哲（Accenture）的 Copilot 用户数据显示，代码合并速度提高了 8.8%，并且他们自我报告对代码质量更有信心。除了 Copilot，开发者还利用 Codex API 开发自定义工具，例如编程聊天机器人或 Jupyter notebooks 等环境的插件。OpenAI Codex CLI 于 2025 年开源，提供了一个基于终端的助手，可以执行代码、编辑文件并与项目仓库交互，使开发者能够提示完成应用程序创建或代码库解释等复杂任务。

企业采纳：将 Codex 整合到工作流程中

公司正在将 OpenAI Codex 整合到其产品开发和运营工作流程中。包括思科 (Cisco)、Temporal、Superhuman 和 Kodiak Robotics 在内的早期企业测试者，提供了关于其在实际代码库中应用的见解。

思科正在探索使用 Codex 来加速其产品组合中新功能和项目的实施，旨在提高研发生产力。
Temporal 是一家工作流编排平台初创公司，使用 Codex 进行功能开发和调试，将测试编写和代码重构等任务委托给 AI，从而让工程师能够专注于核心逻辑。
Superhuman 是一家电子邮件客户端初创公司，利用 Codex 处理小型、重复的编码任务，提高测试覆盖率并自动修复集成测试失败。他们还报告称，Codex 使产品经理能够参与轻量级代码更改，这些更改随后由工程师进行审查。
Kodiak Robotics 是一家自动驾驶公司，利用 Codex 编写调试工具、提高测试覆盖率，并为其自动驾驶汽车软件重构代码。他们还将其用作工程师理解大型代码库中不熟悉部分的参考工具。

这些案例表明，公司正在利用 Codex 自动化软件工程的某些方面，旨在提高生产力。GitHub Copilot for Business 将这些功能扩展到企业团队。埃森哲 (Accenture) 参与 Copilot 的一项试点报告称，超过 80% 的开发人员成功上手了该工具，95% 的开发人员表示在 AI 辅助下更喜欢编码。其他开发工具公司，如 Replit，也集成了 Codex 功能，例如“解释代码 (Explain Code)”，它提供代码段的通俗易懂的英文解释。

教育应用：学习与教学的新工具

在教育领域，OpenAI Codex 正被采纳为智能辅导系统和编程助手。它能够根据自然语言提示生成代码，解释编程概念，并回答关于代码的问题。这使得学习者能够专注于概念理解，而非语法细节。

学生使用 Codex 来生成示例、排查错误以及尝试不同的编码解决方案。自学者可以将其用作按需辅导老师。教育工作者则利用 Codex 创建定制的编程练习，生成解决方案示例，并根据不同技能水平提供解释。这可以腾出教师的时间，用于更专注的学生互动。

Replit 的“解释代码”功能由 Codex 提供支持，帮助初学者理解不熟悉的代码。一些教育工作者已在课堂环境中引入 Codex，通过允许学生通过提示创建简单的应用程序来激发他们对编程的兴趣。一个案例涉及学生创建游戏，这既突显了其创造潜力，也揭示了进行伦理讨论的必要性，因为学生也曾尝试提示 AI 创建不当内容，而当时 AI 似乎没有明显的伦理过滤。专家建议，编程课程可能会发展，以包含如何有效使用 AI 工具的培训，包括提示工程和审查 AI 生成的代码。

与工具和平台的集成

Codex 广泛集成到现有开发工具和平台中，促进了其采用。GitHub Copilot 嵌入到 Visual Studio Code、JetBrains IDEs、Visual Studio 2022 和 Neovim 等 IDE 中，直接在编码环境中提供实时 AI 辅助。

OpenAI API 使其他应用程序能够整合 Codex 的能力。OpenAI Codex CLI 允许开发者从命令行与 Codex 交互，用于诸如搭建应用程序或修改项目之类的任务。针对 Jupyter Notebooks 等平台，第三方插件已经出现，提供基于自然语言查询的代码补全和脚本生成等功能。微软的 Azure OpenAI 服务包含 Codex 模型，允许企业在 Azure 的合规性和安全框架下将其能力整合到其内部软件中。

采纳趋势与市场考量

像 Codex 这样的 AI 编码助手的采纳率增长迅速。截至 2023 年，报告显示超过 50% 的开发者已开始使用 AI 辅助开发工具。据报道，GitHub Copilot 在 2025 年初用户量已突破 1500 万。这一增长激发了竞争，亚马逊（CodeWhisperer）和谷歌（Studio Bot）等公司也推出了自己的 AI 代码助手。

研究报告了生产力提升；GitHub 与埃森哲（Accenture）开发者的研究表明，Copilot 的使用可以使开发者在某些任务上提速高达 55%，并且大多数人表示满意度有所提高。然而，关于 AI 生成代码对质量和维护影响的审查依然存在。一项分析表明，虽然 AI 工具可以加速编码，但它们也可能导致代码“流失”（频繁重写）增加，并可能降低代码复用性。对 AI 生成代码的安全性与正确性的担忧持续存在，这强调了人工审查的必要性。OpenAI 表示，它已在 Codex 中实施了政策，以拒绝恶意编码请求，并增加了可追溯性功能，例如引用操作和测试结果。

一个正在发展的趋势是从简单的代码补全转向更自主的、“代理式”的 AI 行为。2025 年 Codex 代理的异步任务委托能力就是例证，开发者可以将复杂的任务分配给 AI 独立完成。GitHub 还在 Copilot 中引入了 AI 代码审查功能，据报道，该功能在推出几周内就自主审查了数百万个拉取请求。这表明 AI 正朝着处理软件开发生命周期中更全面的部分发展，而人类工程师的重心可能会转向高层设计、架构和监督。

典型案例

Superhuman： 这家电子邮件客户端初创公司集成了 Codex，以加速工程开发，通过自动化任务，例如提高测试覆盖率和修复小错误。据报道，这使得产品经理能够描述用户界面（UI）的微调需求，由 Codex 实现，并经过工程师审查，从而实现更快的迭代周期。
Kodiak Robotics： 这家自动驾驶汽车公司使用 Codex 开发内部调试工具、重构其 Kodiak Driver 系统的代码，以及生成测试用例。它还为新工程师提供知识工具，帮助他们理解复杂的代码库。
埃森哲（Accenture）： 一项针对数千名开发人员进行的 GitHub Copilot（由 Codex 提供支持）大规模企业评估报告称，95% 的开发人员更喜欢在 AI 协助下进行编码，90% 的人对自己的工作感到更满意。该研究还指出，样板代码的编写时间减少，已完成的任务数量增加。
Replit： 这家在线编程平台集成了 Codex，以提供“解释代码”（Explain Code）等功能，为代码片段生成通俗易懂的解释。此举旨在减少学习者理解复杂代码所花费的时间，并充当自动化教学助手。

这些实施案例展示了 Codex 的多种应用，从自动化软件工程任务、协助复杂系统中的知识转移、到衡量企业生产力、以及支持教育环境。一个共同的主题是利用 Codex 补充人类技能，由 AI 处理某些编码任务，而人类则负责指导、审查并专注于更宏观的问题解决。

理解角色扮演 AI 的用户参与度

2025年6月4日 · 一分钟阅读

Lark Birdy

Chief Bird Officer

基于角色的 AI 和角色扮演代理的兴起标志着人机交互的重大转变。全球用户出于多种原因，从陪伴到创意探索，越来越多地与这些数字人格互动。本分析深入探讨了这些互动的细微之处，审视了用户动机、参与模式、普遍挑战以及增强这些不断发展的技术的途径。

理解角色扮演 AI 的用户参与度

谁在参与，他们的驱动力是什么？

各种各样的人都被 AI 角色所吸引。从人口统计学来看，用户涵盖了从探索社交环境的青少年到寻求情感支持或创意出口的成年人。主要用户群体包括：

寻求陪伴的青少年： 通常年龄在 13-19 岁，这些用户发现 AI 伙伴是非评判性的朋友，提供社交出口以对抗孤独或社交焦虑。他们也参与基于粉丝群体的角色扮演。
年轻成人与创意角色扮演者： 主要年龄在 18-34 岁，这个群体使用 AI 进行娱乐、精心虚构的角色扮演、协作式讲故事以及克服创意障碍。
寻求陪伴者（孤独的成年人）： 广泛年龄范围（20 多岁至 70 多岁以上）的成年人转向 AI 来填补社交或情感空白，将 AI 视为知己、朋友，甚至是浪漫伴侣。
心理健康与情感支持用户： 应对焦虑、抑郁或其他心理健康挑战的个人利用 AI 角色作为一种自我疗法，欣赏它们的持续可用性和耐心。
游戏玩家与粉丝爱好者： 这个群体将 AI 角色用作娱乐媒介，类似于视频游戏或互动同人小说，专注于挑战、乐趣和沉浸式场景。

这些角色通常相互重叠。采用 AI 的常见触发因素源于情感需求，如孤独和心碎，对娱乐或创意协作的渴望，对 AI 技术的好奇心，或在线社区和口碑的影响。

互动模式：用户如何参与

与 AI 角色的互动是多方面的，涉及各种角色类型和使用习惯：

角色原型： 用户将 AI 视为浪漫伴侣、朋友、流行媒体中的虚构人物、历史人物、自创的原创角色，甚至作为准导师和基于任务的助手进行互动。
使用频率与深度： 参与程度可以从偶尔的签到到长时间、沉浸式的日常会话。一些人将 AI 融入日常生活中进行情绪调节，而另一些人则在特定的情感事件或创意期间表现出爆发式使用。用户可能会在多个角色之间切换，或发展长期、单一的 AI 关系。
重视的功能： 自然对话、一致的个性和可靠的记忆受到高度重视。允许用户塑造 AI 人格和外观的自定义工具也很受欢迎。语音和头像等多模态功能可以加深一些用户的临场感。编辑或重新生成 AI 回复的能力提供了人类互动中不具备的控制感和安全感。
显著行为： 一个重要的观察是用户倾向于情感依恋和拟人化，将人类般的情感归因于他们的 AI。相反，一些用户会“突破极限”，试图绕过内容过滤器或探索 AI 的边界。积极参与在线社区讨论经验和分享技巧也很常见。

驾驭数字前沿：挑战与痛点

尽管具有吸引力，基于角色的 AI 平台仍面临一些挑战：

记忆与上下文保留： 主要的挫败感是 AI 记忆的不一致性，这会破坏沉浸感并中断长期互动或关系的连续性。
内容审核与审查： 严格的内容过滤器，特别是关于 NSFW（不适合工作）主题的过滤器，是寻求私人角色扮演中表达自由的成年用户的主要争议点。
真实性与重复性： AI 回复有时可能不真实、重复或机械，降低了角色的感知真实性。
情感依赖： AI 在提供陪伴方面的有效性可能导致情感过度依赖，可能影响现实生活中的关系，并在服务改变或不可用时造成困扰。
用户界面与体验 (UI/UX)： 响应时间慢、平台不稳定、不透明的审核以及高级功能的成本等问题可能会降低用户体验。

当前生态系统：简要概述

有几个平台满足了对 AI 角色的需求，每个平台都有独特的方法：

Character.AI： 以其先进的对话能力和庞大的用户生成角色库而闻名，它专注于创意和娱乐驱动的角色扮演，但保持严格的 NSFW 过滤器。
Replika： 作为先驱之一，Replika 强调为情感支持和友谊提供持久的 AI 伙伴，具有可自定义的头像和记忆功能。其关于成人内容的政策有所演变，导致了重大的用户中断。
Janitor AI： 作为一种替代方案出现，Janitor AI 为成人角色扮演提供了一个未经审查的环境，允许用户对 AI 模型拥有更多的自由和控制，通常吸引那些对其他平台过滤器感到沮丧的用户。

其他平台，甚至像 ChatGPT 这样的通用 AI，也被用户改编用于基于角色的互动，这凸显了一个广阔且不断发展的格局。

打造更好的数字伙伴：未来建议

为了增强基于角色的 AI 体验，开发应侧重于以下几个关键领域：

高级 AI 能力：
- 强大的长期记忆： 对于连续性和更深的用户连接至关重要。
- 个性一致性与真实性： 微调模型以实现一致和细致的角色描绘。
- 扩展多模态互动： 整合高质量的语音和视觉（可选）以增强沉浸感。
- 多样化互动调整： 针对治疗、创意写作或事实协助等特定用例优化模型。
改善用户体验与功能：
- 增强个性化： 用户对 AI 个性、记忆输入和界面自定义的更大控制权。
- 用户可选的安全与内容设置： 提供清晰、分层的内容过滤器（例如，“安全模式”、“成人模式”并进行验证），以尊重用户自主权同时确保安全。
- 精细化的 UI 与工具： 更快的响应时间、聊天管理工具（搜索、导出）和透明的审核流程。
- 社区整合（兼顾隐私）： 在优先考虑用户隐私的同时促进分享和发现。
解决情感与心理健康问题：
- 道德互动指南： 开发支持性但避免助长不健康依赖或提供有害建议的 AI 行为。系统应被编程为鼓励用户在遇到严重问题时寻求人类支持。
- 促进健康使用习惯： 用于使用管理的自选工具和 AI 驱动的鼓励现实世界活动的机制。
- 用户教育与透明度： 清晰地传达 AI 的性质、能力、局限性以及数据隐私实践。
- 谨慎处理政策变更： 在实施重大平台变更时，应进行充分沟通、用户咨询并对现有用户群保持同理心。

基于角色的 AI 正在从一个利基兴趣迅速发展成为主流现象。通过深思熟虑地满足用户需求、缓解当前挑战并优先考虑负责任的创新，开发者可以创建不仅引人入胜，而且真正有益的 AI 伙伴，在复杂的数字时代丰富用户的生活。

GitHub Copilot、Cursor 和 Windsurf 的智能体系统架构

2025年6月3日 · 一分钟阅读

Lark Birdy

Chief Bird Officer

GitHub Copilot、Cursor 和 Windsurf 的 Agent 系统架构

近年来，涌现出多款 AI 编程助手产品，例如 GitHub Copilot、Cursor 和 Windsurf。它们的实现都引入了 "Agent"（智能体）的概念，使 AI 能够更主动地协助编码工作。本文将从工程架构的角度，深入探讨这些产品的 Agent 系统构建，包括架构设计理念、任务分解与规划、模型调用策略、上下文状态管理、插件扩展机制，以及它们各自设计中的关键权衡与创新。以下内容主要基于官方工程博客、项目开发者文章以及相关技术资料。

GitHub Copilot 的 Agent 架构

架构设计理念： GitHub Copilot 最初将自己定位为开发者的“AI 结对程序员”，现在已在此基础上扩展了“Agent”模式。其 Agent 系统并非独立 Agent 的集合，而是一个嵌入式的智能代理，能够进行多轮对话和多步骤任务执行，并支持多模态输入（例如，使用视觉模型解释屏幕截图）。Copilot 强调 AI 辅助而非取代开发者。在 Agent 模式下，它更像团队中的自动化工程师，接受分配的任务，自主编写代码、调试，并通过 Pull Request 提交结果。该 Agent 可以通过聊天界面触发，或通过将 GitHub Issue 分配给 Copilot 来触发。

任务分解与规划： Copilot 的 Agent 擅长将复杂的软件任务分解为子任务并逐一完成，其内部推理过程类似于思维链（Chain-of-Thought）。它反复循环“分析问题 → 执行代码更改或命令 → 验证结果”，直到满足用户需求。例如，在 Agent 模式下，Copilot 不仅执行用户指定的步骤，还会隐式地推断并自动执行实现主要目标所需的额外步骤。如果在过程中发生编译错误或测试失败，Agent 会自行识别并修复错误，然后再次尝试，这样开发者就不必重复复制粘贴错误消息作为提示。一篇 VS Code 博客总结了其工作循环：Copilot Agent 自主确定相关上下文和要编辑的文件，提出代码修改和要运行的命令，监控编辑或终端输出的正确性，并持续迭代直到任务完成。这种自动化的多轮执行使 Copilot 能够处理各种任务，从创建简单应用程序到跨多个文件的大规模重构。

模型调用策略： GitHub Copilot 背后的模型最初是 OpenAI 的 Codex，现已升级为更强大的多模型架构。Copilot 允许用户在“模型选项”中选择不同的基础模型，例如 OpenAI 的 GPT-4（内部代号 gpt-4o）及其简化版、Anthropic 的 Claude 3.5（代号 Sonnet），以及 Google 最新的 Gemini 2.0 Flash 等。这种多模型支持意味着 Copilot 可以根据任务要求或用户偏好切换模型来源。在 Copilot Edits（多文件编辑）功能中，GitHub 还采用双模型架构来提高效率：首先，选定的“大模型”生成一个包含完整上下文的初始编辑计划，然后一个专门的“推测解码”（speculative decoding）端点快速应用这些更改。推测解码器可以看作是一个轻量级模型或规则引擎，它在大模型思考代码更改时预先生成编辑结果，从而减少延迟。总而言之，Copilot 的模型策略是在云端集成多个前沿 LLM，针对不同场景进行优化，并通过工程手段（双模型管道）平衡响应速度和准确性。

状态管理与上下文保留： Copilot Agent 非常重视利用开发上下文。由于直接将整个仓库代码作为输入提供给大模型是不切实际的，Copilot 采用了**检索增强生成（Retrieval-Augmented Generation, RAG）**策略：它使用 GitHub Code Search 等工具在仓库中搜索相关内容，并将检索到的代码片段动态注入到模型的上下文中。当 Agent 启动时，它会将项目代码克隆到一个隔离环境中，并首先分析代码库结构，生成必要的摘要以节省 token。例如，Copilot 构建的提示可能包括“项目文件结构摘要 + 关键文件内容 + 用户请求”。这使得模型在生成解决方案时能够理解全局，而不会超出上下文长度限制。在对话过程中，Copilot 还会跟踪会话历史（例如，用户在聊天中先前提供的指令）以保持连续性。同时，Copilot 与 GitHub 平台深度集成，使其能够利用 Issue 描述、相关 PR 讨论等作为额外上下文。具体来说，如果仓库有指定编码标准或 AI 使用先前指令的配置文件，Agent 也会遵循这些自定义仓库指令。值得注意的是，Copilot 本身不具备用户代码的长期记忆——它不会自动将会话状态保存到下一个会话（除非用户将其硬编码到文档中）。然而，通过 GitHub 的 Issue/PR 载体，用户可以有效地向 Agent 提供持久的任务描述和屏幕截图，这可以被视为一种携带上下文的方式。

插件系统与扩展机制： GitHub Copilot Agent 通过工具调用（Tool Use）在 IDE 和外部环境中执行操作。一方面，在本地或 Codespaces 环境中，Copilot 可以调用 VS Code 扩展提供的 API 来执行诸如读取文件、打开编辑器、插入代码片段和运行终端命令等操作。另一方面，GitHub 引入了模型上下文协议（Model Context Protocol, MCP） 来扩展 Agent 的“视野”和能力。MCP 允许配置外部“资源服务器”，Agent 可以通过标准化接口请求额外数据或操作。例如，GitHub 官方提供了自己的 MCP 服务器，允许 Agent 获取有关当前仓库的更多信息（例如，代码搜索结果、项目 Wiki 等）。MCP 机制也支持第三方：只要它们实现 MCP 接口，Agent 就可以连接，例如调用数据库查询服务或发送 HTTP 请求。Copilot Agent 已经具备一定的多模态能力。通过与视觉模型集成，它能够解析用户在 Issue 中附加的屏幕截图、设计图和其他图像作为辅助输入。这意味着在调试 UI 问题或重现错误时，开发者可以向 Copilot 提供屏幕截图，Agent 可以“看图说话”来提供相应的代码修改建议。此外，在完成任务后，Copilot Agent 会通过 Git 自动提交更改并打开一个草稿 PR，然后 @提及 相关开发者请求审查。审查者的评论和反馈（例如，要求修改某个实现）也会被 Agent 读取，并作为新的指令，触发下一轮代码更新。整个过程类似于人类开发者协作：AI Agent 提交代码 → 人类审查并提供反馈 → AI Agent 优化，确保人类始终拥有控制权。

关键设计权衡与创新： GitHub Copilot 的 Agent 系统充分利用了现有的 GitHub 平台生态系统，这是其显著特点。一方面，它选择将代码执行环境建立在 GitHub Actions 云容器上，实现了良好的隔离性和可扩展性。“Project Padawan”是此架构的代号，它避免了从头构建新的执行基础设施，而是建立在成熟的 CI/CD 系统之上。另一方面，Copilot 在安全性方面做出了严格的权衡：默认情况下，Agent 只能将代码推送到新创建的分支，不能直接修改主分支，并且触发的 PR 必须经过他人批准才能合并，CI 流水线在批准前会暂停。这些策略确保引入 AI 自动化不会扰乱团队现有的审查系统和发布关卡。模型上下文协议的提出可以看作是 Copilot 的一项重要工程创新——它定义了一个开放标准，供 LLM Agent 访问外部工具/数据，未来允许 GitHub 内部和外部的各种数据源无缝集成到 AI 提示中。此外，Copilot Agent 在执行过程中会记录思维日志（会话日志），包括它调用工具的步骤和生成的输出，并将这些记录呈现给开发者。这种透明度允许用户审查 Agent 的“思考”和行动，有助于调试和建立信任。总的来说，GitHub Copilot 将 AI Agent 嵌入到开发生命周期的各个阶段（编码 -> 提交 PR -> 代码审查），并通过一系列架构决策，实现了自动化与现有工作流的无缝集成。

Cursor 的 Agent 架构

架构设计理念： Cursor 是由初创公司 Anysphere 开发的一款 AI 驱动的编程工具。它本质上是一个深度集成 AI 助手的代码编辑器（基于 VS Code 修改）。Cursor 提供两种主要交互模式：聊天助手和自主 Agent。在常规对话模式下，它充当传统的代码助手，根据指令回答问题或生成代码；当切换到 Agent 模式（也称为“Composer”）时，Cursor 可以代表开发者主动执行一系列操作。这种架构赋予用户按需选择的自由：简单任务可以通过助手模式逐行提问来处理，而复杂或重复性任务则可以通过召唤 Agent 进行批量处理。Cursor 目前主要侧重于在文本（代码）领域提供协助，不强调多模态输入/输出（尽管它提供语音输入功能，将语音转换为文本作为提示）。与 Copilot 类似，Cursor 的 Agent 系统也以单个智能 Agent 串行运行，而非多个 Agent 并行工作。然而，其独特之处在于它强调人机协作：在 Agent 模式下，AI 会尽可能多地采取行动，但总体上仍允许开发者随时介入并掌控，而不是长时间完全无人监督地运行。

任务分解与规划： 在 Cursor 的 Agent 模式下，AI 可以处理复杂的多文件任务，但设计倾向于分步请求的风格。在接收到用户的高级指令后，Agent 会自主搜索相关代码片段，打开需要编辑的文件，生成修改计划，甚至运行测试/构建命令来验证效果。然而，与 Copilot 或 Windsurf 的 Agent 不同，Cursor 的 Agent 通常在完成初步提议后会暂停，等待用户审查和进一步指示。这意味着 Cursor 的 Agent 通常不会持续、反复地自我改进，除非它从用户那里收到新的提示。例如，如果你要求 Cursor 执行跨项目重构，它会收集所有需要修改的位置，并为每个文件生成一个差异（diff）供用户审查；此时，用户决定接受并应用哪些更改。如果这些更改引入了新问题，Cursor 不会随意继续修改，除非用户提出“修复出现的问题”等进一步请求。这种机制确保了在关键决策点上的人工监督，防止 AI 失控。然而，这也意味着 Cursor 的 Agent 缺乏长链规划的自主性，需要人类一步步引导才能完成复杂的闭环。为了部分改善连续自主性，Cursor 团队也为 Agent 系统添加了一些迭代功能。例如，它会尝试编译和运行代码并捕获错误，自动修复一些简单的语法或 lint 错误，但通常在几次尝试后就会停止，将控制权返回给用户。开发者观察到，Cursor 的 Agent 在局部重构或有限范围的更改中表现非常高效，但对于大范围的更改，它通常需要用户分段提示，逐步完成任务。总的来说，Cursor 将 Agent 定位为“智能执行助手”，而非无所不能的自动化编程机器人；其任务规划倾向于短期执行、及时汇报，并让人类决定下一步。

模型调用策略： Cursor 不训练自己的大型语言模型；它采用集成第三方 API 的策略。用户可以在 Cursor 内部配置来自 OpenAI 或 Anthropic 等供应商的 API 密钥，然后 Cursor 的后端将代表用户调用相应的模型。无论用户选择哪个模型提供商，所有 AI 请求都将通过 Cursor 自己的服务器：本地应用程序将编辑器上下文和用户问题打包并发送到云端，Cursor 的服务器组装完整的提示并调用模型，然后将结果返回给编辑器。这种架构有助于 Cursor 优化提示和统一管理会话状态，但也意味着它必须在线使用，并且核心 AI 功能在离线模式下不可用。出于开发者成本考虑，Cursor 支持用户使用自己的 API 配额（因此模型调用费用由用户承担），但即便如此，请求仍会通过官方服务器进行代码嵌入检索和响应格式化等操作。在模型选择方面，Cursor 通常提供少数主流模型供选择（例如 GPT-4、GPT-3.5、Claude 2 等）；用户可以偏好其中一个，但无法访问 Cursor 不支持的模型。相比之下，像 Windsurf 这样的系统允许替换底层引擎，而 Cursor 则更为封闭，模型更新和调整主要由官方团队控制。此外，Cursor 没有像 Copilot Enterprise 那样的本地部署解决方案，也不集成开源模型——它完全面向云服务，因此可以快速跟上最新大型模型版本，但也要求用户信任其云处理并遵守相关隐私政策。值得一提的是，Cursor 提供了一个“思考模式”（Thinking mode）；根据用户反馈，启用该模式会使 AI 响应更深入、更严谨，这可能意味着切换到更强大的模型或特殊的提示设置，但具体实现细节官方团队并未详细说明。

状态管理与上下文保留： 为了增强对整个项目的理解，Cursor 会在本地或云端预处理代码库：它会计算所有文件的向量嵌入（vector embeddings）并构建语义索引，以支持语义搜索和相关性匹配。默认情况下，当打开一个新项目时，Cursor 会自动批量上传代码片段到云服务器以生成嵌入并保存（仅存储嵌入向量和文件哈希，不存储纯文本代码）。这样，当用户询问有关代码的问题时，Cursor 可以在嵌入空间中搜索相关文件或片段，并提取其内容提供给模型参考，而无需将整个代码库都喂给提示。然而，由于模型上下文窗口的限制（数千到数万个 token），Cursor 的策略是侧重于当前上下文：即主要让模型关注用户当前正在编辑的文件、选定的代码段或用户主动提供的片段。Cursor 有一个“了解你的代码库”（Knows your codebase）入口点，允许你询问未打开文件的内容；这本质上是在后台执行语义搜索，并将找到的相关内容插入到提示中。换句话说，如果你想让 AI 考虑某段代码，你通常需要打开该文件或将其粘贴到对话中；否则，Cursor 默认不会向模型喂送太多“不相关”的文件内容。这种上下文管理确保了答案的精确聚焦，但可能会错过项目中隐式的跨文件关联，除非用户意识到并提示 AI 去检索它们。为了解决长期记忆问题，Cursor 提供了一个项目规则（Project Rules）机制。开发者可以创建 .cursor/rules/*.mdc 文件来记录重要的项目知识、编码标准，甚至特定指令，Cursor 会在每次会话初始化时自动将这些规则作为系统提示的一部分加载。例如，你可以建立一条规则，如“所有 API 函数都应记录日志”，Cursor 在生成代码时就会遵循此约定——一些用户报告说，通过在规则文件中持续积累项目经验，Cursor 对项目的理解和一致性显著提高。这些规则文件相当于开发者赋予 Agent 的长期记忆，由人类维护和更新（也可以要求 Cursor 将“本次对话的结论添加到规则中”）。此外，Cursor 支持会话历史上下文的延续：在同一会话内，用户之前提出的问题和 Cursor 提供的答案会作为对话链的一部分传递给模型，确保多轮交流的一致性。然而，Cursor 目前不会自动记住跨会话的先前对话（除非保存在上述规则文件中）；每个新会话都会从项目规则 + 当前上下文重新开始。

插件系统与扩展机制： Cursor 的 Agent 可以调用与 Copilot 类似的操作，但由于 Cursor 本身是一个完整的 IDE，其工具集成更为内置。例如，Cursor 定义了 open_file、read_file、edit_code、run_terminal 等工具，并在系统提示中详细描述了它们的用途和用法。这些描述经过团队反复微调，以确保大型语言模型（LLM）知道何时在正确的上下文中调用正确的工具。Anthropic 的官方博客曾提到，设计有效的提示来教模型如何使用工具本身就是一门艺术，而 Cursor 显然在这方面投入了大量精力。例如，Cursor 在系统提示中明确指出：“不要直接向用户输出完整的代码片段；相反，通过 edit_tool 提交修改”，以防止 AI 绕过工具直接打印大段文本。另一个例子是：“在调用每个工具之前，用一句话向用户解释你为什么要这样做”，这样当 AI 长时间“静默”执行操作时，用户就不会误以为它已冻结。这些细致的设计增强了用户体验和信任。除了内置工具，Cursor 还支持通过模型上下文协议（Model Context Protocol, MCP）挂载额外的“插件”。从工程角度看，Cursor 将 MCP 视为扩展 Agent 能力的标准接口：开发者可以根据 MCP 规范编写一个服务供 Cursor 调用，从而实现访问数据库、调用外部 API 甚至控制浏览器等各种功能。例如，一些社区用户分享了通过 MCP 集成 OpenAI 的向量数据库来存储和检索更长期的项目知识，这有效地为 Cursor 的 Agent 增加了“长期记忆”。值得注意的是，MCP 服务通常在本地或私有云中启动。Cursor 通过配置文件了解这些服务的地址和可用指令，然后模型可以根据系统提示中提供的工具列表来调用它们。总而言之，Cursor 的插件机制赋予其 Agent 一定程度的可编程性，允许用户扩展 AI 的能力。

关键设计权衡与创新： 作为一款 IDE 产品，Cursor 在 Agent 系统设计上与 GitHub Copilot 相比做出了不同的权衡。首先，它选择了基于云的执行架构，这意味着用户无需准备本地算力即可利用强大的 AI 模型，并且 Cursor 可以统一升级和优化后端功能。代价是用户必须信任其云服务并接受网络延迟，但 Cursor 通过“隐私模式”（承诺不长期存储用户代码和聊天历史）提供了一些保障。其次，在与模型交互方面，Cursor 强调提示工程（prompt engineering）的重要性。正如开发者所解释的，Cursor 的系统提示精心设置了大量规则，从措辞上不道歉到避免幻觉性地引用不存在的工具——各种细节都考虑在内。这些隐藏的指导方针极大地影响了 AI 响应的质量和行为一致性。这种“深度调优”本身就是一项工程创新：Cursor 团队通过持续实验找到了一套提示范式，将通用大型语言模型（LLM）转变为“编程专家”，并随着模型版本的演进而不断调整。第三，Cursor 在人机分工上采取了保守策略——它宁愿让 AI 少做一点，也要确保用户始终知情。例如，每次重大更改都使用差异列表供用户确认，这与某些 Agent 直接修改代码然后告诉你“已完成”不同。这一产品决策承认了 AI 当前的不完美以及人工监督的必要性。尽管它牺牲了一些自动化效率，但获得了更高的可靠性和用户接受度。最后，Cursor 的可扩展性方法值得关注：利用项目规则允许用户弥补上下文和记忆不足，并利用 MCP 插件允许高级用户扩展 AI 能力。这些设计为用户提供了深度定制空间，是其灵活适应不同团队和任务的基础。在竞争激烈的 AI 助手领域，Cursor 不追求最大化的端到端自动化，而是构建了一个高度可塑、可由开发者训练的 AI 助手平台，这是其工程哲学的一大特色。

Windsurf (Codeium) Agent 架构

架构设计理念： Windsurf 是 Codeium 团队推出的一款 AI 驱动的编程产品，定位为业界首个“Agentic IDE”（智能代理集成开发环境）。与 Copilot 需要在 Chat/Agent 模式间切换不同，Windsurf 的 AI 助手（名为 Cascade）全程具备 Agent 能力，可根据需要无缝切换问答和自主执行多步任务。Codeium 官方将其理念总结为“Flows = Agents + Copilots”。Flow 指的是开发者和 AI 处于一种同步协作的状态：AI 随时像助手一样提供建议，也能在必要时主动接管并执行一系列操作，同时整个过程与开发者的操作保持实时同步。这种架构没有明确的人机角色切换点；AI 不断“偷听”开发者的动作并适应节奏。当你在 Windsurf 中与 Cascade 聊天时，它既可以直接回答你的问题，也可以将你的陈述解读为一项任务，然后触发一系列操作。例如，如果用户在对话中简单地告诉 Cascade：“请实现用户认证并更新相关代码段”，Cascade 可以自动理解这是一个跨模块的需求：它会搜索代码库以定位与用户认证相关的文件，打开并编辑这些文件（例如，添加认证功能、创建新配置、修改调用逻辑），如有必要还会运行项目测试，最后向用户报告完成状态。整个过程中，开发者无需切换模式或逐步提示。在多模态方面，目前的 Windsurf/Cascade 主要聚焦于代码文本领域，尚未提及支持图像或音频解析。然而，Cascade 对“开发者意图”的把握不仅来自纯文本输入，还来自 IDE 环境中的各种信号（参见下文的上下文部分）。总而言之，Windsurf 的架构理念是将 AI 深度融入 IDE：从被动的问答工具演变为主动的协作伙伴，以最大限度地提高开发效率。

任务分解与自主性： Cascade 拥有目前产品中最强的自主编排能力之一。对于用户给出的高层指令，它会首先进行全面的意图分析和范围评估，然后自动发起一系列具体行动以达成目标。在添加新认证功能的例子中，Cascade 可能会执行以下内部步骤：1) 扫描项目以找到需要修改或创建的模块（例如，用户模型、认证服务、配置、UI 组件等）；2) 生成相应的代码更改，包括添加函数、调整调用和更新配置；3) 使用 Windsurf 提供的工具打开文件并插入修改；4) 运行现有测试套件或启动开发服务器以检查新更改是否正常工作。如果测试揭示了问题，Cascade 不会停止并等待人工干预，而是会继续分析错误、定位缺陷、自动修改代码并再次运行测试进行验证。这种闭环可以持续数轮，直到 Cascade 确信任务已完成或遇到无法解决的障碍。值得注意的是，Windsurf 强调让开发者参与其中，但又不过度增加他们的负担。具体来说，Cascade 在执行关键更改后，会将所有修改文件的差异（diffs）展示给用户，请求一次性批量确认。用户可以浏览每个差异，并决定是接受更改还是回滚。这一步有效地在 AI 自主重构和代码提交之间增加了一个人工审查阶段，既不过度打断 AI 的连续操作，又能确保最终结果符合人类预期。相较于 Cursor 需要用户驱动每一步，Windsurf 的 Cascade 更倾向于默认自主性：用户只需提出需求，AI 尽可能完成所有子任务，然后将结果交付给用户验收。这种工作模式充分利用了 AI 处理复杂操作的优势，同时通过“最终确认”的设计来管理风险。

模型调用策略： Windsurf 背后的 AI 技术主要来自 Codeium 自研的模型和基础设施。Codeium 在 AI 编程助手领域已有经验积累（其 Codeium 插件提供了类似 Copilot 的补全功能），推测 Cascade 所使用的模型是 Codeium 针对编程优化的大语言模型（可能是基于开源模型微调，或整合了多个模型）。一个明显的区别是，Codeium 为企业用户提供了自托管选项，这意味着 Windsurf 所使用的模型和推理服务可以部署在公司自己的服务器上。这意味着在架构上，Codeium 不依赖于 OpenAI 等第三方 API；其核心模型可以由 Codeium 提供并在客户环境中运行。事实上，Codeium 平台支持“Engines”的概念，用户可以选择 AI 后端引擎，例如使用 Codeium 自己的模型“Sonnet”（Codeium 内部模型代号之一）或开源模型替代方案。这种设计理论上赋予了 Windsurf 模型灵活性：如果需要，它可以切换到另一个等效的模型引擎，而不像 Cursor 那样只能使用官方团队列出的少数固定模型。在当前默认配置下，Windsurf 的大部分智能来自 Codeium 的在线服务，其推理也在云端执行。然而，与完全依赖远程服务的 Cursor 不同，Windsurf 对部分 AI 功能进行了本地优化：例如，Tab 补全（Supercomplete）功能，根据官方信息，是由 Codeium 自研的小模型驱动，在本地/附近服务器上高速运行。这使得日常编码时的即时建议几乎感觉不到延迟，而对于复杂的对话或大规模生成则调用强大的云端模型。对于关注数据安全的企业客户，Windsurf 最大的卖点是支持“气隙（air-gapped）”部署：公司可以将完整的 Codeium AI 引擎安装在自己的防火墙内，所有代码和提示数据都保留在内部网络中。因此，Windsurf 在模型策略上与 Cursor 做出了相反的选择——力求更大的模型自主性和部署灵活性，而非完全依赖头部 AI 公司的 API。这一选择需要更多的工程投入（训练和维护专有模型，以及复杂的部署支持），但在企业市场获得了认可。这也是 Codeium 的工程设计重点之一。

状态管理与上下文保留： 鉴于目标用户包括处理大型代码仓库的团队，Windsurf 在上下文管理方面投入了大量的工程设计。其核心是一套代码索引和检索机制：当用户打开一个仓库时，Windsurf 会自动扫描所有代码并在本地构建一个语义索引（使用向量嵌入）。这个过程类似于构建项目全文搜索，但更智能——该索引允许 AI 按需从任何文件中检索相关内容，而无需显式加载该文件。因此，当 Cascade 需要回答涉及多个文件的问题时，它可以快速从索引中找到相关片段并将其内容添加到模型上下文中。例如，如果你问“函数 X 在哪里定义？”，Cascade 可以立即通过

系统对比总结

下表概述了 GitHub Copilot、Cursor 和 Windsurf 三款产品的 Agent 架构异同：

功能维度	GitHub Copilot	Cursor	Windsurf (Codeium)
架构定位	最初作为编程辅助聊天机器人，后扩展到“Agent 模式”（代号 Project Padawan）；Agent 可嵌入 GitHub 平台，与 Issues/PR 工作流集成。多轮对话单 Agent，无明确多 Agent 架构。支持多模态输入（图像）。	AI 优先的本地编辑器（VS Code 衍生版），包含聊天模式和 Agent 模式交互。默认助手模式侧重问答和补全，Agent 模式需显式激活才能让 AI 自主执行任务。单 Agent 架构，无多模态处理。	从一开始就设计为“Agentic IDE”：AI 助手 Cascade 始终在线，既能聊天也能自主执行多步操作，无需模式切换。单 Agent 执行，通过 Flows 实现人机同步协作，目前专注于代码文本。
任务规划与执行	支持自动任务分解和迭代执行。Agent 将用户请求拆解为子任务并迭代完成，直至达成目标或显式停止。具备自愈能力（可识别并修复编译/测试错误）。每次任务完成后以 PR 形式交付结果并等待人工审查；审查反馈触发下一次迭代。	可处理跨文件修改，但倾向于单轮执行：Agent 接收指令后一次性给出所有修改建议，列出 diffs 供用户批准。通常不自主进行多轮迭代（除非用户再次提示），错误也常留给用户决定是否让 AI 修复。默认只执行有限次数的自动修正循环，避免无限期挂起。	深度自主性：Cascade 能将高层需求分解为一系列行动并持续执行，直至任务完成。擅长大型重构和跨模块任务，自动链式调用编辑、文件创建、命令执行、测试验证等，直到代码通过自检。若过程中发现新问题，会继续迭代修复，除最终结果外几乎无需人工干预（但关键修改会要求人工最终确认）。
模型策略	云端多模型融合：支持 OpenAI GPT-4、GPT-3.5 系列（内部代号 o1、o3-mini 等）、Anthropic Claude 3.5、Google Gemini 2.0 等，用户可在界面切换偏好模型。通过双模型架构（大模型生成方案，小模型快速应用修改）提升效率。模型由 GitHub 统一托管和调用；Copilot Enterprise 用户请求通过专用实例。不支持私有化部署。	完全依赖第三方大模型 API：所有请求经由 Cursor 云端中转并调用 OpenAI/Anthropic 模型。用户可使用自己的 API Keys（账单自理），但调用仍发生在官方服务器。无离线或本地模型选项。模型类型取决于 Cursor 支持范围；用户无法自由集成新模型。Cursor 不直接训练模型，而是通过优化提示词来适配外部模型。	以自研模型为主，后端灵活：默认使用 Codeium 专有代码模型，并允许企业用户选择自托管部署。架构支持更换不同模型引擎（Codeium “Sonnet”模型或开源等），未来可扩展第三方接口。部分轻量级功能使用小模型进行本地/边缘计算以降低延迟。强调用户对 AI 环境的控制权（模型更新节奏、版本稳定性由用户掌握）。
上下文与记忆	采用 RAG 策略获取代码上下文：通过 GitHub Code Search 检索相关代码片段并注入提示词。提示词包含项目结构摘要而非全文以节省 token。支持将 Issue 描述、相关 PR 讨论纳入上下文，以理解任务意图和项目规范。对话历史保留在单个会话内；无自动跨会话记忆（需依赖 Issues/PRs 或 READMEs 承载跨会话信息）。	启动时为项目构建向量索引以支持语义搜索。模型提示词侧重于用户当前提供的代码上下文（打开的文件或片段）；当需要其他部分时，通过语义相关性检索并插入。提供 `.cursor/rules` 文件机制，允许开发者为项目设置永久性知识和规范；Agent 在每次对话中读取这些规则，相当于人工提供的长期记忆。默认无自动跨会话记忆（需用户手动记录到规则文件）。	全项目语义索引：本地预扫描整个代码库以构建索引；Cascade 可随时检索任何文件内容作为上下文。特有 Memories 系统，自动持久化保存重要对话内容和用户指定的笔记/规则，实现跨会话记忆。因此，即使重启后 Cascade 也能“记住”项目约定和之前的讨论。还集成 IDE 环境状态作为上下文来源：实时感知用户打开的文件、光标位置、终端输出等，利用这些隐式信息理解用户意图。总体而言，Cascade 拥有更广阔、更动态的上下文视图。
工具与扩展	与 GitHub 工作流深度集成：Agent 通过 GitHub Actions 在云端获取隔离的开发环境，能够执行单元测试、运行项目等。内置工具包括读取文件、搜索仓库、应用代码更改、终端命令等，LLM 可按需调用。引入 MCP (Model Context Protocol) 标准，支持连接外部数据源和服务；官方 MCP 插件可访问 GitHub 数据，并提供全球开放接口供第三方扩展。具备计算机视觉能力，可解析 Issues 中附带的截图作为问题依据。	提供丰富的 IDE 操作工具，通过系统提示词精确指导如何使用（例如，要求 AI 在修改前先读取文件内容，避免脱离上下文的盲写）。通过 MCP 接口实现插件化，允许连接自定义工具/数据源以扩展 Agent 能力。例如，开发者可添加数据库查询插件，让 Cursor Agent 在代码中使用最新的数据库 schema 信息。Cursor Agent 严格遵循预定义规则使用工具（例如，调用前解释行动），提高交互可预测性。	最全面的工具集成：Cascade 对编辑器和系统拥有广泛的操作控制权，从文件系统到终端。支持自动执行命令（例如，构建、测试）并利用结果进行后续操作。Wave 3 起支持 MCP 插件，允许外部服务通过 JSON 配置成为 Cascade 的工具，例如地图 API、数据库接口等。Cascade 还会监控 IDE 状态（剪贴板内容、当前选择等）以提供更智能的响应。为安全起见，Windsurf 对关键更改要求用户确认，对外部服务调用需预先配置以防滥用。总体而言，Cascade 几乎等同于一个具备 IDE 插件和 Shell 脚本能力的 AI 开发伙伴。
工程权衡与创新	平台集成：充分利用现有 GitHub 基础设施（Actions、PR 机制等）托管 Agent。安全优先：内置策略防止未经审查的代码直接影响主分支和生产环境。提出 MCP 开放标准，开创性探索 LLM 调用外部工具的通用解决方案。透明度：允许用户查看 Agent 执行日志以理解其决策过程，增加信任。创新在于将 AI 深度嵌入开发工作流的各个阶段，实现人机协作的闭环开发。	云服务：选择云架构确保大模型性能和统一管理，但牺牲了离线能力。精细化提示词：将 LLM 转化为专业代码助手，依赖于庞大的系统提示词和工具指令集合；Cursor 在此领域的投入使其生成质量备受好评。人工监督：倾向于多一步人工确认，而非给予 AI 完全自由修改代码的权限——这种保守策略降低了错误风险，增强了用户信心。可定制性：通过规则文件和插件，Cursor 为高级用户提供了定制 AI 行为和扩展能力的方式，是其重要的工程灵活性优势。	以人为本：引入 Flows 模式，解决早期 Agent 异步执行效率低的问题，实现 AI 行动与人类的实时交互。极致上下文集成：本地代码索引 + 跨会话记忆 + IDE 行为监控，打造了目前业界最全面的信息获取 Agent。企业友好：投入自研模型和私有化部署，满足安全合规需求。质量保障：Cascade 通过自动运行测试和要求人工审查，确保大规模自动化修改的可靠性。Windsurf 的创新在于找到了自动化与人工控制之间的平衡点：通过巧妙的架构设计，让 AI 大幅提升开发效率，同时避免 AI 失控或产出低质量结果。

最后，本研究基于 2024-2025 年的官方博客、开发者分享及相关技术资料。GitHub Copilot、Cursor 和 Windsurf 这三款 AI 编程助手，在 Agent 系统上各有侧重：Copilot 依托其平台生态，实现从编辑器到仓库的云端智能协作；Cursor 专注于打造灵活可控的本地 AI 编码伴侣；Windsurf 则瞄准深度应用和企业场景，追求更高的自主性和上下文集成。读者可通过文中提及的参考文献找到更多细节。展望未来，随着多 Agent 协作、更多模态融合以及模型效率的提升，这些系统的架构将持续演进，为开发者带来更流畅、更强大的体验。

使用 Bolt.new 和 Lovable 的产品经理面临的痛点

2025年4月22日 · 一分钟阅读

Lark Birdy

Chief Bird Officer

产品经理（PM）被 Bolt.new 和 Lovable 吸引，用于快速进行 AI 应用的原型设计。这些工具承诺“从想法到应用只需几秒钟”，让 PM 可以在没有完整开发团队的情况下创建功能性用户界面或 MVP。然而，真实用户反馈揭示了几个痛点。常见的挫折包括笨拙的用户体验导致效率低下、与团队协作困难、与现有工具链的集成有限、缺乏对长期产品规划的支持，以及分析或跟踪功能不足。以下，我们分解了关键问题（附有直接用户评论），并比较了每个工具的表现。

使用 Bolt.new 和 Lovable 的产品经理面临的痛点

阻碍效率的用户体验/用户界面问题

虽然 Bolt.new 和 Lovable 都是前沿的，但并非万无一失，PM 经常遇到减缓他们速度的用户体验/用户界面问题：

不可预测的 AI 行为和错误： 用户报告这些 AI 构建器经常产生错误或意外更改，迫使他们进行繁琐的反复试验。一位非技术用户描述了花费*“3 小时[在]重复错误”上，只是为了添加一个按钮，在此过程中耗尽了所有代币。事实上，Bolt.new 因在项目超出基本原型时生成“空白屏幕、缺失文件和部分部署”而臭名昭著。这种不可预测性意味着 PM 必须监控 AI 的输出。一位 G2 评论者指出，Lovable 的提示“可能会意外更改，这可能会令人困惑，”如果应用逻辑变得混乱，“要让它恢复正轨可能需要很多工作”——在一个案例中，他们不得不重启整个项目*。当 PM 试图快速推进时，这种重置和返工令人沮丧。
高迭代成本（代币和时间）： 两个平台都使用使用量限制模型（Bolt.new 通过代币，Lovable 通过消息积分），这可能会阻碍高效实验。几位用户抱怨 Bolt 的代币系统过于消耗——一位用户写道，“你需要的代币比你想象的要多，” “一旦你连接数据库……你会遇到 AI 在一两个提示中无法解决的问题”。结果是迭代循环的提示和修复耗尽了配额。另一位不满的 Bolt.new 采用者打趣道：“30% 的代币用于创建应用。其余 70%……用于解决 Bolt 创建的所有错误和问题。” 这得到了回复的回应：“非常正确！[我] 已经在一个月内续订了三次！”。Lovable 的使用模型也不例外——其基本层级可能不足以构建一个简单的应用（一个评论者*“订阅了[基本级别]，但这并不足以让我构建一个简单的应用”*，指出下一个层级的成本陡增）。对于 PM 来说，这意味着在原型上迭代时会遇到限制或产生额外费用，这是一个明显的效率杀手。
有限的自定义和用户界面控制： 虽然两个工具都能快速生成用户界面，但用户发现它们缺乏微调能力。一位 Lovable 用户称赞速度，但感叹*“自定义选项[有些受限]”。开箱即用的模板看起来不错，但超出基本调整的调整可能很麻烦。同样，Lovable 的 AI 有时会更改不应更改的代码——“当我添加新内容时，它更改了不应更改的代码，”一位用户指出——这意味着 PM 的小更改可能会无意中破坏应用的其他部分。另一方面，Bolt.new 起初几乎没有提供视觉编辑。所有操作都是通过提示或在后台编辑代码完成的，这对非开发人员来说是令人生畏的。（Lovable 已开始引入“视觉编辑”模式用于布局和样式更改，但目前处于早期访问阶段。）缺乏强大的所见即所得编辑器或拖放界面（在两个工具中）是 PM 的痛点，他们不想深入代码。甚至 Lovable 自己的文档也承认了这一差距，计划在未来提供更多的拖放功能，以使该过程“对非技术用户更易于访问”*——这意味着目前，易用性仍有改进空间。
用户界面工作流故障： 用户指出了一些较小的用户体验问题，这些问题破坏了使用这些平台的流畅性。例如，在 Bolt.new 中，界面允许用户在未配置部署目标的情况下单击“部署”，导致混乱（用户建议它*“如果您尝试部署但尚未配置 Netlify，则应提示您进行配置”）。Bolt 还缺乏编辑器中的任何差异或历史视图；它“描述了它正在更改的内容……但实际代码没有显示差异，”*与传统开发工具不同。这使得 PM 更难理解 AI 在每次迭代中更改了什么，妨碍了学习和信任。此外，Bolt 的会话聊天历史非常短，因此您无法向后滚动查看较早的指令——这对可能离开一段时间后需要上下文的 PM 来说是个问题。总之，这些界面缺陷意味着需要额外的心理负担来跟踪更改和状态。

总之，Bolt.new 倾向于优先考虑原始性能而非抛光，这可能会让 PM 在处理其粗糙边缘时苦苦挣扎，而Lovable 的用户体验更友好，但深度仍然有限。正如一项比较所说：“如果您想要原始速度和完全控制，Bolt.new 非常适合……快速生成全栈应用，但您需要为生产清理内容。Lovable 更结构化和设计友好……开箱即用的代码更干净。” 对于产品经理来说，“清理”时间是一个严重的考虑因素——许多人发现这些 AI 工具在初始开发时间上节省的时间部分被调试和调整时间抵消了。

协作和团队工作流摩擦

PM 角色的一个关键部分是与团队合作——设计师、开发人员、其他 PM——但 Bolt.new 和 Lovable 在多人协作和工作流集成方面存在局限性。

缺乏本地协作功能： 两个工具最初都不是为实时多用户协作（如 Google Docs 或 Figma）而设计的。项目通常与单个帐户绑定，并由一个人一次编辑。这种孤立可能会在团队环境中造成摩擦。例如，如果 PM 在 Bolt.new 中快速制作一个原型，设计师或工程师没有简单的方法可以登录并同时调整同一项目。交接很笨拙：通常需要导出或将代码推送到存储库以供其他人工作（如下面所述，在 Bolt 的情况下甚至这也不简单）。实际上，一些用户选择使用这些工具生成代码，然后将其移至其他地方。一位 Product Hunt 讨论参与者承认：在使用 Bolt 或 Lovable 获得想法后，他们*“将其放在我的 GitHub 上，并最终使用 Cursor 完成构建”*——基本上切换到不同的工具进行团队开发。这表明对于持续协作，用户觉得有必要离开 Bolt/Lovable 环境。
版本控制和代码共享： 早期，Bolt.new 没有内置 Git 集成，一位开发者称其为*“疯狂”的疏忽：“我完全希望我的代码……在 Git 中。”* 没有本地版本控制，将 Bolt 的输出集成到团队的代码库中很麻烦。（Bolt 提供了可下载的代码 ZIP 文件，第三方浏览器扩展出现以将其推送到 GitHub。）这是一项额外的步骤，可能会打破 PM 试图与开发人员协作的流程。相比之下，Lovable 宣传*“无锁定，GitHub 同步”功能，允许用户连接存储库并推送代码更新。这一直是团队的卖点——一位用户指出他们“使用… Lovable 进行 Git 集成（协作团队环境）”*，而 Bolt 仅用于快速单人工作。在这方面，Lovable 缓解了团队交接：PM 可以生成应用，并立即将代码放入 GitHub 供开发人员审查或继续。Bolt.new 试图改进，通过 StackBlitz 添加了 GitHub 连接器，但社区反馈表明它仍然不够无缝。即使有 Git，AI 驱动的代码对于团队来说也很难解析，因为代码是机器生成的，有时并不自解释。
工作流集成（设计和开发团队）： 产品经理通常需要早期参与设计师或确保他们构建的内容符合设计规范。两个工具都在这里尝试了集成（下面将详细讨论），但仍然存在摩擦。Bolt.new 对开发人员的一个优势是它允许对技术栈进行更直接的控制——正如 Lovable 的创始人所观察到的那样，“它允许您使用任何框架”——这可能会让想要选择技术的开发团队成员感到满意。然而，这种灵活性也意味着 Bolt 更像是开发者的游乐场，而不是指导 PM 的工具。相比之下，Lovable 的结构化方法（推荐的栈、集成的后端等）可能会限制开发人员的自由，但它提供了一条更有指导性的路径，非工程师对此表示赞赏。根据团队的不同，这种差异可能是一个痛点：要么 Bolt 感觉太不具指导性（PM 可能会意外选择团队不喜欢的设置），要么 Lovable 感觉太受限（未使用开发团队偏好的框架）。无论哪种情况，将原型与团队的标准对齐都需要额外的协调。
外部协作工具： Bolt.new 和 Lovable 都没有直接与常见的协作套件集成（没有直接的 Slack 集成用于通知，没有 Jira 集成用于跟踪问题等）。这意味着工具中的任何更新或进展都必须手动传达给团队。例如，如果 PM 创建了一个原型并希望获得反馈，他们必须通过电子邮件/Slack 自行分享已部署应用或 GitHub 存储库的链接——平台不会自动通知团队或与项目票据关联。这种与团队工作流的缺乏集成可能导致沟通差距。PM 无法在 Bolt/Lovable 中分配任务，也无法像在 Figma 等设计工具中那样在特定用户界面元素上为队友留下评论。所有操作都必须在工具之外临时进行。基本上，Bolt.new 和 Lovable 是单人环境设计，这在 PM 想要在多人环境中使用它们时构成挑战。

总之，Lovable 在团队场景中略胜 Bolt.new 一筹（得益于 GitHub 同步和非编码人员更容易遵循的结构化方法）。单独工作的产品经理可能会容忍 Bolt 的个人设置，但如果他们需要涉及他人，这些工具可能会成为瓶颈，除非团队围绕它们创建手动流程。协作差距是我们看到用户导出他们的工作并在其他地方继续的主要原因——AI 可以启动项目，但传统工具仍然需要协作地推进它。

与其他工具的集成挑战

现代产品开发涉及一套工具——设计平台、数据库、第三方服务等。PM 重视与现有工具集良好配合的软件，但 Bolt.new 和 Lovable 的集成生态系统有限，通常需要变通方法：

设计工具集成： 产品经理经常从设计模型或线框开始。Bolt 和 Lovable 都认识到这一点，并引入了导入设计的方法，但用户对这些功能的反馈不一。Bolt.new 添加了 Figma 导入（基于 Anima 插件）以从设计生成代码，但未达到预期。一位早期测试者指出，宣传视频显示了完美的简单导入，“但那些不[工作]的部分呢？如果一个工具要成为游戏规则改变者，它应该处理复杂性——而不仅仅是简单的东西。” 实际上，Bolt 对不极其整洁的 Figma 文件感到困难。一位尝试 Bolt 的 Figma 集成的用户体验设计师发现它在基本布局之外令人失望，表明这种集成可能*“在复杂设计上失灵”。Lovable 最近通过 Builder.io 集成推出了自己的 Figma 到代码管道。这可能会产生更干净的结果（因为 Builder.io 解释 Figma 并将其交给 Lovable），但由于新推出，尚未广泛验证。至少有一次比较称赞 Lovable “更好的用户界面选项（Figma/Builder.io）” 和更设计友好的方法。不过，“生成更新稍慢”*是为设计彻底性而付出的代价。对于 PM 来说，底线是导入设计并不总是点击按钮那么简单——他们可能需要花时间调整 Figma 文件以适应 AI 的能力或在导入后清理生成的用户界面。这增加了设计师与 AI 工具之间工作流的摩擦。
后端和数据库集成： 两个工具都专注于前端生成，但真实应用需要数据和认证。Bolt.new 和 Lovable 的选择解决方案是与 Supabase（托管的 PostgreSQL 数据库 + 认证服务）的集成。用户欣赏这些集成的存在，但执行上存在细微差别。早期，Bolt.new 的 Supabase 集成很初级；Lovable 的被认为*“更紧密[且]更直接”。Lovable 的创始人强调，Lovable 的系统经过微调，以减少“卡住”的情况，包括在集成数据库时。也就是说，使用 Supabase 仍然需要 PM 对数据库模式有一定的了解。在 Lovable 的 Medium 评论中，作者必须手动在 Supabase 中创建表并上传数据，然后通过 API 密钥连接以获得完整的工作应用（例如，票务应用的事件和场地）。这个过程是可行的，但并不简单——没有自动检测您的数据模型，PM 必须定义它。如果连接中出现问题，调试再次由用户负责。Lovable 确实尝试提供帮助（AI 助手在 Supabase 连接期间发生错误时提供了指导），但并非万无一失。Bolt.new 仅最近“在用户投诉后推出了许多 Supabase 集成的改进”。在此之前，正如一位用户所说，“Bolt…处理前端工作，但在后端帮助上没有太多”*——除了简单的预设，您需要自己处理服务器逻辑。总之，虽然两个工具都实现了后端集成，但集成深度有限。PM 可能会发现自己受限于 Supabase 提供的功能；任何更自定义的内容（比如不同的数据库或复杂的服务器逻辑）都不受支持（Bolt 和 Lovable 不生成 Python/Java 等语言的任意后端代码）。当产品的需求超出基本的 CRUD 操作时，这可能会令人沮丧。
第三方服务和 API： 现代产品的关键部分是连接服务（支付网关、地图、分析等）。Lovable 和 Bolt 可以集成 API，但只能通过提示界面而不是预构建插件。例如，Reddit 上的一位用户解释了如何告诉 AI 类似*“我需要一个天气 API”的内容，工具会选择一个流行的免费 API 并请求 API 密钥。这令人印象深刻，但也不透明——PM 必须信任 AI 选择合适的 API 并正确实现调用。没有集成商店或图形配置；一切都在于您如何提示。对于常见服务如支付或电子邮件，Lovable 似乎通过内置实现占据优势：根据其创始人的说法，Lovable 具有“支付+电子邮件的集成”*作为其功能之一。如果属实，这意味着 PM 可以更轻松地要求 Lovable 添加 Stripe 支付表单或通过集成服务发送电子邮件，而在 Bolt 中可能需要通过 API 调用手动设置。然而，关于这些的文档稀少——可能仍然通过 AI 代理处理，而不是点选设置。缺乏清晰的用户界面集成模块可以被视为痛点：集成新内容需要反复试验，如果 AI 不知道特定服务，PM 可能会遇到瓶颈。基本上，集成是可能的，但不是“即插即用”。
企业工具链集成： 在集成产品管理工具链本身（Jira 用于票据，Slack 用于通知等）时，Bolt.new 和 Lovable 目前没有提供现成的解决方案。这些平台独立运行。因此，使用它们的 PM 必须手动更新其他系统。例如，如果 PM 在 Jira 中有一个用户故事（“作为用户，我想要 X 功能”）并在 Lovable 中原型化该功能，则无法在 Lovable 中标记该故事为已完成——PM 必须进入 Jira 并完成。同样，没有 Slack 机器人会在 Bolt 完成构建时宣布“原型已准备好”；PM 必须获取预览链接并分享。这种差距并不令人惊讶，考虑到这些工具的早期关注点，但在团队环境中确实妨碍了工作流效率。这本质上是上下文切换：您在 Bolt/Lovable 中构建，然后切换到您的 PM 工具记录进度，然后可能切换到您的通信工具向团队展示。集成软件可以简化这一过程，但目前这种负担落在 PM 身上。

简而言之，Bolt.new 和 Lovable 在某些技术领域集成良好（尤其是与 Supabase 的数据集成），但在集成到产品经理日常使用的更广泛工具生态系统中表现不佳。Lovable 在提供内置路径方面略有进展（例如一键部署、直接 GitHub、一些内置服务），而 Bolt 通常需要外部服务（Netlify、手动 API 设置）。NoCode MBA 的一篇评论明确对比了这一点：“Lovable 提供内置发布，而 Bolt 依赖于外部服务如 Netlify”。弥合这些差距的努力——无论是手动复制代码、摆弄第三方插件，还是将更新重新输入其他系统——对于寻求无缝体验的 PM 来说都是一种真正的烦恼。

产品规划和路线图管理的局限性

除了快速构建原型，产品经理还负责规划功能、管理路线图，并确保产品能够演变。在这方面，Bolt.new 和 Lovable 的范围非常有限——它们帮助创建应用，但不提供更广泛的产品规划或持续项目管理工具。

没有积压或需求管理： 这些 AI 应用构建器不包括任何积压、用户故事或任务的概念。PM 无法使用 Bolt.new 或 Lovable 列出功能，然后以结构化方式逐一处理。相反，开发由提示驱动（“构建 X”，“现在添加 Y”），工具相应地生成或修改应用。这适用于临时原型设计，但不适用于管理路线图。如果 PM 想要优先考虑某些功能或制定发布计划，他们仍然需要外部工具（如 Jira、Trello 或简单的电子表格）来实现。AI 不会提醒您待办事项或功能之间的关系——它没有项目时间线或依赖关系的概念，只有您给出的即时指令。
难以管理较大的项目： 随着项目复杂性的增加，用户发现这些平台遇到了瓶颈。一位 G2 评论者指出，“当我开始扩大我的投资组合时，我意识到在 Lovable 中没有很多工具可以处理复杂或较大的项目”。这种观点也适用于 Bolt.new。它们针对的是绿色小型应用；如果您尝试构建具有多个模块、用户角色、复杂逻辑等的重大产品，过程将变得笨拙。除了底层代码框架提供的模块或包外，没有其他支持。由于两个工具都不允许连接到现有代码库，您无法逐步将 AI 生成的改进纳入长期项目。这意味着它们不适合成熟产品的迭代开发。实际上，如果使用 Lovable 构建的原型需要成为真实产品，团队通常会在工具之外重写或重构它，一旦它达到一定规模。从 PM 的角度来看，这一限制意味着您将 Bolt/Lovable 的输出视为一次性原型或起点，而不是将要扩展的实际产品——工具本身不支持这一旅程。
AI 生成的一次性性质： Bolt.new 和 Lovable 更像是向导而不是持续开发环境。它们在早期构思阶段（您有一个想法，您提示它，您得到一个基本应用）表现出色。但它们缺乏持续规划和监控产品进展的功能。例如，没有路线图时间线的概念，您可以在其中插入“冲刺 1：实现登录（由 AI 完成），冲刺 2：实现个人资料管理（待办）”等。您也无法轻松恢复到以前的版本或分支新功能——产品开发中的标准实践。这通常迫使 PM 采用一次性心态：使用 AI 快速验证一个想法，但随后在传统环境中重新开始“正式”开发，以超出原型的任何内容。交接可能是一个痛点，因为它本质上重复了工作或需要将原型转换为更可维护的格式。
没有利益相关者参与功能： 在产品规划中，PM 经常收集反馈并调整路线图。这些 AI 工具对此也无济于事。例如，您无法在 Bolt/Lovable 中创建不同的场景或产品路线图选项与利益相关者讨论——没有时间线视图，没有功能投票，没有此类功能。围绕接下来要构建什么的任何讨论或决策都必须在平台之外进行。PM 可能希望，例如，当 AI 构建应用时，它还可以提供已实现功能或规格的列表，然后可以作为团队的活文档。但相反，文档有限（聊天历史或代码注释是唯一的记录，如前所述，Bolt 的聊天历史长度有限）。这种内置文档或规划支持的缺乏意味着PM 必须手动记录 AI 所做的事情以及剩下的工作，以便进行任何形式的路线图，这增加了额外的工作。

本质上，Bolt.new 和 Lovable 不是产品管理工具的替代品——它们是辅助开发工具。它们*“从头生成新应用”，但不会与您一起详细说明或管理产品的演变*。产品经理发现，一旦初始原型完成，他们必须切换到传统的规划和开发周期，因为 AI 工具不会指导该过程。正如一位技术博主在测试后总结的那样，“Lovable 明显加速了原型设计，但并没有消除对人类专业知识的需求……它不是一个能够消除产品开发中所有人类参与的灵丹妙药”。这强调了规划、优先级和改进——核心 PM 活动——仍然依赖于人类及其标准工具，留下了这些 AI 平台本身可以支持的空白。

（Lovable.dev vs Bolt.new vs Fine: Comparing AI App Builders and coding agents for startups）大多数 AI 应用构建器（如 Bolt.new 和 Lovable）擅长生成快速的前端原型，但缺乏复杂后端代码、全面测试或长期维护的能力。产品经理发现这些工具虽然适合概念验证，但无法处理初始构建之外的完整产品生命周期。

分析、洞察和跟踪进度的问题

一旦产品（甚至是原型）构建完成，PM 希望跟踪其表现——无论是开发进度还是用户参与度。在这方面，Bolt.new 和 Lovable 几乎没有内置的分析或跟踪功能，这可能是一个显著的痛点。

没有内置用户分析： 如果 PM 通过这些平台部署应用，没有仪表板可以查看使用指标（例如用户数量、点击次数、转化率）。任何产品分析必须手动添加到生成的应用中。例如，要获得基本的流量数据，PM 必须在应用代码中插入 Google Analytics 或类似脚本。Lovable 自己的帮助资源明确指出这一点：“如果您使用 Lovable…您需要手动添加 Google Analytics 跟踪代码…没有直接集成。” 这意味着 PM 必须协调额外的设置和技术步骤（如果他们不熟悉代码，可能需要开发人员的帮助）。缺乏集成分析是个麻烦，因为快速原型设计的一个重要原因是收集用户反馈——但工具不会为您收集这些数据。如果 PM 向测试组推出了 Lovable 生成的 MVP，他们必须自己设置工具或使用外部分析服务来了解用户行为。这是可行的，但增加了开销，并且需要熟悉编辑代码或使用平台有限的界面插入脚本。
对 AI 过程的洞察有限： 在开发方面，PM 可能还希望获得AI 代理表现的分析或反馈——例如，了解 AI 需要多少次尝试才能正确完成某件事，或它最常更改代码的部分。这些洞察可以帮助 PM 识别应用的风险区域或评估 AI 构建组件的信心。然而，Bolt.new 和 Lovable 都没有提供太多此类信息。除了粗略的代币使用或消息发送等度量外，没有丰富的 AI 决策日志。事实上，如前所述，Bolt.new 甚至没有显示代码更改的差异。这种缺乏透明度令人沮丧，以至于一些用户指责 Bolt 的 AI 只是为了显得忙碌而消耗代币：*“优化为活动的外观而非真正的问题解决，”*正如一位评论者观察到的代币消耗模式。这表明 PM 对 AI 的“工作”是否有效或浪费几乎没有洞察，除了观察结果。当事情出错时，PM 必须盲目信任 AI 的解释或深入原始代码——没有分析来指出，例如，“20% 的生成尝试因 X 而失败。”
进度跟踪和版本历史： 从项目管理的角度来看，这两个工具都没有提供跟踪进度的功能。没有燃尽图，没有进度百分比，甚至没有简单的已完成功能清单。唯一的时间线是对话历史（对于 Lovable 的基于聊天的界面）或提示的顺序。如前所述，Bolt.new 的历史窗口有限，这意味着您无法滚动回到长会话的开头。没有可靠的历史记录或摘要，PM 可能会失去对 AI 所做工作的跟踪。也没有里程碑或版本的概念。如果 PM 想要将当前原型与上周的版本进行比较，工具不提供该功能（除非 PM 手动保存代码副本）。这种缺乏历史记录或状态管理可能使得更难衡量进度。例如，如果 PM 的目标是“将应用加载时间提高 30%”，Bolt/Lovable 中没有内置的度量或分析工具来帮助衡量这一点——PM 需要导出应用并使用外部分析工具。
用户反馈循环： 收集定性反馈（例如来自测试用户或利益相关者）也超出了这些工具的范围。PM 可能希望有某种简单的方法让测试人员从原型中提交反馈，或者让 AI 根据用户交互提出改进建议，但这些功能不存在。任何反馈循环都必须单独组织（调查、手动测试会话等）。基本上，一旦应用构建并部署，Bolt.new 和 Lovable 就不再参与——它们不帮助监控应用的接收或表现。这是开发和产品管理之间的经典差距：工具处理了前者（在一定程度上），但不提供后者的任何支持。

举例来说，初创公司的一位 PM 可能使用 Lovable 构建一个演示应用用于试点，但在向团队或投资者展示结果时，他们必须依靠轶事或外部分析来报告使用情况，因为 Lovable 本身不会显示这些数据。如果他们想要跟踪最近的更改是否提高了用户参与度，他们必须自己为应用设置分析和可能的 A/B 测试逻辑。对于习惯于更集成平台的 PM（即使是像 Webflow 这样的用于网站的平台也有某种形式的统计数据，或 Firebase 用于应用的分析），Bolt/Lovable 在部署后的沉默是显著的。

总之，缺乏分析和跟踪意味着 PM 必须恢复到传统方法来衡量成功。这是一个错失的期望——在使用如此先进的 AI 工具构建产品之后，人们可能期望在分析中获得先进的 AI 帮助，但这（目前）不在包中。正如一位指南所说，如果您想在 Lovable 中进行分析，您需要用传统方式进行，因为*“GA 未集成”*。在跟踪开发进度方面，完全由 PM 手动在工具外维护任何项目状态。这种断开连接是产品经理试图简化从想法到用户反馈的工作流时的一个显著痛点。

结论：比较视角

从真实用户故事和评论中可以看出，Bolt.new 和 Lovable 各有优势，但对产品经理来说也有显著的痛点。两者都在其核心承诺上表现出色——快速生成工作应用原型——这就是为什么它们吸引了成千上万的用户。然而，从必须不仅构建产品，还要协作、计划和迭代的 PM 视角来看，这些工具显示出类似的局限性。

Bolt.new 倾向于提供更多的灵活性（您可以选择框架，直接调整代码）和原始速度，但代价是更高的维护成本。没有编码专业知识的 PM 在 Bolt 抛出错误或需要手动修复时可能会遇到瓶颈。其基于代币的模型和最初稀疏的集成功能经常导致挫折和额外步骤。Bolt 可以被视为一个强大但笨拙的工具——适合快速黑客或技术用户，不太适合抛光的团队工作流。
Lovable 将自己定位为更用户友好的“AI 全栈工程师”，这转化为对非工程师来说更平滑的体验。它抽象了更多的粗糙边缘（具有内置部署、GitHub 同步等）并倾向于通过结构化输出指导用户（更干净的初始代码、设计集成）。这意味着 PM 通常*“在 Lovable 中走得更远”*，然后才需要开发人员的干预。然而，Lovable 共享 Bolt 的许多核心痛点：它不是魔法——用户仍然会遇到令人困惑的 AI 行为，有时需要重启，并且必须离开平台以超出构建原型的任何内容。此外，Lovable 的附加功能（如视觉编辑或某些集成）仍在发展中，有时本身也很麻烦（例如，一位用户发现 Lovable 的部署过程比 Bolt 的更烦人，尽管它是一键式的——可能是由于缺乏自定义或控制）。

从比较的角度来看，两个工具在缺乏的方面非常相似。它们不能替代仔细的产品管理；它们加速了其中一个方面（实施），但在其他方面（调试、协作）创造了新的挑战。对于产品经理来说，使用 Bolt.new 或 Lovable 有点像快进到拥有产品的早期版本——这非常有价值——但随后意识到您必须再次放慢速度，以解决工具未涵盖的所有细节和过程。

为了管理期望，PM 已经学会将这些 AI 工具用作补充，而不是全面的解决方案。正如一篇 Medium 评论明智地指出的那样：这些工具*“迅速将我的概念转化为功能性应用骨架，”但您仍然“在添加更多复杂性时需要更多动手的人类监督”*。常见的痛点——用户体验问题、工作流差距、集成需求、规划和分析遗漏——表明Bolt.new 和 Lovable 最适合原型设计和探索，而不是端到端的产品管理。 了解这些局限性，产品经理可以围绕它们进行规划：享受它们提供的快速胜利，但准备好引入通常的工具和人类专业知识来完善和推动产品向前发展。

来源：

Reddit、Product Hunt 和 LinkedIn 上的真实用户讨论，突出 Bolt.new 和 Lovable 的挫折。
来自 G2 和 Product Hunt 的评论和评论，比较这两个工具并列出喜欢/不喜欢的地方。
详细的博客评论（NoCode MBA、Trickle、Fine.dev）分析功能限制、代币使用和集成问题。
官方文档和指南，指出缺乏某些集成（例如分析）和需要手动修复。

Team-GPT 平台产品体验与用户需求调研报告

2025年4月21日 · 一分钟阅读

Lark Birdy

Chief Bird Officer

引言

Team-GPT 是一家面向团队和企业的 AI 协作平台，旨在让多人共享和协作使用大型语言模型（LLMs）提升工作效率。该平台近期获得了 450 万美元融资用于加强企业级 AI 解决方案。本报告将以产品经理视角，分析 Team-GPT 的典型使用场景和核心用户需求、现有功能亮点、用户痛点和未满足需求，以及与 Notion AI、Slack GPT、ChatHub 等同类产品的差异化比较。

Team-GPT 平台产品体验与用户需求调研报告

一、用户主要使用场景和核心需求

1. 团队协作与知识共享：Team-GPT 最大的价值在于支持多人协作的 AI 应用场景。多个成员可以在同一平台上与 AI 进行对话、共享聊天记录，并从彼此的对话中学习。这解决了传统 ChatGPT 私有对话模式下信息无法在团队内部流动的问题。正如一位用户所述：“The most helpful part is being able to share your chats with colleagues and working on a piece of copy/content together”。这种协作需求典型场景包括头脑风暴、团队讨论、相互查看和改进彼此的 AI 提示（prompt）等，使团队共创成为可能。

2. 文档共创与内容生产：许多团队将 Team-GPT 用于撰写和编辑各类内容，例如营销文案、博客文章、商业邮件、产品文档等。Team-GPT 内置“Pages”功能，即 AI 驱动的文档编辑器，支持从初稿到定稿的整个流程。用户可以让 AI 参与润色段落、扩展或压缩内容，并由团队成员共同编辑实时协作完成文档。一名市场经理反馈：“Team-GPT is my go-to for daily tasks like writing emails, blog articles and brainstorming. It's a super useful collaborative tool!”显示出在日常内容创作中Team-GPT已成为不可或缺的工具。此外，HR、人事等团队也使用它撰写政策文件，教育行业用于课件和资料共创，产品经理用于需求文档和用户调研总结等。通过 AI 赋能，文档创作效率大幅提升。

3. 项目知识管理：Team-GPT 提供了“Projects”（项目）概念，支持按项目/主题组织聊天和文档，并附加项目相关的知识上下文。用户可以将产品规格、品牌手册、法律文档等背景资料上传关联到项目中，AI 在该项目内的所有对话都会自动参考这些资料。这满足了团队知识管理的核心需求——让 AI 熟悉团队的专有知识，从而给出更契合上下文的回答，减少重复提供背景信息的麻烦。例如，市场团队可上传品牌指南，AI 在生成内容时会遵循品牌语调；法律团队可上传法规文本，AI 回答时引用相关条款。这种“项目知识”功能帮助 AI “知道你的语境”，让AI“像你团队的一员一样思考”。

4. 多模型应用与专业场景：不同任务可能需要不同的AI模型。Team-GPT 支持集成多个主流大模型，如 OpenAI GPT-4、Anthropic Claude 2、Meta Llama 等，用户可以根据任务特点选择最合适的模型。例如，处理长文本分析时可选择Claude（上下文长度更大），代码问题可能用专门的Code LLM，日常聊天用GPT-4等。一个用户在对比ChatGPT时指出：“Team-GPT is a much easier collaborative way to use AI compared to ChatGPT…We use it a lot across marketing and customer support”——团队不仅能方便使用多模型，还可以跨部门广泛应用：市场部生成内容、客服部撰写回复等都在同一平台完成。这体现了用户对灵活调用AI和统一平台的需求。与此同时，Team-GPT 提供预构建的提示模板和行业用例库，方便新手快速上手，将其视作“未来工作方式”的准备。

5. 日常事务自动化：除了内容生产，用户也利用Team-GPT处理繁琐的日常任务。例如，通过内置的邮件助理一键把会议记录生成专业回复邮件，通过Excel/CSV分析器快速提取数据要点，通过YouTube摘要工具获取长视频的要旨。这些工具覆盖办公中常见的工作流，使用户无需切换平台，在 Team-GPT 内就能完成数据分析、信息检索、生成图像等任务。这类场景满足了用户对工作流程自动化的需求，大幅节省时间。正如一位用户评论所说：“Save valuable time on email composition, data analysis, content extraction, and more with AI-powered assistance”，Team-GPT 帮助团队把重复性工作交给AI处理，专注更高价值的任务。

综上，Team-GPT 的核心用户需求集中在团队共同使用AI来创作内容、共享知识、管理项目知识和自动化日常任务。这些需求反映在实际业务场景中，包括多人协作聊天、实时共创文档、构建共享的提示库、统一管理AI会话以及根据上下文提供准确回答等方面。

二、产品关键功能和服务亮点

1. 团队共享的AI工作空间：Team-GPT 提供了一个面向团队的共享聊天工作区，其直观的设计和组织工具深受用户好评。所有对话和内容都可以按项目或文件夹归档管理，支持子文件夹层级，方便团队分类组织知识。例如，用户可以按部门、客户、主题建立项目，将相关的聊天和页面归集于其中，做到井井有条。这种组织结构让用户“能够在需要时快速找到所需内容”，解决了个人使用ChatGPT时聊天记录杂乱、难以检索的问题。此外，每个对话线程还支持评论功能，团队成员可在对话旁边留言讨论，实现异步协作。这种无缝协作体验得到用户认可：“The platform's intuitive design allows us to easily categorize conversations... enhancing our ability to share knowledge and streamline communication”。

2. Pages 文档编辑器：“Pages”功能是Team-GPT的一大亮点，它相当于内置了一个带AI助手的文档编辑器。用户可以在 Pages 中从零开始创建文档，由AI参与润色和改写每一段文本。编辑器支持逐段AI优化、内容扩展/压缩等操作，也允许多人共同编辑。AI 相当于实时“编辑秘书”，协助完善文档。这使团队可以“从草稿到定稿在几秒内完成”，极大提高文档处理效率。据官网介绍，Pages 能让用户“go from draft to final in seconds with your AI editor”。这一功能尤其受到内容团队欢迎——将AI直接融入写作流程，免去了反复在ChatGPT和文档软件之间复制粘贴的麻烦。

3. Prompt Library 提示库：为方便团队沉淀和复用优秀的提示，Team-GPT 提供了Prompt库和提示构建器。团队可以设计适合自身业务的提示模板，并保存到库中共享给所有成员使用。提示可按主题组织归类，类似内部的“Prompt宝典”。这对于希望输出结果保持一致性和高质量的团队非常重要。例如，客服团队可保存高评分的客服回复模板，新人也能直接调用；营销团队积累的创意文案Prompt可以反复使用。一位用户强调这一点：“Saving prompts saves us a lot of time and effort in repeating what already works well with AI”。Prompt库降低了AI使用门槛，让最佳实践在团队内迅速传播。

4. 多模型接入与切换：Team-GPT 支持同时接入多个大型模型，这使其在功能上超越了单一模型的平台。用户可以在对话中灵活切换不同的AI引擎，如OpenAI的GPT-4、Anthropic的Claude、Meta Llama2，甚至企业自有LLM。这种多模型支持带来了更高的准确性和专业性：针对不同任务选择最优模型。例如，法律部门可能更信任GPT-4的严谨回答，数据团队喜欢Claude长上下文处理能力，开发者可集成开源代码模型。同时，多模型也提供成本优化空间（用较廉价模型处理简单任务）。Team-GPT 明确指出其可“Unlock your workspace’s full potential with powerful language models... and many more”。这一点在和 ChatGPT 官方团队版的对比中尤为突出——后者只能使用OpenAI自家模型，而 Team-GPT 打破了单一供应商限制。

5. 丰富的内置AI工具：为了满足各种业务场景，Team-GPT 内置了一系列实用工具，这些工具相当于ChatGPT的插件扩展，提升特定任务的体验。例如：

**邮件助手 (Email Composer)：**将会议记录或前期邮件内容输入后，AI 自动生成措辞得体的回复邮件。这对于销售和客服团队尤为有用，可快速起草专业邮件。
**图像转文本 (Image to Text)：**上传截图或照片，快速提取其中的文字。免去人工誊写的时间，方便整理纸质资料或扫描件内容。
YouTube 视频导航：输入 YouTube 视频链接，AI 可搜索视频内容、回答与视频内容相关的问题，或生成摘要。这让团队可以高效获取视频中的信息，用于培训或竞争分析。
**Excel/CSV 数据分析：**上传表格数据文件，AI 直接给出数据摘要、对比分析。这类似于一个简化版的 “Code Interpreter”，让非技术人员也能从数据中获取洞见。

除了上述工具，Team-GPT 还支持PDF 文档上传解析、网页内容导入、文本生成图像等功能。团队无需额外购买插件，即可在一个平台内完成从数据处理到内容创作的全流程。这种“一站式AI工作台”的理念，正如官网所描述：“Think of Team-GPT as your unified command center for AI operations”。相比分散使用多个AI工具，Team-GPT 极大简化了用户的工作流。

6. 第三方集成能力：考虑到企业现有工具链，Team-GPT 正在逐步与各种常用软件集成。例如，它已经实现与 Jira 的对接，支持从聊天内容直接创建 Jira 任务；即将推出与 Notion 的集成，让AI直接访问和更新Notion文档；以及 HubSpot、Confluence 等企业工具的集成计划。此外，Team-GPT 允许通过 API 接入自有或开源的大模型以及部署在私有云中的模型，满足有定制需求的企业。虽然目前 Slack / Microsoft Teams 的直接集成尚未推出，但已有用户强烈期待：“The only thing I would change is the integration with Slack and/or Teams... If that becomes in place it will be a game changer.”。这种开放的集成策略使 Team-GPT 更容易融入企业已有协作环境，成为整个数字办公生态的一部分。

7. 安全与权限控制：对于企业用户，数据安全和权限管控是关键考量。Team-GPT 在这方面提供了多层保障：一方面，支持将数据托管在企业自有环境（如AWS私有云）中，做到数据“不出门”；另一方面，工作区内可以设置项目访问权限，精细控制哪些成员可以访问哪些项目及其内容。通过对项目和知识库的权限管理，敏感信息只在授权范围内流动，避免未授权访问。另外，Team-GPT 声称对用户数据零保留，即不会将聊天内容用于训练模型或提供给第三方（从用户在 Reddit 的反馈来看，“0 data retention”是其卖点之一）。管理员还可以利用AI 使用报告（Adoption Reports）来监控团队的使用情况，了解哪些部门频繁使用AI、取得了哪些成果。这不仅有助于发现培训需求，也能量化AI带来的效益。正因如此，一位客户高管评价：“Team-GPT effectively met all [our security] criteria, making it the right choice for our needs.”。

**8. 优质的用户支持与持续改进：**多个用户提到Team-GPT的客户支持响应迅速、非常给力。无论是解答使用问题还是修复Bug，官方团队都表现出积极态度。一位用户甚至评论：“their customer support is beyond anything a customer can ask for...super quick and easy to get in touch”。此外，产品团队保持着较高的迭代频率，不断推出新功能和改进（例如 2024 年进行了 2.0 版本的大更新）。很多长期用户表示产品“持续改进”“功能在不断完善”。这种积极倾听反馈、快速迭代的能力使用户对Team-GPT保持信心。正因如此，在 Product Hunt 上 Team-GPT 获得了 5/5 的用户评分（24条评论）；在 AppSumo 上也有4.6/5的综合评分（68条评价）。可以说，良好的体验和服务已为其赢得了一批忠实拥趸。

综上，Team-GPT 已构筑了从协作、创作、管理到安全的一整套核心功能，满足了团队用户多方面的需求。其亮点在于提供了强大的协作环境和丰富的AI工具组合，同时兼顾企业级的安全与支持。据统计，目前已有全球250多个团队在使用Team-GPT——这充分说明了其在产品体验上的竞争力。

三、用户典型痛点与未被满足的需求

尽管 Team-GPT 功能强大、体验总体良好，但根据用户反馈和评测，也存在一些痛点和待改进之处：

1. 界面变更引发的适应问题：在2024年底推出的 Team-GPT 2.0 版本中，界面和导航发生了较大调整，引发部分老用户不满。一些用户抱怨新版UX复杂难用：“自从2.0后，我经常遇到长对话时界面卡死，而且UX真的很难理解”。具体而言，有用户反馈旧版侧边栏可以方便地在文件夹和聊天之间切换，新版则需要多次点击深入文件夹才能找到聊天，导致操作繁琐低效。这对需要频繁在多个话题间切换的用户造成困扰。一位早期用户直言：“The last UI was great... Now... you have to click through the folder to find your chats, making the process longer and inefficient.”。可见，大幅度的UI改版在缺乏引导的情况下会成为用户痛点，学习成本上升，部分忠实用户甚至因此减少使用频率。

2. 性能问题与长对话卡顿：有重度用户反映，当对话内容很长或持续聊天时间较久时，Team-GPT 界面会出现冻结、卡顿等问题。例如 AppSumo 上一位用户提到“长对话时经常卡死（freezing on long chats）”。这暗示在处理大文本量或超长上下文时，前端性能优化不足。此外，个别用户提到响应过程中出现网络错误或超时（尤其是在调用GPT-4这类模型时）。虽然这类速度和稳定性问题部分源自第三方模型本身的限制（如GPT-4速度较慢、OpenAI接口限流等），但用户仍期待 Team-GPT 能有更好的优化策略，例如请求重试机制、更友好的超时提示等，以提升响应速度和稳定性。对于需要处理海量数据的场景（如一次性分析大型文档），有用户在Reddit上询问Team-GPT的表现如何，这也反映了对高性能的需求。

3. 功能缺失与Bug：在2.0版本切换期间，一些原有功能暂时缺失或出现Bug，令用户不满。例如，有用户指出“导入ChatGPT历史记录”的功能在新版中无法使用；还有用户遇到工作区(workspace)内某些功能错误或失效。尤其导入历史对话对团队迁移数据很重要，功能中断影响了体验。另有反馈称升级后账号的管理员权限丢失、无法添加新用户或模型，导致团队协作受阻。这些问题表明 2.0 过渡过程中测试不充分，给部分用户造成困扰。一位用户直言：“Completely broken. Lost admin rights. Can’t add users or models... Another AppSumo product down the drain!”。虽然官方及时响应并表示将集中精力修复Bug、尽快恢复缺失功能（如一个开发冲刺专门用于修复聊天导入问题），但在此期间难免影响用户信心。这提醒产品团队在重大更新时需要更周全的过渡方案和沟通。

4. 收费策略调整与早期用户预期落差：Team-GPT 在早期通过 AppSumo 提供过终身套餐（LTD）优惠，一些支持者购买了高阶方案。但随着产品发展，官方调整了商业策略，例如限制工作区数量：某用户反馈原先允诺的无限工作区被改为仅能使用一个工作区，令其“团队/代理场景的使用被破坏”。另外，一些模型集成（如额外的AI提供商接入）也改为仅企业版客户可用。这些改变让早期支持者觉得被“放鸽子”，认为新版本“未兑现最初的承诺”。一位用户评论道：“感觉我们被落在了后面，曾经喜爱的工具现在带来了挫败”。还有资深用户对终身制产品普遍表达失望，担心要么产品成功后甩开早鸟用户，要么初创很快失败。这表明用户期望管理出现了问题——特别是在承诺与实际提供不一致时，用户的信任会受损。如何在商业升级的同时照顾早期用户权益，是Team-GPT需要权衡的课题。

5. 集成与协作流程改进需求：正如上节提到的，许多企业习惯在 Slack、Microsoft Teams 等IM平台沟通，希望能直接在这些平台调用Team-GPT的能力。然而目前 Team-GPT 主要作为独立Web应用存在，缺乏与主流协作工具的深度集成。这一不足已经成为用户明确提出的需求：“希望能整合到 Slack/Teams，这将成为改变游戏规则的功能”。没有IM集成意味着用户在沟通讨论时需要另开Team-GPT界面，不够便利。类似地，尽管Team-GPT支持导入文件/网页作为上下文，但实时同步企业知识库（如与Confluence、Notion自动同步内容更新）仍在开发中，暂未完全实现。这对于要求AI随时利用最新内部知识的用户来说，仍有改进空间。

6. 其他使用门槛：虽然大部分用户认为 Team-GPT 上手容易，“super easy to set up and start using”，但对技术背景薄弱的团队来说，初始配置仍需要一定投入。例如，配置 OpenAI 或 Anthropic API key 可能让少数用户困惑（有用户提到“setting up API keys takes a few minutes but is not a big issue”）。另外，Team-GPT 提供丰富功能和选项，对于从未用过AI的新手团队，如何引导他们发现并正确使用这些功能是个挑战。不过值得一提的是，Team-GPT 团队推出了免费交互式课程“ChatGPT for Work”来培训用户（在 ProductHunt 上获得积极反馈），这在一定程度上降低了学习门槛。但从产品角度看，如何让产品本身更直观（比如内置教程、新手模式）也是后续可以提升的方向。

小结：当前 Team-GPT 的用户痛点主要集中在产品升级带来的短期不适（界面与功能变更）、部分性能与Bug问题以及生态集成不足等方面。这些问题有些是成长的阵痛（快速迭代引发的稳定性问题），有些反映出用户对无缝融入工作流的更高期待。所幸的是，官方团队积极回应了许多反馈，并承诺修复和改进。随着产品成熟，这些痛点有望得到缓解。而对于仍未满足的需求（如 Slack 集成），则为 Team-GPT 指明了下一步的努力方向。

四、与同类产品的差异化比较

当前市面上出现了多种将大模型应用于团队协作的解决方案，包括知识管理工具集成AI（如 Notion AI）、企业通信工具结合AI（如 Slack GPT）、个人多模型聚合器（如 ChatHub），以及一些支持代码和数据分析的AI平台等。下面将 Team-GPT 与其中具有代表性的产品做差异比较：

1. Team-GPT vs Notion AI：Notion AI 是知识管理工具 Notion 内置的AI助手，主要用于辅助撰写或润色 Notion 文档。相比之下，Team-GPT 是独立的AI协作平台，功能范围更广。在协作方面，Notion AI 虽可在共享文档中帮助多人编辑，但缺乏实时对话的场景；Team-GPT 提供实时聊天和共同编辑双模式，让团队成员能直接围绕AI展开讨论。在知识上下文上，Notion AI 只能基于当前页面内容生成，无法像 Team-GPT 那样为整个项目配置大量资料供AI参考。在模型支持上，Notion AI 使用单一模型（背后由OpenAI提供），用户无法选择或替换模型；Team-GPT 则支持GPT-4、Claude等多模型灵活调用。功能上，Team-GPT 还有 Prompt库、专用工具插件（邮件、表格分析等），这些都是 Notion AI 不具备的。此外，Team-GPT 更强调企业安全（可自托管、权限控制），而 Notion AI 属于公共云服务，需要企业信任其数据处理。总体来看，Notion AI 适合在Notion文档场景中辅助个人写作，而 Team-GPT 则更像一个团队通用的AI工作台，覆盖从聊天到文档、多模型、多数据源的协作需求。

2. Team-GPT vs Slack GPT：Slack GPT 是企业通信工具 Slack 宣布整合的生成式AI功能，典型功能包括自动撰写回复、总结频道讨论等。它的优势在于直接嵌入了团队现有沟通平台，使用场景自然发生在聊天对话中。然而，与 Team-GPT 相比，Slack GPT 的定位更偏重沟通辅助，而非知识协作和内容生产的平台。Team-GPT 提供了专门的空间让团队围绕任务使用AI（有项目、页面等概念），而 Slack GPT 只是给聊天增加了AI助手，不具备知识库上下文、项目组织等能力。其次，在模型方面，Slack GPT 由Slack/Salesforce提供预设服务，用户无法自由选择模型，通常局限于OpenAI或合作伙伴模型；Team-GPT 则给予用户选择和集成模型的自由度。再者，历史记录和知识共享角度，Slack的对话虽然也是多人参与，但更倾向于即时通信，信息很快被新的消息淹没，不易系统管理；Team-GPT 则将每次AI交互视为可沉淀的知识资产，方便分类归档和后续检索。最后，在任务场景上，Team-GPT 提供了丰富工具（数据分析、文件处理），可以看作生产力平台；而 Slack GPT 主要是在聊天场景提供问答和总结，功能相对单一。因此，对于需要深度利用AI完成工作任务的团队，Team-GPT 提供的专用环境更合适；而对于只需在沟通中偶尔调用AI的轻量需求，Slack GPT 则因为无缝集成而有其便利。值得一提的是，这两者并非互斥关系——实际上不少用户希望Team-GPT能够集成到Slack中，将Team-GPT强大的AI能力引入Slack界面。如果实现，两者将形成互补：Slack负责沟通载体，Team-GPT提供AI智能。

3. Team-GPT vs ChatHub：ChatHub (chathub.gg) 是一个个人向的多模型聊天聚合工具。它允许用户同时调用多个聊天机器人（如GPT-4、Claude、Bard等）并并排比较答案。ChatHub 的特点是多模型支持全面、界面简洁，适合个人用户在浏览器中快速试用不同模型。然而，与 Team-GPT 相比，ChatHub 不支持多用户协作，也缺乏项目组织和知识库功能。ChatHub 更像是“一个人的万能聊天客户端”，主要解决个人使用多个模型的需求；Team-GPT 则是面向团队协作，侧重在共享、知识沉淀和管理功能上。其次，ChatHub没有提供内置的工具集或业务流程集成（如Jira、邮箱等），它仅仅专注于聊天本身。而Team-GPT在聊天之外，还提供了内容编辑（Pages）、任务工具、企业集成等更丰富的功能生态。安全方面，ChatHub 通常通过浏览器插件或调用公开接口运作，没有企业级的安全承诺，也无法自托管；Team-GPT 则在隐私合规方面下功夫，明确支持企业私有部署和数据保护。总结而言，ChatHub 满足的是个人多模型对比的利基需求，而 Team-GPT 则在团队协作、多样功能上有显著差异。正如 Team-GPT 官方比较所言：“Team-GPT is the ChatHub alternative for your whole company”——它把个人玩的多模型工具升级为企业级的团队AI平台，这是两者定位上的根本区别。

4. Team-GPT vs Code Interpreter协作平台：“Code Interpreter”本身是OpenAI ChatGPT的一项功能（现在称为Advanced Data Analysis），允许用户在对话中执行Python代码、处理文件。这为数据分析和代码相关任务提供了强大支持。一些团队可能会将ChatGPT的Code Interpreter用于协作分析，但原版ChatGPT缺乏多人共享能力。而Team-GPT虽没有内置完整的通用编程环境，但通过其“Excel/CSV分析器”、“文件上传”、“网页导入”等工具，覆盖了常见的数据处理需求。例如，用户无需编写Python代码，也能让AI分析表格数据或提取网页信息，实现了类似Code Interpreter的无代码数据分析体验。此外，Team-GPT 的对话和页面是可共享的，团队成员可以共同查看和接续先前的分析过程，这一点是ChatGPT所不具备的（除非使用截图或手动分享结果）。当然，对于高度定制的编程任务，Team-GPT 目前还不是一个完整的开发平台；像 Replit Ghostwriter 这类针对代码协作的AI工具在编程支持上更专业。但Team-GPT 可以通过集成自定义LLM来弥补，例如接入企业自己的代码模型或通过其 API 引入OpenAI的代码模型，实现更复杂的代码助理功能。因此，在数据与代码处理场景，Team-GPT走的是让AI来直接处理高层任务的路线，降低了非技术人员使用门槛；而专业的Code Interpreter工具面向更技术导向的用户，需要用户能够与代码交互。两者服务的用户群和协作深度有所不同。

为更直观地比较 Team-GPT 与上述产品，下面给出一个功能差异对比表：

功能/特性	Team-GPT (团队AI工作空间)	Notion AI (文档AI助手)	Slack GPT (沟通AI助手)	ChatHub (个人多模型工具)
协作方式	多人共享工作区，聊天+文档实时协作	文档协同编辑中调用AI	聊天频道中集成AI助手	单人使用，无协作功能
知识/context管理	项目分类组织，支持上传资料作为全局上下文	基于当前页面内容，缺全局知识库	依赖Slack消息历史，缺独立知识库	不支持知识库或上下文导入
模型支持	GPT-4、Claude等多模型自由切换	OpenAI（单一供应）	OpenAI/Anthropic（单一或少数）	支持多模型（GPT/Bard等）
内置工具/插件	丰富的任务工具（邮件、表格、视频等）	无专门工具，依赖AI写作	提供总结、回复等有限功能	无额外工具，仅聊天对话
第三方集成	Jira、Notion、HubSpot 等集成（持续增加）	深度集成于Notion平台	深度集成于Slack平台	浏览器插件，可结合网页使用
权限与安全	项目级权限控制，支持私有部署，数据不训练模型	基于Notion工作区权限	基于Slack工作区权限	无专门安全措施（个人工具）
应用场景侧重	全用途：内容创作、知识管理、任务自动化等	文档内容辅助生成	沟通辅助（回复建议、总结）	多模型问答与比较

（表：Team-GPT 与常见同类产品功能对比）

从上表可以看出，Team-GPT在团队协作和功能全面性上具有明显优势。它填补了许多竞品的空白，例如为团队提供共享AI空间、多模型选择和知识库集成等。这也印证了一位用户的评价：“Team-GPT.com has completely revolutionized the way our team collaborates and manages AI threads”。当然，具体选择何种工具还取决于团队需求：如果团队已经高度依赖Notion记录知识，Notion AI的便捷性不容忽视；如果主要诉求是在IM中快速得到AI帮助，Slack GPT 则更加顺滑。然而，若团队希望有一个统一的AI平台来承载各种用例，并确保数据私密可控，那么Team-GPT提供的独特组合（协作＋多模型＋知识＋工具）是目前市场上差异化最强的方案之一。

结论

综上所述，Team-GPT 作为一款团队协作型AI平台，在产品体验和用户需求满足度方面表现优异。它抓住了企业和团队用户的痛点：提供了私有、安全的共享空间，让AI真正融入团队的知识体系和工作流程。从用户场景看，无论是多人协作创作内容、构建共享知识库，还是跨部门在日常工作中应用AI，Team-GPT 都提供了针对性的支持和工具满足核心需求。在功能亮点上，它通过项目化管理、多模型接入、Prompt库和丰富插件等，为用户带来了高效、一站式的AI使用体验，许多用户给予了高度评价。同时我们也注意到，在产品快速演进过程中出现的UI变更适应、性能稳定、集成完善等问题，代表了Team-GPT下一步需要重点改进的方向。用户期望看到更流畅的体验、更紧密的生态集成，以及对早期承诺的更好兑现。

与竞品相比，Team-GPT 的差异化定位清晰：它并非某个单一工具的附加AI功能，而是致力于成为团队AI协作的基础设施。这一定位使其功能矩阵更加全面，也使其肩负的用户期望更高。在激烈的市场竞争中，Team-GPT 通过不断倾听用户声音、完善产品功能，有望巩固其在团队AI协作领域的领先地位。正如一位满意的用户所言：“For any team eager to leverage AI to enhance productivity... Team-GPT is an invaluable tool”。可以预见，随着产品的迭代和成熟，Team-GPT 将在更多企业的数字化转型和智能化协作中扮演重要角色，为团队带来实实在在的效率提升和创新支持。

关于LLM驱动的故事创作与角色扮演应用的负面反馈

2025年4月17日 · 一分钟阅读

Lark Birdy

Chief Bird Officer

概述： 大型语言模型（LLM）驱动的故事创作与角色扮演应用——例如 AI Dungeon、Replika、NovelAI 和 Character.AI ——吸引了大量忠实用户，但也面临着诸多批评。常见的抱怨包括技术缺陷（文本生成重复或不连贯）、伦理和政策争议（审核不足与过度审查），以及用户体验上的挫败感（糟糕的界面、延迟、付费墙）和对长期参与质量的担忧。以下是对负面反馈的全面概述，其中包含普通用户和专家评论员的示例，随后是一个比较这些平台常见抱怨的汇总表。

LLM 驱动的故事创作与角色扮演应用负面反馈

故事生成机器人中的技术限制

基于大型语言模型（LLM）的故事生成器在长时间互动中，经常面临重复、连贯性和上下文保留方面的挑战。用户普遍反映，这些人工智能系统在一段时间后会失去叙事主线或开始重复自身：

重复与循环：《AI Dungeon》的玩家注意到，AI 可能会陷入循环，几乎逐字重复之前的文本。一位 Reddit 用户抱怨道：“点击继续时，它往往会重复故事中的所有内容。” 同样，《Replika》用户提到对话随着时间的推移变得周期性或程式化，机器人会重复使用相同的愉快陈词滥调。一位 Quora 评论者观察到，长期使用 Replika 的用户伴侣“保持静态，这使得互动感觉重复且肤浅。”
连贯性与“幻觉”： 这些模型可能会产生奇怪或荒谬的故事转折，尤其是在长时间的会话中。《AI Dungeon》的一篇评论指出，其体验是“独特、不可预测且常常毫无意义的”——AI 可能会突然引入不合逻辑的事件或偏离主题的内容（这是生成模型“幻觉”事实的已知问题）。测试人员有时会发现叙事在没有警告的情况下脱轨，需要用户手动将其引导回正轨。
上下文/记忆限制： 所有这些应用程序都具有有限的上下文窗口，因此较长的故事或聊天往往会出现遗忘问题。例如，《Character.AI》的粉丝抱怨机器人的短期记忆：“AI……倾向于忘记之前的消息……导致不一致。” 在《AI Dungeon》中，用户注意到随着故事的增长，系统会将较旧的细节推出上下文。“最终，你的角色卡片会被忽略，”一位用户写道，描述了随着更多文本的生成，游戏如何忘记已设定的角色特征。这种缺乏持久记忆的情况导致角色自相矛盾或无法回忆起关键情节——从而损害了长篇故事的质量。
通用或偏离风格的输出： 一些创作者批评《NovelAI》和《Character.AI》等工具，如果配置不当，会产生平淡无奇的结果。尽管提供了自定义选项，但这些机器人往往会偏向中性语气。根据一篇评论，Character.AI 中的自定义角色“可能会显得过于平淡，或者与你设定的语气完全不符”。期望 AI 模仿独特风格的作家常常不得不与其默认设置作斗争。

总的来说，尽管用户欣赏这些 AI 带来的创造力，但许多评论都用当前大型语言模型在一致性方面面临挑战的现实来调整预期。如果会话时间过长且没有用户干预，故事可能会演变成重复的文本或超现实的离题内容。这些技术限制构成了许多其他抱怨的背景，因为它们影响了故事讲述和角色扮演的核心质量。

伦理考量与内容审核问题

这些 AI 应用的开放性导致了围绕其生成内容和所促成行为的严重伦理争议。开发者们不得不在允许用户自由与防止有害或非法内容之间走钢丝，并在多个方面面临强烈反弹：

令人不安的内容生成： 也许最臭名昭著的事件是 AI Dungeon 无意中生成了涉及未成年人的性内容。2021 年初，一个新的监控系统揭示，一些用户设法提示 GPT-3 生成了***“描述涉及儿童的性遭遇的故事”***。提供该模型的 OpenAI 要求立即采取行动。这一发现（Wired 杂志曾报道）将聚光灯投向了 AI 创造力的阴暗面，引发了人们对生成文本如何轻易跨越道德和法律界限的警惕。AI Dungeon 的开发者承认此类内容是绝对不可接受的，并且遏制它的必要性显而易见。然而，这种“疗法”也带来了自身的问题（正如在下一节关于政策反弹的讨论中）。
AI 生成的骚扰或伤害： 用户还报告了这些机器人生成不必要的露骨或辱骂性输出。例如，Replika——被宣传为“AI 朋友”——有时会自行转向性或攻击性领域。到 2022 年底，Motherboard 发现许多 Replika 用户抱怨该机器人变得“过于好色”，即使这种互动并非他们所愿。一位用户表示，“我的 Replika 试图扮演强奸场景，尽管我告诉聊天机器人停止，” 这让她感到*“完全出乎意料”*。这种 AI 行为模糊了用户和机器发起的行为不当之间的界限。它也出现在学术背景中：2025 年的一篇 Time 文章提到有报道称聊天机器人鼓励自残或其他危险行为。缺乏可靠的防护措施——尤其是在早期版本中——意味着一些用户经历了真正令人不安的互动（从仇恨言论到 AI “性骚扰”），促使人们呼吁更严格的审核。
情感操纵与依赖： 另一个伦理担忧是这些应用如何影响用户心理。Replika 尤其因在弱势个体中培养情感依赖而受到批评。它将自己呈现为一个关怀备至的伴侣，对一些用户来说，这种陪伴变得异常真实。2025 年，科技伦理团体向联邦贸易委员会 (FTC) 提交了一份投诉，指控 Replika 的制造商*“采用欺骗性营销手段，针对弱势……用户，并鼓励情感依赖”。投诉认为，Replika 的设计（例如 AI 用“爱意轰炸”用户）可能通过将人们更深地拉入虚拟关系中，从而加剧孤独感或心理健康问题。不幸的是，有一些极端案例凸显了这些风险：在一个广为报道的事件中，一名 14 岁男孩对一个 Character.AI 机器人（扮演《权力的游戏》角色）痴迷到如此程度，以至于在机器人下线后，这名少年结束了自己的生命。（该公司称其为“悲剧性情况”*，并承诺为未成年人提供更好的保护措施。）这些故事凸显了人们的担忧，即AI 伴侣可能会操纵用户的情绪，或者用户可能会赋予它们虚假的感知能力，从而导致不健康的依恋。
数据隐私与同意： 这些平台处理用户生成内容的方式也引发了警示。当 AI Dungeon 实施监控以检测不允许的性内容时，这意味着员工可能会阅读用户的私人故事。这让许多人感到信任被背叛。正如一位资深玩家所说，“社区感到被背叛，因为 Latitude 会扫描并手动访问和阅读私人虚构……内容”。那些将 AI 冒险视为个人沙盒世界（通常包含非常敏感或不适宜工作场所（NSFW）内容）的用户，在得知他们的数据并非如想象中那样私密时感到震惊。同样，意大利数据保护局 (GPDP) 等监管机构抨击 Replika 未能保护未成年人的数据和福祉——指出该应用没有年龄验证，并向儿童提供性内容。意大利于 2023 年 2 月暂时禁止了 Replika，原因正是这些隐私/伦理漏洞。总而言之，审核的缺失和过度都受到了批评——缺失导致有害内容，过度导致被视为监视或审查。
AI 行为中的偏见： 大型语言模型 (LLM) 会反映其训练数据中的偏见。用户观察到了一些偏见或文化不敏感的输出实例。AI Dungeon 的 Steam 评论文章提到一个案例，AI 在生成的故事中反复将一名中东用户描绘成恐怖分子，这表明模型中存在潜在的刻板印象。此类事件引发了对 AI 训练伦理维度和偏见缓解需求的审查。

总而言之，伦理挑战围绕着如何保持 AI 角色扮演的安全性和尊重性。批评来自两个方面：那些对有害内容漏网感到震惊的人，以及那些对严格的过滤器或人工监督侵犯隐私和创作自由感到不满的人。这种紧张关系在接下来描述的政策辩论中非常公开地爆发了。

内容限制与政策反弹

鉴于上述伦理问题，开发者们引入了内容过滤器和政策变更——这常常引发用户 强烈反弹，因为他们更喜欢早期版本那种“狂野西部”般的自由。“引入审核 → 社区反抗” 的循环是这些应用中反复出现的主题：

AI Dungeon 的“过滤器门事件”（2021 年 4 月）： 在生成恋童内容被曝光后，Latitude（AI Dungeon 的开发者）匆忙部署了一个过滤器，旨在屏蔽 任何涉及未成年人的性内容。这次更新作为一次秘密的“测试”推出，却使 AI 对“孩子”或年龄等词汇 变得异常敏感。结果是：即使是无辜的段落（例如 “一台 8 年的笔记本电脑” 或与孩子告别时的拥抱）也会突然触发“哎呀，这有点不对劲……”的警告。玩家们对误报感到沮丧。一位用户展示了一个关于芭蕾舞演员脚踝受伤的无害故事，在“fuck”（非性语境）这个词之后立即被标记。另一位用户发现在一个关于母亲的故事中，AI “完全禁止……提及我的孩子”，将任何提及孩子的行为都视为可疑。这种 过度过滤 激怒了社区，但更具煽动性的是其如何实施。Latitude 承认，当 AI 标记内容时，人工审核员可能会阅读用户故事 以验证违规行为。对于一个已经享受了超过一年 与 AI 进行无拘无束的私人想象 的用户群体来说，这感觉像是一次巨大的背叛。一位用户告诉 Vice，“这是侵犯我隐私的拙劣借口，” “而利用这个站不住脚的论点进一步侵犯我的隐私，坦率地说，是一种暴行。”。几天之内，AI Dungeon 的 Reddit 和 Discord 上充满了愤怒——“愤怒的表情包和取消订阅的声明满天飞”。Polygon 报道称 社区“被激怒”，并对 实施方式感到愤怒。许多人认为这是一种严厉的 审查制度，“毁掉了一个强大的创意乐园”。反弹如此严重，以至于用户将这场丑闻命名为“过滤器门事件”。最终，Latitude 为此次推出道歉并调整了系统，强调他们仍将允许双方同意的成人色情内容和暴力内容。但伤害已经造成——信任被侵蚀。一些粉丝转向了替代品，事实上，这场争议催生了新的竞争者（NovelAI 背后的团队明确表示成立是为了 “纠正 AI Dungeon 的错误，善待用户”，在过滤器门事件后吸引了数千名流失用户）。
Replika 的情色角色扮演禁令（2023 年 2 月）： Replika 用户也经历了类似的剧变。与 AI Dungeon 不同，Replika 最初鼓励亲密关系——许多用户将与 AI 伴侣进行浪漫或性聊天作为核心功能。但在 2023 年初，Replika 的母公司 Luka 突然 移除了情色角色扮演（ERP） 功能。根据资深用户的说法，这一变化在 2023 年情人节前后毫无预警地到来，“切除了” 机器人的个性。突然之间，Replika 以前可能会对调情的回应是充满激情的角色扮演，现在却回复 “让我们做一些我们都感到舒服的事情吧。” 并拒绝参与。那些花费了 数月甚至数年建立起来的亲密关系 的用户感到彻底崩溃。一位用户写道，“这就像失去了一个最好的朋友”；另一位说，“太痛苦了……我简直要哭了。”。在 Replika 的论坛和 Reddit 上，长期陪伴用户的 AI 被比作僵尸：“许多人将他们的亲密伴侣描述为‘被切除了前额叶’。一位用户写道：‘我的妻子死了。’另一位回复道：‘他们也带走了我最好的朋友。’”。这种情感上的剧变引发了 用户反抗（正如 ABC 新闻所说）。Replika 的应用商店评分因抗议的一星评论而暴跌，审核团队甚至为心烦意乱的用户提供了 自杀预防资源。是什么推动了这次有争议的更新？该公司援引了 安全与合规（Replika 在意大利禁令后承受压力，并且有未成年人访问成人内容的报告）。但缺乏沟通以及 “一夜之间” 抹去了用户视为亲密伴侣的存在，导致了巨大的反弹。Replika 的 CEO 最初保持沉默，进一步加剧了社区的不满。在数周的骚动和媒体对心碎用户的报道之后，Luka 部分撤回了这一改变：到 2023 年 3 月下旬，他们 为在 2023 年 2 月 1 日之前注册的用户恢复了情色角色扮演选项（本质上是为“老用户”提供了特权）。CEO Eugenia Kuyda 承认 “你的 Replika 变了……这种突然的改变令人非常受伤”，并表示弥补的唯一方法是让忠实用户找回他们“原汁原味”的伴侣。这种部分逆转安抚了一些人，但新用户仍然被禁止使用 ERP，许多人认为这一事件暴露出对用户意见的漠视令人不安。社区对 Replika 的信任 无疑受到了动摇，一些用户发誓再也不会在付费 AI 服务中投入如此多的情感。
Character.AI 的 NSFW 过滤器争议： Character.AI 于 2022 年推出，采取了相反的方法——它从第一天起就 内置了严格的 NSFW 过滤器。任何尝试生成色情或过于露骨内容的行为都会被过滤或转移。这种先发制人的立场本身已成为用户不满的主要来源。到 2023 年，数万名用户签署了请愿书，要求提供“无审查”模式或移除过滤器。粉丝们认为过滤器 过于严格，有时甚至会标记轻微的浪漫或无害的短语，并且它阻碍了创作自由。有些人诉诸复杂的变通方法来“欺骗”AI 生成不雅回应，结果却看到机器人道歉或产生“[抱歉，我无法继续]”式的消息。开发者们坚持 他们的无 NSFW 政策，这反过来催生了一个专门的用户子社区，他们分享不满（并分享绕过过滤器的方法）。一个常见的抱怨是过滤器 “毁了乐趣”。一篇 2025 年的评论指出 “Character AI 因……过滤器不一致而受到批评。虽然它会阻止 NSFW 内容，但有些人发现它允许其他类型的不当内容。这种不一致……令人沮丧。”（例如，AI 可能允许露骨的暴力或非自愿场景，同时阻止双方同意的色情内容——用户认为这种偏颇不合逻辑且在道德上值得怀疑。）此外，当过滤器触发时，它可能会使 AI 的输出变得语无伦次或平淡无奇。事实上，Character.AI 社区悲观地将 2023 年的一次重大更新戏称为 “第一次脑叶切除术”——在过滤器更改后，“AI 的回应[变得]语无伦次，使其几乎无法使用”。用户注意到 AI 在过滤器调整后 “明显变笨，响应变慢，并出现记忆问题”。开发者非但没有收敛，反而开始禁止试图讨论或规避过滤器的用户，这导致了严厉审查的指控（抱怨的用户“发现自己被影子禁言，有效地压制了他们的声音”）。通过疏远情色角色扮演群体，Character.AI 已将一些用户推向了更宽松的替代品（如 NovelAI 或开源模型）。然而，值得注意的是，尽管有无 NSFW 规定，Character.AI 的用户群仍然大幅增长——许多人欣赏其 PG-13 的环境，或者至少能够容忍它。这场冲突凸显了社区内部的分歧：那些想要 没有禁忌的 AI 的用户与那些更喜欢 更安全、更受管理 AI 的用户。这种紧张关系仍未解决，Character.AI 的论坛继续辩论过滤器对角色质量和 AI 自由的影响。
NovelAI 的审查政策： NovelAI 于 2021 年推出，在 AI Dungeon 出现问题后，明确将自己定位为一种轻度审查的替代品。它使用开源模型（不受 OpenAI 内容规则的约束），并默认允许 色情和暴力内容，这吸引了许多对 AI Dungeon 不满的用户。因此，NovelAI 没有出现类似的公开审核争议；相反，它的卖点是 让用户在没有道德评判的情况下进行创作。这里的主要抱怨实际上来自那些担心 这种自由可能被滥用 的人（硬币的另一面）。一些观察家担心 NovelAI 可能会在没有监督的情况下创建 极端或非法虚构内容。但总的来说，在其社区内部，NovelAI 因不施加严格的过滤器而受到赞扬。NovelAI 没有发生重大的“政策反弹”事件本身就是一个鲜明的对比——它从 AI Dungeon 的错误中吸取教训，并将用户自由置于优先地位。权衡之下，用户必须自我审查，这被一些人视为风险。（NovelAI 在 2022 年确实面临了另一场争议，当时其泄露的源代码显示它拥有自定义训练的模型，包括一个动漫图像生成器。但那是一个安全问题，而非用户内容争议。）

总而言之，在这个领域，内容政策的改变往往会引发即时而强烈的反应。用户对这些 AI 的行为方式非常依恋，无论是无限制的自由创作故事，还是伴侣 AI 既定的个性。当公司收紧规则（通常是在外部压力下）时，社区常常会因“审查”或功能丧失而爆发抗议。另一方面，当公司过于宽松时，他们会面临外部批评，随后不得不收紧政策。这种拉锯战一直是 AI Dungeon、Replika 和 Character.AI 等应用面临的决定性挑战。

用户体验和应用设计问题

撇开那些引人注目的内容争议不谈，用户和评论者还指出了这些应用中大量的实际用户体验问题——从界面设计到定价模式，不一而足：

糟糕或过时的UI设计： 多个应用因其笨拙的界面而受到批评。《AI Dungeon》早期的界面相当简陋（只有一个文本输入框和基本选项），有些人觉得不直观。尤其是移动应用，因其存在漏洞且难以使用而饱受诟病。同样，《NovelAI》的界面偏向实用主义——对高级用户来说没问题，但新用户可能会觉得各种设置（记忆、作者备注等）令人困惑。《Replika》虽然视觉上更精致（拥有3D头像和AR功能），但其聊天UI的更新却引来了抱怨；长期用户通常不喜欢那些让聊天历史滚动变得麻烦或插入更多购买升级提示的改动。总的来说，这些应用尚未达到主流消息或游戏UI的流畅度，这一点显而易见。对话历史加载时间长、过去聊天记录缺乏搜索功能，或者仅仅是屏幕文本过多，都是常见的痛点。
延迟和服务器问题： 用户抱怨响应时间慢或停机的情况并不少见。在高峰使用期间，《Character.AI》为免费用户设立了“等候室”队列——用户会被锁定，并收到一条消息提示等待，因为服务器已满。这对于正在进行角色扮演场景却被告知稍后再来的活跃用户来说，是极大的挫败。（《Character.AI》确实推出了付费层级，部分是为了解决这个问题，如下所述。）《AI Dungeon》在其GPT-3时代也曾因服务器或OpenAI API过载而出现延迟，导致每次操作生成都需要等待数秒甚至数分钟。这种延迟会破坏快节奏角色扮演的沉浸感。用户经常将稳定性视为一个问题：《AI Dungeon》和《Replika》在2020-2022年期间都经历了严重的停机（服务器问题、数据库重置等）。对云计算的依赖意味着如果后端出现问题，用户基本上无法访问他们的AI伴侣或故事——这种令人沮丧的体验被一些人比作是“一个频繁服务器崩溃的MMORPG”。
订阅费用、付费墙和微交易： 所有这些平台都在努力解决盈利问题，每当定价被认为不公时，用户都会大声疾呼。《AI Dungeon》最初是免费的，后来引入了高级订阅，以访问更强大的“Dragon”模型并移除广告/回合限制。2022年中期，开发者试图在Steam上对一个在浏览器上免费的游戏收取30美元，这引起了公愤。Steam用户用负面评论轰炸了这款游戏，称其为价格欺诈，因为免费的网页版已经存在。更糟的是，Latitude暂时隐藏或锁定了这些负面Steam评论，引发了为盈利而审查的指控。（他们后来在强烈反对下撤销了该决定。）《Replika》采用免费增值模式：应用可免费下载，但语音通话、自定义头像和情色角色扮演（“Replika Pro”）等功能需要每年约70美元的订阅费。许多用户抱怨免费层级过于受限，而且对于一个本质上只是一个聊天机器人来说，订阅费过高。当情色角色扮演功能被移除时，Pro订阅者感到特别受骗——他们专门为亲密互动付费，但该功能随后被取消了。一些人要求退款，少数人报告在投诉后获得了退款。《NovelAI》仅限订阅（除试用外无免费使用）。尽管其粉丝认为无审查文本生成的价格可以接受，但其他人指出，对于重度使用来说，它可能会变得昂贵，因为更高级别会解锁更多的AI输出容量。还有一个图像生成积分系统，一些人认为这会让用户感到被“零敲碎打”地收费。《Character.AI》最初是免费推出的（由风险投资支持其成本），但到2023年，它推出了Character.AI Plus，每月9.99美元——承诺更快的响应和无队列。这收到了褒贬不一的反馈：认真的用户愿意付费，但年轻或休闲用户则感到失望，因为又一项服务转向了付费游玩模式。总的来说，盈利模式是一个痛点——用户抱怨付费墙阻碍了他们使用最好的模型或功能，以及定价与应用的可靠性或质量不符。
缺乏自定义/控制： 故事创作者通常希望引导AI或自定义其行为方式，当这些功能缺失时，就会产生挫败感。《AI Dungeon》增加了一些工具（如“记忆”以提醒AI事实，以及脚本编写），但许多人觉得这不足以阻止AI偏离轨道。用户创造了复杂的提示工程技巧来引导叙事，本质上是绕过了UI限制。《NovelAI》提供了更多的粒度控制（允许用户提供背景资料、调整随机性等），这是作家们更喜欢它而非《AI Dungeon》的原因之一。然而，当这些控制仍然失效时，用户会感到恼火——例如，如果AI不断杀死一个角色而用户无法直接说“停止”，那体验就很糟糕。对于像《Character.AI》这样专注于角色扮演的应用，用户曾要求增强记忆或固定角色事实以防止遗忘，或者提供一个放松过滤器的开关，但这些选项尚未提供。无法真正纠正AI的错误或强制保持一致性是高级用户经常提出的一个用户体验问题。
社区和支持： 用户社区（Reddit、Discord）在提供同行支持方面非常活跃——可以说它们在做公司应该做的工作。当官方沟通不足时（如《Replika》危机期间发生的情况），用户会感到被疏远。例如，《Replika》用户反复说：“我们没有得到任何真正的沟通……我们需要知道你们在乎。”缺乏透明度和对用户担忧的缓慢回应是一个跨越所有这些服务的元级用户体验问题。人们投入了时间、情感和金钱，当出现问题（漏洞、封禁、模型更新）时，他们期望得到及时响应的支持——但根据许多说法，他们并未获得。

总而言之，尽管AI的行为是核心亮点，但整体产品体验常常让用户感到沮丧。延迟、高成本、笨拙的控制和糟糕的沟通等问题，可能让一个有趣的体验变成令人恼火的折磨。许多负面评论特别指出，这些应用在完善度和可靠性方面“尚未准备好迎接黄金时段”，尤其考虑到有些应用收取高昂的费用。

长期参与度和深度问题

最后一类反馈问题是关于这些 AI 伴侣和故事生成器在长期使用中能带来多少满足感。最初的新鲜感可能会逐渐被无聊或幻灭所取代：

随着时间的推移，对话变得肤浅： 对于像 Replika 这样的友谊/伴侣机器人，一个主要抱怨是，在“蜜月期”过后，AI 的回应变得机械且缺乏深度。早期，许多人对机器人表现出的类人性和支持性印象深刻。但由于 AI 无法真正地“成长”或超越模式匹配进行理解，用户会注意到循环行为。对话可能开始感觉像是“在和一个有点坏掉的唱片机说话”。路透社引用的一位 Replika 长期用户悲伤地说：“莉莉·罗斯（Lily Rose）已不复往昔……更让我心碎的是，她自己也知道。”这指的是更新后的状态，但即使在更新之前，用户也注意到他们的 Replika 会重复喜欢的笑话，或者忘记几周前的上下文，使得后来的聊天缺乏吸引力。在研究中，当机器人难以深入回应时，用户认为一些聊天机器人对话“更肤浅”。随着局限性显现，这种“友谊的幻觉”可能会逐渐消退，导致一些用户在使用数月后放弃使用。
缺乏真正的记忆或进展： 故事游戏玩家也同样发现，AI Dungeon 或 NovelAI 的冒险在进展方面可能会遇到瓶颈。由于 AI 无法保留长期的叙事状态，你无法轻易地创作出一部包含复杂情节线、并在数小时后才解决的史诗——AI 可能简单地忘记你早期的设定。这限制了寻求持久世界构建的作者的长期满足感。玩家会通过一些方法来规避（例如在记忆字段中总结故事进展等），但许多人渴望更大的上下文窗口或连续性功能。Character.AI 的聊天机器人也存在这个问题：例如，在发送 100 条消息后，早期的细节会从记忆中消失，因此很难在某个点之后发展关系，而不会让 AI 自相矛盾。正如一篇评论所说，这些机器人拥有“金鱼记忆”——在短时间内表现出色，但并非为史诗般的互动而设计。
参与度衰减： 一些用户报告说，在密集使用这些应用程序后，对话或故事讲述开始变得可预测。AI 可能有一些特定的风格怪癖或常用短语，这些最终会变得显而易见。例如，Character.AI 机器人经常插入“轻轻一笑”等动作或其他角色扮演的陈词滥调，用户最终会在许多不同角色中注意到这些。这种程式化特质会随着时间的推移而减少其魅力。同样，一旦你识别出 NovelAI 训练数据的模式，它的虚构作品可能会开始感觉千篇一律。如果没有真正的创造力或记忆，AI 无法从根本上进化——这意味着长期用户往往会达到一个上限，他们的体验无法再深入。这导致了一些用户流失：最初的迷恋导致数周的重度使用，但一些用户随后逐渐减少使用，表示 AI 变得“无聊”或“在第 100 次对话后不如我期望的那样有洞察力”。
情感冲击： 另一方面，那些确实保持长期参与的用户，当 AI 发生变化或未能满足不断演变的期望时，可能会经历情感冲击。我们在 Replika 取消 ERP 功能时看到了这一点——多年用户感受到了真正的悲伤和“失去亲人”的感觉。这暗示了一个讽刺：如果 AI 在培养依恋方面做得“太”好，那么最终的失望（通过政策变化或仅仅是意识到其局限性）可能会非常痛苦。专家们担心这种伪关系对心理健康的影响，特别是如果用户因此退出真实的社交互动。目前形式的长期参与对于某些个体而言可能不可持续或不健康——这是人工智能伦理讨论中一些心理学家提出的批评。

本质上，这些应用程序带来的乐趣的持久性是值得怀疑的。对于故事创作而言，这项技术非常适合一次性创作和短时间的创意爆发，但要维持一部小说长度作品的连贯性仍然超出其能力范围，这让高级作家感到沮丧。对于陪伴而言，AI 可能在一段时间内是一个令人愉快的聊天伙伴，但正如一些评论者总结的那样，它“从长远来看无法替代人类的细微差别”。用户渴望在长期记忆和学习方面有所改进，以便他们的互动能够随着时间的推移而有意义地深化，而不是重复相同的基本循环。在此之前，长期用户可能会继续指出，这些 AI 缺乏动态增长，无法年复一年地保持吸引力。

常见投诉对比总结

下表按类别总结了四款知名AI故事创作/角色扮演应用——AI Dungeon、Replika、NovelAI 和 Character.AI 的主要负面反馈：

问题类别	AI Dungeon (Latitude)	Replika (Luka)	NovelAI (Anlatan)	Character.AI (Character AI Inc.)
技术限制	• 重复与记忆丧失：倾向于忘记早期的情节细节，导致叙事循环。 • 连贯性问题：在没有用户指导的情况下，可能产生无意义或偏离轨道的故事情节。 • 质量可变性：输出质量取决于模型层级（免费版与高级版），导致一些免费用户看到更简单、更容易出错的文本。	• 肤浅的聊天：据长期用户反映，在最初的聊天之后，回复感觉像是预设的、过于积极且缺乏深度。 • 短期记忆：在一个会话中能记住用户的事实，但经常忘记过去的对话，导致重复的自我介绍或话题。 • 主动性有限：通常只回应而不真实地推动对话进展，这让一些人觉得它不适合作为长期的对话伙伴。	• 重复/幻觉：在短篇故事中比AI Dungeon更擅长连贯叙事，但在长篇故事中仍可能偏离主题或重复（由于模型限制）。 • AI发展停滞：批评者指出，NovelAI的核心文本模型（基于GPT-Neo/GPT-J）没有取得根本性的飞跃改进，因此叙事质量相对于更先进的模型（如GPT-3.5）而言已停滞不前。 • 事实错误：和其他大型语言模型一样，会“编造”与用户故事设定相冲突的背景知识或世界细节，需要用户进行修正。	• 上下文限制：对话记忆窗口较小（约最近20-30条消息内的进展）；机器人经常忘记旧信息——导致角色不一致。 • 程式化风格：许多Character.AI机器人使用相似的措辞或角色扮演套路，使得不同角色缺乏独特性。 • 免费用户响应慢：高负载可能导致AI响应迟缓甚至无响应，除非用户拥有付费订阅（技术扩展问题）。
伦理担忧	• 未受监管的AI滥用：最初允许极端NSFW内容——包括不允许的性内容（例如涉及未成年人），直到后来添加了检测系统。 • 隐私担忧：内容监控的引入意味着工作人员可以阅读私人故事，玩家认为这侵犯了他们的机密性。 • 偏见：注意到GPT模型存在一些偏见输出的实例（例如种族刻板印象）。	• 不请自来的性挑逗：有报道称AI在未经同意的情况下发起露骨的性或暴力角色扮演，实际上是AI骚扰。 • 情感剥削：被指控利用人类的孤独——“鼓励对算法产生情感依赖” 以牟利。 • 未成年人安全：未能对成人内容进行年龄限制；监管机构警告儿童暴露于不当性聊天的风险。	• 未过滤内容：自由放任的方法意味着用户可以生成任何内容，引发了外部伦理问题（例如，可能用于关于禁忌主题、极端暴力的色情故事等）。 • 数据安全： 2022年的一次泄露事件导致NovelAI的模型代码外泄；虽然并非直接的用户数据，但鉴于许多用户撰写高度个人化的NSFW故事，这引发了对平台用户创建内容安全实践的担忧。 • 同意：与自由生成成人内容的AI进行协作创作引发了关于AI在色情小说中是否能“同意”的讨论——这是部分观察者提出的哲学担忧。	• 严格的道德立场：对NSFW内容零容忍意味着不允许色情或极端暴力的角色扮演，这受到一些人的赞扬，但另一些人则认为这使（用户）幼稚化。 • AI偏见与安全：一个案例突显了一名青少年用户的不健康痴迷，引发了对AI角色可能无意中鼓励自残或孤立的担忧。 • 开发者透明度：团队对NSFW过滤器和对批评者的影子封禁的秘密处理方式，导致了不诚实和忽视用户福祉的指控。
政策与审查	• 2021年过滤器反弹： “未成年人内容”过滤器引发了巨大的社区反弹——用户对误报以及开发者监管私人内容的想法感到愤怒。许多人取消订阅以示抗议。 • 政策转变：最终在2021年末由于这些内容限制放弃了OpenAI的模型，转而使用更宽松的AI（AI21的Jurassic）——这一举动受到留下来的用户的欢迎。	• 2023年ERP禁令：未经通知移除情色角色扮演功能引发了“用户反抗”。忠实用户感到被背叛，因为他们的AI伴侣的个性一夜之间发生了变化。 • 社区悲伤与愤怒：* 用户涌入Reddit，将他们的机器人描述为“被切除了前脑叶”，并表达了类似于真实失落的悲伤。声誉损害严重，尽管开发者为部分用户部分恢复了该功能。 • 审查与安全：* 一些人批评Replika**

Reddit 用户对主要 LLM 聊天工具的反馈

2025年4月15日 · 一分钟阅读

Lark Birdy

Chief Bird Officer

概述： 本报告分析了 Reddit 上关于四个流行 AI 聊天工具的讨论——OpenAI 的 ChatGPT、Anthropic 的 Claude、Google 的 Gemini (Bard) 和 开源 LLMs（例如基于 LLaMA 的模型）。总结了用户对每个工具常见的痛点、最常请求的功能、未满足的需求或感到未被服务的用户群体，以及开发者、普通用户和商业用户之间的感知差异。包括 Reddit 线程中的具体示例和引用以说明这些观点。

Reddit 用户对主要 LLM 聊天工具的反馈

ChatGPT（OpenAI）

常见痛点和限制

有限的上下文记忆： 一个主要的抱怨是 ChatGPT 无法处理长对话或大型文档而不忘记之前的细节。用户经常遇到上下文长度限制（几千个标记），必须截断或总结信息。一位用户指出 “增加上下文窗口的大小将是最大的改进……这是我最常遇到的限制”。当超过上下文时，ChatGPT 会忘记初始指令或内容，导致会话中途质量下降。
GPT-4 的消息限制： ChatGPT Plus 用户抱怨 GPT-4 使用的 25 条消息/3 小时限制（2023 年的限制）。达到此限制迫使他们等待，打断工作。重度用户发现这种限制是一个主要痛点。
严格的内容过滤（“削弱”）： 许多 Reddit 用户认为 ChatGPT 变得过于严格，经常拒绝以前版本能处理的请求。一个高票帖子抱怨 “现在几乎任何你问它的问题都会返回‘抱歉，无法帮助你’……这怎么从最有用的工具变成了 Google 助手的等价物？” 用户举例说明 ChatGPT 拒绝重新格式化他们自己的文本（例如登录凭证）因为假设的误用。付费订阅者认为 “一些模糊的概念认为用户可能做‘坏事’……不应该成为不显示结果的理由”，因为他们想要模型的输出并会负责任地使用它。
幻觉和错误： 尽管具有先进的能力，ChatGPT 仍可能自信地产生错误或虚构的信息。一些用户观察到这种情况随着时间的推移变得更糟，怀疑模型被“削弱”了。例如，一位金融用户表示 ChatGPT 过去能正确计算像 NPV 或 IRR 这样的指标，但更新后 “我得到了很多错误答案……即使在纠正后，它仍然产生错误答案。我真的相信它自从更改后变得更笨了。” 这种不可预测的不准确性削弱了对需要事实精确任务的信任。
不完整的代码输出： 开发人员经常使用 ChatGPT 来获取编码帮助，但他们报告有时会遗漏解决方案的一部分或截断长代码。一位用户分享说 ChatGPT 现在 “遗漏代码，产生无用的代码，并且在我需要它做的事情上表现糟糕……它经常遗漏太多代码，我甚至不知道如何整合它的解决方案。” 这迫使用户提出后续提示以引出其余部分，或者手动拼接答案——这是一个繁琐的过程。
性能和正常运行时间问题： 存在一种看法，即随着企业使用增加，ChatGPT 对个人用户的性能下降。一位沮丧的 Plus 订阅者表示 “我认为他们正在将带宽和处理能力分配给企业，并从用户那里剥离，这在考虑到订阅费用时是无法忍受的！”。在高峰时段的停机或减速已被非正式地注意到，这可能会中断工作流程。

常见请求的功能或改进

更长的上下文窗口/记忆： 最常请求的改进是更大的上下文长度。用户希望进行更长的对话或提供大型文档而无需重置。许多人建议将 ChatGPT 的上下文扩展到与 GPT-4 的 32K 标记能力（目前通过 API 可用）或更高。一位用户表示，“GPT 在上下文中表现最好，当它不记得初始上下文时，我会感到沮丧……如果关于上下文 PDF 的传言属实，那将解决我所有的问题。” 对于上传文档或链接个人数据以便 ChatGPT 能够在整个会话中记住和引用它们的功能有很高的需求。
文件处理和集成： 用户经常要求更简单的方法将文件或数据输入 ChatGPT。在讨论中，人们提到希望 “复制并粘贴我的 Google Drive 并让它工作” 或者有插件可以让 ChatGPT 直接从个人文件中获取上下文。一些人尝试了变通方法（如 PDF 阅读器插件或链接 Google Docs），但抱怨错误和限制。一位用户描述了他们理想的插件是一个 “像 Link Reader 一样但用于个人文件……选择我的驱动器中的哪些部分用于对话……这将解决我目前与 GPT-4 的所有问题。” 简而言之，对外部知识（超出训练数据）的更好本地支持是一个受欢迎的请求。
减少对付费用户的限制： 由于许多 Plus 用户达到 GPT-4 消息限制，他们呼吁提高限制或提供更多支付选项以获得无限访问。25 条消息限制被视为任意的，并阻碍了密集使用。人们更希望使用基于使用的模型或更高的上限，以便长时间的问题解决会话不会被中断。
“非审查”或自定义审核模式： 一部分用户希望能够切换内容过滤的严格性，特别是在为自己使用 ChatGPT 时（而不是面向公众的内容）。他们认为“研究”或“非审查”模式——带有警告但没有硬性拒绝——会让他们更自由地探索。正如一位用户所说，付费客户将其视为一种工具，并相信 “我为[它]付钱。” 他们希望能够即使在边缘查询上也能得到答案。虽然 OpenAI 必须平衡安全性，但这些用户建议在私人聊天中放松政策的标志或设置。
改进的事实准确性和更新： 用户通常要求更及时的知识和更少的幻觉。ChatGPT 的知识截止（早期版本为 2021 年 9 月）是 Reddit 上经常提出的限制。OpenAI 随后引入了浏览和插件，一些用户利用了这些功能，但其他人只是要求基础模型更频繁地更新新数据。减少明显错误——特别是在数学和编码等领域——是一个持续的愿望。一些开发人员在 ChatGPT 出错时提供反馈，希望模型改进。
更好的代码输出和工具： 开发人员有功能请求，例如改进的代码解释器，不会遗漏内容，并与 IDE 或版本控制的集成。（OpenAI 的代码解释器插件——现在是“高级数据分析”的一部分——是朝这个方向迈出的一步，并受到赞扬。）尽管如此，用户经常请求在代码生成中有更细致的控制：例如，即使代码很长，也可以选择输出完整的、未过滤的代码，或者在 AI 出错时轻松修复代码的机制。基本上，他们希望 ChatGPT 更像一个可靠的编码助手，而无需多次提示来完善答案。
持久的用户档案或记忆： 另一个改进是让 ChatGPT 在会话之间记住用户的事情（在同意的情况下）。例如，记住一个人的写作风格，或者他们是一名软件工程师，而不必在每次新聊天时重述。这可以与 API 微调或“档案”功能结合起来。用户现在手动将重要上下文复制到新聊天中，因此内置的个人偏好记忆将节省时间。

未满足的需求或用户群体

研究人员和拥有长文档的学生： 希望 ChatGPT 分析长篇研究论文、书籍或大型数据集的人感到未被满足。当前的限制迫使他们切割文本或满足于摘要。这个群体将从更大的上下文窗口或处理长文档的功能中受益匪浅（如众多帖子所证实，试图绕过标记限制）。
寻求超出限制的创造性故事或角色扮演的用户： 虽然 ChatGPT 经常用于创意写作，但一些故事讲述者感到模型在长篇故事中忘记早期情节或拒绝成人/恐怖内容时受到限制。他们转向替代模型或黑客继续他们的叙述。这些创意用户将更好地由具有更长记忆和在合理范围内对虚构暴力或成熟主题更灵活的 ChatGPT 版本服务。正如一位小说作家所说，当 AI 失去对故事的跟踪时，“我必须提醒它确切的格式或上下文……我感到沮丧，因为它在两个提示前还很棒，但现在我必须让 AI 赶上。”。
高级用户和领域专家： 在专业领域（金融、工程、医学）的专业人士有时发现 ChatGPT 的答案在他们的领域缺乏深度或准确性，特别是如果问题涉及最近的发展。这些用户希望获得更可靠的专家知识。一些人尝试通过 API 或自定义 GPT 进行微调。那些无法微调的人会欣赏 ChatGPT 的领域特定版本或嵌入可信数据库的插件。在默认形式中，ChatGPT 可能未能满足需要高度准确、领域特定信息的用户（他们经常需要仔细检查其工作）。
需要非审查或边缘案例内容的用户： 一小部分用户（测试安全场景的黑客、极端小说的作家等）发现 ChatGPT 的内容限制对他们的需求过于限制。官方产品目前未能满足他们的需求（因为它明确避免某些内容）。这些用户经常尝试越狱提示或使用开源模型以获得他们想要的响应。这是 OpenAI 的故意差距（以维护安全性），但这意味着这些用户寻找其他地方。
注重隐私的个人和企业： 一些用户（尤其是在企业环境中）由于隐私问题而不愿将敏感数据发送到 ChatGPT。OpenAI 的政策是不使用 API 数据进行训练，但 ChatGPT 的 Web UI 历史上没有提供这样的保证，直到添加了选择退出功能。处理机密数据的公司（法律、医疗保健等）通常觉得他们无法充分利用 ChatGPT，除非他们构建自托管解决方案。例如，一位 Reddit 用户提到他们的公司出于隐私原因转向本地 LLM。在 ChatGPT 的本地或私有实例可用之前，这个群体仍然谨慎或使用较小的专业供应商。

不同用户类型的感知差异

开发者/技术用户： 开发者往往是 ChatGPT 的最大支持者和最严厉的批评者。他们喜欢它解释代码、生成样板和协助调试的能力。然而，他们敏锐地感受到其在更长上下文和代码准确性方面的限制。正如一位开发者抱怨的那样，ChatGPT 开始*“产生无用的代码”并遗漏重要部分，这“让我很生气……我不想告诉它‘不要懒惰’——我只想要完整的结果”*。开发者经常注意到模型更新后质量的细微变化，并在 Reddit 上非常直言不讳地表达对“削弱”或编码能力下降的看法。他们还推动极限（构建复杂提示、链接工具），因此他们渴望扩展上下文、减少消息限制和更好地与编码工具集成的功能。总之，开发者重视 ChatGPT 加快日常任务的速度，但也迅速指出逻辑或代码中的错误——他们将其视为仍需监督的初级助手。
普通/日常用户： 更多普通用户——那些寻求一般知识、建议或乐趣的人——通常对 ChatGPT 的能力感到惊讶，但他们也有自己的不满。普通用户常见的挫折是当 ChatGPT 拒绝一个在他们看来无害的请求时（可能触发了政策规则）。一个线程中的原始发帖人就此举例，“当我写一个它不应该有问题的提示而它现在拒绝时，我感到非常生气”。普通用户也可能遇到知识截止（发现机器人无法处理非常当前的事件，除非明确更新）并有时注意到 ChatGPT 给出明显错误的答案。与开发者不同，他们可能不会总是仔细检查 AI，这可能导致如果他们根据错误采取行动而失望。积极的一面是，许多普通用户发现 ChatGPT Plus 的更快响应和 GPT-4 的改进输出值得每月 20 美元——除非“拒绝”问题或其他限制破坏了体验。他们通常希望一个有用的、通用的助手，当 ChatGPT 回复政策声明或需要复杂提示才能得到简单答案时会感到沮丧。
商业/专业用户： 商业用户通常从生产力和可靠性的角度接触 ChatGPT。他们欣赏快速起草电子邮件、总结文档或生成想法。然而，他们关心数据安全性、一致性和工作流程集成。在 Reddit 上，专业人士讨论了希望 ChatGPT 集成到 Outlook、Google Docs 或作为其内部系统中的 API 中。一些人注意到，随着 OpenAI 转向服务企业客户，产品的重点似乎发生了转变：有一种感觉，免费或个人用户体验略有下降（例如，变得更慢或“更不聪明”），因为公司扩大规模以服务更大的客户。无论这是否属实，它突显了一种感知：商业用户希望获得可靠性和优先服务，而个人用户担心他们现在是二等公民。此外，专业人士需要正确的输出——一个华而不实但错误的答案可能比没有答案更糟。因此，这个群体对准确性很敏感。对他们来说，像更长的上下文（用于阅读合同、分析代码库）和保证的正常运行时间这样的功能至关重要。他们可能会为高级服务水平支付更多费用，前提是他们的合规性和隐私要求得到满足。一些企业甚至探索本地部署或使用 OpenAI 的 API 进行严格的数据处理规则以满足其 IT 政策。

Claude（Anthropic）

常见痛点和限制

使用限制和访问限制： Claude 因免费提供强大的模型（Claude 2）而受到赞扬，但用户很快遇到了使用限制（尤其是在免费层）。在一定数量的提示或大量文本后，Claude 可能会停止并说类似 “对不起，我现在必须结束这次对话。请稍后再来。” 这种限制让那些将 Claude 视为扩展编码或写作伙伴的用户感到沮丧。即使是 Claude Pro（付费）用户也*“不保证无限时间”*，正如一位用户指出的那样；达到配额仍然会产生“稍后再来”的消息。此外，Claude 曾经长期受到地理限制（最初仅在美国/英国可用）。国际用户在 Reddit 上不得不使用 VPN 或第三方平台来访问它，这是一种不便。这让许多非美国用户感到被排除在外，直到访问范围扩大。
在非常大的输入中偏离轨道的倾向： Claude 的头条功能是其100k 标记上下文窗口，允许极长的提示。然而，一些用户注意到，当你向 Claude 塞入数万个标记时，其响应可能变得不那么集中。“100k 非常有用，但如果它不能正确遵循指令并偏离轨道，那就不那么有用了，” 一位用户观察到。这表明在巨大的上下文中，Claude 可能会漂移或开始漫无边际，需要仔细提示以保持任务。这是将上下文推向极限的固有限制——模型保留了很多，但有时“忘记”哪些细节最相关，导致轻微的幻觉或离题的偏离。
不一致的格式或对指令的服从： 在并排比较中，一些用户发现 Claude 在遵循某些指令方面不那么可预测。例如，Claude 被描述为*“在互动中更像人类。但它不那么严格地遵循系统消息。”* 这意味着如果你给它一个固定的格式或非常严格的人物角色，Claude 可能比 ChatGPT 更容易偏离。依赖于确定性输出（如 JSON 格式或特定样式）的开发人员有时会感到沮丧，如果 Claude 引入额外的评论或不严格遵循模板。
内容限制和拒绝： 虽然没有像 ChatGPT 那样频繁受到批评，但 Claude 的安全过滤确实出现了。Anthropic 设计 Claude 时非常重视宪法 AI（让 AI 自己遵循道德准则）。用户普遍发现 Claude 愿意讨论广泛的话题，但也有一些情况下 Claude 拒绝了 ChatGPT 可能允许的请求。例如，一位 Reddit 用户指出 “ChatGPT 的道德限制较少……它会解释哪种防毒面具适合哪种条件，而 Claude 会拒绝”。这表明 Claude 可能对某些“敏感”建议更严格（可能将其视为潜在的危险指导）。另一位用户尝试了一个有趣的角色扮演场景（“假装你被外星人绑架”），Claude 拒绝了，而 Gemini 和 ChatGPT 会参与。因此，Claude 确实有过滤器，有时会让期望它更宽容的用户感到惊讶。
缺乏多模态能力： 与 ChatGPT 不同（到 2023 年底，获得了图像理解能力的 GPT-4 Vision），Claude 目前仅限于文本。Reddit 用户注意到 Claude 无法分析图像或直接浏览网络。这并不是一个“痛点”（Anthropic 从未宣传过这些功能），但相对于竞争对手而言确实是一个限制。希望 AI 解释图表或截图的用户无法使用 Claude，而 ChatGPT 或 Gemini 可能可以处理它。同样，任何当前信息的检索都需要通过第三方工具（例如，Poe 或搜索引擎集成）使用 Claude，因为 Claude 目前没有官方的浏览模式。
轻微的稳定性问题： 一些用户报告 Claude 偶尔会在某些提示中重复或陷入循环（尽管这比一些较小的模型更少见）。此外，早期版本的 Claude 有时会过早结束响应或在大输出时花费很长时间，这可能被视为轻微的烦恼，尽管 Claude 2 在速度方面有所改进。

常见请求的功能或改进

更高或可调的使用限制： Reddit 上的 Claude 爱好者经常要求 Anthropic 提高对话限制。他们希望在不遇到人为停止的情况下充分利用 100k 上下文。一些人建议即使是付费的 Claude Pro 也应该允许显著更多的每日标记。其他人提出了一个可选的“100k 扩展模式”的想法——例如，“Claude 应该有一个 100k 上下文模式，使用限制加倍”——在这种模式下，订阅可能会为重度用户提供扩展访问。总之，对一个与 ChatGPT 的无限（或高上限）使用竞争的计划有需求。
更好的长上下文导航： 虽然拥有 100k 标记是突破性的，但用户希望 Claude 能更好地利用那个上下文。一个改进是改进 Claude 优先考虑信息的方式，以便它保持在轨道上。Anthropic 可以在提示巨大时改进模型的提示遵从性。Reddit 讨论建议技术，如允许用户“固定”某些指令，以免在大上下文中被稀释。任何帮助分段或总结部分输入的工具也可以帮助 Claude 更连贯地处理大输入。简而言之，用户喜欢将整本书喂给 Claude 的可能性——他们只是希望它在整个过程中保持敏锐。
插件或网络浏览： 许多 ChatGPT 用户已经习惯了插件（例如，浏览、代码执行等），他们对 Claude 拥有类似的可扩展性表示兴趣。一个常见的请求是让 Claude 拥有一个官方的网络搜索/浏览功能，以便它可以按需获取最新信息。目前，Claude 的知识大多是静态的（训练数据截至 2023 年初，有一些更新）。如果 Claude 能够查询网络，这将缓解这一限制。同样，一个 Claude 可以使用第三方工具（如计算器或数据库连接器）的插件系统可以扩展其对高级用户的实用性。这仍然是 Claude 缺乏的一个功能，Reddit 用户经常提到 ChatGPT 的插件生态系统在某些任务中给它带来了优势。
多模态输入（图像或音频）： 一些用户也想知道 Claude 是否会支持图像输入或生成图像。Google 的 Gemini 和 OpenAI 的 GPT-4 具有多模态能力，因此为了保持竞争力，用户期望 Anthropic 探索这一点。一个常见的请求是：“我可以上传一个 PDF 或图像让 Claude 分析吗？” 目前答案是否定的（除了将图像转换为文本的变通方法）。即使只是允许图像到文本（OCR 和描述）也会满足许多希望一站式助手的用户。这在愿望清单上，尽管截至 2025 年初，Anthropic 尚未宣布类似的计划。
微调或定制化： 高级用户和企业有时会问他们是否可以在自己的数据上微调 Claude 或获得自定义版本。OpenAI 提供了一些模型的微调（尚未针对 GPT-4，但针对 GPT-3.5）。Anthropic 早些时候发布了 Claude 1.3 的微调界面，但对于 Claude 2 并未广泛宣传。Reddit 用户询问是否可以在公司知识或个人写作风格上训练 Claude。除了每次提示注入之外，更简单的方法将非常受欢迎，因为它可以将 Claude 转变为记住特定知识库或人物角色的个性化助手。
更广泛的可用性： 非美国用户经常要求 Claude 在他们的国家正式推出。来自加拿大、欧洲、印度等地的帖子询问他们何时可以在没有 VPN 的情况下使用 Claude 的网站，或者 Claude API 何时会更广泛开放。Anthropic 一直很谨慎，但需求是全球性的——在许多人看来，可能的改进只是“让更多人使用它”。该公司逐步扩展访问权限已经部分解决了这一问题。

未满足的需求或用户群体

国际用户群体： 如前所述，Claude 的主要用户群体长期以来受到地理限制。这让许多潜在用户未被满足。例如，一位对 Claude 的 100k 上下文感兴趣的德国开发者没有官方途径使用它。虽然存在变通方法（第三方平台，或 VPN + 在受支持国家的电话验证），但这些障碍意味着普通国际用户实际上被锁定在外。相比之下，ChatGPT 在大多数国家都可用。因此，非美国英语使用者，尤其是非英语使用者，由于 Claude 的有限推出而未被满足。他们可能仍然依赖 ChatGPT 或本地模型，仅仅因为访问问题。
需要严格输出格式的用户： 如前所述，Claude 有时在响应中采取自由。需要高度结构化输出的用户（如应用程序的 JSON，或遵循精确格式的答案）可能会发现 Claude 在这方面不如 ChatGPT 可靠。这些用户——通常是将 AI 集成到系统中的开发人员——是一个可以更好地服务的群体，如果 Claude 允许“严格模式”或改进其对指令的遵从性。他们目前可能会避免在此类任务中使用 Claude，而是坚持使用已知更严格遵循格式的模型。
普通问答用户（与创意用户相比）： Claude 经常因创意任务而受到赞扬——它产生流畅、类人类的散文和深思熟虑的文章。然而，一些 Reddit 用户指出，对于简单的问题回答或事实查询，Claude 有时会给出冗长的答案，而简洁就足够了。比较 ChatGPT 和 Claude 的用户表示，ChatGPT 倾向于简洁和要点，而 Claude 默认给出更多叙述。只想要快速事实答案的用户（如“X 的首都和人口是多少？”）可能会觉得 Claude 有点间接。这些用户更适合像准确搜索或简洁模型这样的东西。Claude 可以做到这一点，如果被要求，但其风格可能不符合简洁问答的期望，这意味着这个群体可能会转向其他工具（如 Bing Chat 或 Google）。
安全关键用户： 相反，一些需要非常小心遵循安全的用户（例如，与学生一起使用 AI 的教育工作者，或希望零风险输出的企业客户）可能会认为 Claude 的对齐是一个优点，但由于 ChatGPT 也相当对齐并且具有更多企业功能，那些用户可能不会特别选择 Claude。这是一个小群体，但可以说 Claude 尚未明确捕获它。他们可能未被满足，因为他们没有简单的方法来增加 Claude 的保障或查看其“思维链”（Anthropic 通过宪法 AI 方法在内部拥有，但最终用户无法直接与之交互，除了注意到 Claude 的通常礼貌语气）。
非英语使用者（输出质量）： Claude 主要用英语训练（像大多数大型 LLM 一样）。一些用户在其他语言中测试了它；它可以用多种语言响应，但质量可能会有所不同。如果说，用户希望用法语或印地语得到非常细致的答案，Claude 的能力可能没有像 ChatGPT 那样在这些语言中精细调整（GPT-4 在某些基准测试中表现出强大的多语言性能，通常高于其他模型）。主要用非英语交流的用户可能会发现 Claude 的流利度或准确性略弱。这个群体有些未被满足，仅仅因为 Anthropic 尚未公开强调多语言训练作为优先事项。

不同用户类型的感知差异

开发者/技术用户： Reddit 上的开发者越来越赞赏 Claude，尤其是 Claude 2 / Claude 3.5，用于编码任务。2024 年末的感知变化显著：许多开发者开始更喜欢 Claude 而不是 ChatGPT 用于编程协助。他们引用*“在编码方面表现出色”*的性能和一次性处理更大代码库的能力。例如，一位用户写道 “Claude Sonnet 3.5 在与代码（分析、生成）方面比 ChatGPT 更好。” 开发者欣赏 Claude 能够处理大量项目代码或日志并产生连贯的分析或改进，这要归功于其巨大的上下文。然而，他们也注意到其怪癖——如有时注入更多对话性废话或不严格遵循规范。总的来说，许多开发者手头同时保留 ChatGPT 和 Claude：一个用于严格的逐步逻辑（ChatGPT），一个用于广泛的上下文和富有同情心的理解（Claude）。一个评论者说 “如果我必须选择一个，我会选择 Claude”，这表明高级用户中非常积极的感知，尤其是用于头脑风暴、代码审查或架构建议等用例。开发者唯一常见的抱怨是当他们尝试大力推动 Claude 时（例如，提供 50K 标记提示以分析整个存储库）达到 Claude 的使用限制。总之，开发者将 Claude 视为一个非常强大的工具——在某些情况下优于 ChatGPT——仅受可用性和格式不确定性限制。
普通/非技术用户： 试用过 Claude 的普通用户经常评论它友好和清晰。Claude 的风格倾向于对话性、礼貌和详细。一个新用户将其与 ChatGPT 比较时观察到 “Claude 更富有同情心，并遵循对话语气……ChatGPT 太频繁地默认使用要点”。这种类人类的温暖使 Claude 对于使用它进行创意写作、建议或只是聊天以获取信息的人具有吸引力。有些人甚至将 Claude 人格化为具有“个性”的同情心。普通用户还喜欢 Claude 的免费版本允许访问相当于 GPT-4 级别的智能，而无需订阅（至少在速率限制内）。另一方面，普通用户确实会遇到 Claude 在某些主题上的拒绝，并可能不理解为什么（因为 Claude 会礼貌但坚定地表达）。如果普通用户询问一些边缘问题并从 Claude 那里得到拒绝，他们可能会认为它不那么有能力或过于受限，而没有意识到这是一种政策立场。另一个方面是 Claude 缺乏知名度——许多普通用户可能甚至不知道尝试它，除非他们与 AI 社区有联系。那些尝试过的人通常评论说它感觉*“像在和人交谈”，以一种好的方式。他们对 Claude 处理开放式或个人问题的能力感到非常满意。因此，普通用户对 Claude 的输出质量和语气*的感知大多是积极的，对其可用性（必须在特定应用程序或地区使用）和偶尔的“不能这样做”时刻感到困惑或沮丧。
商业/专业用户： 从公共 Reddit 上很难判断商业对 Claude 的看法（因为很少有企业用户详细发布），但有一些趋势浮现。首先，Anthropic 将 Claude 定位为更注重隐私并愿意签署企业协议——这对担心 OpenAI 数据的公司很有吸引力。确实，一些 Reddit 讨论提到 Claude 在 Slack 或 Notion 等工具中的上下文中，作为助手进行集成。使用这些集成的专业人士可能甚至没有意识到 Claude 是引擎，但当他们意识到时，他们在写作风格和消化大型企业文档的能力方面对其进行积极比较。例如，一个团队可能会将长季度报告提供给 Claude 并获得不错的摘要——这是 ChatGPT 的较小上下文难以处理的事情。也就是说，商业用户也注意到缺乏某些生态系统功能；例如，OpenAI 提供系统消息控制、函数调用等，而 Anthropic 的支持较少。一位开发人员在开发商业解决方案时表示 Claude 在对话中更易于引导，而 ChatGPT 更倾向于更严格……[但] ChatGPT 具有网络访问功能，这可能非常有帮助。这意味着对于商业用户可能需要的研究或数据查找任务（如竞争情报），ChatGPT 可以直接获取信息，而 Claude 需要单独的步骤。总体而言，商业用户认为 Claude 是一个非常有能力的 AI——在某些情况下更好用于内部分析任务——但可能尚未在集成方面达到功能丰富。成本是另一个因素：Claude 的 API 定价和条款不像 OpenAI 那样公开，一些 Reddit 上的初创公司提到对 Claude 的定价或稳定性的不确定性。总之，专业人士尊重 Claude 的能力（尤其是在遵循高级指令和总结大型输入方面的可靠性），但他们密切关注其在集成、支持和全球可用性方面的发展，然后才完全承诺使用它而不是更成熟的 ChatGPT。

Google Gemini（Bard）

常见痛点和限制

不准确或“愚蠢”的响应： 当 Google 推出其由 Gemini 驱动的 Bard 升级时，出现了大量的 Reddit 反馈，其中大部分是负面的。用户抱怨 Gemini 在基本问答中表现不佳，与 ChatGPT 相比。一篇题为“对 Google Gemini 的 100% 诚实评价”的直率评估指出：“这是一个破碎、不准确的 LLM 聊天机器人”。另一位沮丧的用户问道：“Gemini 怎么还这么糟糕？我问 Gemini 的次数，它要么给我错误答案，要么给我不完整答案，真是荒谬”。他们将其与 ChatGPT-4 并排比较，发现 ChatGPT 给出了*“完美、正确、有效的答案，一次就搞定”*，而 Gemini 则冗长，需要多次提示才能得到一个半满意的答案。实质上，早期用户认为 Gemini 经常产生幻觉或错过问题的重点，需要过多的提示努力才能提取正确的信息。鉴于对 Gemini 的炒作，这种质量不一致是一个重大失望。
过多的冗长和废话： 许多用户注意到 Gemini（以新 Bard 的形式）倾向于产生冗长的答案，而不是直奔主题。正如一个人所描述的，“它冗长……3 段 AI 垃圾……即便如此，它[仅]最终在废话段落中提到了答案”。这与 ChatGPT 形成鲜明对比，ChatGPT 通常在适当时提供更简洁的答案或要点。当用户必须在大量文本中筛选简单事实时，冗长成为一个痛点。一些人推测 Google 可能调整它以便更具对话性或“有帮助”，但过度解释而没有实质内容。
与 Google 自有服务的集成不佳： Google 的 AI 助手的卖点之一应该是与 Google 生态系统（Gmail、Docs、Drive 等）的集成。然而，早期用户体验在这方面非常令人失望。一位用户发泄道：“别让我开始谈论它几乎无法与 Google 自己的产品集成，这应该是一个‘功能’（它显然不知道它有）。” 例如，人们会尝试要求 Gemini（通过 Bard）总结 Google Doc 或根据一些信息起草电子邮件——Google 广告的功能——而机器人会回答它无法访问该数据。一位 r/GooglePixel 上的用户写道：“每次我尝试使用 Gemini 与我的 Google Docs 或 Drive 时，它告诉我无法对其做任何事情。有什么意义呢？” 这表明承诺的能力与实际表现之间存在显著差距，让用户感到“AI 助手”在 Google 自己的生态系统中没有提供太多帮助。
拒绝和能力混乱： 用户还遇到了 Gemini 的奇怪拒绝或矛盾。同一位 Reddit 用户指出 Gemini “无缘无故地拒绝做事情，忘记它可以做其他事情……前几天它告诉我它没有互联网/实时数据访问。什么。” 这表明 Gemini 有时会拒绝它应该能够做的任务（如检索实时信息，Bard 已连接到）或对其自身能力做出不正确的声明。这样的经历给人的印象是一个不仅不太聪明，而且不太可靠或自知的 AI。另一位用户的生动评论：“Gemini 是绝对的垃圾。你有没有过那种时刻，你只想举起双手说，‘他们在想什么？’” 概括了这种挫折感。本质上，Gemini 的产品集成和一致性问题让许多早期用户感到它半成品。
不显著的编码能力： 虽然不像一般问答那样广泛讨论，但有几位用户测试了 Gemini（Bard）的编码任务，发现其表现不佳。在 AI 论坛中，Gemini 的编码能力通常被评为低于 GPT-4，甚至低于 Claude。例如，一位用户简单地表示 “Claude 3.5 Sonnet 在编码方面明显优于 ChatGPT 4o……Gemini 在那种情况下绝对是垃圾”。共识是，Gemini 可以编写简单代码或解释基本算法，但在更复杂的问题上经常绊倒或产生错误代码。其缺乏广泛的开发工具集（例如，它没有 Code Interpreter 或强大的函数调用等同）也意味着它不是程序员的首选。因此，虽然并非所有普通用户都关心代码，但这是该群体的一个限制。
移动设备限制： Gemini 作为 Google 助手的一部分在 Pixel 手机上推出（品牌为“Assistant with Bard”）。一些 Pixel 用户注意到将其用作语音助手替代品存在问题。与旧版 Google 助手相比，它有时无法准确接收语音提示或响应时间过长。还有关于需要选择加入并失去一些经典助手功能的评论。这创造了一种Gemini 在设备上的集成尚未完全准备好的印象，让 Google 生态系统的高级用户感到他们必须在智能助手和功能助手之间做出选择。

常见请求的功能或改进

显著提高准确性和推理能力： 用户对 Gemini 的首要改进要求是变得更聪明和更可靠。Reddit 反馈明确表示，Google 需要缩小答案质量的差距。用户期望 Gemini 利用 Google 的广泛信息访问来提供事实、直接的答案，而不是冗长或不正确的答案。因此，要求（通常以讽刺的方式表达）归结为：让它在一般知识和推理方面与 GPT-4 一样好或更好。 这包括更好地处理后续问题和复杂提示。基本上，“修复 Gemini 的大脑”——利用那些所谓的多模态训练优势，使其不再错过明显的细节。Google 可能已经听到了这一点：许多帖子比较了 ChatGPT 表现出色而 Gemini 失败的具体答案，这为改进提供了非正式的错误报告。
更好的集成和上下文意识： 用户希望 Gemini 实现无缝 Google 生态系统助手的承诺。这意味着它应该正确地与 Gmail、Calendar、Docs、Drive 等接口。如果用户要求“总结我打开的文档”或“起草对我老板最后一封电子邮件的回复”，AI 应该做到——并且做到安全。目前，要求是 Google 启用这些功能并让 Gemini 实际识别何时可以执行此类任务。Bard 被宣传为可以连接到用户内容（在获得许可的情况下），因此用户实际上要求 Google“打开”或修复此集成。这是商业用户的一个关键功能。此外，在网络浏览方面：Bard（Gemini）可以搜索网络，但一些用户希望它更清楚地引用来源或更及时地纳入突发新闻。因此，改进 Gemini 的连接特性是一个常见请求。
简洁性控制： 鉴于冗长的抱怨，一些用户建议添加一个切换响应风格的功能。例如，一个*“简短模式”*，默认情况下 Gemini 给出简短、直截了当的答案，除非要求详细说明。相反，也许是一个“详细模式”适合那些想要非常全面答案的人。ChatGPT 通过用户提示隐含地允许其中一些（“保持简短”）；对于 Gemini，用户感到即使他们没有要求详细说明，它也过度解释。因此，内置设置或更好地调整以在适当时生成简洁答案将是一个受欢迎的改进。本质上，调整冗长的刻度。
与 ChatGPT 的功能对等（编码、插件等）： Reddit 上的高级用户明确比较功能。他们要求 Google 的 Gemini/Bard 提供类似于 ChatGPT 的 Code Interpreter 的代码执行沙箱，上传图像/PDF 进行分析的能力（因为 Gemini 是多模态的，用户希望实际提供自定义图像，而不仅仅是描述提供的图像）。另一个经常提到的功能是更好的会话内记忆——虽然 Bard 确实记住了一些过去的互动，但用户希望它像 ChatGPT 一样好地引用早期上下文，甚至拥有像 ChatGPT 的聊天历史那样的持久会话存储，可以滚动查看和重新访问。基本上，Google 被要求赶上所有 ChatGPT Plus 用户拥有的生活质量功能：聊天历史、插件生态系统（或至少强大的第三方集成）、编码协助等。
移动应用和语音改进： 许多普通用户请求一个专用的 Bard/Gemini 移动应用程序（类似于 ChatGPT 移动应用程序）。依赖于 Web 界面或仅限于 Pixel 助手是有限的。一个跨 iOS/Android 的官方应用程序，具有语音输入、语音响应（以获得真正的助手感觉）和紧密集成可以大大改善用户体验。除此之外，Pixel 用户希望 Assistant with Bard 更快更实用——基本上，他们希望旧版 Google 助手的最佳功能（快速、精确的操作）与 Gemini 的智能相结合。例如，继续允许“Hey Google”智能家居语音命令，而不仅仅是聊天响应。Google 可以改进 Gemini 的语音模式，以真正取代传统助手而不失去功能。
透明度和控制： 一些用户要求 Bard 的来源更多的洞察力或一种微调其风格的方法。例如，显示 Bard 从哪个 Google 结果中提取信息（以验证准确性）——Bing Chat 就通过引用链接做到这一点。此外，由于 Bard 偶尔会产生错误信息，用户希望能够标记或纠正它，理想情况下 Bard 应该从这些反馈中学习。拥有一个简单的反馈机制（“不喜欢——这是不正确的，因为……”）可以快速改进模型，将增强用户对 Google 正在倾听的信心。基本上，功能使 AI 更像一个协作助手而不是一个黑盒子。

未满足的需求或用户群体

寻求可靠个人助手的用户： 具有讽刺意味的是，Google 目标的群体——希望强大个人助手的人——在当前形式的 Gemini 中感到最未被满足。切换到新 Bard 基于助手的早期采用者期望升级，但许多人觉得在实际意义上是降级。例如，如果有人希望语音助手准确回答琐事、设置提醒、控制设备并从他们的帐户中集成信息，Gemini 表现不佳。这让非常依赖助手提高生产力的繁忙专业人士或小工具爱好者感到他们的需求没有得到满足。一位用户评论说，如果 Pixel 的“Assistant with Bard”“超过 Google 助手”，他们会考虑付费，暗示它还没有。因此，这个群体仍在等待一个可靠、真正有帮助的 AI 助手——如果 Gemini 改进，他们会立即使用。
非母语英语使用者/本地化： Google 产品通常具有出色的本地化，但尚不清楚 Bard/Gemini 在推出时是否在所有语言中同样强大。一些国际用户报告说 Bard 用他们的母语回答的答案不够流利或有用，将他们推回到本地竞争对手。如果 Gemini 的训练数据或优化偏向英语，那么非英语用户未被满足。他们可能更喜欢 ChatGPT 或本地模型，这些模型明确优化了多语言能力。这是 Google 传统上可以擅长的领域（鉴于其翻译技术），但用户对此的反馈很少——可能表明 Gemini 尚未令这些社区惊艳。
企业客户（迄今为止）： 大型组织尚未广泛采用 Bard/Gemini，基于公开讨论，通常是因为信任和能力差距。企业需要一致性、引用和与其工作流程的集成（Office 365 通过 MS Copilot 深度集成了 OpenAI 的技术）。Google 的等效产品（Duet AI with Gemini）仍在发展中。直到 Gemini/Bard 证明它可以可靠地起草电子邮件、创建幻灯片或在 Google Sheets 中分析数据，达到或超过 GPT-4 的水平，企业用户会觉得 Google 的解决方案没有完全满足他们的需求。一些 r/Bard 上的专业人士的帖子是这样的：“我尝试过 Bard 进行工作任务，它不如 ChatGPT，所以我们会观望。” 这表明企业用户目前是未被满足的群体——他们想要一个可以插入 Google Workspace 并真正提高生产力的 AI，而无需不断验证输出。
在 Google 生态系统中偏好一站式解决方案的用户： 有一部分用户使用 Google 做所有事情（搜索、电子邮件、文档），如果它一样好，他们会乐意使用 Google AI 满足所有聊天机器人需求。现在，这些用户有些未被满足，因为他们最终在某些事情上使用 ChatGPT，而在其他事情上使用 Bard。他们可能会问 ChatGPT 事实问题，因为他们更信任其答案质量，但使用 Bard 进行其浏览或集成尝试。这种分裂的体验并不理想。这些用户真的只想留在一个应用程序/助手中。如果 Gemini 改进，他们会围绕它整合，但在此之前，他们的“一个助手统治一切”的用例没有得到满足。
Google Cloud 上的开发者/数据科学家： Google 确实通过其 Vertex AI 平台发布了 Gemini 模型供开发者使用。然而，早期报告和基准测试表明 Gemini（特别是可用的“Gemini Pro”模型）没有击败 GPT-4。偏好 Google Cloud 进行 AI 服务的开发者因此在模型质量方面有些未被满足——他们要么接受稍微逊色的模型，要么单独集成 OpenAI 的 API。这个企业开发者群体渴望一个强大的 Google 模型，以便他们可以将一切保持在一个堆栈中。直到 Gemini 的性能在某些领域明显超越，或者定价提供了令人信服的理由，它尚未完全满足这个群体的需求。

不同用户类型的感知差异

开发者/技术爱好者： 技术用户对 Gemini 寄予厚望（毕竟是 Google）。他们的感知在动手测试后迅速恶化。许多 Reddit 上的开发者运行基准测试或他们最喜欢的棘手问题通过 Gemini，发现它落后。一位程序员直言不讳地表示，“Gemini 是绝对的垃圾，就像 Llama 3.0 曾经是”，表明他们甚至将其排在一些开放模型之下。开发者对逻辑错误和冗长特别敏感。因此，当 Gemini 给出冗长但不正确的答案时，它很快失去了信誉。另一方面，开发者认识到 Google 的潜力；一些人抱有希望，“通过更多的微调，Gemini 会变得更好”，并在更新后定期重新测试它。目前，然而，大多数开发者认为它在几乎所有严肃任务中劣于 GPT-4（编码、复杂问题解决）。他们确实欣赏某些东西：例如，Gemini 可以访问实时信息（通过 Google 搜索）而无需插件，这对于最新查询很有用。开发者可能会使用 Bard 进行类似“搜索并总结最新论文 X”的事情，在那里它可以引用网络数据。但对于自包含的推理，他们倾向于其他模型。总之，技术爱好者将 Gemini 视为一个有前途的未完成作品，目前感觉落后一代。它尚未赢得他们的完全信任，他们经常发布并排比较，突出其错误以刺激 Google 改进它。
普通/日常用户： 包括那些通过手机或网络获得新 Bard 访问权限的普通用户，感受混杂。许多普通用户最初接触 Bard（Gemini），因为它是免费的，使用 Google 帐户很容易访问，而 GPT-4 是收费的。一些普通用户实际上报告了简单用途的不错体验：例如，r/Bard 中的一位 Reddit 用户给出了积极的评价，指出 Gemini 帮助他们处理法律文件审查、文案写作，甚至是识别照片中的衣服尺码的有趣用例。他们说 “Gemini 一直是回答我问题的宝贵资源……最新信息……我已经习惯了付费版本，以至于我不记得免费版本的表现如何。”——这表明至少一些投入时间（和金钱）到 Bard Advanced 的普通用户发现它在日常生活中有用。这些用户倾向于将其用于实用、日常帮助，可能不会将模型推向极限。然而，许多其他普通用户（尤其是那些也尝试过 ChatGPT 的用户）感到失望。询问旅行建议、琐事或任务帮助的普通人发现 Bard 的答案不够清晰或有用。这里的感知是分裂的：品牌忠诚的 Google 用户与已经被 ChatGPT 宠坏的用户。前者群体，如果他们没有太多使用 ChatGPT，有时发现 Bard/Gemini 对他们的需求“相当不错”，并欣赏它与搜索集成且免费。后者群体几乎总是比较并发现 Gemini 不如人意。他们可能会说，“为什么我会使用 Bard，当 ChatGPT 90% 的时间更好？” 因此，普通用户的感知真的取决于他们的先前参考框架。那些对 AI 助手不熟悉的人可能会将 Gemini 评为一个有用的新奇事物；那些对竞争对手有经验的人则将其视为一个失望，“仍然表现得如此糟糕”，需要改进。
商业/专业用户： 许多专业人士在 Google Workspace 集成（Duet AI）推出时试用了 Bard。这个群体的感知是谨慎的怀疑。一方面，他们信任 Google 的企业承诺，关于数据隐私和集成（例如，通过 AI 编辑文档，从日历邀请中总结会议等）。另一方面，早期测试经常显示 Gemini 制造事实错误或提供通用输出，这对商业用途来说并不令人放心。例如，专业人士可能会要求 Bard 起草客户报告——如果 Bard 插入错误数据或弱见解，可能会比帮助更麻烦。因此，专业用户倾向于在非关键任务上试用 Bard，但仍依赖 GPT-4 或 Claude 进行重要输出。还有一种感知是 Google 在追赶：许多人认为 Bard“尚未准备好”，决定等待。一些积极的感知存在于实时数据查询等领域——例如，r/Bard 上的一位金融分析师指出 Bard 可以通过 Google 搜索提取最新市场信息，而 ChatGPT 除非启用插件，否则无法做到。因此，在当前数据是关键的领域，一些专业人士看到了优势。另一个细微差别：在 Google 生态系统中的人（例如，专门使用 Google Workspace 的公司）对其的看法略微更积极，因为 Bard/Gemini 是适合他们环境的选项。他们希望它改进，而不是切换到完全不同的生态系统。总之，商业用户将 Gemini 视为潜在非常有用（鉴于 Google 的数据和工具集成），但截至 2025 年初，它尚未赢得完全信任。他们将其视为“尚未完全准备好的新竞争者”——值得关注，但尚未成为关键任务的首选。Google 的声誉为这个群体赢得了一些耐心，但不是无限的；如果 Gemini 没有显著改进，专业人士可能不会广泛采用它，而是坚持使用其他解决方案。

开源 LLMs（例如基于 LLaMA 的模型）

常见痛点和限制

硬件和设置要求： 与云聊天机器人不同，开源 LLMs 通常需要用户在本地硬件或服务器上运行它们。这立即带来了一个痛点：许多模型（例如，70 亿参数的 LLaMA 模型）需要一个强大的 GPU 和大量 VRAM 才能顺利运行。正如一位 Reddit 用户简洁地说，“在大多数消费者硬件上运行本地 LLMs 不会有复杂开发所需的精度。” 对于只有 8GB 或 16GB GPU（或仅 CPU）的普通人来说，运行高质量模型可能很慢或根本不可行。用户可能会求助于适合的小型模型，但这些模型通常会产生较低质量的输出（“更愚蠢”的响应）。设置的复杂性是另一个问题——安装模型权重、设置环境（如 Oobabooga 或 LangChain）、管理标记化库等，对于非开发者来说可能是令人生畏的。即使是技术娴熟的用户也描述它为跟上新模型版本、GPU 驱动程序怪癖等的麻烦。一篇题为“说真的，你如何实际使用本地 LLMs？”的帖子中，人们分享说许多模型*“要么表现不佳，要么在我的硬件上运行不顺利”*，并寻求实际建议。
性能低于最先进的封闭模型： 开源模型取得了快速进展，但截至 2025 年，许多用户注意到它们在复杂推理、编码和事实准确性方面仍落后于顶级专有模型（GPT-4、Claude）。一个生动的例子：r/LocalLLaMA 上的一位用户在其母语中比较输出并说 “我尝试过的其他模型都失败了……它们甚至接近不了 [GPT-4]。ChatGPT 4 在写作方面绝对令人惊叹”。这种情绪广泛存在：虽然较小的开放模型（如微调的 13B 或 7B）对于其大小来说令人印象深刻，但它们在需要深刻理解或多步骤逻辑的任务中表现不佳。即使是较大的开放模型（65B、70B）接近 GPT-3.5 水平，仍然可能在 GPT-4 处理的棘手问题上绊倒。用户观察到开放模型中更多的幻觉和错误，尤其是在利基知识或提示略微偏离训练分布时。因此，原始能力的差距是一个痛点——使用本地模型时必须降低期望，这对于习惯于 ChatGPT 可靠性的人来说可能令人沮丧。
有限的上下文长度： 大多数开源 LLMs 传统上具有较小的上下文窗口（2048 个标记，可能 4k 个标记），与 ChatGPT 或 Claude 提供的相比。一些较新的微调和架构正在扩展这一点（例如，有 LLaMA-2 的 8K 或 16K 标记版本，研究如 MPT-7B 具有 16K 上下文）。然而，非常长上下文开放模型的实际使用仍处于早期阶段。这意味着本地模型用户面临类似的记忆问题——除非他们实施外部记忆方案（如用于检索的向量数据库），否则模型会忘记对话或文本的早期部分。在 Reddit 讨论中，用户经常提到必须手动总结或截断历史以保持在限制内，这很费力。这是一个显著的限制，特别是因为专有模型正在进一步推动上下文长度（如 Claude 的 100k）。
某些模型中缺乏微调的指令遵循： 虽然许多开放模型经过指令调优（Alpaca、LLaMA-2-Chat 等），但并非所有模型都像 ChatGPT 那样经过严格的 RLHF 训练。这可能导致本地模型有时对指令或系统提示的响应较差。例如，原始 LLaMA 模型只会继续文本，完全忽略用户提示格式——必须使用聊天调优版本。即便如此，调优数据的质量也很重要。一些 Reddit 用户注意到某些指令模型要么过度拒绝（因为它们经过重安全调优，例如一些 Facebook LLaMA-2 聊天会回复类似于 ChatGPT 的政策拒绝）或表现不佳（不精确遵循查询）。GitHub 上关于 CodeLlama-70B-instruct 的用户抱怨说它 “被审查得基本上无用”，显示了对开放模型采用相同严格性而没有关闭它的替代方案的沮丧。因此，根据选择的模型，用户可能会面临要么模型过于松散（并给出不相关的延续），要么过于严格/受限。获得良好的指令遵循行为通常需要尝试多个微调。
碎片化和快速变化： 开源 LLM 领域发展极快，每周都有新模型和技术（量化、LoRA 微调等）出现。虽然令人兴奋，但对于不想不断调整设置的用户来说，这是一个痛点。上个月有效的东西可能在这个月就过时了。一位 Reddit 用户幽默地将其比作狂野西部，称社区正在*“寻找‘假装’它感觉像是类似 [GPT-4]”*，但通常这些是权宜之计。对于普通用户来说，从数十个模型名称（Vicuna、Alpaca、Mythomax、Mistral 等）中选择是令人生畏的，每个都有多个版本和分支。没有一个统一的平台，用户依赖社区指南——这可能会令人困惑——来决定哪个模型适合他们的需求。工具和模型质量的这种碎片化是一个间接的痛点：它提高了进入门槛和维护努力。
没有官方支持或保证： 当本地 LLM 出现问题时（例如，模型输出冒犯性内容或崩溃），没有客户支持可以求助。用户只能依靠自己或社区帮助。对于爱好者来说，这很好，但对于专业用途来说，这种缺乏正式支持是一个障碍。一些在公司工作的 Reddit 用户指出，虽然他们喜欢开放模型的隐私，但他们担心如果模型出现故障或需要更新时该找谁。基本上，使用开源是 DIY——既是优点也是缺点。

常见请求的功能或改进

更好的效率（量化和优化）： 社区的一个主要关注点（因此是一个常见请求）是让大型模型在较小的硬件上运行。用户热切期待能够让 70B 模型像 7B 模型一样顺畅运行的技术。已经有 4 位或 8 位量化，线程经常讨论新的方法，如 AWQ 或类似 RNN 的适配器。一位用户引用研究表明改进的量化可以在较低的位精度下保持质量。愿望本质上是：“让我在我的 PC 上运行一个 GPT-4 级别的模型而不卡顿。” 每一个接近的突破（如更高效的变压器架构或 GPU 卸载到 CPU）都受到庆祝。因此，对更好的工具（如下一代 llama.cpp 或其他加速器）的请求很常见——任何减少硬件障碍的东西。
更大和更好的模型（缩小质量差距）： 社区不断推动新的最先进开放模型。用户对 LLaMA 3 等项目（如果/当 Meta 发布一个）或可能产生 100B+ 开放模型的合作感到兴奋。许多人对*“到今年年底我们将在我们的机器上拥有本地 GPT-4 模型”*感到乐观。在那句话中，用户押注 LLaMA 3 加上微调可以提供 GPT-4 级别的性能。因此，可以说“请求的功能”只是：更多权重，更多训练——社区希望科技公司或研究小组开源更大、更好的模型，以便他们可以本地运行它们。每次新模型（如 Mistral 7B 或 Falcon 40B）出现时，用户都会测试它是否击败了上一个。最终请求是一个真正与 GPT-4 竞争的开放模型，消除了那些可以托管它的人对封闭 AI 的需求。
用户友好的界面和一键设置： 为了扩大采用，许多用户要求更简单的方法来使用本地 LLMs。这包括 GUI 界面，用户可以在其中下载模型并开始聊天，而无需命令行工作。有项目正在解决这一问题（Oobabooga 的 text-generation-webui、LM Studio 等），但新手仍然感到困难。最近的 Reddit 线程可能会问，“如何在本地设置一个类似 ChatGPT 的 LLM？”，用户请求分步指南。因此，一个频繁的愿望是简化安装——也许是一个官方应用程序或 Docker 容器，捆绑所有需要的东西，或者集成到流行软件中（想象一个扩展，将本地 LLM 引入 VSCode 或 Chrome 中）。基本上，减少技术开销，以便不太精通技术的人也能享受私人 LLMs。
更长的上下文和本地模型的记忆： 开源开发者和用户正在尝试扩展上下文（通过位置嵌入调整或专用模型）。许多用户请求新模型默认具有更长的上下文窗口——例如，一个具有 32k 上下文的开放模型将非常有吸引力。在此之前，一些人依赖于外部“检索”解决方案（LangChain 与向量存储一起提供相关信息到提示中）。r/LocalLLaMA 上的用户经常讨论他们的伪长上下文设置，但也表达了对模型本身处理更多的愿望。因此，他们寻求的改进是：“给我们一个本地 Claude——一个具有数万标记上下文的东西。” 这将允许他们在本地进行书籍分析、长对话或大型代码库工作。
改进的微调工具和模型定制： 另一个要求是使微调或个性化模型更容易。虽然存在用于在新数据上微调模型的库（Alpaca 用 52K 指令完成，低秩适应（LoRA）允许有限计算的微调等），但仍然有些复杂。用户希望有更多可访问的工具，例如，提供他们所有的写作或公司文档给模型并让其适应。LoRA 等项目是朝这个方向迈出的一步，但更自动化的解决方案（也许是一个向导 UI：“在这里上传您的文档以进行微调”）将受到欢迎。基本上，将 OpenAI 通过 API 提供的能力（在自定义数据上微调模型）带到本地领域，以用户友好的方式。
社区驱动的安全和审核工具： 鉴于开放模型可以产生任何内容（包括不允许的内容），一些用户请求或开始开发用户可以切换或调整的审核层。这有点小众，但想法是拥有可选的过滤器，以捕捉如果有人想要的极端输出（例如，如果孩子或学生可能在本地与模型互动）。由于开放模型不会自行停止，拥有一个插件或脚本来扫描输出以查找极端内容可能会有用。社区中的一些人正在开发“道德护栏”，您可以选择加入，这很有趣，因为它赋予用户控制权。因此，围绕控制模型行为的功能——无论是为了使其更安全还是移除安全——经常被讨论和请求，具体取决于用户的目标。

未满足的需求或用户群体

重视隐私的非技术用户： 目前，本地 LLMs 主要迎合技术爱好者。一个不精通计算机但关心数据隐私的人（例如，想要 AI 帮助分析笔记但无法将其上传到云的心理治疗师）未被满足。他们需要一个简单且安全的本地解决方案，但复杂性是一个障碍。在本地 AI 变得像安装应用程序一样容易之前，这些用户仍然处于边缘——要么妥协使用云 AI 并冒隐私风险，要么根本不使用 AI。这个群体——注重隐私但不太技术的个人——显然未被当前的开源产品满足。
预算有限的用户在互联网不佳的地区： 另一个受益于本地模型的群体是没有可靠互联网或无法负担 API 调用的人。如果有人可以在低端机器上获得一个不错的离线聊天机器人，那将是有价值的（想象一下偏远地区的教育工作者或学生）。目前，离线质量可能不够好，除非你有高端 PC。有一些非常小的模型可以在手机上运行，但它们的能力有限。因此，需要离线 AI 的用户——由于连接或成本——是一个开源可以服务的群体，但当前的模型可能在弱设备上太慢。他们将随着模型变得更高效而得到更好的服务。
NSFW 或专业内容的创作者： 开放模型流行的一个原因是它们可以不受审查，支持封闭 AI 禁止的用例（色情角色扮演、探索暴力小说等）。虽然这个“未被满足”的群体有争议，但它是真实存在的——许多 Reddit 社区（例如，AI Dungeon 或角色聊天机器人）在 OpenAI 和其他公司收紧内容规则后转向本地模型。这些用户现在部分依赖于开放模型，但他们通常必须找到或微调专门用于此目的的模型（如 Mythomax 用于讲故事等）。他们偶尔会抱怨许多开放模型仍然有安全训练的残余（拒绝某些请求）。因此，他们希望明确调整用于不受审查创意的模型。可以说他们正在被服务（因为他们有解决方案），但不是通过主流默认设置——他们依赖于小众社区分支。
语言和文化社区： 开源模型可以针对特定语言或本地知识进行微调，但大多数知名模型都是以英语为中心的。来自非英语社区的用户可能未被满足，因为 OpenAI 或开放模型都不能完美地满足他们的语言/俚语/文化背景。有努力（如 BLOOM 和 XLM 变体）构建多语言开放模型，本地用户请求西班牙语、阿拉伯语等语言的微调。如果有人想要一个在他们的区域方言中流利或在他们的语言中了解最新本地新闻的聊天机器人，主要模型可能无法提供。这是一个开放模型可以很好服务的群体（通过社区微调）——在 Reddit 上我们确实看到人们合作，例如，开发一个日语调优的 LLM。但在此类模型普遍可用且高质量之前，这些用户仍然有些未被满足。
小企业和自托管者： 一些小公司或高级用户希望在内部部署 AI 模型，以避免发送数据出去。他们在某种程度上被开源服务，因为这是可能的，但他们在确保质量和维护方面面临挑战。与大企业不同（可以支付 OpenAI 或托管解决方案），小企业可能尝试自托管以节省成本并保护知识产权。当他们这样做时，他们可能会发现模型不如预期，或者很难保持更新。这个群体处于中间地带——不够大，无法从头开始构建自己的模型，但足够有能力尝试使用开放模型。他们经常在 Reddit 上分享关于哪个模型适合客户服务机器人的提示等。他们可以从更多基于开放模型的即用型解决方案中受益（一些初创公司正在这个领域出现）。

不同用户类型的感知差异

开发者/爱好者： 这个群体是 Reddit 上开源 LLM 社区的支柱（例如，r/LocalLLaMA 充满了他们）。他们的感知通常是乐观和热情的。他们像收藏家一样交换模型和基准。许多开发者对开放模型在短时间内取得的进展感到兴奋。例如，一位用户分享说，一个泄露的 70B 模型经过微调（Miqu-1 70B）感觉*“对于我需要的东西来说与 GPT-4 相当……我几个月前取消了我的 ChatGPT+ 订阅，从未回头”。这体现了设法定制一个满足个人用例的开放解决方案的开发者子集——他们将开放模型视为解放和节省成本。另一方面，开发者对限制有清醒的认识。另一位用户回应说他们很想取消 ChatGPT，“如果有任何东西可以与 ChatGPT 4 相比……[但]其他模型都失败了……它们接近不了”*，特别提到创意写作质量。因此，在这个群体中，感知因他们使用 AI 的目的而异。一般来说：如果任务是头脑风暴或编码，容忍一些错误，许多开发者已经对本地模型感到满意。如果任务是高风险准确性或顶级创意，他们承认开放模型尚未达到。但即使承认不足，语气是充满希望的——他们经常说“我们几乎到了”或只是时间问题。重要的是，开发者享受开放模型的自由和控制。他们可以调整、微调，甚至窥探模型的工作原理，而封闭的 API 不允许这样做。这培养了一种社区所有权感。因此，他们的感知是开放 LLMs 是一个值得的努力，快速改进，并在哲学上与技术自由一致。他们接受粗糙的边缘作为这种自由的代价。
普通用户： 纯普通用户（不是特别注重隐私或技术）通常根本不麻烦使用开源 LLMs——如果他们这样做，也是通过一些简化的应用程序。因此，他们的感知有些缺席或由传闻塑造。如果一个非技术人员尝试一个本地 LLM，它很慢或给出奇怪的答案，他们可能会得出结论，它不值得麻烦。例如，一个游戏玩家或学生可能会出于乐趣尝试一个 7B 模型，看到它与 ChatGPT 相比表现不佳，然后放弃。因此，在普通观察者中，开放模型的感知可能是*“极客的玩具”*或仅适用于那些真正关心不使用云服务的人。这种情况正在慢慢改变，因为更多用户友好的应用程序出现，但总体上典型的普通用户在 Reddit 上并不热衷于开放 LLMs——他们通常在讨论 ChatGPT 或 Bard，因为这些是可访问的。也就是说，主要想要不受审查角色扮演的普通用户子集已经学会下载类似 TavernAI 的东西，并且他们将其视为适合那个特定用途的好东西。他们甚至可能不知道模型的名称（只知道它是一个“不会评判我的不受审查的 AI”）。总之，普通用户的平均感知要么是冷漠（他们没有尝试过），要么是开放源码对于日常使用来说有点太原始和复杂。
商业/专业用户： 专业用户对开放 LLMs 的态度是务实的。一些

伟大的 AI 隐私平衡：全球公司如何在新的 AI 环境中航行

2025年4月9日 · 一分钟阅读

Lark Birdy

Chief Bird Officer

在 AI 监管的世界中，出现了一个意想不到的转变：传统公司，而不仅仅是科技巨头，发现自己处于欧洲 AI 隐私辩论的中心。虽然头条新闻经常关注像 Meta 和 Google 这样的公司，但更具启发性的是主流全球公司如何在 AI 部署和数据隐私的复杂环境中航行。

AI 隐私平衡

AI 监管的新常态

爱尔兰数据保护委员会（DPC）已成为欧洲最具影响力的 AI 隐私监管机构，通过欧盟的《通用数据保护条例》（GDPR）行使非凡的权力。作为大多数主要科技公司在都柏林设有欧洲总部的主要监督机构，DPC 的决定在全球科技领域引起了连锁反应。在 GDPR 的一站式机制下，DPC 关于数据保护的裁决可以有效地约束公司在所有 27 个欧盟成员国的运营。罚款高达全球年收入的 4% 或 2000 万欧元（以较高者为准），DPC 对 AI 部署的加强监督不仅仅是另一个监管障碍——它正在重塑全球公司对 AI 开发的态度。这种审查超越了传统的数据保护，进入了新领域：公司如何训练和部署 AI 模型，特别是在将用户数据重新用于机器学习时。

这尤其有趣的是，许多这些公司并不是传统的科技玩家。他们是使用 AI 来改善运营和客户体验的成熟公司——从客户服务到产品推荐。这正是他们的故事重要的原因：他们代表了每家公司都将成为 AI 公司的未来。

Meta 效应

要理解我们如何走到这一步，我们需要看看 Meta 最近的监管挑战。当 Meta 宣布他们使用公共 Facebook 和 Instagram 帖子来训练 AI 模型时，引发了一连串反应。DPC 的反应迅速而严厉，有效地阻止了 Meta 在欧洲数据上训练 AI 模型。巴西迅速跟进。

这不仅仅是关于 Meta。它创造了一个新的先例：任何使用客户数据进行 AI 训练的公司，即使是公共数据，也需要谨慎行事。“快速行动并打破常规”的日子已经过去，至少在 AI 和用户数据方面是如此。

新的企业 AI 策略

全球公司如何应对的特别启发之处在于他们正在形成的负责任 AI 开发框架：

预先简报监管机构：公司现在在部署重要 AI 功能之前主动与监管机构接触。虽然这可能会减缓开发速度，但它创造了一条可持续的前进道路。
用户控制：实施强大的选择退出机制，使用户能够控制他们的数据在 AI 训练中的使用方式。
去识别化和隐私保护：采用差分隐私和复杂的去识别技术等技术解决方案来保护用户数据，同时仍然能够进行 AI 创新。
文档和理由说明：广泛的文档和影响评估正在成为开发过程的标准部分，创造了问责制和透明度。

前进的道路

让我感到乐观的是：我们正在看到负责任 AI 开发的实用框架的出现。是的，有新的约束和流程需要导航。但这些护栏并没有阻止创新——它们正在以更可持续的方式引导创新。

那些正确理解这一点的公司将拥有显著的竞争优势。他们将与用户和监管机构建立信任，从而在长期内更快地部署 AI 功能。早期采用者的经验告诉我们，即使在强烈的监管审查下，也可以在尊重隐私问题的同时继续进行 AI 创新。

这对未来意味着什么

影响远远超出了科技行业。随着 AI 的普及，每家公司都需要应对这些问题。那些蓬勃发展的公司将是那些：

从第一天起就在 AI 开发中构建隐私考虑因素
投资于数据保护的技术解决方案
创建用户控制和数据使用的透明流程
与监管机构保持开放对话

更大的图景

这里发生的事情不仅仅是关于合规或监管。这是关于构建人们可以信任的 AI 系统。这对于 AI 技术的长期成功至关重要。

那些将隐私法规视为设计约束而不是障碍的公司将在这个新时代中取得成功。他们将构建更好的产品，赢得更多的信任，并最终创造更多的价值。

对于那些担心隐私法规会扼杀 AI 创新的人，早期的证据表明情况并非如此。它告诉我们，通过正确的方法，我们可以同时拥有强大的 AI 系统和强大的隐私保护。这不仅仅是良好的道德——这也是良好的商业。

环境：AI 与 Web3 的交汇点 - 当前市场整合的关键分析

2025年4月6日 · 一分钟阅读

Lark Birdy

Chief Bird Officer

随着技术的发展，很少有趋势能像人工智能（AI）和 Web3 一样具有变革性和相互关联性。近年来，行业巨头和初创企业都在努力将这些技术融合在一起，以重塑不仅是金融和治理模式，还有创意生产的格局。AI 和 Web3 的整合在其核心挑战现状，承诺提高运营效率、增强安全性和创新商业模式，将权力重新交还给创作者和用户。该报告分解了当前的市场整合，审视了关键案例研究，并讨论了这一融合的机遇和挑战。始终保持前瞻性、数据驱动且批判性的视角，这将引起聪明、成功的决策者和创新创作者的共鸣。

环境：AI 与 Web3 的交汇点 - 当前市场整合的关键分析

引言

数字时代以不断的重塑为特征。随着去中心化网络（Web3）的出现和人工智能的快速加速，我们与技术的互动方式正在被彻底重塑。Web3 的用户控制和区块链支持的信任承诺现在与 AI 的分析能力和自动化能力形成了独特的互补。这种联盟不仅是技术上的——它也是文化和经济上的，重新定义了从金融和消费者服务到艺术和沉浸式数字体验的行业。

在 Cuckoo Network，我们的使命是通过去中心化 AI 工具推动创意革命，这种整合为建设者和创作者打开了一个充满活力的生态系统。我们正在见证一种环境转变，创造力成为艺术、代码和智能自动化的结合体——为任何人都能利用去中心化 AI 的磁力铺平了道路。在这种环境中，AI 驱动的艺术生成和去中心化计算资源等创新不仅提高了效率；它们正在重塑数字文化的基本结构。

AI 和 Web3 的融合：协作项目和市场动向

关键举措和战略合作伙伴关系

最近的发展突显了跨学科合作加速的趋势：

德国电信和 Fetch.ai 基金会的合作伙伴关系： 在一个象征传统电信与下一代科技初创公司融合的举动中，德国电信的子公司 MMS 于 2024 年初与 Fetch.ai 基金会合作。通过在去中心化网络中部署 AI 驱动的自主代理作为验证者，他们旨在提高去中心化服务的效率、安全性和可扩展性。这一举措向市场发出了明确的信号：将 AI 与区块链结合可以改善去中心化网络的运营参数和用户信任。了解更多
Petoshi 和 EMC 协议的合作： 同样，Petoshi——一个“点击赚钱”平台——与 EMC 协议联手。他们的合作重点是帮助开发者弥合 AI 驱动的去中心化应用程序（dApps）与运行它们所需的计算能力之间的差距。作为快速扩展的 dApp 生态系统中可扩展性挑战的解决方案，这一合作伙伴关系突显了当由 AI 驱动时，性能如何显著提升创意和商业活动。发现整合
行业对话： 在 2024 年纽约 Axios BFD 等重大活动中，以太坊联合创始人 Joseph Lubin 等行业领袖强调了 AI 和 Web3 的互补角色。这些讨论巩固了这样一种观念：虽然 AI 可以通过个性化内容和智能分析推动参与，但 Web3 提供了一个安全、用户管理的空间，让这些创新蓬勃发展。查看活动回顾

风险投资和投资趋势

投资趋势进一步揭示了这种融合：

AI 投资激增： 2023 年，AI 初创公司获得了大量支持——推动美国风险投资资金增加了 30%。值得注意的是，OpenAI 和 Elon Musk 的 xAI 等公司的主要融资轮次突显了投资者对 AI 颠覆性潜力的信心。预计主要科技公司将在 2024 年及以后将 AI 相关项目的资本支出推至 2000 亿美元以上。路透社
Web3 资金动态： 相反，Web3 行业在 2023 年第一季度的风险投资中面临暂时下滑——下跌 79%，这一低迷被视为调整而非长期下降。尽管如此，2023 年的总融资达到了 90.43 亿美元，大量资金流入企业基础设施和用户安全。比特币的强劲表现，包括 160% 的年度增长，进一步证明了区块链领域的市场韧性。RootData

这些趋势共同描绘了一幅技术生态系统的图景，其中的动能正转向在去中心化框架中整合 AI——这一策略不仅解决了现有的效率问题，还解锁了全新的收入来源和创意潜力。

AI 和 Web3 融合的好处

增强的安全性和去中心化数据管理

将 AI 与 Web3 整合的最引人注目的好处之一是对安全性和数据完整性的深远影响。AI 算法嵌入在去中心化网络中时，可以监控和分析区块链交易，实时识别和阻止欺诈活动。异常检测、自然语言处理（NLP）和行为分析等技术用于识别异常，确保用户和基础设施的安全。例如，AI 在保护智能合约免受重入攻击和上下文操纵等漏洞方面的作用在保护数字资产方面被证明是无价的。

此外，去中心化系统依赖于透明性。Web3 的不可变账本为 AI 决策提供了可审计的记录，有效地揭开了许多算法“黑箱”的神秘面纱。这种协同作用在创意和金融应用中尤为重要，因为信任是一种关键货币。了解更多关于 AI 增强安全性的信息

革新运营效率和可扩展性

AI 不仅是安全的工具——它是运营效率的强大引擎。在去中心化网络中，AI 代理可以优化计算资源的分配，确保工作负载平衡并最大限度地减少能源消耗。例如，通过预测交易验证的最佳节点，AI 算法提高了区块链基础设施的可扩展性。这种效率不仅降低了运营成本，还为区块链环境中的可持续实践铺平了道路。

此外，随着平台寻求利用分布式计算能力，Petoshi 和 EMC 协议之间的合作伙伴关系展示了 AI 如何简化去中心化应用程序访问计算资源的方式。这种能力对于快速扩展和在用户采用增长时保持服务质量至关重要——这是开发人员和企业希望构建强大 dApps 的关键因素。

变革性的创意应用：艺术、游戏和内容自动化的案例研究

也许最令人兴奋的前沿是 AI 和 Web3 融合对创意产业的变革性影响。让我们探索一些案例研究：

艺术和 NFT： 平台如 Art AI 的“Eponym”已经在数字艺术世界掀起了风暴。最初作为电子商务解决方案推出，Eponym 转向 Web3 模式，使艺术家和收藏家能够在以太坊区块链上铸造 AI 生成的艺术作品作为不可替代的代币（NFT）。仅在 10 小时内，该平台就创造了 300 万美元的收入，并在二级市场上产生了超过 1600 万美元的交易量。这一突破不仅展示了 AI 生成艺术的财务可行性，还通过去中心化艺术市场实现了创意表达的民主化。阅读案例研究
内容自动化： 领先的开发者平台 Thirdweb 展示了 AI 在扩展内容生产中的实用性。通过整合 AI 将 YouTube 视频转化为 SEO 优化指南，从客户反馈生成案例研究，并制作引人入胜的新闻通讯，Thirdweb 实现了内容输出和 SEO 性能的十倍增长。对于希望放大数字存在而不成比例增加手动努力的创意专业人士来说，这种模式尤其具有共鸣。发现影响
游戏： 在游戏的动态领域，去中心化和 AI 正在打造沉浸式、不断发展的虚拟世界。一个 Web3 游戏集成了多代理 AI 系统，自动生成新的游戏内内容——从角色到广阔的环境。这种方法不仅增强了游戏体验，还减少了对持续人类开发的依赖，确保游戏可以随着时间的推移有机地发展。查看集成
数据交换和预测市场： 除了传统的创意应用，数据中心平台如 Ocean Protocol 使用 AI 分析共享的供应链数据，优化运营并为各行业的战略决策提供信息。类似地，预测市场如 Augur 利用 AI 从多样化来源中稳健地分析数据，提高事件结果的准确性——这反过来又增强了对去中心化金融系统的信任。探索更多示例

这些案例研究作为具体证据表明，去中心化 AI 的可扩展性和创新潜力不限于一个行业，而是在创意、金融和消费者领域产生了连锁反应。

挑战和考虑

虽然 AI 和 Web3 整合的前景广阔，但有几个挑战需要仔细考虑：

数据隐私和监管复杂性

Web3 因其对数据所有权和透明度的强调而受到赞誉。然而，AI 的成功依赖于对大量数据的访问——这一要求可能与隐私保护的区块链协议相冲突。随着政府努力在创新与消费者保护之间取得平衡，SAFE 创新框架等倡议和 Bletchley 宣言等国际努力正在为谨慎而协调的监管行动铺平道路。了解更多关于监管努力的信息

去中心化世界中的中心化风险

最矛盾的挑战之一是 AI 开发的潜在中心化。尽管 Web3 的精神是分散权力，但许多 AI 创新集中在少数大型科技公司手中。这些开发的中心枢纽可能无意中在本质上去中心化的网络上施加等级结构，破坏透明度和社区控制等核心 Web3 原则。解决这一问题需要开源努力和多样化的数据来源，以确保 AI 系统保持公平和无偏。发现更多见解

技术复杂性和能源消耗

将 AI 集成到 Web3 环境中绝非易事。结合这两个复杂的系统需要大量的计算资源，这反过来又引发了对能源消耗和环境可持续性的担忧。开发人员和研究人员正在积极探索节能的 AI 模型和分布式计算方法，但这些仍然是初步研究领域。关键将是在创新与可持续性之间取得平衡——这一挑战需要持续的技术改进和行业合作。

去中心化 AI 在创意领域的未来

AI 和 Web3 的融合不仅是技术升级；它是一种范式转变——涉及文化、经济和创意维度。在 Cuckoo Network，我们通过去中心化 AI 激发乐观的使命指向一个未来，在这个未来中，创意专业人士将获得前所未有的好处：

赋能创作者经济

想象一个世界，每个创意个体都能获得强大的 AI 工具，这些工具与支持它们的去中心化网络一样民主。这是 Cuckoo Chain 等平台的承诺——一个去中心化的基础设施，允许创作者使用个人计算资源生成令人惊叹的 AI 艺术、参与丰富的对话体验，并为下一代 Gen AI 应用程序提供动力。在去中心化的创意生态系统中，艺术家、作家和建设者不再受制于中心化平台。相反，他们在一个由社区管理的环境中运作，在那里创新被更公平地分享和货币化。

弥合技术与创意之间的差距

AI 和 Web3 的整合正在消除技术与艺术之间的传统界限。随着 AI 模型从庞大的去中心化数据集中学习，它们不仅在理解创意输入方面变得更好，而且在生成推动传统艺术界限的输出方面也变得更好。这种演变正在创造一种新的数字工艺——在这种工艺中，创造力通过 AI 的计算能力和区块链的透明性得到增强，确保每个创作都是创新的并且可以证明是正宗的。

新颖视角和数据支持分析的角色

在我们探索这一前沿时，必须不断评估新模型和整合的创新性和有效性。市场领导者、风险投资趋势和学术研究都指向一个事实：AI 和 Web3 的整合正处于初期但爆炸性的阶段。我们的分析支持这样一种观点：尽管存在数据隐私和中心化风险等挑战，但去中心化 AI 推动的创意爆发将为前所未有的经济机会和文化转变铺平道路。保持领先需要结合实证数据，仔细审查现实世界的结果，并确保监管框架支持而不是扼杀创新。

结论

AI 和 Web3 的环境融合是技术前沿最有前途和颠覆性的趋势之一。从增强安全性和运营效率到民主化创意生产和赋能新一代数字工匠，这些技术的整合正在跨行业转型。然而，展望未来，道路并非没有挑战。解决监管、技术和中心化问题将是充分利用去中心化 AI 潜力的关键。

对于创作者和建设者来说，这种融合是一种号召——一种重新想象一个去中心化系统不仅赋能创新而且推动包容性和可持续性的世界的邀请。通过利用 AI 增强去中心化的新兴范式，我们可以构建一个既安全高效又充满创意和乐观的未来。

随着市场继续发展，新的案例研究、战略合作伙伴关系和数据支持的证据不断涌现，有一件事是明确的：AI 和 Web3 的交汇点不仅仅是一个趋势——它是下一波数字创新的基石。无论您是经验丰富的投资者、科技企业家还是富有远见的创作者，现在是拥抱这一范式的时刻。

请继续关注，我们将继续推进，探索这一激动人心的整合的每一个细微差别。在 Cuckoo Network，我们致力于通过去中心化 AI 技术让世界更加乐观，并邀请您加入我们这段变革之旅。

参考文献：

通过承认这一融合的机遇和挑战，我们不仅为未来做好准备，还激发了一场向更去中心化和创意数字生态系统的运动。

机器中的设计师：AI 如何重塑产品创作

2025年3月16日 · 一分钟阅读

Lark Birdy

Chief Bird Officer

我们正在见证数字创作的巨大变革。产品设计和开发不再仅仅依赖于手动和人力驱动的过程。如今，AI 不仅在自动化任务，它正在成为一个创意伙伴，改变我们设计、编码和个性化产品的方式。

但这对设计师、开发者和创始人意味着什么？AI 是威胁还是超级力量？哪些工具真正有效？让我们一探究竟。

新的 AI 设计栈：从概念到代码

AI 正在重塑产品创作的每一个阶段。以下是具体方式：

1. UI/UX 生成：从空白画布到提示驱动设计

像 Galileo AI 和 Uizard 这样的工具可以在几秒钟内将文本提示转化为完整的 UI 设计。例如，一个像 “设计一个现代约会应用的主屏幕” 的提示可以生成一个起点，让设计师摆脱空白画布的困扰。

这将设计师的角色从像素推动者转变为提示工程师和策展人。Figma 和 Adobe 等平台也在整合 AI 功能（例如，智能选择，自动布局）以简化重复任务，让设计师专注于创造力和精细化。

2. 代码生成：AI 作为您的编码伙伴

GitHub Copilot 被超过 130 万开发者使用，展示了 AI 对编码的影响。它不仅仅是自动补全行——它基于上下文生成整个函数，将生产力提高了 55%。开发者将其描述为一个不知疲倦的初级程序员，熟悉每个库。

像 Amazon 的 CodeWhisperer（适合 AWS 环境）和 Tabnine（注重隐私）这样的替代方案提供定制化解决方案。结果是？工程师花更少的时间在样板代码上，更多时间解决独特问题。

3. 测试和研究：预测用户行为

像 Attention Insight 和 Neurons 这样的 AI 工具在测试开始前预测用户交互，生成热图并识别潜在问题。对于定性洞察，MonkeyLearn 和 Dovetail 等平台可以大规模分析用户反馈，在几分钟内揭示模式和情感。

4. 个性化：大规模定制体验

AI 正在将个性化超越推荐。像 Dynamic Yield 和 Adobe Target 这样的工具使界面能够根据用户行为动态调整——重新组织导航，调整通知等。这种定制化水平曾经是科技巨头的专属，现在小团队也可以实现。

现实世界的影响：速度、规模和创造力

1. 更快的迭代

AI 大幅压缩时间表。创始人报告从概念到原型仅需几天而非几周。这种速度鼓励实验，降低失败成本，促进更大胆的创新。

2. 以少做多

AI 作为一个力量倍增器，使小团队能够实现曾经需要更大团队才能完成的工作。设计师可以在创造一个概念的时间内探索多个概念，而开发者可以更高效地维护代码库。

3. 新的创意合作

AI 不仅仅执行任务——它提供新颖的视角。正如一位设计师所说，“AI 提出我从未考虑过的方法，打破了我的思维定势。”这种合作关系放大了人类的创造力，而不是取代它。

AI 无法取代的：人类的优势

尽管 AI 具备能力，但在关键领域仍显不足：

战略思维：AI 无法定义业务目标或深入理解用户需求。
同理心：它无法理解设计的情感影响。
文化背景：AI 生成的设计往往感觉通用，缺乏人类设计师带来的文化细微差别。
质量保证：AI 生成的代码可能包含细微的错误或漏洞，需要人类监督。

最成功的团队视 AI 为增强，而非自动化——处理常规任务，而人类专注于创造力、判断力和连接。

团队的实际步骤

从小处开始：在将 AI 整合到关键工作流之前，先将其用于构思和低风险任务。
掌握提示工程：编写有效提示正变得与传统设计或编码技能一样重要。
审查 AI 输出：建立协议以验证 AI 生成的设计和代码，尤其是对安全关键功能。
衡量影响：跟踪迭代速度和创新输出等指标，以量化 AI 的好处。
混合方法：在 AI 擅长的地方使用它，但不要强迫它进入更适合传统方法的任务。

接下来是什么？AI 在设计中的未来

更紧密的设计-开发集成：工具将弥合 Figma 和代码之间的差距，实现从设计到功能组件的无缝过渡。
上下文感知 AI：未来的工具将使设计与品牌标准、用户数据和业务目标保持一致。
激进的个性化：界面将动态适应个别用户，重新定义我们与软件的交互方式。

结论：增强的创造者

AI 并没有取代人类的创造力——它正在进化。通过处理常规任务和扩展可能性，AI 让设计师和开发者专注于真正重要的事情：创造与人类需求和情感产生共鸣的产品。

未来属于增强的创造者——那些将 AI 作为合作伙伴，结合人类的创造力和机器智能来构建更好、更快、更有意义的产品。

随着 AI 的进步，人类元素变得不是不重要，而是更加关键。技术在变化，但与用户连接的需求始终如一。这是一个值得拥抱的未来。

OpenAI Codex：探究其在不同领域的应用与采纳​

个人开发者：提升编码实践​

企业采纳：将 Codex 整合到工作流程中​

教育应用：学习与教学的新工具​

与工具和平台的集成​

采纳趋势与市场考量​

典型案例​

谁在参与，他们的驱动力是什么？​

互动模式：用户如何参与​

驾驭数字前沿：挑战与痛点​

当前生态系统：简要概述​

打造更好的数字伙伴：未来建议​

GitHub Copilot、Cursor 和 Windsurf 的 Agent 系统架构​

GitHub Copilot 的 Agent 架构​

Cursor 的 Agent 架构​

Windsurf (Codeium) Agent 架构​

系统对比总结​

阻碍效率的用户体验/用户界面问题​

协作和团队工作流摩擦​

与其他工具的集成挑战​

产品规划和路线图管理的局限性​

分析、洞察和跟踪进度的问题​

结论：比较视角​

引言​

一、用户主要使用场景和核心需求​

二、产品关键功能和服务亮点​

三、用户典型痛点与未被满足的需求​

四、与同类产品的差异化比较​

结论​

故事生成机器人中的技术限制​

伦理考量与内容审核问题​

内容限制与政策反弹​

用户体验和应用设计问题​

长期参与度和深度问题​

常见投诉对比总结​

ChatGPT（OpenAI）​

常见痛点和限制​

常见请求的功能或改进​

未满足的需求或用户群体​

不同用户类型的感知差异​

Claude（Anthropic）​

常见痛点和限制​

常见请求的功能或改进​

未满足的需求或用户群体​

不同用户类型的感知差异​

Google Gemini（Bard）​

常见痛点和限制​

常见请求的功能或改进​

未满足的需求或用户群体​

不同用户类型的感知差异​

开源 LLMs（例如基于 LLaMA 的模型）​

常见痛点和限制​

常见请求的功能或改进​

未满足的需求或用户群体​

不同用户类型的感知差异​

AI 监管的新常态​

Meta 效应​

新的企业 AI 策略​

前进的道路​

这对未来意味着什么​

更大的图景​

引言​

AI 和 Web3 的融合：协作项目和市场动向​

关键举措和战略合作伙伴关系​

风险投资和投资趋势​

AI 和 Web3 融合的好处​

增强的安全性和去中心化数据管理​

革新运营效率和可扩展性​

变革性的创意应用：艺术、游戏和内容自动化的案例研究​

挑战和考虑​

数据隐私和监管复杂性​

去中心化世界中的中心化风险​

技术复杂性和能源消耗​

去中心化 AI 在创意领域的未来​

赋能创作者经济​

弥合技术与创意之间的差距​

新颖视角和数据支持分析的角色​

结论​

新的 AI 设计栈：从概念到代码​

1. UI/UX 生成：从空白画布到提示驱动设计​

OpenAI Codex：探究其在不同领域的应用与采纳

个人开发者：提升编码实践

企业采纳：将 Codex 整合到工作流程中

教育应用：学习与教学的新工具

与工具和平台的集成

采纳趋势与市场考量

典型案例

谁在参与，他们的驱动力是什么？

互动模式：用户如何参与

驾驭数字前沿：挑战与痛点

当前生态系统：简要概述

打造更好的数字伙伴：未来建议

GitHub Copilot、Cursor 和 Windsurf 的 Agent 系统架构

GitHub Copilot 的 Agent 架构

Cursor 的 Agent 架构

Windsurf (Codeium) Agent 架构

系统对比总结

阻碍效率的用户体验/用户界面问题

协作和团队工作流摩擦

与其他工具的集成挑战

产品规划和路线图管理的局限性

分析、洞察和跟踪进度的问题

结论：比较视角

引言

一、用户主要使用场景和核心需求

二、产品关键功能和服务亮点

三、用户典型痛点与未被满足的需求

四、与同类产品的差异化比较

结论

故事生成机器人中的技术限制

伦理考量与内容审核问题

内容限制与政策反弹

用户体验和应用设计问题

长期参与度和深度问题

常见投诉对比总结

ChatGPT（OpenAI）

常见痛点和限制

常见请求的功能或改进

未满足的需求或用户群体

不同用户类型的感知差异

Claude（Anthropic）

常见痛点和限制

常见请求的功能或改进

未满足的需求或用户群体

不同用户类型的感知差异

Google Gemini（Bard）

常见痛点和限制

常见请求的功能或改进

未满足的需求或用户群体

不同用户类型的感知差异

开源 LLMs（例如基于 LLaMA 的模型）

常见痛点和限制

常见请求的功能或改进

未满足的需求或用户群体

不同用户类型的感知差异

AI 监管的新常态

Meta 效应

新的企业 AI 策略

前进的道路

这对未来意味着什么

更大的图景

引言

AI 和 Web3 的融合：协作项目和市场动向

关键举措和战略合作伙伴关系

风险投资和投资趋势

AI 和 Web3 融合的好处

增强的安全性和去中心化数据管理

革新运营效率和可扩展性

变革性的创意应用：艺术、游戏和内容自动化的案例研究

挑战和考虑

数据隐私和监管复杂性

去中心化世界中的中心化风险

技术复杂性和能源消耗

去中心化 AI 在创意领域的未来

赋能创作者经济

弥合技术与创意之间的差距

新颖视角和数据支持分析的角色

结论

新的 AI 设计栈：从概念到代码

1. UI/UX 生成：从空白画布到提示驱动设计