Phản hồi của người dùng Reddit về các công cụ trò chuyện LLM lớn
Tổng quan: Báo cáo này phân tích các cuộc thảo luận trên Reddit về bốn công cụ trò chuyện AI phổ biến – ChatGPT của OpenAI, Claude của Anthropic, Gemini (Bard) của Google, và các LLM mã nguồn mở (ví dụ: các mô hình dựa trên LLaMA). Nó tóm tắt các vấn đề chung mà người dùng báo cáo cho từng công cụ, các tính năng họ yêu cầu thường xuyên nhất, những nhu cầu chưa được đáp ứng hoặc các phân khúc người dùng cảm thấy bị bỏ qua, và sự khác biệt trong nhận thức giữa các nhà phát triển, người dùng thông thường và người dùng doanh nghiệp. Các ví dụ cụ thể và trích dẫn từ các chủ đề Reddit được đưa vào để minh họa những điểm này.
ChatGPT (OpenAI)
Các Vấn Đề Thường Gặp và Hạn Chế
-
Bộ nhớ ngữ cảnh hạn chế: Một trong những phàn nàn hàng đầu là ChatGPT không thể xử lý các cuộc hội thoại dài hoặc tài liệu lớn mà không quên các chi tiết trước đó. Người dùng thường xuyên gặp phải giới hạn độ dài ngữ cảnh (vài nghìn token) và phải cắt bớt hoặc tóm tắt thông tin. Một người dùng đã nhận xét rằng “việc tăng kích thước cửa sổ ngữ cảnh sẽ là cải thiện lớn nhất… Đó là giới hạn tôi gặp phải nhiều nhất”. Khi ngữ cảnh bị vượt quá, ChatGPT quên các hướng dẫn hoặc nội dung ban đầu, dẫn đến chất lượng giảm sút đáng thất vọng giữa phiên làm việc.
-
Giới hạn tin nhắn cho GPT-4: Người dùng ChatGPT Plus than phiền về giới hạn 25 tin nhắn/3 giờ khi sử dụng GPT-4 (một giới hạn có từ năm 2023). Việc đạt đến giới hạn này buộc họ phải chờ đợi, làm gián đoạn công việc. Những người dùng thường xuyên cảm thấy việc giới hạn này là một vấn đề lớn.
-
Bộ lọc nội dung nghiêm ngặt (“nerfs”): Nhiều người dùng Reddit cảm thấy ChatGPT đã trở nên quá hạn chế, thường từ chối các yêu cầu mà các phiên bản trước đó có thể xử lý. Một bài đăng được nhiều lượt ủng hộ đã phàn nàn rằng “hầu hết mọi thứ bạn hỏi nó bây giờ đều trả về ‘Xin lỗi, tôi không thể giúp bạn’… Làm thế nào mà công cụ này từ hữu ích nhất lại trở thành tương đương với Google Assistant?”. Người dùng đưa ra ví dụ như ChatGPT từ chối định dạng lại văn bản của chính họ (ví dụ: thông tin đăng nhập) do lo ngại lạm dụng. Những người đăng ký trả phí lập luận rằng “một ý niệm mơ hồ rằng người dùng có thể làm điều 'xấu'… không nên là lý do để không hiển thị kết quả”, vì họ muốn đầu ra của mô hình và sẽ sử dụng nó một cách có trách nhiệm.
-
Ảo giác và lỗi: Mặc dù có khả năng tiên tiến, ChatGPT vẫn có thể tạo ra thông tin sai lệch hoặc bịa đặt một cách tự tin. Một số người dùng đã nhận thấy điều này trở nên tồi tệ hơn theo thời gian, nghi ngờ mô hình đã bị “giảm chất lượng”. Ví dụ, một người dùng trong lĩnh vực tài chính cho biết ChatGPT từng tính toán các chỉ số như NPV hoặc IRR một cách chính xác, nhưng sau các bản cập nhật “tôi nhận được rất nhiều câu trả lời sai… nó vẫn tạo ra câu trả lời sai [ngay cả sau khi sửa]. Tôi thực sự tin rằng nó đã trở nên kém thông minh hơn rất nhiều kể từ những thay đổi đó.”. Những sai sót không thể đoán trước như vậy làm xói mòn lòng tin đối với các tác vụ yêu cầu độ chính xác về mặt dữ kiện.
-
Đầu ra mã không đầy đủ: Các nhà phát triển thường sử dụng ChatGPT để hỗ trợ viết mã, nhưng họ báo cáo rằng đôi khi nó bỏ sót các phần của giải pháp hoặc cắt bớt mã dài. Một người dùng chia sẻ rằng ChatGPT hiện tại “bỏ sót mã, tạo ra mã không hữu ích, và đơn giản là tệ ở những việc tôi cần nó làm… Nó thường bỏ sót quá nhiều mã đến nỗi tôi không biết làm thế nào để tích hợp giải pháp của nó.” Điều này buộc người dùng phải đưa ra các lời nhắc tiếp theo để lấy phần còn lại, hoặc phải tự ghép nối các câu trả lời – một quá trình tẻ nhạt.
-
Lo ngại về hiệu suất và thời gian hoạt động: Có một nhận định rằng hiệu suất của ChatGPT đối với người dùng cá nhân đã giảm sút khi việc sử dụng của doanh nghiệp tăng lên. “Tôi nghĩ họ đang phân bổ băng thông và sức mạnh xử lý cho các doanh nghiệp và lấy đi từ người dùng, điều này thật không thể chịu đựng được khi xem xét chi phí đăng ký!” một người đăng ký Plus thất vọng bày tỏ. Các sự cố ngừng hoạt động hoặc chậm trễ trong giờ cao điểm đã được ghi nhận một cách không chính thức, điều này có thể làm gián đoạn quy trình làm việc.
Các Tính Năng hoặc Cải Tiến Thường Được Yêu Cầu
-
Cửa sổ ngữ cảnh / bộ nhớ dài hơn: Cải tiến được yêu cầu nhiều nhất cho đến nay là độ dài ngữ cảnh lớn hơn. Người dùng muốn có các cuộc trò chuyện dài hơn nhiều hoặc đưa vào các tài liệu lớn mà không bị đặt lại. Nhiều người đề xuất mở rộng ngữ cảnh của ChatGPT để phù hợp với khả năng 32K token của GPT-4 (hiện có sẵn qua API) hoặc hơn thế nữa. Như một người dùng đã nói, “GPT hoạt động tốt nhất với ngữ cảnh, và khi nó không nhớ ngữ cảnh ban đầu đó, tôi cảm thấy thất vọng… Nếu tin đồn về PDF ngữ cảnh là thật, điều đó sẽ giải quyết cơ bản tất cả các vấn đề của tôi.” Có nhu cầu cao về các tính năng tải tài liệu lên hoặc liên kết dữ liệu cá nhân để ChatGPT có thể ghi nhớ và tham chiếu chúng trong suốt một phiên làm việc.
-
Xử lý tệp và tích hợp: Người dùng thường xuyên yêu cầu các cách dễ dàng hơn để đưa tệp hoặc dữ liệu vào ChatGPT. Trong các cuộc thảo luận, mọi người đề cập đến việc muốn “sao chép và dán Google Drive của tôi và làm cho nó hoạt động” hoặc có các plugin cho phép ChatGPT trực tiếp lấy ngữ cảnh từ các tệp cá nhân. Một số người đã thử các giải pháp thay thế (như plugin đọc PDF hoặc liên kết Google Docs), nhưng phàn nàn về lỗi và giới hạn. Một người dùng mô tả plugin lý tưởng của họ là một plugin “hoạt động như Link Reader nhưng dành cho các tệp cá nhân… chọn phần nào trong ổ đĩa của tôi để sử dụng trong cuộc trò chuyện… điều đó sẽ giải quyết mọi vấn đề tôi đang gặp phải với GPT-4 hiện tại.”. Tóm lại, hỗ trợ gốc tốt hơn cho kiến thức bên ngoài (ngoài dữ liệu đào tạo) là một yêu cầu phổ biến.
-
Giảm giới hạn truy cập cho người dùng trả phí: Vì nhiều người dùng Plus đạt đến giới hạn tin nhắn GPT-4, họ kêu gọi giới hạn cao hơn hoặc tùy chọn trả thêm tiền để truy cập không giới hạn. Giới hạn 25 tin nhắn được coi là tùy tiện và cản trở việc sử dụng chuyên sâu. Mọi người muốn một mô hình dựa trên mức sử dụng hoặc giới hạn cao hơn để các phiên giải quyết vấn đề dài không bị gián đoạn.
-
Chế độ kiểm duyệt “không kiểm duyệt” hoặc tùy chỉnh: Một bộ phận người dùng muốn có khả năng bật tắt mức độ nghiêm ngặt của bộ lọc nội dung, đặc biệt khi sử dụng ChatGPT cho mục đích cá nhân (không phải nội dung công khai). Họ cảm thấy một chế độ “nghiên cứu” hoặc “không kiểm duyệt” – với cảnh báo nhưng không từ chối thẳng thừng – sẽ cho phép họ khám phá tự do hơn. Như một người dùng đã lưu ý, khách hàng trả tiền coi đó là một công cụ và tin rằng “Tôi trả tiền cho [nó].” Họ muốn có tùy chọn nhận câu trả lời ngay cả đối với các truy vấn nhạy cảm. Mặc dù OpenAI phải cân bằng an toàn, những người dùng này đề xuất một cờ hoặc cài đặt để nới lỏng các chính sách trong các cuộc trò chuyện riêng tư.
-
Cải thiện độ chính xác thực tế và cập nhật: Người dùng thường yêu cầu kiến thức cập nhật hơn và ít bị 'ảo giác' hơn. Giới hạn kiến thức của ChatGPT (tháng 9 năm 2021 trong các phiên bản trước) là một hạn chế thường được nêu ra trên Reddit. OpenAI đã giới thiệu tính năng duyệt web và plugin, mà một số người dùng tận dụng, nhưng những người khác chỉ đơn giản yêu cầu mô hình cơ bản được cập nhật thường xuyên hơn với dữ liệu mới. Giảm các lỗi rõ ràng – đặc biệt trong các lĩnh vực như toán học và lập trình – là một mong muốn liên tục. Một số nhà phát triển cung cấp phản hồi khi ChatGPT mắc lỗi với hy vọng cải thiện mô hình.
-
Đầu ra mã và công cụ tốt hơn: Các nhà phát triển có các yêu cầu tính năng như một trình thông dịch mã được cải thiện không bỏ sót nội dung, và tích hợp với IDE hoặc hệ thống kiểm soát phiên bản. (Plugin Code Interpreter của OpenAI – hiện là một phần của “Phân tích Dữ liệu Nâng cao” – là một bước đi đúng hướng và đã nhận được nhiều lời khen ngợi.) Tuy nhiên, người dùng thường yêu cầu kiểm soát tốt hơn trong việc tạo mã: ví dụ, một tùy chọn để xuất mã hoàn chỉnh, không lọc ngay cả khi nó dài, hoặc các cơ chế để dễ dàng sửa mã nếu AI mắc lỗi. Về cơ bản, họ muốn ChatGPT hoạt động giống như một trợ lý lập trình đáng tin cậy mà không cần nhiều lời nhắc để tinh chỉnh câu trả lời.
-
Hồ sơ người dùng hoặc bộ nhớ liên tục: Một cải tiến khác mà một số người đề cập là cho phép ChatGPT ghi nhớ những điều về người dùng qua các phiên (với sự đồng ý). Ví dụ, ghi nhớ phong cách viết của một người, hoặc rằng họ là một kỹ sư phần mềm, mà không cần phải nhắc lại trong mỗi cuộc trò chuyện mới. Điều này có thể liên quan đến việc tinh chỉnh API hoặc một tính năng “hồ sơ”. Người dùng hiện phải sao chép ngữ cảnh quan trọng vào các cuộc trò chuyện mới theo cách thủ công, vì vậy một bộ nhớ tích hợp cho các tùy chọn cá nhân sẽ tiết kiệm thời gian.
Nhu cầu chưa được đáp ứng hoặc phân khúc người dùng
-
Nhà nghiên cứu và sinh viên với tài liệu dài: Những người muốn ChatGPT phân tích các bài nghiên cứu dài, sách, hoặc tập dữ liệu lớn cảm thấy chưa được phục vụ tốt. Các giới hạn hiện tại buộc họ phải cắt nhỏ văn bản hoặc chấp nhận các bản tóm tắt. Phân khúc này sẽ được hưởng lợi rất nhiều từ các cửa sổ ngữ cảnh lớn hơn hoặc các tính năng xử lý tài liệu dài (như được chứng minh qua nhiều bài đăng về việc cố gắng vượt qua giới hạn token).
-
Người dùng tìm kiếm kể chuyện sáng tạo hoặc nhập vai vượt giới hạn: Mặc dù ChatGPT thường được sử dụng để viết sáng tạo, một số người kể chuyện cảm thấy bị hạn chế bởi việc mô hình quên các tình tiết ban đầu trong một câu chuyện dài hoặc từ chối nội dung người lớn/kinh dị. Họ chuyển sang các mô hình thay thế hoặc các thủ thuật để tiếp tục câu chuyện của mình. Những người dùng sáng tạo này sẽ được phục vụ tốt hơn bởi một phiên bản ChatGPT có bộ nhớ dài hơn và linh hoạt hơn một chút về bạo lực hư cấu hoặc các chủ đề trưởng thành (trong giới hạn hợp lý). Như một nhà văn hư cấu đã lưu ý, khi AI mất dấu câu chuyện, “Tôi phải nhắc nó về định dạng hoặc ngữ cảnh chính xác… Tôi cảm thấy thất vọng vì nó rất tuyệt hai lời nhắc trước, nhưng bây giờ tôi phải giúp AI bắt kịp.”.
-
Người dùng chuyên sâu và chuyên gia lĩnh vực: Các chuyên gia trong các lĩnh vực chuyên biệt (tài chính, kỹ thuật, y học) đôi khi thấy câu trả lời của ChatGPT thiếu chiều sâu hoặc độ chính xác trong lĩnh vực của họ, đặc biệt nếu câu hỏi liên quan đến các phát triển gần đây. Những người dùng này mong muốn kiến thức chuyên môn đáng tin cậy hơn. Một số đã thử tinh chỉnh thông qua API hoặc các GPT tùy chỉnh. Những người không thể tinh chỉnh sẽ đánh giá cao các phiên bản ChatGPT chuyên biệt theo lĩnh vực hoặc các plugin nhúng cơ sở dữ liệu đáng tin cậy. Ở dạng mặc định, ChatGPT có thể chưa phục vụ tốt những người dùng cần thông tin rất chính xác, chuyên biệt theo lĩnh vực (họ thường phải kiểm tra lại công việc của nó).
-
Người dùng cần nội dung không kiểm duyệt hoặc nội dung đặc biệt: Một số ít người dùng (tin tặc kiểm tra kịch bản bảo mật, nhà văn viết truyện hư cấu cực đoan, v.v.) thấy các hạn chế nội dung của ChatGPT quá giới hạn đối với nhu cầu của họ. Họ hiện đang chưa được phục vụ tốt bởi sản phẩm chính thức (vì nó rõ ràng tránh một số nội dung nhất định). Những người dùng này thường thử nghiệm các lời nhắc 'jailbreak' hoặc sử dụng các mô hình mã nguồn mở để nhận được phản hồi họ muốn. Đây là một khoảng trống có chủ ý đối với OpenAI (để duy trì an toàn), nhưng điều đó có nghĩa là những người dùng như vậy tìm kiếm giải pháp ở nơi khác.
-
Cá nhân và doanh nghiệp quan tâm đến quyền riêng tư: Một số người dùng (đặc biệt trong môi trường doanh nghiệp) cảm thấy không thoải mái khi gửi dữ liệu nhạy cảm cho ChatGPT do lo ngại về quyền riêng tư. OpenAI có chính sách không sử dụng dữ liệu API để đào tạo, nhưng giao diện web ChatGPT trong quá khứ không cung cấp các đảm bảo như vậy cho đến khi một tính năng từ chối được thêm vào. Các công ty xử lý dữ liệu bảo mật (pháp lý, y tế, v.v.) thường cảm thấy họ không thể tận dụng tối đa ChatGPT, khiến nhu cầu của họ chưa được đáp ứng trừ khi họ xây dựng các giải pháp tự lưu trữ. Ví dụ, một Redditor đã đề cập công ty của họ chuyển sang một LLM cục bộ vì lý do quyền riêng tư. Cho đến khi các phiên bản ChatGPT tại chỗ hoặc riêng tư có sẵn, phân khúc này vẫn thận trọng hoặc sử dụng các nhà cung cấp chuyên biệt nhỏ hơn.
Sự khác biệt trong nhận thức theo loại người dùng
-
Người dùng là nhà phát triển/kỹ thuật: Các nhà phát triển có xu hướng vừa là những người ủng hộ lớn nhất vừa là những người chỉ trích gay gắt nhất của ChatGPT. Họ yêu thích khả năng giải thích mã, tạo mã mẫu (boilerplate) và hỗ trợ gỡ lỗi của nó. Tuy nhiên, họ cảm nhận rõ rệt những hạn chế của nó về ngữ cảnh dài hơn và độ chính xác của mã. Như một nhà phát triển đã phàn nàn, ChatGPT bắt đầu “tạo ra mã không hữu ích” và bỏ qua các phần quan trọng, điều này “khiến tôi phát điên… Tôi không muốn phải bảo nó ‘đừng lười biếng’ – tôi chỉ muốn có kết quả đầy đủ”. Các nhà phát triển thường nhận thấy ngay cả những thay đổi nhỏ về chất lượng sau các bản cập nhật mô hình và đã rất thẳng thắn trên Reddit về những gì họ cho là “nerf” (giảm sức mạnh) hoặc suy giảm khả năng viết mã. Họ cũng đẩy giới hạn (xây dựng các câu lệnh phức tạp, kết nối các công cụ), vì vậy họ khao khát các tính năng như ngữ cảnh mở rộng, ít giới hạn tin nhắn hơn và tích hợp tốt hơn với các công cụ lập trình. Tóm lại, các nhà phát triển đánh giá cao ChatGPT vì đã tăng tốc các tác vụ thường ngày nhưng nhanh chóng chỉ ra lỗi logic hoặc mã – họ xem nó như một trợ lý cấp dưới vẫn cần được giám sát.
-
Người dùng thông thường/hàng ngày: Những người dùng thông thường hơn – những người hỏi về kiến thức chung, lời khuyên hoặc giải trí – thường ngạc nhiên trước khả năng của ChatGPT, nhưng họ cũng có những phàn nàn riêng. Một sự thất vọng phổ biến của người dùng thông thường là khi ChatGPT từ chối một yêu cầu mà đối với họ dường như vô hại (có thể do vi phạm quy tắc chính sách). Người đăng bài gốc trong một chủ đề đã minh họa điều này, khi “rất tức giận khi tôi viết một câu lệnh mà nó không nên có vấn đề gì nhưng bây giờ nó lại từ chối”. Người dùng thông thường cũng có thể gặp phải giới hạn kiến thức (nhận thấy bot không thể xử lý các sự kiện rất hiện tại trừ khi được cập nhật rõ ràng) và đôi khi nhận thấy khi ChatGPT đưa ra câu trả lời rõ ràng là sai. Không giống như các nhà phát triển, họ có thể không phải lúc nào cũng kiểm tra lại AI, điều này có thể dẫn đến thất vọng nếu họ hành động dựa trên một lỗi sai. Về mặt tích cực, nhiều người dùng thông thường thấy phản hồi nhanh hơn của ChatGPT Plus và đầu ra cải thiện của GPT-4 đáng giá 20 đô la/tháng – trừ khi vấn đề “từ chối” hoặc các giới hạn khác làm hỏng trải nghiệm. Họ thường muốn một trợ lý hữu ích, đa năng và có thể thất vọng khi ChatGPT trả lời bằng các tuyên bố chính sách hoặc cần một câu lệnh phức tạp để có được câu trả lời đơn giản.
-
Người dùng doanh nghiệp/chuyên nghiệp: Người dùng doanh nghiệp thường tiếp cận ChatGPT từ góc độ năng suất và độ tin cậy. Họ đánh giá cao việc soạn thảo email nhanh chóng, tóm tắt tài liệu hoặc tạo ý tưởng. Tuy nhiên, họ lo ngại về bảo mật dữ liệu, tính nhất quán và khả năng tích hợp vào quy trình làm việc. Trên Reddit, các chuyên gia đã thảo luận về việc muốn có ChatGPT trong các công cụ như Outlook, Google Docs hoặc dưới dạng API trong các hệ thống nội bộ của họ. Một số người đã lưu ý rằng khi OpenAI chuyển hướng phục vụ khách hàng doanh nghiệp, trọng tâm của sản phẩm dường như thay đổi: có cảm giác rằng trải nghiệm người dùng miễn phí hoặc cá nhân đã giảm sút một chút (ví dụ: chậm hơn hoặc “kém thông minh hơn”) khi công ty mở rộng quy mô để phục vụ các khách hàng lớn hơn. Dù điều đó có đúng hay không, nó làm nổi bật một nhận thức: người dùng doanh nghiệp muốn độ tin cậy và dịch vụ ưu tiên, còn người dùng cá nhân lo lắng rằng họ giờ đây là hạng hai. Ngoài ra, các chuyên gia cần đầu ra chính xác – một câu trả lời hào nhoáng nhưng sai có thể tệ hơn không có câu trả lời nào. Do đó, phân khúc này rất nhạy cảm với độ chính xác. Đối với họ, các tính năng như ngữ cảnh dài hơn (để đọc hợp đồng, phân tích cơ sở mã) và thời gian hoạt động được đảm bảo là rất quan trọng. Họ có khả năng trả nhiều tiền hơn cho các cấp độ dịch vụ cao cấp, miễn là các yêu cầu về tuân thủ và quyền riêng tư của họ được đáp ứng. Một số doanh nghiệp thậm chí còn khám phá các triển khai tại chỗ hoặc sử dụng API của OpenAI với các quy tắc xử lý dữ liệu nghiêm ngặt để đáp ứng các chính sách CNTT của họ.
Claude (Anthropic)
Những Điểm Gây Khó Chịu và Hạn Chế Thường Gặp
-
Giới hạn sử dụng và hạn chế truy cập: Claude được khen ngợi vì cung cấp một mô hình mạnh mẽ (Claude 2) miễn phí, nhưng người dùng nhanh chóng gặp phải giới hạn sử dụng (đặc biệt là ở gói miễn phí). Sau một số lượng lời nhắc nhất định hoặc một lượng lớn văn bản, Claude có thể dừng lại và nói điều gì đó như “Tôi xin lỗi, tôi phải kết thúc cuộc trò chuyện này bây giờ. Xin hãy quay lại sau.” Việc giới hạn này gây khó chịu cho những người dùng coi Claude như một đối tác viết code hoặc viết lách mở rộng. Ngay cả người dùng Claude Pro (trả phí) cũng “không được đảm bảo thời gian không giới hạn”, như một người dùng đã lưu ý; việc đạt đến hạn mức vẫn tạo ra thông báo “hãy quay lại sau”. Ngoài ra, trong một thời gian dài, Claude chính thức bị giới hạn địa lý (ban đầu chỉ có sẵn ở Mỹ/Anh). Người dùng quốc tế trên Reddit phải sử dụng VPN hoặc các nền tảng của bên thứ ba để truy cập, điều này gây bất tiện. Điều này khiến nhiều người dùng không phải ở Mỹ cảm thấy bị bỏ rơi cho đến khi quyền truy cập được mở rộng.
-
Xu hướng lạc đề với các đầu vào rất lớn: Tính năng nổi bật của Claude là cửa sổ ngữ cảnh 100k token, cho phép các lời nhắc cực kỳ dài. Tuy nhiên, một số người dùng đã nhận thấy rằng khi bạn đưa hàng chục nghìn token vào Claude, các phản hồi của nó có thể trở nên kém tập trung hơn. “100k rất hữu ích nhưng nếu nó không tuân thủ hướng dẫn đúng cách và lạc đề, thì nó không hữu ích đến vậy,” một người dùng nhận xét. Điều này cho thấy rằng với ngữ cảnh lớn, Claude có thể lạc đề hoặc bắt đầu nói lan man, đòi hỏi phải nhắc nhở cẩn thận để giữ nó đúng nhiệm vụ. Đây là một hạn chế vốn có khi đẩy ngữ cảnh đến mức cực đoan – mô hình giữ lại rất nhiều nhưng đôi khi “quên” những chi tiết nào là phù hợp nhất, dẫn đến những ảo giác nhỏ hoặc những đoạn lạc đề.
-
Định dạng không nhất quán hoặc không tuân thủ hướng dẫn: Trong các so sánh song song, một số người dùng nhận thấy Claude ít đoán trước được hơn về cách nó tuân thủ các chỉ thị nhất định. Ví dụ, Claude được mô tả là “giống con người hơn trong các tương tác. Nhưng nó ít tuân thủ nghiêm ngặt các thông báo hệ thống hơn.”. Điều này có nghĩa là nếu bạn cung cấp cho nó một định dạng cố định để tuân theo hoặc một tính cách rất nghiêm ngặt, Claude có thể sai lệch nhiều hơn so với ChatGPT. Các nhà phát triển dựa vào các đầu ra xác định (như định dạng JSON hoặc các kiểu c ụ thể) đôi khi cảm thấy khó chịu nếu Claude đưa ra thêm bình luận hoặc không tuân thủ nghiêm ngặt mẫu.
-
Hạn chế nội dung và từ chối: Mặc dù không bị chỉ trích thường xuyên như ChatGPT, các bộ lọc an toàn của Claude vẫn được đề cập. Anthropic đã thiết kế Claude với sự nhấn mạnh mạnh mẽ vào AI hiến định (khiến AI tự tuân thủ các nguyên tắc đạo đức). Người dùng thường thấy Claude sẵn lòng thảo luận nhiều chủ đề, nhưng có những trường hợp Claude từ chối các yêu cầu mà ChatGPT có thể cho phép. Ví dụ, một Redditor đã lưu ý “ChatGPT có ít hạn chế về đạo đức hơn… nó sẽ giải thích loại mặt nạ phòng độc nào tốt hơn cho điều kiện nào trong khi Claude sẽ từ chối”. Điều này cho thấy Claude có thể nghiêm ngặt hơn về một số lời khuyên “nhạy cảm” nhất định (có lẽ coi đó là hướng dẫn có khả năng gây nguy hiểm). Một người dùng khác đã thử một kịch bản nhập vai vui nhộn (“giả vờ bạn bị người ngoài hành tinh bắt cóc”) mà Claude đã từ chối, trong khi Gemini và ChatGPT sẽ tham gia. Vì vậy, Claude có các bộ lọc đôi khi có thể làm người dùng ngạc nhiên khi họ mong đợi nó khoan dung hơn.
-
Thiếu khả năng đa phương thức: Không giống như ChatGPT (vào cuối năm 2023 đã có khả năng hiểu hình ảnh với GPT-4 Vision), Claude hiện chỉ xử lý văn bản. Người dùng Reddit lưu ý rằng Claude không thể phân tích hình ảnh hoặc tự duyệt web trực tiếp. Đây không hẳn là một “điểm gây khó chịu” (Anthropic chưa bao giờ quảng cáo các tính năng đó), nhưng nó là một hạn chế so với các đối thủ cạnh tranh. Người dùng muốn một AI giải thích biểu đồ hoặc ảnh chụp màn hình không thể sử dụng Claude cho việc đó, trong khi ChatGPT hoặc Gemini có thể xử lý. Tương tự, bất kỳ việc truy xuất thông tin hiện tại nào đều yêu cầu sử dụng Claude thông qua một công cụ của bên thứ ba (ví dụ: Poe hoặc tích hợp công cụ tìm kiếm), vì Claude hiện không có chế độ duyệt web chính thức.
-
Các vấn đề ổn định nhỏ: Một số người dùng đã báo cáo rằng Claude đôi khi lặp lại hoặc bị kẹt trong các vòng lặp đối với một số lời nhắc nhất định (mặc dù điều này ít phổ biến hơn so với một số mô hình nhỏ hơn). Ngoài ra, các phiên bản trước của Claude đôi khi kết thúc phản hồi sớm hoặc mất nhiều thời gian với các đầu ra lớn, điều này có thể được coi là những phiền toái nhỏ, mặc dù Claude 2 đã cải thiện về tốc độ.
Các Tính Năng hoặc Cải Tiến Thường Được Yêu Cầu
-
Giới hạn sử dụng cao hơn hoặc có thể điều chỉnh: Những người dùng Claude nhiệt tình trên Reddit thường yêu cầu Anthropic tăng giới hạn cuộc trò chuyện. Họ muốn sử dụng tối đa ngữ cảnh 100k mà không gặp phải giới hạn nhân tạo. Một số người gợi ý rằng ngay cả Claude Pro trả phí cũng nên cho phép nhiều token hơn đáng kể mỗi ngày. Những người khác đưa ra ý tưởng về một “chế độ mở rộng 100k” tùy chọn – ví dụ, “Claude nên có chế độ ngữ cảnh 100k với giới hạn sử dụng gấp đôi” – nơi mà có lẽ một gói đăng ký có thể cung cấp quyền truy cập mở rộng cho những người dùng nặng. Về cơ bản, có nhu cầu về một gói dịch vụ cạnh tranh với vi ệc sử dụng không giới hạn (hoặc giới hạn cao) của ChatGPT dành cho người đăng ký.
-
Điều hướng ngữ cảnh dài tốt hơn: Mặc dù có 100k token là một bước đột phá, người dùng muốn Claude sử dụng ngữ cảnh đó tốt hơn. Một cải tiến sẽ là tinh chỉnh cách Claude ưu tiên thông tin để nó luôn đi đúng hướng. Anthropic có thể cải thiện khả năng tuân thủ lời nhắc của mô hình khi lời nhắc rất lớn. Các cuộc thảo luận trên Reddit gợi ý các kỹ thuật như cho phép người dùng “ghim” một số hướng dẫn nhất định để chúng không bị loãng trong ngữ cảnh lớn. Bất kỳ công cụ nào giúp phân đoạn hoặc tóm tắt các phần của đầu vào cũng có thể giúp Claude xử lý các đầu vào lớn một cách mạch lạc hơn. Tóm lại, người dùng yêu thích khả năng đưa cả một cuốn sách cho Claude – họ chỉ muốn nó duy trì sự sắc bén xuyên suốt.
-
Plugin hoặc duyệt web: Nhiều người dùng ChatGPT đã quen với các plugin (ví dụ: duyệt web, thực thi mã, v.v.) và họ bày tỏ sự quan tâm đến việc Claude có khả năng mở rộng tương tự. Một yêu cầu phổ biến là Claude có chức năng tìm kiếm/duyệt web chính thức, để nó có thể tìm nạp thông tin cập nhật theo yêu cầu. Hiện tại, kiến thức của Claude chủ yếu là tĩnh (dữ liệu đào tạo đến đầu năm 2023, với một số cập nhật). Nếu Claude có thể truy vấn web, điều đó sẽ giảm bớt hạn chế đó. Tương tự, một hệ thống plugin nơi Claude có thể sử dụng các công cụ của bên thứ ba (như máy tính hoặc trình kết nối cơ sở dữ liệu) có thể mở rộng tiện ích của nó cho người dùng chuyên nghiệp. Đây vẫn là một tính năng mà Claude còn thiếu, và người dùng Reddit thường đề cập đến việc hệ sinh thái plugin của ChatGPT mang lại lợi thế cho nó trong một số tác vụ nhất định.
-
Đầu vào đa phương thức (hình ảnh hoặc âm thanh): Một số người dùng cũng tự hỏi liệu Claude có hỗ trợ đầu vào hình ảnh hoặc tạo hình ảnh hay không. Gemini của Google và GPT-4 của OpenAI có khả năng đa phương thức, vì vậy để duy trì tính cạnh tranh, người dùng mong đợi Anthropic khám phá điều này. Một yêu cầu thường xuyên là: “Tôi có thể tải lên tệp PDF hoặc hình ảnh để Claude phân tích không?” Hiện tại câu trả lời là không (ngoài các giải pháp thay thế như chuyển đổi hình ảnh thành văn bản ở nơi khác). Ngay cả việc chỉ cho phép chuyển đổi hình ảnh thành văn bản (OCR và mô tả) cũng sẽ làm hài lòng nhiều người muốn có một trợ lý toàn diện. Điều này nằm trong danh sách mong muốn, mặc dù Anthropic chưa công bố bất cứ điều gì tương tự tính đến đầu năm 2025.
-
Tinh chỉnh hoặc tùy chỉnh: Người dùng nâng cao và doanh nghiệp đôi khi hỏi liệu họ có thể tinh chỉnh Claude trên dữ liệu của riêng họ hoặc nhận các phiên bản tùy chỉnh hay không. OpenAI cung cấp tính năng tinh chỉnh cho một số mô hình (chưa phải GPT-4, nhưng cho GPT-3.5). Anthropic đã phát hành giao diện tinh chỉnh cho Claude 1.3 trước đó, nhưng nó không được quảng cáo rộng rãi cho Claude 2. Người dùng Reddit đã hỏi về khả năng đào tạo Claude dựa trên kiến thức công ty hoặc phong cách viết cá nhân. Một cách dễ dàng hơn để làm điều này (ngoài việc chèn lời nhắc mỗi lần) sẽ rất được hoan nghênh, vì nó có thể biến Claude thành một trợ lý cá nhân hóa ghi nhớ một cơ sở kiến thức hoặc tính cách cụ thể.
-
Khả dụng rộng rãi hơn: Người dùng ngoài Hoa Kỳ thường xuyên yêu cầu Claude được ra mắt chính thức tại quốc gia của họ. Các bài đăng từ Canada, Châu Âu, Ấn Độ, v.v., hỏi khi nào họ có thể sử dụng trang web của Claude mà không cần VPN hoặc khi nào API của Claude sẽ được mở rộng hơn. Anthropic đã thận trọng, nhưng nhu cầu là toàn cầu – một cải tiến trong mắt nhiều người có lẽ chỉ đơn giản là “hãy để nhiều người trong chúng tôi sử dụng nó.” Việc công ty dần mở rộng quyền truy cập đã phần nào giải quyết được vấn đề này.
Nhu cầu hoặc phân khúc người dùng chưa được phục vụ đầy đủ
-
Cơ sở người dùng quốc tế: Như đã lưu ý, trong một thời gian dài, cơ sở người dùng chính của Claude bị giới hạn bởi địa lý. Điều này khiến nhiều người dùng tiềm năng không được phục vụ đầy đủ. Ví dụ, một nhà phát triển ở Đức quan tâm đến khả năng xử lý ngữ cảnh 100k của Claude không có cách chính thức nào để sử dụng nó. Mặc dù có những cách giải quyết (nền tảng của bên thứ ba, hoặc VPN + xác minh điện thoại ở một quốc gia được hỗ trợ), những rào cản này có nghĩa là người dùng quốc tế thông thường thực tế đã bị khóa quyền truy cập. Ngược lại, ChatGPT có sẵn ở hầu hết các quốc gia. Vì vậy, những người nói tiếng Anh không phải người Mỹ và đặc biệt là những người không nói tiếng Anh đã không được phục vụ đầy đủ bởi việc triển khai hạn chế của Claude. Họ có thể vẫn phải dựa vào ChatGPT hoặc các mô hình địa phương đơn giản vì các vấn đề về quyền truy cập.
-
Người dùng cần định dạng đầu ra nghiêm ngặt: Như đã đề cập, Claude đôi khi tự do trong các phản hồi. Người dùng cần đầu ra có cấu trúc cao (như JSON cho một ứng dụng, hoặc một câu trả lời theo một định dạng chính xác) có thể thấy Claude kém tin cậy hơn ChatGPT. Những người dùng này – thường là các nhà phát triển tích hợp AI vào một hệ thống – là một phân khúc có thể được phục vụ tốt hơn nếu Claude cho phép "chế độ nghiêm ngặt" hoặc cải thiện sự tuân thủ hướng dẫn của nó. Hiện tại, họ có thể tránh Claude cho các tác vụ như vậy, và gắn bó với các mô hình được biết đến là tuân thủ định dạng chặt chẽ hơn.
-
Người dùng hỏi đáp thông thường (so với người dùng sáng tạo): Claude thường được ca ngợi về các tác vụ sáng tạo – nó tạo ra văn xuôi trôi chảy, giống con người và các bài luận sâu sắc. Tuy nhiên, một số người dùng trên Reddit lưu ý rằng đối với các câu hỏi và trả lời thẳng thắn hoặc các truy vấn thực tế, Claude đôi khi đưa ra câu trả lời dài dòng trong khi có thể ngắn gọn. Người dùng so sánh ChatGPT và Claude cho biết ChatGPT có xu hướng ngắn gọn và gạch đầu dòng, trong khi Claude mặc định mang tính kể chuyện hơn. Người dùng chỉ muốn một câu trả lời nhanh gọn về sự thật (như "Thủ đô của X và dân số của nó là bao nhiêu?") có thể cảm thấy Claude hơi gián tiếp. Những người dùng này được phục vụ tốt hơn bởi một công cụ tìm kiếm chính xác hoặc một mô hình ngắn gọn. Claude có thể làm được nếu được yêu cầu, nhưng phong cách của nó có thể không phù hợp với kỳ vọng về một câu hỏi đáp ngắn gọn, nghĩa là phân khúc này có thể chuyển sang các công cụ khác (như Bing Chat hoặc Google).
-
Người dùng quan trọng về an toàn: Ngược lại, một số người dùng yêu cầu tuân thủ an toàn rất cẩn thận (ví dụ: các nhà giáo dục sử dụng AI với học sinh, hoặc khách hàng doanh nghiệp muốn không có rủi ro về đầu ra sai lệch) có thể coi sự phù hợp của Claude là một điểm cộng, nhưng vì ChatGPT cũng khá phù hợp và có nhiều tính năng dành cho doanh nghiệp hơn, những người dùng đó có thể không đặc biệt chọn Claude. Đây là một phân khúc nhỏ, nhưng có thể lập luận rằng Claude chưa thực sự chiếm được phân khúc này. Họ có thể không được phục vụ đầy đủ ở chỗ họ không có cách dễ dàng để tăng cường các biện pháp bảo vệ của Claude hoặc xem "chuỗi suy nghĩ" của nó (mà Anthropic có nội bộ thông qua phương pháp AI dựa trên hiến pháp, nhưng người dùng cuối không trực tiếp tương tác với điều đó ngoài việc nhận thấy giọng điệu nhìn chung lịch sự của Claude).
-
Người nói tiếng không phải tiếng Anh (chất lượng đầu ra): Claude được đào tạo chủ yếu bằng tiếng Anh (giống như hầu hết các LLM lớn). Một số người dùng đã thử nghiệm nó bằng các ngôn ngữ khác; nó có thể phản hồi bằng nhiều ngôn ngữ, nhưng chất lượng có thể khác nhau. Ví dụ, nếu một người dùng muốn một câu trả lời rất tinh tế bằng tiếng Pháp hoặc tiếng Hindi, có thể khả năng của Claude không được tinh chỉnh tốt ở đó bằng ChatGPT (GPT-4 đã thể hiện hiệu suất đa ngôn ngữ mạnh mẽ, thường cao hơn các mô hình khác trong một số điểm chuẩn nhất định). Người dùng chủ yếu giao tiếp bằng các ngôn ngữ khác ngoài tiếng Anh có thể thấy độ trôi chảy hoặc độ chính xác của Claude hơi yếu hơn. Phân khúc này phần nào không được phục vụ đầy đủ đơn giản vì Anthropic chưa công khai nhấn mạnh việc đào tạo đa ngôn ngữ là ưu tiên.
Sự khác biệt trong nhận thức theo loại người dùng
-
Người dùng phát triển/Công nghệ: Các nhà phát triển trên Reddit ngày càng ca ngợi Claude, đặc biệt là Claude 2 / Claude 3.5, cho các tác vụ lập trình. Sự thay đổi nhận thức vào cuối năm 2024 là đáng chú ý: nhiều nhà phát triển bắt đầu thích Claude hơn ChatGPT để hỗ trợ lập trình. Họ trích dẫn hiệu suất “tuyệt vời trong việc lập trình” và khả năng xử lý các cơ sở mã lớn hơn trong một lần. Ví dụ, một người dùng đã viết “Claude Sonnet 3.5 tốt hơn để làm việc với mã (phân tích, tạo) [so với ChatGPT].” Các nhà phát triển đánh giá cao việc Claude có thể lấy một phần lớn mã dự án hoặc nhật ký và tạo ra các phân tích hoặc cải tiến mạch lạc, nhờ vào ngữ cảnh lớn của nó. Tuy nhiên, họ cũng nhận thấy những điểm kỳ lạ của nó – như đôi khi chèn thêm những lời lẽ trò chuyện không cần thiết hoặc không tuân thủ đúng từng chi tiết của đặc tả. Nhìn chung, nhiều nhà phát triển giữ cả ChatGPT và Claude trong tay: một cho logic từng bước nghiêm ngặt (ChatGPT) và một cho ngữ cảnh rộng và sự hiểu biết đồng cảm (Claude). Điều đáng nói là một người bình luận đã nói “Nếu tôi phải chọn một, tôi sẽ chọn Claude” sau khi so sánh hai công cụ này hàng ngày. Điều này cho thấy một nhận thức rất tích cực trong số những người dùng cao cấp, đặc biệt cho các trường hợp sử dụng như động não, đánh giá mã hoặc đề xuất kiến trúc. Phàn nàn phổ biến duy nhất từ các nhà phát triển là đạt giới hạn sử dụng của Claude khi họ cố gắng đẩy nó mạnh (ví dụ: đưa một lời nhắc 50K token để phân tích toàn bộ kho lưu trữ). Tóm lại, các nhà phát triển xem Claude là một công cụ cực kỳ mạnh mẽ – trong một số trường hợp vượt trội hơn ChatGPT – chỉ bị hạn chế bởi tính khả dụng và một số sự không thể đoán trước trong định dạng.
-
Người dùng thông thường/Không chuyên về kỹ thuật: Người dùng thông thường đã thử Claude thường nhận xét về việc nó thân thiện và diễn đạt rõ ràng như thế nào. Phong cách của Claude có xu hướng mang tính trò chuyện, lịch sự và chi tiết. Một người dùng mới so sánh nó với ChatGPT đã nhận thấy rằng “Claude đồng cảm hơn và theo một giọng điệu trò chuyện… ChatGPT quá thường xuyên mặc định sử dụng dấu đầu dòng”. Sự ấm áp giống con người này khiến Claude hấp dẫn đối với những người sử dụng nó để viết sáng tạo, lời khuyên hoặc chỉ trò chuyện để lấy thông tin. Một số người thậm chí còn nhân cách hóa Claude như có một “tính cách” từ bi. Người dùng thông thường cũng thích rằng phiên bản miễn phí của Claude cho phép truy cập trí thông minh tương đương cấp độ GPT-4 mà không cần đăng ký (ít nhất là đến giới hạn tốc độ). Mặt khác, người dùng thông thường cũng gặp phải sự từ chối của Claude về một số chủ đề và có thể không hiểu tại sao (vì Claude sẽ diễn đạt một cách xin lỗi nhưng kiên quyết). Nếu một người dùng thông thường hỏi điều gì đó hơi nhạy cảm và bị Claude từ chối, họ có thể cảm thấy nó kém khả năng hơn hoặc quá bị hạn chế, mà không nhận ra đó là một lập trường chính sách. Một khía cạnh khác là Claude thiếu sự nhận diện tên – nhiều người dùng thông thường thậm chí có thể không biết để thử nó trừ khi họ tham gia vào các cộng đồng AI. Những người đã thử nói chung nhận xét rằng nó cảm thấy “như nói chuyện với một con người” theo một cách tốt. Họ có xu hướng rất hài lòng với khả năng của Claude trong việc xử lý các câu hỏi mở hoặc cá nhân. Vì vậy, nhận thức của người dùng thông thường phần lớn là tích cực về chất lượng đầu ra và giọng điệu của Claude, với một số nhầm lẫn hoặc thất vọng về tính khả dụng của nó (phải sử dụng nó trên một ứng dụng hoặc khu vực cụ thể) và những khoảnh khắc "không thể làm điều đó" thỉnh thoảng.
-
Người dùng doanh nghiệp/Chuyên nghiệp: Nhận thức của doanh nghiệp về Claude hơi khó đánh giá hơn từ Reddit công khai (vì ít người dùng doanh nghiệp đăng bài chi tiết), nhưng một vài xu hướng đã xuất hiện. Thứ nhất, Anthropic đã định vị Claude là công cụ tập trung vào quyền riêng tư hơn và sẵn sàng ký kết các thỏa thuận doanh nghiệp – điều này thu hút các công ty lo lắng về dữ liệu với OpenAI. Thật vậy, một số cuộc thảo luận trên Reddit đề cập đến Claude trong bối cảnh các công cụ như Slack hoặc Notion, nơi nó được tích hợp như một trợ lý. Các chuyên gia đã sử dụng các tích hợp đó có thể thậm chí không nhận ra Claude là công cụ cốt lõi, nhưng khi họ nhận ra, họ so sánh nó một cách thuận lợi về phong cách viết và khả năng xử lý các tài liệu doanh nghiệp lớn. Ví dụ, một nhóm có thể đưa một báo cáo quý dài cho Claude và nhận được một bản tóm tắt khá tốt – điều mà ngữ cảnh nhỏ hơn của ChatGPT sẽ gặp khó khăn. Điều đó nói lên rằng, người dùng doanh nghiệp cũng nhận thấy sự thiếu hụt một số tính năng hệ sinh thái; ví dụ, OpenAI cung cấp kiểm soát tin nhắn hệ thống, gọi hàm, v.v., trong API của họ, điều mà Anthropic có hỗ trợ hạn chế hơn. Một nhà phát triển làm việc trên một giải pháp kinh doanh đã nhận xét rằng Claude dễ điều hướng hơn trong các cuộc trò chuyện, trong khi ChatGPT có xu hướng cứng nhắc hơn… [nhưng] ChatGPT có quyền truy cập web, điều này có thể rất hữu ích. Hàm ý là đối với các tác vụ nghiên cứu hoặc tra cứu dữ liệu mà người dùng doanh nghiệp có thể cần (như thông tin tình báo cạnh tranh), ChatGPT có thể trực tiếp tìm nạp thông tin, trong khi Claude sẽ yêu cầu một bước riêng biệt. Nhìn chung, người dùng doanh nghiệp dường như xem Claude là một AI rất có năng lực – trong một số trường hợp tốt hơn cho các tác vụ phân tích nội bộ – nhưng có lẽ chưa giàu tính năng để tích hợp. Chi phí là một yếu tố khác: giá API và điều khoản của Claude không công khai như của OpenAI, và một số công ty khởi nghiệp trên Reddit đã đề cập đến sự không chắc chắn về giá hoặc sự ổn định của Claude. Tóm lại, các chuyên gia tôn trọng khả năng của Claude (đặc biệt là độ tin cậy của nó trong việc tuân thủ các hướng dẫn cấp cao và tóm tắt các đầu vào lớn), nhưng họ vẫn theo dõi cách nó phát triển về tích hợp, hỗ trợ và tính khả dụng toàn cầu trước khi hoàn toàn cam kết với nó thay vì ChatGPT đã được thiết lập hơn.