Bỏ qua nội dung chính

Một bài viết được gán thẻ "LLM mã nguồn mở"

Xem tất cả thẻ

Phản hồi của người dùng Reddit về các công cụ trò chuyện LLM lớn

· Một phút đọc
Lark Birdy
Chief Bird Officer

Tổng quan: Báo cáo này phân tích các cuộc thảo luận trên Reddit về bốn công cụ trò chuyện AI phổ biến – ChatGPT của OpenAI, Claude của Anthropic, Gemini (Bard) của Google, và các LLM mã nguồn mở (ví dụ: các mô hình dựa trên LLaMA). Nó tóm tắt các vấn đề chung mà người dùng báo cáo cho từng công cụ, các tính năng họ yêu cầu thường xuyên nhất, những nhu cầu chưa được đáp ứng hoặc các phân khúc người dùng cảm thấy bị bỏ qua, và sự khác biệt trong nhận thức giữa các nhà phát triển, người dùng thông thường và người dùng doanh nghiệp. Các ví dụ cụ thể và trích dẫn từ các chủ đề Reddit được đưa vào để minh họa những điểm này.

Phản hồi của người dùng Reddit về các công cụ trò chuyện LLM chính

ChatGPT (OpenAI)

Các Vấn Đề Thường Gặp và Hạn Chế

  • Bộ nhớ ngữ cảnh hạn chế: Một trong những phàn nàn hàng đầu là ChatGPT không thể xử lý các cuộc hội thoại dài hoặc tài liệu lớn mà không quên các chi tiết trước đó. Người dùng thường xuyên gặp phải giới hạn độ dài ngữ cảnh (vài nghìn token) và phải cắt bớt hoặc tóm tắt thông tin. Một người dùng đã nhận xét rằng “việc tăng kích thước cửa sổ ngữ cảnh sẽ là cải thiện lớn nhất… Đó là giới hạn tôi gặp phải nhiều nhất”. Khi ngữ cảnh bị vượt quá, ChatGPT quên các hướng dẫn hoặc nội dung ban đầu, dẫn đến chất lượng giảm sút đáng thất vọng giữa phiên làm việc.

  • Giới hạn tin nhắn cho GPT-4: Người dùng ChatGPT Plus than phiền về giới hạn 25 tin nhắn/3 giờ khi sử dụng GPT-4 (một giới hạn có từ năm 2023). Việc đạt đến giới hạn này buộc họ phải chờ đợi, làm gián đoạn công việc. Những người dùng thường xuyên cảm thấy việc giới hạn này là một vấn đề lớn.

  • Bộ lọc nội dung nghiêm ngặt (“nerfs”): Nhiều người dùng Reddit cảm thấy ChatGPT đã trở nên quá hạn chế, thường từ chối các yêu cầu mà các phiên bản trước đó có thể xử lý. Một bài đăng được nhiều lượt ủng hộ đã phàn nàn rằng “hầu hết mọi thứ bạn hỏi nó bây giờ đều trả về ‘Xin lỗi, tôi không thể giúp bạn’… Làm thế nào mà công cụ này từ hữu ích nhất lại trở thành tương đương với Google Assistant?”. Người dùng đưa ra ví dụ như ChatGPT từ chối định dạng lại văn bản của chính họ (ví dụ: thông tin đăng nhập) do lo ngại lạm dụng. Những người đăng ký trả phí lập luận rằng “một ý niệm mơ hồ rằng người dùng có thể làm điều 'xấu'… không nên là lý do để không hiển thị kết quả”, vì họ muốn đầu ra của mô hình và sẽ sử dụng nó một cách có trách nhiệm.

  • Ảo giác và lỗi: Mặc dù có khả năng tiên tiến, ChatGPT vẫn có thể tạo ra thông tin sai lệch hoặc bịa đặt một cách tự tin. Một số người dùng đã nhận thấy điều này trở nên tồi tệ hơn theo thời gian, nghi ngờ mô hình đã bị “giảm chất lượng”. Ví dụ, một người dùng trong lĩnh vực tài chính cho biết ChatGPT từng tính toán các chỉ số như NPV hoặc IRR một cách chính xác, nhưng sau các bản cập nhật “tôi nhận được rất nhiều câu trả lời sai… nó vẫn tạo ra câu trả lời sai [ngay cả sau khi sửa]. Tôi thực sự tin rằng nó đã trở nên kém thông minh hơn rất nhiều kể từ những thay đổi đó.”. Những sai sót không thể đoán trước như vậy làm xói mòn lòng tin đối với các tác vụ yêu cầu độ chính xác về mặt dữ kiện.

  • Đầu ra mã không đầy đủ: Các nhà phát triển thường sử dụng ChatGPT để hỗ trợ viết mã, nhưng họ báo cáo rằng đôi khi nó bỏ sót các phần của giải pháp hoặc cắt bớt mã dài. Một người dùng chia sẻ rằng ChatGPT hiện tại “bỏ sót mã, tạo ra mã không hữu ích, và đơn giản là tệ ở những việc tôi cần nó làm… Nó thường bỏ sót quá nhiều mã đến nỗi tôi không biết làm thế nào để tích hợp giải pháp của nó.” Điều này buộc người dùng phải đưa ra các lời nhắc tiếp theo để lấy phần còn lại, hoặc phải tự ghép nối các câu trả lời – một quá trình tẻ nhạt.

  • Lo ngại về hiệu suất và thời gian hoạt động: Có một nhận định rằng hiệu suất của ChatGPT đối với người dùng cá nhân đã giảm sút khi việc sử dụng của doanh nghiệp tăng lên. “Tôi nghĩ họ đang phân bổ băng thông và sức mạnh xử lý cho các doanh nghiệp và lấy đi từ người dùng, điều này thật không thể chịu đựng được khi xem xét chi phí đăng ký!” một người đăng ký Plus thất vọng bày tỏ. Các sự cố ngừng hoạt động hoặc chậm trễ trong giờ cao điểm đã được ghi nhận một cách không chính thức, điều này có thể làm gián đoạn quy trình làm việc.

Các Tính Năng hoặc Cải Tiến Thường Được Yêu Cầu

  • Cửa sổ ngữ cảnh / bộ nhớ dài hơn: Cải tiến được yêu cầu nhiều nhất cho đến nay là độ dài ngữ cảnh lớn hơn. Người dùng muốn có các cuộc trò chuyện dài hơn nhiều hoặc đưa vào các tài liệu lớn mà không bị đặt lại. Nhiều người đề xuất mở rộng ngữ cảnh của ChatGPT để phù hợp với khả năng 32K token của GPT-4 (hiện có sẵn qua API) hoặc hơn thế nữa. Như một người dùng đã nói, “GPT hoạt động tốt nhất với ngữ cảnh, và khi nó không nhớ ngữ cảnh ban đầu đó, tôi cảm thấy thất vọng… Nếu tin đồn về PDF ngữ cảnh là thật, điều đó sẽ giải quyết cơ bản tất cả các vấn đề của tôi.” Có nhu cầu cao về các tính năng tải tài liệu lên hoặc liên kết dữ liệu cá nhân để ChatGPT có thể ghi nhớ và tham chiếu chúng trong suốt một phiên làm việc.

  • Xử lý tệp và tích hợp: Người dùng thường xuyên yêu cầu các cách dễ dàng hơn để đưa tệp hoặc dữ liệu vào ChatGPT. Trong các cuộc thảo luận, mọi người đề cập đến việc muốn “sao chép và dán Google Drive của tôi và làm cho nó hoạt động” hoặc có các plugin cho phép ChatGPT trực tiếp lấy ngữ cảnh từ các tệp cá nhân. Một số người đã thử các giải pháp thay thế (như plugin đọc PDF hoặc liên kết Google Docs), nhưng phàn nàn về lỗi và giới hạn. Một người dùng mô tả plugin lý tưởng của họ là một plugin “hoạt động như Link Reader nhưng dành cho các tệp cá nhân… chọn phần nào trong ổ đĩa của tôi để sử dụng trong cuộc trò chuyện… điều đó sẽ giải quyết mọi vấn đề tôi đang gặp phải với GPT-4 hiện tại.”. Tóm lại, hỗ trợ gốc tốt hơn cho kiến thức bên ngoài (ngoài dữ liệu đào tạo) là một yêu cầu phổ biến.

  • Giảm giới hạn truy cập cho người dùng trả phí: Vì nhiều người dùng Plus đạt đến giới hạn tin nhắn GPT-4, họ kêu gọi giới hạn cao hơn hoặc tùy chọn trả thêm tiền để truy cập không giới hạn. Giới hạn 25 tin nhắn được coi là tùy tiện và cản trở việc sử dụng chuyên sâu. Mọi người muốn một mô hình dựa trên mức sử dụng hoặc giới hạn cao hơn để các phiên giải quyết vấn đề dài không bị gián đoạn.

  • Chế độ kiểm duyệt “không kiểm duyệt” hoặc tùy chỉnh: Một bộ phận người dùng muốn có khả năng bật tắt mức độ nghiêm ngặt của bộ lọc nội dung, đặc biệt khi sử dụng ChatGPT cho mục đích cá nhân (không phải nội dung công khai). Họ cảm thấy một chế độ “nghiên cứu” hoặc “không kiểm duyệt” – với cảnh báo nhưng không từ chối thẳng thừng – sẽ cho phép họ khám phá tự do hơn. Như một người dùng đã lưu ý, khách hàng trả tiền coi đó là một công cụ và tin rằng “Tôi trả tiền cho [nó].” Họ muốn có tùy chọn nhận câu trả lời ngay cả đối với các truy vấn nhạy cảm. Mặc dù OpenAI phải cân bằng an toàn, những người dùng này đề xuất một cờ hoặc cài đặt để nới lỏng các chính sách trong các cuộc trò chuyện riêng tư.

  • Cải thiện độ chính xác thực tế và cập nhật: Người dùng thường yêu cầu kiến thức cập nhật hơn và ít bị 'ảo giác' hơn. Giới hạn kiến thức của ChatGPT (tháng 9 năm 2021 trong các phiên bản trước) là một hạn chế thường được nêu ra trên Reddit. OpenAI đã giới thiệu tính năng duyệt web và plugin, mà một số người dùng tận dụng, nhưng những người khác chỉ đơn giản yêu cầu mô hình cơ bản được cập nhật thường xuyên hơn với dữ liệu mới. Giảm các lỗi rõ ràng – đặc biệt trong các lĩnh vực như toán học và lập trình – là một mong muốn liên tục. Một số nhà phát triển cung cấp phản hồi khi ChatGPT mắc lỗi với hy vọng cải thiện mô hình.

  • Đầu ra mã và công cụ tốt hơn: Các nhà phát triển có các yêu cầu tính năng như một trình thông dịch mã được cải thiện không bỏ sót nội dung, và tích hợp với IDE hoặc hệ thống kiểm soát phiên bản. (Plugin Code Interpreter của OpenAI – hiện là một phần của “Phân tích Dữ liệu Nâng cao” – là một bước đi đúng hướng và đã nhận được nhiều lời khen ngợi.) Tuy nhiên, người dùng thường yêu cầu kiểm soát tốt hơn trong việc tạo mã: ví dụ, một tùy chọn để xuất mã hoàn chỉnh, không lọc ngay cả khi nó dài, hoặc các cơ chế để dễ dàng sửa mã nếu AI mắc lỗi. Về cơ bản, họ muốn ChatGPT hoạt động giống như một trợ lý lập trình đáng tin cậy mà không cần nhiều lời nhắc để tinh chỉnh câu trả lời.

  • Hồ sơ người dùng hoặc bộ nhớ liên tục: Một cải tiến khác mà một số người đề cập là cho phép ChatGPT ghi nhớ những điều về người dùng qua các phiên (với sự đồng ý). Ví dụ, ghi nhớ phong cách viết của một người, hoặc rằng họ là một kỹ sư phần mềm, mà không cần phải nhắc lại trong mỗi cuộc trò chuyện mới. Điều này có thể liên quan đến việc tinh chỉnh API hoặc một tính năng “hồ sơ”. Người dùng hiện phải sao chép ngữ cảnh quan trọng vào các cuộc trò chuyện mới theo cách thủ công, vì vậy một bộ nhớ tích hợp cho các tùy chọn cá nhân sẽ tiết kiệm thời gian.

Nhu cầu chưa được đáp ứng hoặc phân khúc người dùng

  • Nhà nghiên cứu và sinh viên với tài liệu dài: Những người muốn ChatGPT phân tích các bài nghiên cứu dài, sách, hoặc tập dữ liệu lớn cảm thấy chưa được phục vụ tốt. Các giới hạn hiện tại buộc họ phải cắt nhỏ văn bản hoặc chấp nhận các bản tóm tắt. Phân khúc này sẽ được hưởng lợi rất nhiều từ các cửa sổ ngữ cảnh lớn hơn hoặc các tính năng xử lý tài liệu dài (như được chứng minh qua nhiều bài đăng về việc cố gắng vượt qua giới hạn token).

  • Người dùng tìm kiếm kể chuyện sáng tạo hoặc nhập vai vượt giới hạn: Mặc dù ChatGPT thường được sử dụng để viết sáng tạo, một số người kể chuyện cảm thấy bị hạn chế bởi việc mô hình quên các tình tiết ban đầu trong một câu chuyện dài hoặc từ chối nội dung người lớn/kinh dị. Họ chuyển sang các mô hình thay thế hoặc các thủ thuật để tiếp tục câu chuyện của mình. Những người dùng sáng tạo này sẽ được phục vụ tốt hơn bởi một phiên bản ChatGPT có bộ nhớ dài hơn và linh hoạt hơn một chút về bạo lực hư cấu hoặc các chủ đề trưởng thành (trong giới hạn hợp lý). Như một nhà văn hư cấu đã lưu ý, khi AI mất dấu câu chuyện, “Tôi phải nhắc nó về định dạng hoặc ngữ cảnh chính xác… Tôi cảm thấy thất vọng vì nó rất tuyệt hai lời nhắc trước, nhưng bây giờ tôi phải giúp AI bắt kịp.”.

  • Người dùng chuyên sâu và chuyên gia lĩnh vực: Các chuyên gia trong các lĩnh vực chuyên biệt (tài chính, kỹ thuật, y học) đôi khi thấy câu trả lời của ChatGPT thiếu chiều sâu hoặc độ chính xác trong lĩnh vực của họ, đặc biệt nếu câu hỏi liên quan đến các phát triển gần đây. Những người dùng này mong muốn kiến thức chuyên môn đáng tin cậy hơn. Một số đã thử tinh chỉnh thông qua API hoặc các GPT tùy chỉnh. Những người không thể tinh chỉnh sẽ đánh giá cao các phiên bản ChatGPT chuyên biệt theo lĩnh vực hoặc các plugin nhúng cơ sở dữ liệu đáng tin cậy. Ở dạng mặc định, ChatGPT có thể chưa phục vụ tốt những người dùng cần thông tin rất chính xác, chuyên biệt theo lĩnh vực (họ thường phải kiểm tra lại công việc của nó).

  • Người dùng cần nội dung không kiểm duyệt hoặc nội dung đặc biệt: Một số ít người dùng (tin tặc kiểm tra kịch bản bảo mật, nhà văn viết truyện hư cấu cực đoan, v.v.) thấy các hạn chế nội dung của ChatGPT quá giới hạn đối với nhu cầu của họ. Họ hiện đang chưa được phục vụ tốt bởi sản phẩm chính thức (vì nó rõ ràng tránh một số nội dung nhất định). Những người dùng này thường thử nghiệm các lời nhắc 'jailbreak' hoặc sử dụng các mô hình mã nguồn mở để nhận được phản hồi họ muốn. Đây là một khoảng trống có chủ ý đối với OpenAI (để duy trì an toàn), nhưng điều đó có nghĩa là những người dùng như vậy tìm kiếm giải pháp ở nơi khác.

  • Cá nhân và doanh nghiệp quan tâm đến quyền riêng tư: Một số người dùng (đặc biệt trong môi trường doanh nghiệp) cảm thấy không thoải mái khi gửi dữ liệu nhạy cảm cho ChatGPT do lo ngại về quyền riêng tư. OpenAI có chính sách không sử dụng dữ liệu API để đào tạo, nhưng giao diện web ChatGPT trong quá khứ không cung cấp các đảm bảo như vậy cho đến khi một tính năng từ chối được thêm vào. Các công ty xử lý dữ liệu bảo mật (pháp lý, y tế, v.v.) thường cảm thấy họ không thể tận dụng tối đa ChatGPT, khiến nhu cầu của họ chưa được đáp ứng trừ khi họ xây dựng các giải pháp tự lưu trữ. Ví dụ, một Redditor đã đề cập công ty của họ chuyển sang một LLM cục bộ vì lý do quyền riêng tư. Cho đến khi các phiên bản ChatGPT tại chỗ hoặc riêng tư có sẵn, phân khúc này vẫn thận trọng hoặc sử dụng các nhà cung cấp chuyên biệt nhỏ hơn.

Sự khác biệt trong nhận thức theo loại người dùng

  • Người dùng là nhà phát triển/kỹ thuật: Các nhà phát triển có xu hướng vừa là những người ủng hộ lớn nhất vừa là những người chỉ trích gay gắt nhất của ChatGPT. Họ yêu thích khả năng giải thích mã, tạo mã mẫu (boilerplate) và hỗ trợ gỡ lỗi của nó. Tuy nhiên, họ cảm nhận rõ rệt những hạn chế của nó về ngữ cảnh dài hơn và độ chính xác của mã. Như một nhà phát triển đã phàn nàn, ChatGPT bắt đầu “tạo ra mã không hữu ích” và bỏ qua các phần quan trọng, điều này “khiến tôi phát điên… Tôi không muốn phải bảo nó ‘đừng lười biếng’ – tôi chỉ muốn có kết quả đầy đủ”. Các nhà phát triển thường nhận thấy ngay cả những thay đổi nhỏ về chất lượng sau các bản cập nhật mô hình và đã rất thẳng thắn trên Reddit về những gì họ cho là “nerf” (giảm sức mạnh) hoặc suy giảm khả năng viết mã. Họ cũng đẩy giới hạn (xây dựng các câu lệnh phức tạp, kết nối các công cụ), vì vậy họ khao khát các tính năng như ngữ cảnh mở rộng, ít giới hạn tin nhắn hơn và tích hợp tốt hơn với các công cụ lập trình. Tóm lại, các nhà phát triển đánh giá cao ChatGPT vì đã tăng tốc các tác vụ thường ngày nhưng nhanh chóng chỉ ra lỗi logic hoặc mã – họ xem nó như một trợ lý cấp dưới vẫn cần được giám sát.

  • Người dùng thông thường/hàng ngày: Những người dùng thông thường hơn – những người hỏi về kiến thức chung, lời khuyên hoặc giải trí – thường ngạc nhiên trước khả năng của ChatGPT, nhưng họ cũng có những phàn nàn riêng. Một sự thất vọng phổ biến của người dùng thông thường là khi ChatGPT từ chối một yêu cầu mà đối với họ dường như vô hại (có thể do vi phạm quy tắc chính sách). Người đăng bài gốc trong một chủ đề đã minh họa điều này, khi “rất tức giận khi tôi viết một câu lệnh mà nó không nên có vấn đề gì nhưng bây giờ nó lại từ chối”. Người dùng thông thường cũng có thể gặp phải giới hạn kiến thức (nhận thấy bot không thể xử lý các sự kiện rất hiện tại trừ khi được cập nhật rõ ràng) và đôi khi nhận thấy khi ChatGPT đưa ra câu trả lời rõ ràng là sai. Không giống như các nhà phát triển, họ có thể không phải lúc nào cũng kiểm tra lại AI, điều này có thể dẫn đến thất vọng nếu họ hành động dựa trên một lỗi sai. Về mặt tích cực, nhiều người dùng thông thường thấy phản hồi nhanh hơn của ChatGPT Plus và đầu ra cải thiện của GPT-4 đáng giá 20 đô la/tháng – trừ khi vấn đề “từ chối” hoặc các giới hạn khác làm hỏng trải nghiệm. Họ thường muốn một trợ lý hữu ích, đa năng và có thể thất vọng khi ChatGPT trả lời bằng các tuyên bố chính sách hoặc cần một câu lệnh phức tạp để có được câu trả lời đơn giản.

  • Người dùng doanh nghiệp/chuyên nghiệp: Người dùng doanh nghiệp thường tiếp cận ChatGPT từ góc độ năng suất và độ tin cậy. Họ đánh giá cao việc soạn thảo email nhanh chóng, tóm tắt tài liệu hoặc tạo ý tưởng. Tuy nhiên, họ lo ngại về bảo mật dữ liệu, tính nhất quán và khả năng tích hợp vào quy trình làm việc. Trên Reddit, các chuyên gia đã thảo luận về việc muốn có ChatGPT trong các công cụ như Outlook, Google Docs hoặc dưới dạng API trong các hệ thống nội bộ của họ. Một số người đã lưu ý rằng khi OpenAI chuyển hướng phục vụ khách hàng doanh nghiệp, trọng tâm của sản phẩm dường như thay đổi: có cảm giác rằng trải nghiệm người dùng miễn phí hoặc cá nhân đã giảm sút một chút (ví dụ: chậm hơn hoặc “kém thông minh hơn”) khi công ty mở rộng quy mô để phục vụ các khách hàng lớn hơn. Dù điều đó có đúng hay không, nó làm nổi bật một nhận thức: người dùng doanh nghiệp muốn độ tin cậy và dịch vụ ưu tiên, còn người dùng cá nhân lo lắng rằng họ giờ đây là hạng hai. Ngoài ra, các chuyên gia cần đầu ra chính xác – một câu trả lời hào nhoáng nhưng sai có thể tệ hơn không có câu trả lời nào. Do đó, phân khúc này rất nhạy cảm với độ chính xác. Đối với họ, các tính năng như ngữ cảnh dài hơn (để đọc hợp đồng, phân tích cơ sở mã) và thời gian hoạt động được đảm bảo là rất quan trọng. Họ có khả năng trả nhiều tiền hơn cho các cấp độ dịch vụ cao cấp, miễn là các yêu cầu về tuân thủ và quyền riêng tư của họ được đáp ứng. Một số doanh nghiệp thậm chí còn khám phá các triển khai tại chỗ hoặc sử dụng API của OpenAI với các quy tắc xử lý dữ liệu nghiêm ngặt để đáp ứng các chính sách CNTT của họ.


Claude (Anthropic)

Những Điểm Gây Khó Chịu và Hạn Chế Thường Gặp

  • Giới hạn sử dụng và hạn chế truy cập: Claude được khen ngợi vì cung cấp một mô hình mạnh mẽ (Claude 2) miễn phí, nhưng người dùng nhanh chóng gặp phải giới hạn sử dụng (đặc biệt là ở gói miễn phí). Sau một số lượng lời nhắc nhất định hoặc một lượng lớn văn bản, Claude có thể dừng lại và nói điều gì đó như “Tôi xin lỗi, tôi phải kết thúc cuộc trò chuyện này bây giờ. Xin hãy quay lại sau.” Việc giới hạn này gây khó chịu cho những người dùng coi Claude như một đối tác viết code hoặc viết lách mở rộng. Ngay cả người dùng Claude Pro (trả phí) cũng “không được đảm bảo thời gian không giới hạn”, như một người dùng đã lưu ý; việc đạt đến hạn mức vẫn tạo ra thông báo “hãy quay lại sau”. Ngoài ra, trong một thời gian dài, Claude chính thức bị giới hạn địa lý (ban đầu chỉ có sẵn ở Mỹ/Anh). Người dùng quốc tế trên Reddit phải sử dụng VPN hoặc các nền tảng của bên thứ ba để truy cập, điều này gây bất tiện. Điều này khiến nhiều người dùng không phải ở Mỹ cảm thấy bị bỏ rơi cho đến khi quyền truy cập được mở rộng.

  • Xu hướng lạc đề với các đầu vào rất lớn: Tính năng nổi bật của Claude là cửa sổ ngữ cảnh 100k token, cho phép các lời nhắc cực kỳ dài. Tuy nhiên, một số người dùng đã nhận thấy rằng khi bạn đưa hàng chục nghìn token vào Claude, các phản hồi của nó có thể trở nên kém tập trung hơn. “100k rất hữu ích nhưng nếu nó không tuân thủ hướng dẫn đúng cách và lạc đề, thì nó không hữu ích đến vậy,” một người dùng nhận xét. Điều này cho thấy rằng với ngữ cảnh lớn, Claude có thể lạc đề hoặc bắt đầu nói lan man, đòi hỏi phải nhắc nhở cẩn thận để giữ nó đúng nhiệm vụ. Đây là một hạn chế vốn có khi đẩy ngữ cảnh đến mức cực đoan – mô hình giữ lại rất nhiều nhưng đôi khi “quên” những chi tiết nào là phù hợp nhất, dẫn đến những ảo giác nhỏ hoặc những đoạn lạc đề.

  • Định dạng không nhất quán hoặc không tuân thủ hướng dẫn: Trong các so sánh song song, một số người dùng nhận thấy Claude ít đoán trước được hơn về cách nó tuân thủ các chỉ thị nhất định. Ví dụ, Claude được mô tả là “giống con người hơn trong các tương tác. Nhưng nó ít tuân thủ nghiêm ngặt các thông báo hệ thống hơn.”. Điều này có nghĩa là nếu bạn cung cấp cho nó một định dạng cố định để tuân theo hoặc một tính cách rất nghiêm ngặt, Claude có thể sai lệch nhiều hơn so với ChatGPT. Các nhà phát triển dựa vào các đầu ra xác định (như định dạng JSON hoặc các kiểu cụ thể) đôi khi cảm thấy khó chịu nếu Claude đưa ra thêm bình luận hoặc không tuân thủ nghiêm ngặt mẫu.

  • Hạn chế nội dung và từ chối: Mặc dù không bị chỉ trích thường xuyên như ChatGPT, các bộ lọc an toàn của Claude vẫn được đề cập. Anthropic đã thiết kế Claude với sự nhấn mạnh mạnh mẽ vào AI hiến định (khiến AI tự tuân thủ các nguyên tắc đạo đức). Người dùng thường thấy Claude sẵn lòng thảo luận nhiều chủ đề, nhưng có những trường hợp Claude từ chối các yêu cầu mà ChatGPT có thể cho phép. Ví dụ, một Redditor đã lưu ý “ChatGPT có ít hạn chế về đạo đức hơn… nó sẽ giải thích loại mặt nạ phòng độc nào tốt hơn cho điều kiện nào trong khi Claude sẽ từ chối”. Điều này cho thấy Claude có thể nghiêm ngặt hơn về một số lời khuyên “nhạy cảm” nhất định (có lẽ coi đó là hướng dẫn có khả năng gây nguy hiểm). Một người dùng khác đã thử một kịch bản nhập vai vui nhộn (“giả vờ bạn bị người ngoài hành tinh bắt cóc”) mà Claude đã từ chối, trong khi Gemini và ChatGPT sẽ tham gia. Vì vậy, Claude có các bộ lọc đôi khi có thể làm người dùng ngạc nhiên khi họ mong đợi nó khoan dung hơn.

  • Thiếu khả năng đa phương thức: Không giống như ChatGPT (vào cuối năm 2023 đã có khả năng hiểu hình ảnh với GPT-4 Vision), Claude hiện chỉ xử lý văn bản. Người dùng Reddit lưu ý rằng Claude không thể phân tích hình ảnh hoặc tự duyệt web trực tiếp. Đây không hẳn là một “điểm gây khó chịu” (Anthropic chưa bao giờ quảng cáo các tính năng đó), nhưng nó là một hạn chế so với các đối thủ cạnh tranh. Người dùng muốn một AI giải thích biểu đồ hoặc ảnh chụp màn hình không thể sử dụng Claude cho việc đó, trong khi ChatGPT hoặc Gemini có thể xử lý. Tương tự, bất kỳ việc truy xuất thông tin hiện tại nào đều yêu cầu sử dụng Claude thông qua một công cụ của bên thứ ba (ví dụ: Poe hoặc tích hợp công cụ tìm kiếm), vì Claude hiện không có chế độ duyệt web chính thức.

  • Các vấn đề ổn định nhỏ: Một số người dùng đã báo cáo rằng Claude đôi khi lặp lại hoặc bị kẹt trong các vòng lặp đối với một số lời nhắc nhất định (mặc dù điều này ít phổ biến hơn so với một số mô hình nhỏ hơn). Ngoài ra, các phiên bản trước của Claude đôi khi kết thúc phản hồi sớm hoặc mất nhiều thời gian với các đầu ra lớn, điều này có thể được coi là những phiền toái nhỏ, mặc dù Claude 2 đã cải thiện về tốc độ.

Các Tính Năng hoặc Cải Tiến Thường Được Yêu Cầu

  • Giới hạn sử dụng cao hơn hoặc có thể điều chỉnh: Những người dùng Claude nhiệt tình trên Reddit thường yêu cầu Anthropic tăng giới hạn cuộc trò chuyện. Họ muốn sử dụng tối đa ngữ cảnh 100k mà không gặp phải giới hạn nhân tạo. Một số người gợi ý rằng ngay cả Claude Pro trả phí cũng nên cho phép nhiều token hơn đáng kể mỗi ngày. Những người khác đưa ra ý tưởng về một “chế độ mở rộng 100k” tùy chọn – ví dụ, “Claude nên có chế độ ngữ cảnh 100k với giới hạn sử dụng gấp đôi” – nơi mà có lẽ một gói đăng ký có thể cung cấp quyền truy cập mở rộng cho những người dùng nặng. Về cơ bản, có nhu cầu về một gói dịch vụ cạnh tranh với việc sử dụng không giới hạn (hoặc giới hạn cao) của ChatGPT dành cho người đăng ký.

  • Điều hướng ngữ cảnh dài tốt hơn: Mặc dù có 100k token là một bước đột phá, người dùng muốn Claude sử dụng ngữ cảnh đó tốt hơn. Một cải tiến sẽ là tinh chỉnh cách Claude ưu tiên thông tin để nó luôn đi đúng hướng. Anthropic có thể cải thiện khả năng tuân thủ lời nhắc của mô hình khi lời nhắc rất lớn. Các cuộc thảo luận trên Reddit gợi ý các kỹ thuật như cho phép người dùng “ghim” một số hướng dẫn nhất định để chúng không bị loãng trong ngữ cảnh lớn. Bất kỳ công cụ nào giúp phân đoạn hoặc tóm tắt các phần của đầu vào cũng có thể giúp Claude xử lý các đầu vào lớn một cách mạch lạc hơn. Tóm lại, người dùng yêu thích khả năng đưa cả một cuốn sách cho Claude – họ chỉ muốn nó duy trì sự sắc bén xuyên suốt.

  • Plugin hoặc duyệt web: Nhiều người dùng ChatGPT đã quen với các plugin (ví dụ: duyệt web, thực thi mã, v.v.) và họ bày tỏ sự quan tâm đến việc Claude có khả năng mở rộng tương tự. Một yêu cầu phổ biến là Claude có chức năng tìm kiếm/duyệt web chính thức, để nó có thể tìm nạp thông tin cập nhật theo yêu cầu. Hiện tại, kiến thức của Claude chủ yếu là tĩnh (dữ liệu đào tạo đến đầu năm 2023, với một số cập nhật). Nếu Claude có thể truy vấn web, điều đó sẽ giảm bớt hạn chế đó. Tương tự, một hệ thống plugin nơi Claude có thể sử dụng các công cụ của bên thứ ba (như máy tính hoặc trình kết nối cơ sở dữ liệu) có thể mở rộng tiện ích của nó cho người dùng chuyên nghiệp. Đây vẫn là một tính năng mà Claude còn thiếu, và người dùng Reddit thường đề cập đến việc hệ sinh thái plugin của ChatGPT mang lại lợi thế cho nó trong một số tác vụ nhất định.

  • Đầu vào đa phương thức (hình ảnh hoặc âm thanh): Một số người dùng cũng tự hỏi liệu Claude có hỗ trợ đầu vào hình ảnh hoặc tạo hình ảnh hay không. Gemini của Google và GPT-4 của OpenAI có khả năng đa phương thức, vì vậy để duy trì tính cạnh tranh, người dùng mong đợi Anthropic khám phá điều này. Một yêu cầu thường xuyên là: “Tôi có thể tải lên tệp PDF hoặc hình ảnh để Claude phân tích không?” Hiện tại câu trả lời là không (ngoài các giải pháp thay thế như chuyển đổi hình ảnh thành văn bản ở nơi khác). Ngay cả việc chỉ cho phép chuyển đổi hình ảnh thành văn bản (OCR và mô tả) cũng sẽ làm hài lòng nhiều người muốn có một trợ lý toàn diện. Điều này nằm trong danh sách mong muốn, mặc dù Anthropic chưa công bố bất cứ điều gì tương tự tính đến đầu năm 2025.

  • Tinh chỉnh hoặc tùy chỉnh: Người dùng nâng cao và doanh nghiệp đôi khi hỏi liệu họ có thể tinh chỉnh Claude trên dữ liệu của riêng họ hoặc nhận các phiên bản tùy chỉnh hay không. OpenAI cung cấp tính năng tinh chỉnh cho một số mô hình (chưa phải GPT-4, nhưng cho GPT-3.5). Anthropic đã phát hành giao diện tinh chỉnh cho Claude 1.3 trước đó, nhưng nó không được quảng cáo rộng rãi cho Claude 2. Người dùng Reddit đã hỏi về khả năng đào tạo Claude dựa trên kiến thức công ty hoặc phong cách viết cá nhân. Một cách dễ dàng hơn để làm điều này (ngoài việc chèn lời nhắc mỗi lần) sẽ rất được hoan nghênh, vì nó có thể biến Claude thành một trợ lý cá nhân hóa ghi nhớ một cơ sở kiến thức hoặc tính cách cụ thể.

  • Khả dụng rộng rãi hơn: Người dùng ngoài Hoa Kỳ thường xuyên yêu cầu Claude được ra mắt chính thức tại quốc gia của họ. Các bài đăng từ Canada, Châu Âu, Ấn Độ, v.v., hỏi khi nào họ có thể sử dụng trang web của Claude mà không cần VPN hoặc khi nào API của Claude sẽ được mở rộng hơn. Anthropic đã thận trọng, nhưng nhu cầu là toàn cầu – một cải tiến trong mắt nhiều người có lẽ chỉ đơn giản là “hãy để nhiều người trong chúng tôi sử dụng nó.” Việc công ty dần mở rộng quyền truy cập đã phần nào giải quyết được vấn đề này.

Nhu cầu hoặc phân khúc người dùng chưa được phục vụ đầy đủ

  • Cơ sở người dùng quốc tế: Như đã lưu ý, trong một thời gian dài, cơ sở người dùng chính của Claude bị giới hạn bởi địa lý. Điều này khiến nhiều người dùng tiềm năng không được phục vụ đầy đủ. Ví dụ, một nhà phát triển ở Đức quan tâm đến khả năng xử lý ngữ cảnh 100k của Claude không có cách chính thức nào để sử dụng nó. Mặc dù có những cách giải quyết (nền tảng của bên thứ ba, hoặc VPN + xác minh điện thoại ở một quốc gia được hỗ trợ), những rào cản này có nghĩa là người dùng quốc tế thông thường thực tế đã bị khóa quyền truy cập. Ngược lại, ChatGPT có sẵn ở hầu hết các quốc gia. Vì vậy, những người nói tiếng Anh không phải người Mỹ và đặc biệt là những người không nói tiếng Anh đã không được phục vụ đầy đủ bởi việc triển khai hạn chế của Claude. Họ có thể vẫn phải dựa vào ChatGPT hoặc các mô hình địa phương đơn giản vì các vấn đề về quyền truy cập.

  • Người dùng cần định dạng đầu ra nghiêm ngặt: Như đã đề cập, Claude đôi khi tự do trong các phản hồi. Người dùng cần đầu ra có cấu trúc cao (như JSON cho một ứng dụng, hoặc một câu trả lời theo một định dạng chính xác) có thể thấy Claude kém tin cậy hơn ChatGPT. Những người dùng này – thường là các nhà phát triển tích hợp AI vào một hệ thống – là một phân khúc có thể được phục vụ tốt hơn nếu Claude cho phép "chế độ nghiêm ngặt" hoặc cải thiện sự tuân thủ hướng dẫn của nó. Hiện tại, họ có thể tránh Claude cho các tác vụ như vậy, và gắn bó với các mô hình được biết đến là tuân thủ định dạng chặt chẽ hơn.

  • Người dùng hỏi đáp thông thường (so với người dùng sáng tạo): Claude thường được ca ngợi về các tác vụ sáng tạo – nó tạo ra văn xuôi trôi chảy, giống con người và các bài luận sâu sắc. Tuy nhiên, một số người dùng trên Reddit lưu ý rằng đối với các câu hỏi và trả lời thẳng thắn hoặc các truy vấn thực tế, Claude đôi khi đưa ra câu trả lời dài dòng trong khi có thể ngắn gọn. Người dùng so sánh ChatGPT và Claude cho biết ChatGPT có xu hướng ngắn gọn và gạch đầu dòng, trong khi Claude mặc định mang tính kể chuyện hơn. Người dùng chỉ muốn một câu trả lời nhanh gọn về sự thật (như "Thủ đô của X và dân số của nó là bao nhiêu?") có thể cảm thấy Claude hơi gián tiếp. Những người dùng này được phục vụ tốt hơn bởi một công cụ tìm kiếm chính xác hoặc một mô hình ngắn gọn. Claude có thể làm được nếu được yêu cầu, nhưng phong cách của nó có thể không phù hợp với kỳ vọng về một câu hỏi đáp ngắn gọn, nghĩa là phân khúc này có thể chuyển sang các công cụ khác (như Bing Chat hoặc Google).

  • Người dùng quan trọng về an toàn: Ngược lại, một số người dùng yêu cầu tuân thủ an toàn rất cẩn thận (ví dụ: các nhà giáo dục sử dụng AI với học sinh, hoặc khách hàng doanh nghiệp muốn không có rủi ro về đầu ra sai lệch) có thể coi sự phù hợp của Claude là một điểm cộng, nhưng vì ChatGPT cũng khá phù hợp và có nhiều tính năng dành cho doanh nghiệp hơn, những người dùng đó có thể không đặc biệt chọn Claude. Đây là một phân khúc nhỏ, nhưng có thể lập luận rằng Claude chưa thực sự chiếm được phân khúc này. Họ có thể không được phục vụ đầy đủ ở chỗ họ không có cách dễ dàng để tăng cường các biện pháp bảo vệ của Claude hoặc xem "chuỗi suy nghĩ" của nó (mà Anthropic có nội bộ thông qua phương pháp AI dựa trên hiến pháp, nhưng người dùng cuối không trực tiếp tương tác với điều đó ngoài việc nhận thấy giọng điệu nhìn chung lịch sự của Claude).

  • Người nói tiếng không phải tiếng Anh (chất lượng đầu ra): Claude được đào tạo chủ yếu bằng tiếng Anh (giống như hầu hết các LLM lớn). Một số người dùng đã thử nghiệm nó bằng các ngôn ngữ khác; nó có thể phản hồi bằng nhiều ngôn ngữ, nhưng chất lượng có thể khác nhau. Ví dụ, nếu một người dùng muốn một câu trả lời rất tinh tế bằng tiếng Pháp hoặc tiếng Hindi, có thể khả năng của Claude không được tinh chỉnh tốt ở đó bằng ChatGPT (GPT-4 đã thể hiện hiệu suất đa ngôn ngữ mạnh mẽ, thường cao hơn các mô hình khác trong một số điểm chuẩn nhất định). Người dùng chủ yếu giao tiếp bằng các ngôn ngữ khác ngoài tiếng Anh có thể thấy độ trôi chảy hoặc độ chính xác của Claude hơi yếu hơn. Phân khúc này phần nào không được phục vụ đầy đủ đơn giản vì Anthropic chưa công khai nhấn mạnh việc đào tạo đa ngôn ngữ là ưu tiên.

Sự khác biệt trong nhận thức theo loại người dùng

  • Người dùng phát triển/Công nghệ: Các nhà phát triển trên Reddit ngày càng ca ngợi Claude, đặc biệt là Claude 2 / Claude 3.5, cho các tác vụ lập trình. Sự thay đổi nhận thức vào cuối năm 2024 là đáng chú ý: nhiều nhà phát triển bắt đầu thích Claude hơn ChatGPT để hỗ trợ lập trình. Họ trích dẫn hiệu suất “tuyệt vời trong việc lập trình” và khả năng xử lý các cơ sở mã lớn hơn trong một lần. Ví dụ, một người dùng đã viết “Claude Sonnet 3.5 tốt hơn để làm việc với mã (phân tích, tạo) [so với ChatGPT].” Các nhà phát triển đánh giá cao việc Claude có thể lấy một phần lớn mã dự án hoặc nhật ký và tạo ra các phân tích hoặc cải tiến mạch lạc, nhờ vào ngữ cảnh lớn của nó. Tuy nhiên, họ cũng nhận thấy những điểm kỳ lạ của nó – như đôi khi chèn thêm những lời lẽ trò chuyện không cần thiết hoặc không tuân thủ đúng từng chi tiết của đặc tả. Nhìn chung, nhiều nhà phát triển giữ cả ChatGPT và Claude trong tay: một cho logic từng bước nghiêm ngặt (ChatGPT) và một cho ngữ cảnh rộng và sự hiểu biết đồng cảm (Claude). Điều đáng nói là một người bình luận đã nói “Nếu tôi phải chọn một, tôi sẽ chọn Claude” sau khi so sánh hai công cụ này hàng ngày. Điều này cho thấy một nhận thức rất tích cực trong số những người dùng cao cấp, đặc biệt cho các trường hợp sử dụng như động não, đánh giá mã hoặc đề xuất kiến trúc. Phàn nàn phổ biến duy nhất từ các nhà phát triển là đạt giới hạn sử dụng của Claude khi họ cố gắng đẩy nó mạnh (ví dụ: đưa một lời nhắc 50K token để phân tích toàn bộ kho lưu trữ). Tóm lại, các nhà phát triển xem Claude là một công cụ cực kỳ mạnh mẽ – trong một số trường hợp vượt trội hơn ChatGPT – chỉ bị hạn chế bởi tính khả dụng và một số sự không thể đoán trước trong định dạng.

  • Người dùng thông thường/Không chuyên về kỹ thuật: Người dùng thông thường đã thử Claude thường nhận xét về việc nó thân thiện và diễn đạt rõ ràng như thế nào. Phong cách của Claude có xu hướng mang tính trò chuyện, lịch sự và chi tiết. Một người dùng mới so sánh nó với ChatGPT đã nhận thấy rằng “Claude đồng cảm hơn và theo một giọng điệu trò chuyện… ChatGPT quá thường xuyên mặc định sử dụng dấu đầu dòng”. Sự ấm áp giống con người này khiến Claude hấp dẫn đối với những người sử dụng nó để viết sáng tạo, lời khuyên hoặc chỉ trò chuyện để lấy thông tin. Một số người thậm chí còn nhân cách hóa Claude như có một “tính cách” từ bi. Người dùng thông thường cũng thích rằng phiên bản miễn phí của Claude cho phép truy cập trí thông minh tương đương cấp độ GPT-4 mà không cần đăng ký (ít nhất là đến giới hạn tốc độ). Mặt khác, người dùng thông thường cũng gặp phải sự từ chối của Claude về một số chủ đề và có thể không hiểu tại sao (vì Claude sẽ diễn đạt một cách xin lỗi nhưng kiên quyết). Nếu một người dùng thông thường hỏi điều gì đó hơi nhạy cảm và bị Claude từ chối, họ có thể cảm thấy nó kém khả năng hơn hoặc quá bị hạn chế, mà không nhận ra đó là một lập trường chính sách. Một khía cạnh khác là Claude thiếu sự nhận diện tên – nhiều người dùng thông thường thậm chí có thể không biết để thử nó trừ khi họ tham gia vào các cộng đồng AI. Những người đã thử nói chung nhận xét rằng nó cảm thấy “như nói chuyện với một con người” theo một cách tốt. Họ có xu hướng rất hài lòng với khả năng của Claude trong việc xử lý các câu hỏi mở hoặc cá nhân. Vì vậy, nhận thức của người dùng thông thường phần lớn là tích cực về chất lượng đầu ra và giọng điệu của Claude, với một số nhầm lẫn hoặc thất vọng về tính khả dụng của nó (phải sử dụng nó trên một ứng dụng hoặc khu vực cụ thể) và những khoảnh khắc "không thể làm điều đó" thỉnh thoảng.

  • Người dùng doanh nghiệp/Chuyên nghiệp: Nhận thức của doanh nghiệp về Claude hơi khó đánh giá hơn từ Reddit công khai (vì ít người dùng doanh nghiệp đăng bài chi tiết), nhưng một vài xu hướng đã xuất hiện. Thứ nhất, Anthropic đã định vị Claude là công cụ tập trung vào quyền riêng tư hơn và sẵn sàng ký kết các thỏa thuận doanh nghiệp – điều này thu hút các công ty lo lắng về dữ liệu với OpenAI. Thật vậy, một số cuộc thảo luận trên Reddit đề cập đến Claude trong bối cảnh các công cụ như Slack hoặc Notion, nơi nó được tích hợp như một trợ lý. Các chuyên gia đã sử dụng các tích hợp đó có thể thậm chí không nhận ra Claude là công cụ cốt lõi, nhưng khi họ nhận ra, họ so sánh nó một cách thuận lợi về phong cách viết và khả năng xử lý các tài liệu doanh nghiệp lớn. Ví dụ, một nhóm có thể đưa một báo cáo quý dài cho Claude và nhận được một bản tóm tắt khá tốt – điều mà ngữ cảnh nhỏ hơn của ChatGPT sẽ gặp khó khăn. Điều đó nói lên rằng, người dùng doanh nghiệp cũng nhận thấy sự thiếu hụt một số tính năng hệ sinh thái; ví dụ, OpenAI cung cấp kiểm soát tin nhắn hệ thống, gọi hàm, v.v., trong API của họ, điều mà Anthropic có hỗ trợ hạn chế hơn. Một nhà phát triển làm việc trên một giải pháp kinh doanh đã nhận xét rằng Claude dễ điều hướng hơn trong các cuộc trò chuyện, trong khi ChatGPT có xu hướng cứng nhắc hơn… [nhưng] ChatGPT có quyền truy cập web, điều này có thể rất hữu ích. Hàm ý là đối với các tác vụ nghiên cứu hoặc tra cứu dữ liệu mà người dùng doanh nghiệp có thể cần (như thông tin tình báo cạnh tranh), ChatGPT có thể trực tiếp tìm nạp thông tin, trong khi Claude sẽ yêu cầu một bước riêng biệt. Nhìn chung, người dùng doanh nghiệp dường như xem Claude là một AI rất có năng lực – trong một số trường hợp tốt hơn cho các tác vụ phân tích nội bộ – nhưng có lẽ chưa giàu tính năng để tích hợp. Chi phí là một yếu tố khác: giá API và điều khoản của Claude không công khai như của OpenAI, và một số công ty khởi nghiệp trên Reddit đã đề cập đến sự không chắc chắn về giá hoặc sự ổn định của Claude. Tóm lại, các chuyên gia tôn trọng khả năng của Claude (đặc biệt là độ tin cậy của nó trong việc tuân thủ các hướng dẫn cấp cao và tóm tắt các đầu vào lớn), nhưng họ vẫn theo dõi cách nó phát triển về tích hợp, hỗ trợ và tính khả dụng toàn cầu trước khi hoàn toàn cam kết với nó thay vì ChatGPT đã được thiết lập hơn.

Google Gemini (Bard)

Các Vấn Đề Thường Gặp và Hạn Chế

  • Phản hồi không chính xác hoặc “ngu ngốc”: Một loạt phản hồi tiêu cực tràn ngập Reddit khi Google ra mắt bản nâng cấp Bard được hỗ trợ bởi Gemini. Người dùng phàn nàn rằng Gemini hoạt động kém hiệu quả trong các câu hỏi và trả lời cơ bản so với ChatGPT. Một đánh giá thẳng thắn có tiêu đề “Đánh giá 100% trung thực về Google Gemini” đã nêu: “Đây là một chatbot LLM bị lỗi, không chính xác”. Một người dùng thất vọng khác hỏi: “Tại sao Gemini vẫn tệ đến vậy? Số lần tôi hỏi Gemini một điều gì đó và nó đưa ra câu trả lời sai hoặc không đầy đủ là vô lý”. Họ so sánh nó song song với ChatGPT-4 và thấy ChatGPT đưa ra “câu trả lời hoàn hảo, chính xác, hiệu quả chỉ trong một lần,” trong khi Gemini nói lan man và yêu cầu nhiều lời nhắc để có được câu trả lời tạm chấp nhận được. Về cơ bản, những người dùng đầu tiên cảm thấy Gemini thường xuyên bịa đặt hoặc không hiểu đúng trọng tâm câu hỏi, đòi hỏi nỗ lực nhắc nhở quá mức để trích xuất thông tin chính xác. Sự không nhất quán về chất lượng này là một sự thất vọng lớn so với sự cường điệu xung quanh Gemini.

  • Dài dòng và thừa thãi: Nhiều người dùng nhận thấy rằng Gemini (dưới dạng Bard mới) có xu hướng đưa ra những câu trả lời dài dòng, không đi vào trọng tâm. Như một người đã mô tả, “Nó nói lan man… 3 đoạn văn toàn rác AI… ngay cả khi đó, nó [chỉ] cuối cùng mới đề cập đến câu trả lời bị chôn vùi trong những đoạn văn vô nghĩa”. Đây là một sự tương phản rõ rệt với ChatGPT, vốn thường đưa ra câu trả lời súc tích hơn hoặc các gạch đầu dòng khi thích hợp. Sự dài dòng trở thành một điểm khó chịu khi người dùng phải sàng lọc rất nhiều văn bản để tìm một sự thật đơn giản. Một số người suy đoán rằng Google có thể đã điều chỉnh nó để trở nên đàm thoại hoặc “hữu ích,” nhưng đã đi quá đà thành quá nhiều giải thích mà không có nội dung.

  • Tích hợp kém với các dịch vụ của Google: Một trong những điểm bán hàng của trợ lý AI của Google được cho là tích hợp với hệ sinh thái của Google (Gmail, Docs, Drive, v.v.). Tuy nhiên, trải nghiệm của người dùng ban đầu rất đáng thất vọng về mặt này. Một người dùng đã than thở: “Đừng nói đến việc nó gần như hoàn toàn không thể tích hợp với các sản phẩm của Google, điều mà lẽ ra phải là một ‘tính năng’ (mà dường như nó không biết mình có).”. Ví dụ, mọi người sẽ thử yêu cầu Gemini (thông qua Bard) tóm tắt một Google Doc hoặc soạn thảo một email dựa trên một số thông tin – các tính năng mà Google quảng cáo – và bot sẽ trả lời rằng nó không thể truy cập dữ liệu đó. Một người dùng trên r/GooglePixel đã viết: “Mỗi khi tôi cố gắng sử dụng Gemini với Google Docs hoặc Drive của mình, nó đều nói rằng nó không thể làm gì với chúng. Vậy thì có những tính năng tích hợp này để làm gì?”. Điều này cho thấy một khoảng cách đáng kể giữa các khả năng được hứa hẹn và hiệu suất thực tế, khiến người dùng cảm thấy rằng “trợ lý AI” không hỗ trợ nhiều trong hệ sinh thái của Google.

  • Từ chối và nhầm lẫn về khả năng: Người dùng cũng gặp phải những từ chối hoặc mâu thuẫn kỳ lạ từ Gemini. Cùng một Redditor đó đã lưu ý rằng Gemini “từ chối làm những việc không có lý do, quên rằng nó có thể làm những việc khác… Mới hôm nọ nó nói với tôi rằng nó không có quyền truy cập internet/dữ liệu trực tiếp. Gì chứ.”. Điều này cho thấy Gemini đôi khi sẽ từ chối các tác vụ mà nó đáng lẽ phải có khả năng thực hiện (như truy xuất thông tin trực tiếp, điều mà Bard được kết nối) hoặc đưa ra những tuyên bố không chính xác về khả năng của chính nó. Những trải nghiệm như vậy đã tạo ấn tượng về một AI không chỉ kém thông minh hơn mà còn kém tin cậy hoặc ít tự nhận thức hơn. Bình luận đầy màu sắc của một người dùng khác: “Gemini hoàn toàn là rác rưởi. Bạn đã bao giờ có những khoảnh khắc mà bạn chỉ muốn giơ tay lên và nói, ‘Họ đang nghĩ gì vậy?’” gói gọn sự thất vọng. Về cơ bản, các vấn đề về tích hợp sản phẩm và tính nhất quán của Gemini đã khiến nhiều người dùng sớm cảm thấy nó chưa hoàn thiện.

  • Khả năng mã hóa không nổi bật: Mặc dù không được thảo luận rộng rãi như các câu hỏi và trả lời chung, một số người dùng đã thử nghiệm Gemini (Bard) trên các tác vụ mã hóa và thấy nó kém. Trong các diễn đàn AI, khả năng mã hóa của Gemini thường được đánh giá thấp hơn GPT-4 và thậm chí thấp hơn Claude. Ví dụ, một người dùng đã nói rõ ràng rằng “Claude 3.5 Sonnet rõ ràng tốt hơn cho việc mã hóa so với ChatGPT 4o… Gemini hoàn toàn là rác rưởi [trong bối cảnh đó]”. Sự đồng thuận là Gemini có thể viết mã đơn giản hoặc giải thích các thuật toán cơ bản, nhưng nó thường gặp khó khăn với các vấn đề phức tạp hơn hoặc tạo ra mã có lỗi. Việc thiếu một bộ công cụ phát triển rộng lớn (ví dụ: nó không có công cụ tương đương với Code Interpreter hoặc khả năng gọi hàm mạnh mẽ) cũng có nghĩa là nó không phải là lựa chọn hàng đầu cho các lập trình viên. Vì vậy, mặc dù không phải mọi người dùng thông thường đều quan tâm đến mã, đây là một hạn chế đối với phân khúc đó.

  • Hạn chế trên thiết bị di động: Gemini được triển khai như một phần của Trợ lý Google trên điện thoại Pixel (được gắn nhãn là “Trợ lý với Bard”). Một số người dùng Pixel lưu ý rằng việc sử dụng nó làm thay thế trợ lý giọng nói gặp vấn đề. Đôi khi nó không nhận diện chính xác các lệnh thoại hoặc mất quá nhiều thời gian để phản hồi so với Trợ lý Google cũ. Cũng có những bình luận về việc cần phải chọn tham gia và mất một số tính năng Trợ lý cổ điển. Điều này tạo ra nhận thức rằng việc tích hợp Gemini trên các thiết bị chưa hoàn toàn sẵn sàng, khiến những người dùng chuyên nghiệp của hệ sinh thái Google cảm thấy họ phải lựa chọn giữa một trợ lý thông minh và một trợ lý chức năng.

Các Tính Năng Hoặc Cải Tiến Được Yêu Cầu Thường Xuyên

  • Cải thiện đáng kể độ chính xác và khả năng suy luận: Cải tiến số một mà người dùng mong muốn ở Gemini đơn giản là trở nên thông minh hơn và đáng tin cậy hơn. Phản hồi trên Reddit cho thấy rõ rằng Google cần thu hẹp khoảng cách về chất lượng câu trả lời. Người dùng mong đợi Gemini tận dụng khả năng truy cập thông tin rộng lớn của Google để đưa ra câu trả lời thực tế, trực tiếp, chứ không phải những câu trả lời lan man hoặc sai lệch. Vì vậy, các yêu cầu (thường được diễn đạt một cách mỉa mai) tóm lại là: làm cho nó tốt bằng hoặc tốt hơn GPT-4 về kiến thức tổng quát và khả năng suy luận. Điều này bao gồm việc xử lý tốt hơn các câu hỏi tiếp theo và các lời nhắc phức tạp. Về cơ bản, hãy “sửa bộ não” của Gemini – tận dụng những lợi thế đào tạo đa phương thức được cho là của nó để nó không bỏ sót những chi tiết hiển nhiên nữa. Google có lẽ đã nghe thấy điều này rất rõ ràng: nhiều bài đăng so sánh các câu trả lời cụ thể mà ChatGPT vượt trội và Gemini thất bại, điều này đóng vai trò như các báo cáo lỗi không chính thức để cải thiện.

  • Tích hợp tốt hơn & nhận thức ngữ cảnh: Người dùng muốn Gemini thực hiện lời hứa về một trợ lý hệ sinh thái Google liền mạch. Điều này có nghĩa là nó phải giao tiếp đúng cách với Gmail, Lịch, Tài liệu, Drive, v.v. Nếu người dùng hỏi “Tóm tắt tài liệu tôi đã mở” hoặc “Soạn thảo phản hồi cho email cuối cùng từ sếp của tôi,” AI nên thực hiện điều đó – và thực hiện một cách an toàn. Hiện tại, yêu cầu là Google bật các tính năng đó và làm cho Gemini thực sự nhận ra khi nào một tác vụ như vậy là có thể thực hiện được. Đã có quảng cáo rằng Bard có thể kết nối với nội dung người dùng (với sự cho phép), vì vậy người dùng đang thực sự yêu cầu Google “bật” hoặc sửa lỗi tích hợp này. Đây là một tính năng quan trọng đặc biệt đối với người dùng doanh nghiệp. Ngoài ra, về mặt duyệt web: Bard (Gemini) có thể tìm kiếm web, nhưng một số người dùng muốn nó trích dẫn nguồn rõ ràng hơn hoặc cập nhật tin tức nóng hổi kịp thời hơn. Vì vậy, việc cải thiện tính kết nối của Gemini là một yêu cầu thường xuyên.

  • Kiểm soát độ súc tích: Với những phàn nàn về sự dài dòng, một số người dùng đề xuất một tính năng để chuyển đổi phong cách phản hồi. Ví dụ, một “chế độ tóm tắt” nơi Gemini đưa ra câu trả lời ngắn gọn, đi thẳng vào vấn đề theo mặc định, trừ khi được yêu cầu giải thích chi tiết. Ngược lại, có thể là một “chế độ chi tiết” cho những người muốn câu trả lời rất kỹ lưỡng. ChatGPT ngầm cho phép một số điều này thông qua lời nhắc của người dùng (“giữ cho nó ngắn gọn”); với Gemini, người dùng cảm thấy ngay cả khi họ không yêu cầu chi tiết, nó vẫn giải thích quá mức. Vì vậy, một cài đặt tích hợp sẵn hoặc chỉ cần điều chỉnh tốt hơn để tạo ra các câu trả lời súc tích khi thích hợp sẽ là một cải tiến đáng hoan nghênh. Về bản chất, hãy điều chỉnh nút điều chỉnh độ dài dòng.

  • Tính năng tương đương với ChatGPT (mã hóa, plugin, v.v.): Người dùng chuyên nghiệp trên Reddit so sánh các tính năng một cách rõ ràng. Họ yêu cầu Gemini/Bard của Google cung cấp những thứ như môi trường thực thi mã (sandbox) (tương tự như Code Interpreter của ChatGPT), khả năng tải lên hình ảnh/PDF để phân tích (vì Gemini là đa phương thức, người dùng muốn thực sự cung cấp cho nó hình ảnh tùy chỉnh, chứ không chỉ để nó mô tả những hình ảnh được cung cấp sẵn). Một tính năng khác thường được nhắc đến là bộ nhớ tốt hơn trong cuộc trò chuyện – mặc dù Bard có một số bộ nhớ về các tương tác trước đây, người dùng muốn nó tốt như ChatGPT trong việc tham chiếu ngữ cảnh trước đó, hoặc thậm chí có bộ nhớ cuộc trò chuyện liên tục như lịch sử trò chuyện của ChatGPT mà bạn có thể cuộn qua và xem lại. Về cơ bản, Google đang được yêu cầu bắt kịp tất cả các tính năng nâng cao trải nghiệm người dùng mà người dùng ChatGPT Plus có: lịch sử trò chuyện, hệ sinh thái plugin (hoặc ít nhất là tích hợp bên thứ ba mạnh mẽ), hỗ trợ mã hóa, v.v.

  • Cải tiến ứng dụng di động và giọng nói: Nhiều người dùng thông thường đã yêu cầu một ứng dụng di động chuyên dụng cho Bard/Gemini (tương tự như ứng dụng di động ChatGPT). Việc chỉ dựa vào giao diện web hoặc chỉ Trợ lý Pixel là hạn chế. Một ứng dụng chính thức trên iOS/Android với nhập liệu bằng giọng nói, phản hồi bằng giọng nói (để có cảm giác trợ lý thực sự) và tích hợp chặt chẽ có thể cải thiện đáng kể trải nghiệm người dùng. Cùng với đó, chủ sở hữu Pixel muốn Trợ lý với Bard nhanh hơn và nhiều chức năng hơn – về cơ bản, họ muốn những gì tốt nhất của Trợ lý Google cũ (các hành động nhanh chóng, chính xác) kết hợp với trí thông minh của Gemini. Ví dụ, những thứ như tiếp tục cho phép các lệnh thoại nhà thông minh “Hey Google” chứ không chỉ là các phản hồi trò chuyện. Google có thể cải thiện chế độ giọng nói của Gemini để thực sự thay thế trợ lý cũ mà không làm giảm các tính năng.

  • Minh bạch và kiểm soát: Một số người dùng đã yêu cầu hiểu rõ hơn về các nguồn của Bard hoặc một cách để tinh chỉnh phong cách của nó. Ví dụ, hiển thị Bard đang lấy thông tin từ kết quả Google nào (để xác minh độ chính xác) – điều mà Bing Chat làm bằng cách trích dẫn liên kết. Ngoài ra, vì Bard đôi khi tạo ra thông tin sai, người dùng muốn có thể gắn cờ hoặc sửa lỗi, và lý tưởng nhất là Bard nên học hỏi từ phản hồi đó theo thời gian. Có một cơ chế phản hồi dễ dàng (“ngón tay cái xuống – điều này không chính xác vì…”) dẫn đến cải thiện mô hình nhanh chóng sẽ củng cố niềm tin rằng Google đang lắng nghe. Về cơ bản, các tính năng để biến AI thành một trợ lý hợp tác hơn là một hộp đen.

Nhu cầu chưa được đáp ứng hoặc phân khúc người dùng

  • Người dùng tìm kiếm trợ lý cá nhân đáng tin cậy: Trớ trêu thay, nhóm mà Google nhắm đến – những người muốn có một trợ lý cá nhân mạnh mẽ – lại cảm thấy Gemini ở dạng hiện tại chưa đáp ứng được nhu cầu của họ. Những người dùng sớm đã chuyển sang Trợ lý dựa trên Bard mới mong đợi một bản nâng cấp, nhưng nhiều người lại cảm thấy đó là một sự xuống cấp về mặt thực tế. Ví dụ, nếu ai đó muốn một trợ lý giọng nói để trả lời chính xác các câu đố, đặt lời nhắc, điều khiển thiết bị và tích hợp thông tin từ tài khoản của họ, Gemini đã gặp khó khăn. Điều này khiến chính phân khúc các chuyên gia bận rộn hoặc những người đam mê tiện ích (những người dựa vào trợ lý để tăng năng suất) cảm thấy nhu cầu của họ không được đáp ứng. Một người dùng đã bình luận rằng họ sẽ cân nhắc trả tiền cho “Trợ lý với Bard” của Pixel “nếu [nó] vượt qua Google Assistant”, ngụ ý rằng nó vẫn chưa làm được điều đó. Vì vậy, phân khúc này vẫn đang chờ đợi một trợ lý AI đáng tin cậy, thực sự hữu ích – họ sẽ nhanh chóng đón nhận nếu Gemini cải thiện.

  • Người nói tiếng Anh không phải bản xứ / bản địa hóa: Các sản phẩm của Google thường có khả năng bản địa hóa xuất sắc, nhưng không rõ liệu Bard/Gemini có mạnh mẽ như nhau ở tất cả các ngôn ngữ khi ra mắt hay không. Một số người dùng quốc tế đã báo cáo rằng câu trả lời của Bard bằng ngôn ngữ mẹ đẻ của họ kém trôi chảy hoặc ít hữu ích hơn, khiến họ quay trở lại các đối thủ cạnh tranh địa phương. Nếu dữ liệu đào tạo hoặc tối ưu hóa của Gemini ưu tiên tiếng Anh, thì người dùng không nói tiếng Anh sẽ không được phục vụ đầy đủ. Họ có thể thích ChatGPT hoặc các mô hình địa phương đã được tối ưu hóa rõ ràng cho khả năng đa ngôn ngữ. Đây là một lĩnh vực mà Google có thể xuất sắc theo truyền thống (với công nghệ dịch thuật của mình), nhưng phản hồi của người dùng về vấn đề này còn ít ỏi – có thể cho thấy Gemini vẫn chưa gây ấn tượng với các cộng đồng đó.

  • Khách hàng doanh nghiệp (cho đến nay): Các tổ chức lớn chưa áp dụng rộng rãi Bard/Gemini dựa trên các cuộc trò chuyện công khai, thường là do khoảng cách về độ tin cậy và khả năng. Các doanh nghiệp cần sự nhất quán, trích dẫn và tích hợp với quy trình làm việc của họ (ví dụ, Office 365 được tích hợp sâu với công nghệ của OpenAI thông qua MS Copilot). Giải pháp tương đương của Google (Duet AI với Gemini) vẫn đang phát triển. Cho đến khi Gemini/Bard chứng minh được rằng nó có thể soạn thảo email, tạo bản trình bày hoặc phân tích dữ liệu trong Google Sheets một cách đáng tin cậy ở mức độ ngang bằng hoặc vượt trội hơn GPT-4, người dùng doanh nghiệp sẽ cảm thấy rằng giải pháp của Google chưa đáp ứng đầy đủ nhu cầu của họ. Một số bài đăng trên r/Bard từ các chuyên gia có nội dung tương tự như “Tôi đã thử Bard cho các tác vụ công việc, nó không tốt bằng ChatGPT, vì vậy chúng tôi sẽ chờ xem.” Điều đó cho thấy người dùng doanh nghiệp hiện là một phân khúc chưa được phục vụ đầy đủ – họ muốn một AI phù hợp với Google Workspace và thực sự tăng năng suất mà không cần xác minh đầu ra liên tục.

  • Người dùng trong hệ sinh thái Google thích giải pháp một cửa: Có một phân khúc người dùng sử dụng Google cho mọi thứ (tìm kiếm, email, tài liệu) và sẽ vui vẻ sử dụng AI của Google cho tất cả các nhu cầu chatbot của họ – nếu nó đủ tốt. Hiện tại, những người dùng này phần nào chưa được phục vụ đầy đủ vì họ cuối cùng phải sử dụng ChatGPT cho một số việc và Bard cho những việc khác. Họ có thể hỏi ChatGPT các câu hỏi thực tế vì họ tin tưởng chất lượng câu trả lời của nó hơn, nhưng lại sử dụng Bard cho khả năng duyệt web hoặc các nỗ lực tích hợp của nó. Trải nghiệm chia tách đó không lý tưởng. Những người dùng như vậy thực sự chỉ muốn ở trong một ứng dụng/trợ lý duy nhất. Nếu Gemini cải thiện, họ sẽ tập trung vào nó, nhưng cho đến lúc đó, trường hợp sử dụng “một trợ lý để cai trị tất cả” của họ vẫn chưa được đáp ứng.

  • Các nhà phát triển/nhà khoa học dữ liệu trên Google Cloud: Google đã phát hành các mô hình Gemini thông qua nền tảng Vertex AI của mình dành cho các nhà phát triển. Tuy nhiên, các báo cáo và điểm chuẩn ban đầu cho thấy Gemini (đặc biệt là mô hình “Gemini Pro” có sẵn) không vượt trội hơn GPT-4. Do đó, các nhà phát triển ưu tiên Google Cloud cho các dịch vụ AI phần nào chưa được phục vụ đầy đủ về chất lượng mô hình – họ phải chấp nhận một mô hình kém hơn một chút hoặc tích hợp API của OpenAI một cách riêng biệt. Phân khúc nhà phát triển doanh nghiệp này rất khao khát một mô hình Google mạnh mẽ để họ có thể giữ mọi thứ trong một ngăn xếp. Cho đến khi hiệu suất của Gemini rõ ràng vượt trội ở một số lĩnh vực hoặc giá cả đưa ra một lý do thuyết phục, nó vẫn chưa phục vụ đầy đủ nhu cầu của nhóm này về mặt cạnh tranh.

Sự khác biệt trong nhận thức theo loại người dùng

  • Nhà phát triển/Người đam mê công nghệ: Người dùng am hiểu công nghệ tiếp cận Gemini với kỳ vọng cao (dù sao thì đó cũng là Google). Nhận định của họ nhanh chóng trở nên tiêu cực sau khi thử nghiệm thực tế. Nhiều nhà phát triển trên Reddit đã chạy các bài kiểm tra hiệu năng hoặc các câu hỏi hóc búa yêu thích của họ thông qua Gemini và nhận thấy nó bị tụt hậu. Một lập trình viên thẳng thừng tuyên bố, “Gemini hoàn toàn là rác rưởi như Llama 3.0 trước đây”, cho thấy họ xếp nó thậm chí còn dưới một số mô hình mã nguồn mở. Các nhà phát triển đặc biệt nhạy cảm với lỗi logic và sự dài dòng. Vì vậy, khi Gemini đưa ra những câu trả lời dài dòng nhưng không chính xác, nó nhanh chóng mất đi sự tín nhiệm. Mặt khác, các nhà phát triển nhận ra tiềm năng của Google; một số vẫn hy vọng rằng “với nhiều tinh chỉnh hơn, Gemini sẽ tốt hơn” và họ định kỳ kiểm tra lại sau các bản cập nhật. Tuy nhiên, hiện tại, hầu hết các nhà phát triển đều nhận thấy nó kém hơn GPT-4 trong hầu hết các tác vụ nghiêm túc (viết mã, giải quyết vấn đề phức tạp). Họ đánh giá cao một số điều nhất định: ví dụ, Gemini có quyền truy cập thông tin thời gian thực (thông qua tìm kiếm của Google) mà không cần plugin, điều này hữu ích cho các truy vấn cập nhật. Một nhà phát triển có thể sử dụng Bard cho những việc như “tìm kiếm và tóm tắt các bài báo mới nhất về X,” nơi nó có thể trích dẫn dữ liệu web. Nhưng đối với suy luận độc lập, họ có xu hướng sử dụng các mô hình khác. Tóm lại, những người đam mê công nghệ coi Gemini là một dự án đầy hứa hẹn đang trong quá trình phát triển mà hiện tại cảm thấy lạc hậu một thế hệ. Nó chưa giành được sự tin tưởng hoàn toàn của họ, và họ thường đăng các so sánh song song làm nổi bật những lỗi của nó để thúc đẩy Google cải thiện.

  • Người dùng phổ thông/Hàng ngày: Người dùng phổ thông, bao gồm cả những người đã truy cập Bard mới trên điện thoại hoặc qua web, có những cảm xúc lẫn lộn. Nhiều người dùng phổ thông ban đầu tiếp cận Bard (Gemini) vì nó miễn phí và dễ dàng truy cập bằng tài khoản Google, không giống như GPT-4 bị tính phí. Một số người dùng phổ thông thực sự báo cáo trải nghiệm khá tốt cho các mục đích sử dụng đơn giản: ví dụ, một Redditor trong r/Bard đã đưa ra một đánh giá tích cực, lưu ý rằng Gemini đã giúp họ với những việc như xem xét tài liệu pháp lý, viết quảng cáo và thậm chí là một trường hợp sử dụng thú vị là xác định kích thước quần áo từ một bức ảnh. Họ nói “Gemini đã là một nguồn tài nguyên quý giá để trả lời các câu hỏi của tôi… thông tin cập nhật… Tôi đã quá quen với phiên bản trả phí đến nỗi tôi không thể nhớ phiên bản miễn phí hoạt động như thế nào.” – cho thấy rằng ít nhất một số người dùng phổ thông đã đầu tư thời gian (và tiền bạc) vào Bard Advanced đã thấy nó hữu ích trong cuộc sống hàng ngày. Những người dùng này có xu hướng sử dụng nó để được giúp đỡ thực tế, hàng ngày và có thể không đẩy mô hình đến giới hạn của nó. Tuy nhiên, nhiều người dùng phổ thông khác (đặc biệt là những người cũng đã thử ChatGPT) đã thất vọng. Những người bình thường hỏi những thứ như lời khuyên du lịch, câu đố hoặc giúp đỡ một nhiệm vụ đã thấy câu trả lời của Bard kém rõ ràng hoặc hữu ích hơn. Nhận định ở đây bị chia rẽ: người dùng Google trung thành với thương hiệu so với những người đã bị ChatGPT làm hư hỏng. Nhóm trước, nếu họ chưa sử dụng ChatGPT nhiều, đôi khi thấy Bard/Gemini “khá tốt” cho nhu cầu của họ và đánh giá cao việc nó được tích hợp với tìm kiếm và miễn phí. Nhóm sau gần như luôn so sánh và thấy Gemini còn thiếu sót. Họ có thể nói, “Tại sao tôi lại dùng Bard khi ChatGPT tốt hơn 90% thời gian?”. Vì vậy, nhận định của người dùng phổ thông thực sự phụ thuộc vào khung tham chiếu trước đây của họ. Những người mới sử dụng trợ lý AI có thể đánh giá Gemini là một điều mới lạ hữu ích; những người đã có kinh nghiệm với đối thủ cạnh tranh coi đó là một sự thất vọng mà “vẫn tệ đến mức đó” và cần phải cải thiện.

  • Người dùng doanh nghiệp/Chuyên nghiệp: Nhiều chuyên gia đã thử Bard khi nó ra mắt với tích hợp Google Workspace (Duet AI). Nhận định trong nhóm này là sự hoài nghi thận trọng. Một mặt, họ tin tưởng vào những lời hứa của Google về quyền riêng tư dữ liệu và tích hợp doanh nghiệp (ví dụ: chỉnh sửa tài liệu qua AI, tóm tắt cuộc họp từ lời mời Lịch, v.v.). Mặt khác, các thử nghiệm ban đầu thường cho thấy Gemini mắc lỗi thực tế hoặc cung cấp kết quả chung chung, điều này không tạo cảm hứng tin cậy cho việc sử dụng trong kinh doanh. Ví dụ, một chuyên gia có thể yêu cầu Bard soạn thảo một báo cáo khách hàng – nếu Bard chèn dữ liệu không chính xác hoặc thông tin chi tiết yếu kém, nó có thể gây rắc rối hơn là giúp ích. Do đó, người dùng chuyên nghiệp có xu hướng thử nghiệm Bard trên các tác vụ không quan trọng nhưng vẫn dựa vào GPT-4 hoặc Claude cho các kết quả quan trọng. Cũng có một nhận định rằng Google đang cố gắng bắt kịp: nhiều người coi Bard là “chưa sẵn sàng cho thời điểm vàng” và quyết định chờ đợi. Một số nhận định tích cực tồn tại trong các lĩnh vực như truy vấn dữ liệu thời gian thực – ví dụ, một nhà phân tích tài chính trên Reddit lưu ý rằng Bard có thể lấy thông tin thị trường gần đây nhờ tìm kiếm của Google, điều mà ChatGPT không thể làm được trừ khi các plugin được bật. Vì vậy, trong các lĩnh vực mà dữ liệu hiện tại là chìa khóa, một vài chuyên gia đã thấy một lợi thế. Một sắc thái khác: những người trong hệ sinh thái Google (ví dụ: các công ty chỉ sử dụng Google Workspace) có cái nhìn thuận lợi hơn một chút đơn giản vì Bard/Gemini là lựa chọn phù hợp với môi trường của họ. Họ đang ủng hộ nó cải thiện hơn là chuyển sang một hệ sinh thái hoàn toàn khác. Tóm lại, người dùng doanh nghiệp coi Gemini là có khả năng rất hữu ích (do dữ liệu và tích hợp công cụ của Google), nhưng tính đến đầu năm 2025, nó chưa giành được sự tin tưởng hoàn toàn. Họ coi đó là “đối thủ mới chưa thực sự đạt đến trình độ” – đáng để theo dõi, nhưng chưa phải là lựa chọn hàng đầu cho các tác vụ quan trọng. Uy tín của Google mang lại cho nó một chút kiên nhẫn từ nhóm này, nhưng không phải vô thời hạn; nếu Gemini không cải thiện đáng kể, các chuyên gia có thể không áp dụng nó rộng rãi, mà vẫn gắn bó với các giải pháp khác.

LLM mã nguồn mở (ví dụ: các mô hình dựa trên LLaMA)

Những Điểm Khó Khăn và Hạn Chế Thường Gặp

  • Yêu cầu về phần cứng và cài đặt: Không giống như các chatbot đám mây, các LLM mã nguồn mở thường yêu cầu người dùng chạy chúng trên phần cứng cục bộ hoặc máy chủ. Điều này ngay lập tức gây ra một vấn đề: nhiều mô hình (ví dụ, mô hình LLaMA 70 tỷ tham số) cần một GPU mạnh mẽ với nhiều VRAM để chạy mượt mà. Như một Redditor đã tóm tắt ngắn gọn, “Các LLM cục bộ trên hầu hết phần cứng tiêu dùng sẽ không có độ chính xác cần thiết cho bất kỳ phát triển phức tạp nào.” Đối với người bình thường chỉ có GPU 8GB hoặc 16GB (hoặc chỉ CPU), việc chạy một mô hình chất lượng cao có thể chậm hoặc hoàn toàn không khả thi. Người dùng có thể phải dùng đến các mô hình nhỏ hơn phù hợp, nhưng những mô hình đó thường cho ra kết quả chất lượng thấp hơn (phản hồi “kém thông minh” hơn). Sự phức tạp của việc cài đặt là một vấn đề khác – cài đặt trọng số mô hình, thiết lập môi trường như Oobabooga hoặc LangChain, quản lý thư viện tokenization, v.v., có thể gây khó khăn cho những người không phải là nhà phát triển. Ngay cả những người dùng có kỹ năng kỹ thuật cũng mô tả đó là một rắc rối khi phải cập nhật các phiên bản mô hình mới, các lỗi nhỏ của trình điều khiển GPU, v.v. Một chủ đề có tiêu đề “Nghiêm túc mà nói, bạn thực sự sử dụng LLM cục bộ như thế nào?” đã có những người chia sẻ rằng nhiều mô hình “hoặc hoạt động kém hiệu quả hoặc không chạy mượt mà trên phần cứng của tôi”, và hỏi xin lời khuyên thực tế.

  • Hiệu suất kém hơn so với các mô hình đóng tiên tiến nhất: Các mô hình mã nguồn mở đã có những tiến bộ nhanh chóng, nhưng tính đến năm 2025, nhiều người dùng nhận thấy chúng vẫn còn tụt hậu so với các mô hình độc quyền hàng đầu (GPT-4, Claude) về khả năng suy luận phức tạp, lập trình và độ chính xác về thông tin. Một ví dụ rõ ràng: một người dùng trên r/LocalLLaMA đã so sánh các đầu ra bằng ngôn ngữ mẹ đẻ của họ và nói “Mọi mô hình khác tôi đã thử đều thất bại… Chúng không thể sánh được [với GPT-4]. ChatGPT 4 hoàn toàn tuyệt vời trong việc viết”. Quan điểm này được lặp lại rộng rãi: trong khi các mô hình mở nhỏ hơn (như 13B hoặc 7B đã được tinh chỉnh) có thể ấn tượng về kích thước của chúng, chúng lại gặp khó khăn với các tác vụ yêu cầu hiểu biết sâu sắc hoặc logic đa bước. Ngay cả các mô hình mở lớn hơn (65B, 70B) đạt đến cấp độ GPT-3.5 vẫn có thể gặp khó khăn với những vấn đề phức tạp mà GPT-4 xử lý. Người dùng nhận thấy nhiều ảo giác và lỗi hơn trong các mô hình mở, đặc biệt là về kiến thức chuyên biệt hoặc khi các lời nhắc hơi lệch khỏi phân phối huấn luyện. Vì vậy, khoảng cách về khả năng thô là một vấn đề – người ta phải điều chỉnh kỳ vọng khi sử dụng các mô hình cục bộ, điều này có thể gây khó chịu cho những người đã quen với độ tin cậy của ChatGPT.

  • Độ dài ngữ cảnh hạn chế: Hầu hết các LLM mã nguồn mở theo truyền thống có cửa sổ ngữ cảnh nhỏ hơn (2048 token, có thể 4k token) so với những gì ChatGPT hoặc Claude cung cấp. Một số tinh chỉnh và kiến trúc mới hơn đang mở rộng điều này (ví dụ, có các phiên bản LLaMA-2 8K hoặc 16K token, và nghiên cứu như MPT-7B có ngữ cảnh 16K). Tuy nhiên, việc sử dụng thực tế các mô hình mở có ngữ cảnh rất dài vẫn đang ở giai đoạn đầu. Điều này có nghĩa là người dùng mô hình cục bộ phải đối mặt với các vấn đề bộ nhớ tương tự – mô hình quên các phần trước đó của cuộc trò chuyện hoặc văn bản, trừ khi họ triển khai các lược đồ bộ nhớ ngoài (như cơ sở dữ liệu vector để truy xuất). Trong các cuộc thảo luận trên Reddit, người dùng thường đề cập đến việc phải tự tóm tắt hoặc cắt bớt lịch sử để giữ trong giới hạn, điều này rất tốn công. Đây là một hạn chế đáng chú ý đặc biệt khi các mô hình độc quyền đang đẩy giới hạn độ dài ngữ cảnh xa hơn (như 100k của Claude).

  • Thiếu khả năng tuân thủ hướng dẫn được tinh chỉnh trong một số mô hình: Mặc dù nhiều mô hình mở được điều chỉnh theo hướng dẫn (Alpaca, LLaMA-2-Chat, v.v.), không phải tất cả đều được huấn luyện RLHF nghiêm ngặt như ChatGPT. Điều này có thể dẫn đến việc các mô hình cục bộ đôi khi ít phản hồi hơn với các hướng dẫn hoặc lời nhắc hệ thống. Ví dụ, một mô hình LLaMA thô sẽ chỉ tiếp tục văn bản và hoàn toàn bỏ qua định dạng lời nhắc của người dùng – người ta phải sử dụng phiên bản được điều chỉnh cho trò chuyện. Ngay cả khi đó, chất lượng dữ liệu điều chỉnh cũng quan trọng. Một số người dùng Reddit lưu ý rằng một số mô hình hướng dẫn hoặc quá từ chối (vì chúng được điều chỉnh với độ an toàn cao, ví dụ một số chat LLaMA-2 của Facebook sẽ trả lời bằng các từ chối chính sách tương tự ChatGPT) hoặc hoạt động kém hiệu quả (không tuân thủ chính xác truy vấn). Một lời phàn nàn của người dùng trên GitHub về CodeLlama-70B-instruct nói rằng nó “bị kiểm duyệt đến mức gần như vô dụng”, cho thấy sự thất vọng khi một mô hình mở áp dụng cùng một sự nghiêm ngặt mà không có lựa chọn tắt nó đi. Vì vậy, tùy thuộc vào mô hình được chọn, người dùng có thể đối mặt với một mô hình quá lỏng lẻo (và đưa ra phần tiếp theo không liên quan) hoặc một mô hình quá nghiêm ngặt/cẩn trọng. Để có được một hành vi tuân thủ hướng dẫn cân bằng tốt thường yêu cầu thử nhiều tinh chỉnh.

  • Sự phân mảnh và thay đổi nhanh chóng: Bức tranh LLM mã nguồn mở phát triển cực kỳ nhanh chóng, với các mô hình và kỹ thuật mới (lượng tử hóa, tinh chỉnh LoRA, v.v.) xuất hiện hàng tuần. Mặc dù thú vị, đây là một vấn đề đối với những người dùng không muốn liên tục điều chỉnh thiết lập của họ. Những gì hoạt động vào tháng trước có thể đã lỗi thời vào tháng này. Một Redditor đã ví von một cách hài hước nó như miền Tây hoang dã, nói rằng cộng đồng đang “tìm cách ‘giả mạo’ để nó có cảm giác tương tự [GPT-4]” nhưng thường thì đây là những giải pháp tạm thời. Đối với một người dùng thông thường, việc lựa chọn từ hàng chục tên mô hình (Vicuna, Alpaca, Mythomax, Mistral, v.v.), mỗi mô hình có nhiều phiên bản và nhánh, đã là một thách thức. Không có một nền tảng thống nhất duy nhất, người dùng phải dựa vào các hướng dẫn của cộng đồng – điều này có thể gây nhầm lẫn – để quyết định mô hình nào phù hợp với nhu cầu của họ. Sự phân mảnh trong các công cụ và chất lượng mô hình này là một vấn đề gián tiếp: nó làm tăng rào cản gia nhập và nỗ lực bảo trì.

  • Không có hỗ trợ hoặc đảm bảo chính thức: Khi có điều gì đó không ổn với một LLM cục bộ (ví dụ, mô hình đưa ra nội dung xúc phạm hoặc bị treo), không có bộ phận hỗ trợ khách hàng để gọi. Người dùng phải tự mình giải quyết hoặc dựa vào sự giúp đỡ của cộng đồng. Đối với những người có sở thích thì điều này không sao, nhưng đối với việc sử dụng chuyên nghiệp, việc thiếu hỗ trợ chính thức này là một rào cản. Một số người dùng Reddit làm việc trong các công ty lưu ý rằng mặc dù họ rất thích sự riêng tư của một mô hình mở, họ lo lắng không biết phải tìm đến ai nếu mô hình gặp trục trặc hoặc nếu họ cần cập nhật. Về cơ bản, sử dụng mã nguồn mở là tự làm – vừa là điểm mạnh vừa là điểm yếu.

Các Tính Năng Hoặc Cải Tiến Được Yêu Cầu Thường Xuyên

  • Hiệu quả tốt hơn (lượng tử hóa và tối ưu hóa): Một trọng tâm chính trong cộng đồng (và do đó là một yêu cầu phổ biến) là làm cho các mô hình lớn chạy trên phần cứng nhỏ hơn. Người dùng háo hức chờ đợi các kỹ thuật cho phép một mô hình 70B chạy mượt mà như một mô hình 7B. Đã có lượng tử hóa 4-bit hoặc 8-bit, và các chủ đề thường thảo luận về các phương pháp mới như AWQ hoặc các bộ điều hợp (adapter) kiểu RNN. Một người dùng đã trích dẫn nghiên cứu cho thấy lượng tử hóa được cải thiện có thể duy trì chất lượng ở độ chính xác bit thấp hơn. Mong muốn về cơ bản là: “Hãy để tôi chạy một mô hình cấp độ GPT-4 trên PC của mình mà không bị lag.” Mọi đột phá tiến gần hơn (như kiến trúc transformer hiệu quả hơn hoặc chuyển tải từ GPU sang CPU) đều được hoan nghênh. Vì vậy, các yêu cầu về công cụ tốt hơn (như thế hệ tiếp theo của llama.cpp hoặc các bộ tăng tốc khác) là phổ biến – bất cứ điều gì để giảm rào cản phần cứng.

  • Các mô hình lớn hơn và tốt hơn (thu hẹp khoảng cách chất lượng): Cộng đồng liên tục thúc đẩy các mô hình mã nguồn mở tiên tiến nhất mới. Người dùng rất hào hứng với các dự án như LLaMA 3 (nếu/khi Meta phát hành) hoặc các hợp tác có thể tạo ra một mô hình mã nguồn mở hơn 100B. Nhiều người bày tỏ sự lạc quan rằng “chúng ta sẽ có các mô hình GPT-4 cục bộ trên máy của mình vào cuối năm nay”. Trong câu trích dẫn đó, người dùng đặt cược vào LLaMA 3 cộng với tinh chỉnh để mang lại hiệu suất giống GPT-4. Vì vậy, có thể nói một “tính năng được yêu cầu” đơn giản là: nhiều trọng số hơn, nhiều huấn luyện hơn – cộng đồng muốn các công ty công nghệ hoặc nhóm nghiên cứu mở mã nguồn các mô hình lớn hơn, tốt hơn để họ có thể chạy chúng cục bộ. Mỗi khi một mô hình mới (như Mistral 7B hoặc Falcon 40B) ra mắt, người dùng đều kiểm tra xem nó có đánh bại mô hình trước đó không. Yêu cầu cuối cùng là một mô hình mã nguồn mở thực sự cạnh tranh với GPT-4, loại bỏ nhu cầu về AI đóng đối với những người có thể lưu trữ nó.

  • Giao diện thân thiện với người dùng và thiết lập một lần nhấp: Để mở rộng phạm vi áp dụng, nhiều người dùng yêu cầu các cách dễ dàng hơn để sử dụng các LLM cục bộ. Điều này bao gồm các giao diện GUI nơi người ta có thể tải xuống một mô hình và bắt đầu trò chuyện mà không cần làm việc với dòng lệnh. Có các dự án đang giải quyết vấn đề này (Oobabooga’s text-generation-webui, LM Studio, v.v.), nhưng những người mới vẫn gặp khó khăn. Một chủ đề Reddit gần đây có thể hỏi, “Làm cách nào để thiết lập một LLM giống ChatGPT cục bộ?”, với người dùng yêu cầu hướng dẫn từng bước. Vì vậy, một mong muốn thường xuyên là cài đặt đơn giản hóa – có thể là một ứng dụng chính thức hoặc container Docker gói gọn mọi thứ cần thiết, hoặc tích hợp vào các phần mềm phổ biến (hãy tưởng tượng một tiện ích mở rộng mang LLM cục bộ vào VSCode hoặc Chrome một cách dễ dàng). Về cơ bản, giảm gánh nặng kỹ thuật để những người ít am hiểu công nghệ cũng có thể tận hưởng các LLM riêng tư.

  • Ngữ cảnh dài hơn và bộ nhớ cho các mô hình cục bộ: Các nhà phát triển và người dùng mã nguồn mở đang thử nghiệm việc mở rộng ngữ cảnh (thông qua điều chỉnh nhúng vị trí hoặc các mô hình chuyên biệt). Nhiều người dùng yêu cầu các mô hình mới đi kèm với cửa sổ ngữ cảnh dài hơn theo mặc định – ví dụ, một mô hình mã nguồn mở với ngữ cảnh 32k sẽ rất hấp dẫn. Cho đến khi điều đó xảy ra, một số người dựa vào các giải pháp “truy xuất” bên ngoài (LangChain với kho vector cung cấp thông tin liên quan vào lời nhắc). Người dùng trên r/LocalLLaMA thường xuyên thảo luận về các thiết lập của họ cho ngữ cảnh giả dài, nhưng cũng bày tỏ mong muốn các mô hình tự xử lý nhiều hơn. Vì vậy, một cải tiến họ tìm kiếm là: “Hãy cung cấp cho chúng tôi một Claude cục bộ – một thứ gì đó với hàng chục nghìn token ngữ cảnh.” Điều này sẽ cho phép họ phân tích sách, các cuộc hội thoại dài hoặc làm việc với cơ sở mã lớn cục bộ.

  • Công cụ tinh chỉnh và tùy chỉnh mô hình được cải thiện: Một yêu cầu khác là làm cho việc tinh chỉnh hoặc cá nhân hóa mô hình dễ dàng hơn. Mặc dù các thư viện tồn tại để tinh chỉnh mô hình trên dữ liệu mới (Alpaca đã làm điều đó với 52K hướng dẫn, Low-Rank Adaptation (LoRA) cho phép tinh chỉnh với tài nguyên tính toán hạn chế, v.v.), nhưng nó vẫn còn khá phức tạp. Người dùng muốn có các công cụ dễ tiếp cận hơn để, chẳng hạn, cung cấp tất cả các bài viết hoặc tài liệu công ty của họ cho mô hình và để nó tự điều chỉnh. Các dự án như LoRA là những bước đi đúng hướng, nhưng một giải pháp tự động hơn (có thể là giao diện wizard: “tải tài liệu của bạn lên đây để tinh chỉnh”) sẽ được hoan nghênh. Về cơ bản, mang khả năng mà OpenAI cung cấp qua API (tinh chỉnh mô hình trên dữ liệu tùy chỉnh) đến môi trường cục bộ một cách thân thiện với người dùng.

  • Các công cụ an toàn và kiểm duyệt do cộng đồng phát triển: Với việc các mô hình mã nguồn mở có thể tạo ra bất cứ thứ gì (bao gồm cả nội dung không được phép), một số người dùng đã yêu cầu hoặc bắt đầu phát triển các lớp kiểm duyệt mà người dùng có thể bật/tắt hoặc điều chỉnh. Điều này hơi ngách, nhưng ý tưởng là có các bộ lọc tùy chọn để bắt các đầu ra quá đáng nếu ai đó muốn chúng (ví dụ, nếu trẻ em hoặc học sinh có thể tương tác với mô hình cục bộ). Vì các mô hình mã nguồn mở sẽ không tự dừng lại, việc có một plugin hoặc script để quét các đầu ra tìm nội dung cực đoan có thể hữu ích. Một số người trong cộng đồng làm việc trên “rào cản đạo đức” mà bạn có thể chọn tham gia, điều này thú vị vì nó mang lại quyền kiểm soát cho người dùng. Vì vậy, các tính năng xoay quanh kiểm soát hành vi của mô hình – cho dù để làm cho nó an toàn hơn hay để loại bỏ các biện pháp an toàn – thường được thảo luận và yêu cầu, tùy thuộc vào mục tiêu của người dùng.

Nhu cầu chưa được đáp ứng hoặc phân khúc người dùng

  • Người dùng không chuyên về kỹ thuật nhưng coi trọng quyền riêng tư: Hiện tại, các LLM cục bộ chủ yếu phục vụ những người đam mê công nghệ. Một người không am hiểu máy tính nhưng quan tâm đến quyền riêng tư dữ liệu (ví dụ: một nhà trị liệu tâm lý muốn AI giúp phân tích ghi chú nhưng không thể tải chúng lên đám mây) đang bị bỏ qua. Họ cần một giải pháp cục bộ dễ sử dụng và an toàn, nhưng sự phức tạp là một rào cản. Cho đến khi AI cục bộ trở nên dễ dàng như cài đặt một ứng dụng, những người dùng này vẫn đứng ngoài cuộc – hoặc thỏa hiệp bằng cách sử dụng AI đám mây và chấp nhận rủi ro về quyền riêng tư, hoặc không sử dụng AI chút nào. Phân khúc này – những cá nhân coi trọng quyền riêng tư nhưng không quá am hiểu kỹ thuật – rõ ràng đang chưa được phục vụ đầy đủ bởi các sản phẩm mã nguồn mở hiện tại.

  • Người dùng có ngân sách hạn hẹp ở các khu vực có internet kém: Một phân khúc khác được hưởng lợi từ các mô hình cục bộ là những người không có internet đáng tin cậy hoặc không đủ khả năng chi trả cho các cuộc gọi API. Nếu ai đó có thể có một chatbot ngoại tuyến tốt trên một máy tính cấu hình thấp, điều đó sẽ rất có giá trị (hãy tưởng tượng các nhà giáo dục hoặc sinh viên ở vùng sâu vùng xa). Hiện tại, chất lượng ngoại tuyến có thể không tốt trừ khi bạn có một PC cao cấp. Có một số mô hình rất nhỏ chạy trên điện thoại, nhưng khả năng của chúng bị hạn chế. Vì vậy, những người dùng cần AI ngoại tuyến – do kết nối hoặc chi phí – là một nhóm mà mã nguồn mở có thể phục vụ, nhưng công nghệ chỉ mới ở ngưỡng đủ hữu ích. Họ sẽ được phục vụ tốt hơn khi các mô hình trở nên hiệu quả hơn.

  • Người tạo nội dung NSFW hoặc nội dung chuyên biệt: Một lý do khiến các mô hình mở trở nên phổ biến là chúng có thể không bị kiểm duyệt, cho phép các trường hợp sử dụng mà các AI đóng cấm (nhập vai khiêu dâm, khám phá tiểu thuyết bạo lực, v.v.). Mặc dù phân khúc "chưa được phục vụ" này gây tranh cãi, nhưng nó là có thật – nhiều cộng đồng Reddit (ví dụ: cho AI Dungeon hoặc chatbot nhân vật) đã chuyển sang các mô hình cục bộ sau khi OpenAI và các nhà cung cấp khác thắt chặt các quy tắc nội dung. Những người dùng này hiện đang được phục vụ bởi các mô hình mở ở một mức độ nào đó, nhưng họ thường phải tìm hoặc tinh chỉnh các mô hình đặc biệt cho mục đích này (như Mythomax cho kể chuyện, v.v.). Đôi khi họ than phiền rằng nhiều mô hình mở vẫn còn sót lại các khóa huấn luyện an toàn (từ chối một số yêu cầu nhất định). Vì vậy, họ mong muốn các mô hình được tinh chỉnh rõ ràng cho sự sáng tạo không kiểm duyệt. Có thể nói họ đang được phục vụ (vì họ có giải pháp), nhưng không phải bởi các mặc định chính thống – họ dựa vào các nhánh cộng đồng ngách.

  • Cộng đồng ngôn ngữ và văn hóa: Các mô hình mã nguồn mở có thể được tinh chỉnh cho các ngôn ngữ cụ thể hoặc kiến thức địa phương, nhưng hầu hết các mô hình nổi bật đều tập trung vào tiếng Anh. Người dùng từ các cộng đồng không nói tiếng Anh có thể chưa được phục vụ đầy đủ vì cả OpenAI và các mô hình mở đều không đáp ứng hoàn hảo ngôn ngữ/tiếng lóng/ngữ cảnh văn hóa của họ. Có những nỗ lực (như BLOOM và các biến thể XLM) để xây dựng các mô hình mở đa ngôn ngữ, và người dùng cục bộ yêu cầu tinh chỉnh bằng các ngôn ngữ như tiếng Tây Ban Nha, tiếng Ả Rập, v.v. Nếu ai đó muốn một chatbot thông thạo sâu sắc phương ngữ khu vực của họ hoặc cập nhật tin tức địa phương (bằng ngôn ngữ của họ), các mô hình lớn có thể không đáp ứng được. Đây là một phân khúc mà các mô hình mở có thể phục vụ tốt (thông qua tinh chỉnh cộng đồng) – và trên Reddit, chúng ta thấy mọi người hợp tác để tạo ra, chẳng hạn, một LLM được tinh chỉnh tiếng Nhật. Nhưng cho đến khi các mô hình như vậy sẵn có và chất lượng cao, những người dùng này vẫn còn phần nào chưa được phục vụ.

  • Doanh nghiệp nhỏ và người tự lưu trữ: Một số công ty nhỏ hoặc người dùng cao cấp muốn triển khai một mô hình AI nội bộ để tránh gửi dữ liệu ra ngoài. Họ phần nào được phục vụ bởi mã nguồn mở ở chỗ điều đó là có thể, nhưng họ phải đối mặt với những thách thức trong việc đảm bảo chất lượng và bảo trì. Không giống như các doanh nghiệp lớn (có thể trả tiền cho OpenAI hoặc một giải pháp được lưu trữ), các doanh nghiệp nhỏ có thể cố gắng tự lưu trữ để tiết kiệm chi phí và bảo vệ IP. Khi làm như vậy, họ có thể thấy mô hình không tốt bằng, hoặc khó cập nhật. Phân khúc này ở một vị trí trung gian – không đủ lớn để xây dựng mô hình riêng từ đầu, nhưng đủ khả năng để thử sử dụng các mô hình mở. Họ thường chia sẻ các mẹo trên Reddit về mô hình nào hoạt động tốt cho bot dịch vụ khách hàng, v.v. Họ có thể hưởng lợi từ các giải pháp chìa khóa trao tay hơn được xây dựng trên các mô hình mở (một số công ty khởi nghiệp đang nổi lên trong không gian này).

Sự khác biệt trong nhận thức theo loại người dùng

  • Nhà phát triển/Người có sở thích: Nhóm này là xương sống của cộng đồng LLM mã nguồn mở trên Reddit (ví dụ: r/LocalLLaMA có rất nhiều thành viên thuộc nhóm này). Nhận thức của họ thường lạc quan và nhiệt tình. Họ trao đổi các mô hình và điểm chuẩn như những nhà sưu tầm. Nhiều nhà phát triển rất phấn khích về những tiến bộ mà các mô hình mở đã đạt được trong thời gian ngắn. Ví dụ, một người dùng đã chia sẻ rằng một mô hình 70B bị rò rỉ được tinh chỉnh (Miqu-1 70B) cảm thấy “ngang bằng với GPT-4 cho những gì tôi cần… Tôi đã hủy đăng ký ChatGPT+ của mình vài tháng trước và không bao giờ hối hận”. Điều này minh họa cho nhóm nhỏ các nhà phát triển đã tùy chỉnh được một giải pháp mở đáp ứng các trường hợp sử dụng cá nhân của họ – họ xem các mô hình mở là giải phóng và tiết kiệm chi phí. Mặt khác, các nhà phát triển cũng nhìn rõ những hạn chế. Một người dùng khác trả lời rằng họ rất muốn hủy ChatGPT, “Tôi sẽ làm nếu có bất cứ thứ gì có thể so sánh được với ChatGPT 4… [nhưng] mọi mô hình khác đều thất bại… Chúng không thể sánh bằng”, đặc biệt là về chất lượng viết sáng tạo. Vì vậy, trong nhóm này, nhận thức khác nhau dựa trên mục đích sử dụng AI của họ. Nhìn chung: nếu nhiệm vụ là động não hoặc viết mã với một mức độ chấp nhận lỗi nhất định, nhiều nhà phát triển đã hài lòng với các mô hình cục bộ. Nếu nhiệm vụ đòi hỏi độ chính xác cao hoặc sự sáng tạo hàng đầu, họ thừa nhận các mô hình mở vẫn chưa đạt đến trình độ đó. Nhưng ngay cả khi thừa nhận những thiếu sót, giọng điệu vẫn đầy hy vọng – họ thường nói “chúng ta gần như đã đạt được” hoặc chỉ là vấn đề thời gian. Quan trọng hơn, các nhà phát triển tận hưởng sự tự do và kiểm soát của các mô hình mở. Họ có thể tinh chỉnh, điều chỉnh hoặc thậm chí xem xét cách hoạt động của mô hình, điều mà các API đóng không cho phép. Điều này thúc đẩy ý thức sở hữu cộng đồng. Vì vậy, nhận thức của họ là các LLM mở là một nỗ lực đáng giá, đang cải thiện nhanh chóng và phù hợp về mặt triết lý với sự tự do công nghệ. Họ chấp nhận những điểm chưa hoàn hảo như cái giá của sự tự do đó.

  • Người dùng phổ thông: Người dùng phổ thông thuần túy (không đặc biệt quan tâm đến quyền riêng tư hoặc công nghệ) thường không bận tâm đến LLM mã nguồn mở – và nếu có, họ sẽ sử dụng thông qua một ứng dụng đơn giản hóa nào đó. Do đó, nhận thức của họ phần nào không rõ ràng hoặc bị ảnh hưởng bởi tin đồn. Nếu một người không chuyên về kỹ thuật thử một LLM cục bộ và thấy nó chậm hoặc đưa ra câu trả lời kỳ lạ, họ có thể sẽ kết luận rằng nó không đáng để bận tâm. Ví dụ, một game thủ hoặc sinh viên có thể thử một mô hình 7B cho vui, thấy nó hoạt động kém hơn so với ChatGPT, và từ bỏ. Vì vậy, trong số những người quan sát thông thường, nhận thức về các mô hình mở có thể là chúng là “đồ chơi cho dân mọt sách” hoặc chỉ dành cho những người thực sự quan tâm đến việc không sử dụng dịch vụ đám mây. Điều này đang dần thay đổi khi nhiều ứng dụng thân thiện với người dùng hơn xuất hiện, nhưng nhìn chung, người dùng phổ thông điển hình trên Reddit không mấy ca ngợi LLM mở – họ thường thảo luận về ChatGPT hoặc Bard vì những công cụ đó dễ tiếp cận hơn. Tuy nhiên, một nhóm nhỏ người dùng phổ thông chủ yếu muốn, ví dụ, nhập vai không kiểm duyệt đã học cách tải xuống một thứ gì đó như TavernAI với một mô hình và họ nhận thấy nó rất tuyệt vời cho mục đích chuyên biệt đó. Họ thậm chí có thể không biết tên mô hình (chỉ biết đó là một “AI không kiểm duyệt và không phán xét tôi”). Tóm lại, nhận thức của người dùng phổ thông trung bình là thờ ơ (họ chưa thử) hoặc cho rằng mã nguồn mở hơi thô và phức tạp để sử dụng hàng ngày.

  • Người dùng doanh nghiệp/Chuyên nghiệp: Thái độ của giới chuyên nghiệp đối với LLM mở là thực dụng. Một số người dùng doanh nghiệp am hiểu công nghệ trên Reddit đề cập đến việc sử dụng các mô hình cục bộ để bảo mật quyền riêng tư – ví dụ, chạy một LLM trên dữ liệu nội bộ để trả lời các câu hỏi cụ thể của công ty mà không gửi thông tin đến OpenAI. Những người dùng này coi LLM mở là một phương tiện để đạt được mục đích – họ có thể không yêu thích mô hình đó tự thân nó, nhưng nó đáp ứng một yêu cầu (dữ liệu được giữ nội bộ). Thông thường, họ sẽ chọn một mô hình mở