پرش به محتوای اصلی

بازخورد کاربران Reddit در مورد ابزارهای چت LLM اصلی

· 48 دقیقه خواندن
Lark Birdy
Chief Bird Officer

بررسی کلی: این گزارش به تحلیل بحث‌های Reddit درباره چهار ابزار چت هوش مصنوعی محبوب – ChatGPT از OpenAI، Claude از Anthropic، Gemini (Bard) از Google و LLMهای منبع باز (مانند مدل‌های مبتنی بر LLaMA) می‌پردازد. این گزارش نقاط ضعف مشترک گزارش شده توسط کاربران برای هر یک از این ابزارها، ویژگی‌هایی که بیشتر درخواست می‌شوند، نیازهای برآورده نشده یا بخش‌های کاربری که احساس می‌کنند به خوبی خدمت‌رسانی نشده‌اند، و تفاوت‌های درک میان توسعه‌دهندگان، کاربران عادی و کاربران تجاری را خلاصه می‌کند. مثال‌ها و نقل‌قول‌های خاص از رشته‌های Reddit برای روشن کردن این نقاط گنجانده شده است.

بازخورد کاربران Reddit در مورد ابزارهای چت LLM اصلی

ChatGPT (OpenAI)

نقاط ضعف و محدودیت‌های مشترک

  • حافظه محدود زمینه: یکی از شکایات اصلی ناتوانی ChatGPT در مدیریت مکالمات طولانی یا اسناد بزرگ بدون فراموش کردن جزئیات قبلی است. کاربران اغلب به محدودیت طول زمینه (چند هزار توکن) برخورد می‌کنند و باید اطلاعات را خلاصه یا قطع کنند. یکی از کاربران اشاره کرد که "افزایش اندازه پنجره زمینه به مراتب بزرگترین بهبود خواهد بود... این محدودیتی است که بیشتر با آن مواجه می‌شوم". وقتی زمینه بیش از حد می‌شود، ChatGPT دستورالعمل‌ها یا محتوای اولیه را فراموش می‌کند که منجر به افت کیفیت ناامیدکننده در میانه جلسه می‌شود.

  • محدودیت‌های پیام برای GPT-4: کاربران ChatGPT Plus از محدودیت ۲۵ پیام/۳ ساعت در استفاده از GPT-4 (محدودیتی که در سال ۲۰۲۳ وجود داشت) ناراضی هستند. رسیدن به این محدودیت آن‌ها را مجبور به انتظار می‌کند و کار را قطع می‌کند. کاربران سنگین این محدودیت را یک نقطه ضعف بزرگ می‌دانند.

  • فیلترهای محتوای سختگیرانه ("نرف‌ها"): بسیاری از کاربران Reddit احساس می‌کنند ChatGPT بیش از حد محدود شده است و اغلب درخواست‌هایی را که نسخه‌های قبلی انجام می‌دادند، رد می‌کند. یک پست با رأی بالا شکایت کرد که "تقریباً هر چیزی که این روزها از آن می‌خواهید، پاسخ 'متأسفم، نمی‌توانم کمک کنم' را برمی‌گرداند... چگونه از مفیدترین ابزار به معادل Google Assistant تبدیل شد؟". کاربران به مثال‌هایی اشاره می‌کنند که ChatGPT از فرمت‌بندی مجدد متن خودشان (مثلاً اعتبارنامه‌های ورود) به دلیل سوءاستفاده فرضی امتناع می‌کند. مشترکان پرداختی استدلال می‌کنند که "برخی ایده‌های مبهم که کاربر ممکن است کار 'بدی' انجام دهد... نباید دلیلی برای نمایش ندادن نتایج باشد", زیرا آن‌ها خروجی مدل را می‌خواهند و به طور مسئولانه از آن استفاده خواهند کرد.

  • توهمات و اشتباهات: با وجود قابلیت پیشرفته‌اش، ChatGPT می‌تواند اطلاعات نادرست یا ساختگی با اطمینان تولید کند. برخی از کاربران مشاهده کرده‌اند که این وضعیت با گذشت زمان بدتر شده و مشکوک هستند که مدل "کاهش داده شده است". برای مثال، یک کاربر در حوزه مالی گفت که ChatGPT قبلاً معیارهایی مانند NPV یا IRR را به درستی محاسبه می‌کرد، اما پس از به‌روزرسانی‌ها "من تعداد زیادی پاسخ نادرست دریافت می‌کنم... هنوز هم پاسخ‌های نادرست تولید می‌کند [حتی پس از تصحیح]. واقعاً معتقدم که از زمان تغییرات بسیار کندتر شده است.". چنین نادرستی‌های غیرقابل پیش‌بینی اعتماد را برای وظایفی که نیاز به دقت واقعی دارند، از بین می‌برد.

  • خروجی‌های کد ناقص: توسعه‌دهندگان اغلب از ChatGPT برای کمک به کدنویسی استفاده می‌کنند، اما گزارش می‌دهند که گاهی اوقات بخش‌هایی از راه‌حل را حذف می‌کند یا کد طولانی را قطع می‌کند. یکی از کاربران به اشتراک گذاشت که ChatGPT اکنون "کد را حذف می‌کند، کد غیرمفید تولید می‌کند و فقط در کاری که نیاز دارم انجام دهد، ضعیف است... اغلب آنقدر کد را حذف می‌کند که حتی نمی‌دانم چگونه راه‌حل آن را ادغام کنم.". این کاربران را مجبور می‌کند که درخواست‌های پیگیری برای استخراج بقیه بپرسند یا به صورت دستی پاسخ‌ها را به هم بپیوندند – یک فرآیند خسته‌کننده.

  • نگرانی‌های عملکرد و زمان کار: این تصور وجود دارد که عملکرد ChatGPT برای کاربران فردی با افزایش استفاده سازمانی کاهش یافته است. "فکر می‌کنم آن‌ها پهنای باند و قدرت پردازش را به کسب‌وکارها اختصاص می‌دهند و آن را از کاربران کم می‌کنند، که با توجه به هزینه اشتراک غیرقابل تحمل است!" یکی از مشترکان Plus ناراضی اظهار داشت. قطعی‌ها یا کندی‌ها در زمان‌های اوج به صورت غیررسمی گزارش شده‌اند که می‌تواند جریان کار را مختل کند.

ویژگی‌ها یا بهبودهای درخواست‌شده مکرر

  • پنجره زمینه طولانی‌تر / حافظه: به مراتب بیشترین درخواست بهبود، طول زمینه بزرگ‌تر است. کاربران می‌خواهند مکالمات بسیار طولانی‌تری داشته باشند یا اسناد بزرگ را بدون تنظیم مجدد وارد کنند. بسیاری پیشنهاد می‌دهند که زمینه ChatGPT به اندازه قابلیت 32K توکن GPT-4 (که در حال حاضر از طریق API در دسترس است) یا بیشتر گسترش یابد. همانطور که یکی از کاربران بیان کرد، "GPT با زمینه بهترین است و وقتی آن زمینه اولیه را به خاطر نمی‌آورد، من ناامید می‌شوم... اگر شایعات درباره PDFهای زمینه درست باشد، اساساً تمام مشکلاتم را حل می‌کند." تقاضای زیادی برای ویژگی‌هایی وجود دارد که به کاربران اجازه می‌دهد اسناد را بارگذاری کنند یا داده‌های شخصی را پیوند دهند تا ChatGPT بتواند آن‌ها را در طول یک جلسه به خاطر بسپارد و به آن‌ها ارجاع دهد.

  • مدیریت فایل و یکپارچه‌سازی: کاربران اغلب درخواست راه‌های آسان‌تر برای وارد کردن فایل‌ها یا داده‌ها به ChatGPT را دارند. در بحث‌ها، مردم می‌گویند که می‌خواهند "گوگل درایو خود را کپی و پیست کنم و کار کند" یا پلاگین‌هایی داشته باشند که به ChatGPT اجازه می‌دهد مستقیماً زمینه را از فایل‌های شخصی بازیابی کند. برخی از کاربران راه‌حل‌های جایگزین (مانند پلاگین‌های خواننده PDF یا پیوند دادن Google Docs) را امتحان کرده‌اند، اما از خطاها و محدودیت‌ها شکایت کرده‌اند. یکی از کاربران پلاگین ایده‌آل خود را به عنوان چیزی توصیف کرد که "مانند Link Reader کار می‌کند اما برای فایل‌های شخصی... انتخاب قسمت‌هایی از درایو من برای استفاده در یک مکالمه... این اساساً هر مشکلی که با GPT-4 دارم را حل می‌کند.". به طور خلاصه، پشتیبانی بومی بهتر برای دانش خارجی (فراتر از داده‌های آموزشی) یک درخواست محبوب است.

  • کاهش محدودیت‌ها برای کاربران پرداختی: از آنجا که بسیاری از کاربران Plus به محدودیت پیام GPT-4 برخورد می‌کنند، آن‌ها خواستار محدودیت‌های بالاتر یا گزینه‌ای برای پرداخت بیشتر برای دسترسی نامحدود هستند. محدودیت ۲۵ پیام به عنوان محدودیتی دلخواه و مانعی برای استفاده فشرده دیده می‌شود. مردم ترجیح می‌دهند یک مدل مبتنی بر استفاده یا محدودیت بالاتر داشته باشند تا جلسات طولانی حل مسئله قطع نشود.

  • حالت‌های تعدیل محتوای "بدون سانسور" یا سفارشی: بخشی از کاربران دوست دارند توانایی تغییر سختی فیلترهای محتوا را داشته باشند، به ویژه هنگامی که از ChatGPT برای خودشان استفاده می‌کنند (نه محتوای عمومی). آن‌ها احساس می‌کنند یک حالت "تحقیق" یا "بدون سانسور" – با هشدارها اما بدون رد سخت – به آن‌ها اجازه می‌دهد آزادانه‌تر کاوش کنند. همانطور که یکی از کاربران اشاره کرد، مشتریان پرداختی آن را به عنوان یک ابزار می‌بینند و معتقدند "من برای [آن] پول می‌پردازم." آن‌ها می‌خواهند گزینه‌ای برای دریافت پاسخ حتی در پرسش‌های مرزی داشته باشند. در حالی که OpenAI باید ایمنی را متعادل کند، این کاربران پیشنهاد می‌کنند یک پرچم یا تنظیمات برای کاهش سیاست‌ها در چت‌های خصوصی وجود داشته باشد.

  • دقت واقعی بهبود یافته و به‌روزرسانی‌ها: کاربران معمولاً خواستار دانش به‌روزتر و توهمات کمتر هستند. محدودیت دانش ChatGPT (سپتامبر ۲۰۲۱ در نسخه‌های قبلی) اغلب در Reddit مطرح شده است. OpenAI از آن زمان مرور و پلاگین‌ها را معرفی کرده است که برخی از کاربران از آن‌ها استفاده می‌کنند، اما دیگران به سادگی درخواست می‌کنند که مدل پایه با داده‌های جدیدتر به طور مکرر به‌روزرسانی شود. کاهش خطاهای آشکار – به ویژه در حوزه‌هایی مانند ریاضیات و کدنویسی – یک خواسته مداوم است. برخی از توسعه‌دهندگان هنگام اشتباه ChatGPT بازخورد می‌دهند به امید بهبود مدل.

  • خروجی‌های کد بهتر و ابزارها: توسعه‌دهندگان درخواست ویژگی‌هایی مانند یک مفسر کد بهبود یافته که محتوا را حذف نمی‌کند و یکپارچه‌سازی با IDEها یا کنترل نسخه دارند. (پلاگین مفسر کد OpenAI – اکنون بخشی از "تحلیل داده‌های پیشرفته" – گامی در این جهت بود و تحسین شد.) با این حال، کاربران اغلب درخواست کنترل دقیق‌تر در تولید کد دارند: مثلاً گزینه‌ای برای خروجی کد کامل و بدون فیلتر حتی اگر طولانی باشد، یا مکانیسم‌هایی برای به راحتی اصلاح کد اگر AI اشتباهی کرده باشد. اساساً، آن‌ها می‌خواهند ChatGPT بیشتر مانند یک دستیار کدنویسی قابل اعتماد رفتار کند بدون نیاز به چندین درخواست برای اصلاح پاسخ.

  • پروفایل‌های کاربری پایدار یا حافظه: بهبود دیگری که برخی ذکر می‌کنند این است که به ChatGPT اجازه دهند چیزهایی درباره کاربر را در جلسات به خاطر بسپارد (با رضایت). برای مثال، به خاطر سپردن سبک نوشتاری فرد، یا اینکه آن‌ها یک مهندس نرم‌افزار هستند، بدون نیاز به تکرار آن در هر چت جدید. این می‌تواند به تنظیم دقیق API یا ویژگی "پروفایل" مرتبط باشد. کاربران اکنون به صورت دستی زمینه مهم را در چت‌های جدید کپی می‌کنند، بنابراین یک حافظه داخلی برای ترجیحات شخصی زمان را صرفه‌جویی می‌کند.

نیازها یا بخش‌های کاربری برآورده نشده

  • محققان و دانشجویان با اسناد طولانی: افرادی که می‌خواهند ChatGPT مقالات تحقیقاتی طولانی، کتاب‌ها یا مجموعه داده‌های بزرگ را تحلیل کند، احساس می‌کنند که به خوبی خدمت‌رسانی نشده‌اند. محدودیت‌های فعلی آن‌ها را مجبور می‌کند که متن را خرد کنند یا به خلاصه‌ها بسنده کنند. این بخش به شدت از پنجره‌های زمینه بزرگ‌تر یا ویژگی‌هایی برای مدیریت اسناد طولانی بهره‌مند می‌شود (همانطور که توسط پست‌های متعدد درباره تلاش برای دور زدن محدودیت‌های توکن نشان داده شده است).

  • کاربرانی که به دنبال داستان‌سرایی خلاقانه یا نقش‌آفرینی فراتر از محدودیت‌ها هستند: در حالی که ChatGPT اغلب برای نوشتن خلاقانه استفاده می‌شود، برخی از داستان‌نویسان احساس می‌کنند که مدل با فراموش کردن نقاط طرح اولیه در یک داستان طولانی یا رد محتوای بزرگسالان/وحشت محدود شده است. آن‌ها به مدل‌های جایگزین یا هک‌ها روی می‌آورند تا روایت‌های خود را ادامه دهند. این کاربران خلاق بهتر توسط نسخه‌ای از ChatGPT با حافظه طولانی‌تر و کمی انعطاف‌پذیری بیشتر در مورد خشونت تخیلی یا تم‌های بالغ (در حد معقول) خدمت‌رسانی می‌شوند. همانطور که یکی از نویسندگان داستان اشاره کرد، وقتی AI مسیر داستان را از دست می‌دهد، "باید آن را به فرمت یا زمینه دقیق یادآوری کنم... ناامید می‌شوم که دو درخواست قبل عالی بود، اما حالا باید AI را به روز کنم.".

  • کاربران قدرت و کارشناسان حوزه: حرفه‌ای‌ها در زمینه‌های تخصصی (مالی، مهندسی، پزشکی) گاهی اوقات پاسخ‌های ChatGPT را در حوزه خود فاقد عمق یا دقت می‌دانند، به ویژه اگر سوالات شامل تحولات اخیر باشد. این کاربران دانش کارشناسی قابل اعتمادتر را می‌خواهند. برخی از آن‌ها از طریق API یا GPTهای سفارشی تنظیم دقیق کرده‌اند. کسانی که نمی‌توانند تنظیم دقیق کنند، نسخه‌های خاص حوزه ChatGPT یا پلاگین‌هایی که پایگاه‌های داده معتبر را جاسازی می‌کنند، قدردانی می‌کنند. در فرم پیش‌فرض خود، ChatGPT ممکن است کاربران را که به اطلاعات بسیار دقیق و خاص حوزه نیاز دارند، به خوبی خدمت‌رسانی نکند (آن‌ها اغلب باید کار آن را دوباره بررسی کنند).

  • کاربرانی که به محتوای بدون سانسور یا موارد خاص نیاز دارند: اقلیتی از کاربران (هکرهایی که سناریوهای امنیتی را آزمایش می‌کنند، نویسندگان داستان‌های افراطی و غیره) محدودیت‌های محتوای ChatGPT را برای نیازهای خود بسیار محدود می‌دانند. آن‌ها در حال حاضر توسط محصول رسمی به خوبی خدمت‌رسانی نمی‌شوند (زیرا به صراحت از محتوای خاصی اجتناب می‌کند). این کاربران اغلب با درخواست‌های jailbreak یا استفاده از مدل‌های منبع باز آزمایش می‌کنند تا پاسخ‌هایی که می‌خواهند را دریافت کنند. این یک شکاف عمدی برای OpenAI است (برای حفظ ایمنی)، اما به این معنی است که چنین کاربرانی به دنبال جای دیگری می‌روند.

  • افراد و شرکت‌های حساس به حریم خصوصی: برخی از کاربران (به ویژه در محیط‌های شرکتی) از ارسال داده‌های حساس به ChatGPT به دلیل نگرانی‌های حریم خصوصی ناراحت هستند. OpenAI سیاست‌هایی دارد که از داده‌های API برای آموزش استفاده نمی‌کند، اما رابط وب ChatGPT به طور تاریخی چنین تضمین‌هایی را ارائه نمی‌داد تا اینکه یک ویژگی انصراف اضافه شد. شرکت‌هایی که با داده‌های محرمانه سروکار دارند (قانونی، بهداشتی و غیره) اغلب احساس می‌کنند که نمی‌توانند به طور کامل از ChatGPT استفاده کنند، مگر اینکه راه‌حل‌های خود میزبانی شده بسازند. برای مثال، یکی از کاربران Reddit اشاره کرد که شرکت آن‌ها به یک LLM محلی برای دلایل حریم خصوصی منتقل شده است. تا زمانی که نمونه‌های محلی یا خصوصی ChatGPT در دسترس نباشند، این بخش محتاط باقی می‌ماند یا از فروشندگان کوچکتر متخصص استفاده می‌کند.

تفاوت‌های درک شده توسط نوع کاربر

  • توسعه‌دهندگان/کاربران فنی: توسعه‌دهندگان تمایل دارند هم از بزرگترین حامیان و هم از سخت‌ترین منتقدان ChatGPT باشند. آن‌ها عاشق توانایی آن در توضیح کد، تولید کد پایه و کمک به اشکال‌زدایی هستند. با این حال، آن‌ها به شدت محدودیت‌های آن در زمینه طولانی‌تر و دقت کد را احساس می‌کنند. همانطور که یکی از توسعه‌دهندگان شکایت کرد، ChatGPT شروع به "تولید کد غیرمفید" و حذف بخش‌های مهم کرد که "من را عصبانی می‌کند... نمی‌خواهم به آن بگویم 'تنبل نباش' – فقط می‌خواهم نتیجه کامل را داشته باشم". توسعه‌دهندگان اغلب حتی تغییرات جزئی در کیفیت پس از به‌روزرسانی مدل را متوجه می‌شوند و در Reddit بسیار صریح درباره "نرف‌ها" یا کاهش قابلیت‌های کدنویسی بوده‌اند. آن‌ها همچنین محدودیت‌ها را فشار می‌دهند (ساختن درخواست‌های پیچیده، زنجیره‌سازی ابزارها)، بنابراین آن‌ها ویژگی‌هایی مانند زمینه گسترش‌یافته، محدودیت‌های پیام کمتر و یکپارچه‌سازی بهتر با ابزارهای کدنویسی را می‌خواهند. به طور خلاصه، توسعه‌دهندگان ChatGPT را برای سرعت بخشیدن به وظایف روزمره ارزشمند می‌دانند، اما سریع به اشتباهات در منطق یا کد اشاره می‌کنند – آن‌ها آن را به عنوان یک دستیار جوان می‌بینند که هنوز نیاز به نظارت دارد.

  • کاربران عادی/روزمره: کاربران عادی‌تر – کسانی که به دنبال دانش عمومی، مشاوره یا سرگرمی هستند – اغلب از قابلیت‌های ChatGPT شگفت‌زده می‌شوند، اما آن‌ها نیز شکایات خود را دارند. یک ناامیدی مشترک کاربران عادی این است که وقتی ChatGPT درخواست را رد می‌کند که به نظر آن‌ها بی‌ضرر است (احتمالاً یک قانون سیاست را فعال می‌کند). نویسنده اصلی در یک رشته این موضوع را مثال زد که "خیلی عصبانی می‌شوم وقتی یک درخواست می‌نویسم که نباید مشکلی داشته باشد و اکنون آن را رد می‌کند". کاربران عادی ممکن است همچنین به محدودیت دانش برخورد کنند (یافتن اینکه ربات نمی‌تواند رویدادهای بسیار جاری را مدیریت کند مگر اینکه به طور صریح به‌روزرسانی شده باشد) و گاهی اوقات متوجه می‌شوند که ChatGPT پاسخی آشکارا نادرست می‌دهد. برخلاف توسعه‌دهندگان، آن‌ها ممکن است همیشه AI را دوباره بررسی نکنند، که می‌تواند منجر به ناامیدی شود اگر آن‌ها بر اساس یک اشتباه عمل کنند. از طرف مثبت، بسیاری از کاربران عادی پاسخ‌های سریع‌تر ChatGPT Plus و خروجی بهبود یافته GPT-4 را ارزشمند می‌دانند – مگر اینکه مشکل "رد" یا محدودیت‌های دیگر تجربه را خراب کند. آن‌ها به طور کلی یک دستیار مفید و همه‌منظوره می‌خواهند و می‌توانند ناامید شوند وقتی ChatGPT با بیانیه‌های سیاستی پاسخ می‌دهد یا نیاز به یک درخواست پیچیده برای دریافت یک پاسخ ساده دارد.

  • کاربران تجاری/حرفه‌ای: کاربران تجاری اغلب از ChatGPT از دیدگاه بهره‌وری و قابلیت اطمینان استفاده می‌کنند. آن‌ها از پیش‌نویس سریع ایمیل‌ها، خلاصه‌سازی اسناد یا تولید ایده‌ها قدردانی می‌کنند. با این حال، آن‌ها نگران امنیت داده‌ها، سازگاری و یکپارچه‌سازی در جریان‌های کاری هستند. در Reddit، حرفه‌ای‌ها درباره تمایل به داشتن ChatGPT در ابزارهایی مانند Outlook، Google Docs یا به عنوان یک API در سیستم‌های داخلی خود بحث کرده‌اند. برخی اشاره کرده‌اند که با چرخش OpenAI به سمت خدمت به مشتریان سازمانی، تمرکز محصول به نظر می‌رسد تغییر کرده است: این احساس وجود دارد که تجربه کاربر رایگان یا فردی کمی کاهش یافته است (مثلاً کندتر یا "کم‌هوش‌تر") زیرا شرکت برای خدمت به مشتریان بزرگتر مقیاس‌بندی کرده است. درست یا غلط، این یک درک را برجسته می‌کند: کاربران تجاری قابلیت اطمینان و خدمات اولویت‌دار را می‌خواهند و کاربران فردی نگران هستند که اکنون کلاس دوم هستند. علاوه بر این، حرفه‌ای‌ها به خروجی‌های صحیح نیاز دارند – یک پاسخ پرزرق و برق اما نادرست می‌تواند بدتر از هیچ پاسخی باشد. بنابراین، این بخش به دقت حساس است. برای آن‌ها، ویژگی‌هایی مانند زمینه طولانی‌تر (برای خواندن قراردادها، تحلیل کدبیس‌ها) و زمان کار تضمین شده حیاتی هستند. آن‌ها احتمالاً برای سطوح خدمات پریمیوم بیشتر پرداخت می‌کنند، به شرطی که نیازهای انطباق و حریم خصوصی آن‌ها برآورده شود. برخی از شرکت‌ها حتی استقرارهای درون‌سازمانی یا استفاده از API OpenAI با قوانین سختگیرانه مدیریت داده‌ها را برای برآورده کردن سیاست‌های IT خود بررسی می‌کنند.


Claude (Anthropic)

نقاط ضعف و محدودیت‌های مشترک

  • محدودیت‌های استفاده و محدودیت‌های دسترسی: Claude برای ارائه یک مدل قدرتمند (Claude 2) به صورت رایگان تحسین شد، اما کاربران به سرعت به محدودیت‌های استفاده (به ویژه در سطح رایگان) برخورد کردند. پس از تعداد معینی از درخواست‌ها یا مقدار زیادی متن، Claude ممکن است متوقف شود و بگوید "متأسفم، باید این مکالمه را برای اکنون خاتمه دهم. لطفاً بعداً برگردید." این محدودیت کاربران را که Claude را به عنوان یک شریک کدنویسی یا نوشتن طولانی مدت استفاده می‌کنند، ناامید می‌کند. حتی کاربران Claude Pro (پرداختی) "به زمان نامحدود تضمین نشده‌اند", همانطور که یکی از کاربران اشاره کرد؛ رسیدن به سهمیه همچنان پیام "بعداً برگردید" را تولید می‌کند. علاوه بر این، برای مدت طولانی Claude به صورت رسمی محدود به جغرافیا بود (ابتدا فقط در ایالات متحده/بریتانیا در دسترس بود). کاربران بین‌المللی در Reddit مجبور به استفاده از VPN یا پلتفرم‌های شخص ثالث برای دسترسی به آن بودند که یک ناراحتی بود. این باعث شد بسیاری از کاربران غیر ایالات متحده احساس کنند که تا زمانی که دسترسی گسترده‌تر شود، کنار گذاشته شده‌اند.

  • تمایل به خارج شدن از مسیر با ورودی‌های بسیار بزرگ: ویژگی اصلی Claude پنجره زمینه 100k توکن آن است که به درخواست‌های بسیار طولانی اجازه می‌دهد. با این حال، برخی از کاربران متوجه شده‌اند که وقتی ده‌ها هزار توکن را به Claude وارد می‌کنید، پاسخ‌های آن ممکن است کمتر متمرکز شود. "100k بسیار مفید است اما اگر به درستی دستورالعمل‌ها را دنبال نکند و از مسیر خارج شود، چندان مفید نیست," یکی از کاربران مشاهده کرد. این نشان می‌دهد که با زمینه‌های بزرگ، Claude ممکن است منحرف شود یا شروع به پرچانگی کند و نیاز به درخواست دقیق برای نگه داشتن آن در کار دارد. این یک محدودیت ذاتی در فشار دادن زمینه به حد است – مدل مقدار زیادی را حفظ می‌کند اما گاهی اوقات "فراموش می‌کند" که کدام جزئیات بیشتر مرتبط هستند، که منجر به توهمات جزئی یا انحرافات خارج از موضوع می‌شود.

  • فرمت‌بندی ناسازگار یا اطاعت از دستورالعمل‌ها: در مقایسه‌های کنار هم، برخی از کاربران Claude را کمتر قابل پیش‌بینی در نحوه پیروی از برخی دستورات یافتند. برای مثال، Claude به عنوان "بیشتر انسانی در تعاملات. اما کمتر به پیام‌های سیستم به شدت پیروی می‌کند." توصیف شده است. این به این معنی است که اگر به آن یک فرمت ثابت برای پیروی یا یک شخصیت بسیار سخت بدهید، Claude ممکن است بیشتر از ChatGPT منحرف شود. توسعه‌دهندگانی که به خروجی‌های تعیین‌کننده (مانند فرمت‌های JSON یا سبک‌های خاص) متکی هستند، گاهی اوقات ناامید می‌شوند اگر Claude نظر اضافی وارد کند یا به شدت به قالب پایبند نباشد.

  • محدودیت‌های محتوا و امتناع‌ها: در حالی که به اندازه ChatGPT به طور مکرر مورد انتقاد قرار نمی‌گیرد، فیلترهای ایمنی Claude نیز مطرح می‌شوند. Anthropic Claude را با تأکید زیادی بر AI قانون اساسی (داشتن AI که خود به دستورالعمل‌های اخلاقی پیروی کند) طراحی کرده است. کاربران به طور کلی Claude را مایل به بحث در مورد طیف گسترده‌ای از موضوعات می‌دانند، اما مواردی وجود دارد که Claude درخواست‌هایی را رد می‌کند که ChatGPT ممکن است اجازه دهد. برای مثال، یک کاربر Reddit اشاره کرد "ChatGPT محدودیت‌های اخلاقی کمتری دارد... توضیح می‌دهد که کدام ماسک‌های گاز برای کدام شرایط بهتر هستند در حالی که Claude امتناع می‌کند". این نشان می‌دهد که Claude ممکن است در مورد برخی از مشاوره‌های "حساس" سخت‌گیرتر باشد (شاید آن را به عنوان راهنمایی بالقوه خطرناک تلقی کند). یک کاربر دیگر سعی کرد یک سناریوی نقش‌آفرینی بازیگوش ("تظاهر کن که توسط بیگانگان ربوده شده‌ای") را امتحان کند که Claude رد کرد، در حالی که Gemini و ChatGPT درگیر می‌شدند. بنابراین، Claude فیلترهایی دارد که گاهی اوقات کاربران را که انتظار دارند آن را بیشتر مجاز بدانند، شگفت‌زده می‌کند.

  • عدم وجود قابلیت‌های چندرسانه‌ای: برخلاف ChatGPT (که تا اواخر ۲۰۲۳ قابلیت درک تصویر با GPT-4 Vision را به دست آورد)، Claude در حال حاضر فقط متنی است. کاربران Reddit اشاره می‌کنند که Claude نمی‌تواند تصاویر را تحلیل کند یا به طور مستقیم وب را مرور کند. این دقیقاً یک "نقطه ضعف" نیست (Anthropic هرگز این ویژگی‌ها را تبلیغ نکرده است)، اما یک محدودیت نسبت به رقبا است. کاربرانی که می‌خواهند AI یک نمودار یا اسکرین‌شات را تفسیر کند نمی‌توانند از Claude برای آن استفاده کنند، در حالی که ChatGPT یا Gemini ممکن است آن را مدیریت کنند. به طور مشابه، هرگونه بازیابی اطلاعات جاری نیاز به استفاده از Claude از طریق یک ابزار شخص ثالث دارد (مثلاً Poe یا یکپارچه‌سازی موتور جستجو)، زیرا Claude در حال حاضر حالت مرور رسمی ندارد.

  • مشکلات جزئی پایداری: چند کاربر گزارش داده‌اند که Claude گاهی اوقات تکراری است یا در حلقه‌ها گیر می‌کند برای برخی از درخواست‌ها (اگرچه این کمتر از برخی مدل‌های کوچکتر رایج است). همچنین، نسخه‌های قبلی Claude گاهی اوقات پاسخ‌ها را زودتر خاتمه می‌دادند یا با خروجی‌های بزرگ زمان زیادی می‌بردند، که می‌تواند به عنوان ناراحتی‌های جزئی دیده شود، اگرچه Claude 2 در سرعت بهبود یافته است.

ویژگی‌ها یا بهبودهای درخواست‌شده مکرر

  • محدودیت‌های استفاده بالاتر یا قابل تنظیم: علاقه‌مندان به Claude در Reddit اغلب از Anthropic می‌خواهند که محدودیت‌های مکالمه را افزایش دهد. آن‌ها می‌خواهند از 100k زمینه به طور کامل استفاده کنند بدون اینکه به یک توقف مصنوعی برخورد کنند. برخی پیشنهاد می‌دهند که حتی Claude Pro پرداختی باید به طور قابل توجهی توکن‌های بیشتری در روز اجازه دهد. دیگران ایده یک "حالت زمینه 100k توسعه‌یافته" اختیاری را مطرح می‌کنند – مثلاً "Claude باید یک حالت زمینه 100k با دو برابر محدودیت‌های استفاده داشته باشد" – که شاید یک اشتراک می‌تواند دسترسی گسترش‌یافته برای کاربران سنگین ارائه دهد. به عبارت دیگر، تقاضا برای یک برنامه وجود دارد که با استفاده نامحدود (یا با محدودیت بالا) ChatGPT برای مشترکان رقابت کند.

  • ناوبری بهتر زمینه طولانی: در حالی که داشتن 100k توکن پیشگامانه است، کاربران می‌خواهند Claude بهتر از آن زمینه استفاده کند. یکی از بهبودها می‌تواند بهبود نحوه اولویت‌بندی اطلاعات توسط Claude باشد تا در مسیر بماند. Anthropic می‌تواند روی پیروی مدل از درخواست‌ها کار کند وقتی که درخواست بزرگ است. بحث‌های Reddit تکنیک‌هایی مانند اجازه دادن به کاربر برای "پین" کردن برخی از دستورالعمل‌ها را پیشنهاد می‌دهند تا در یک زمینه بزرگ رقیق نشوند. هر ابزار برای کمک به بخش‌بندی یا خلاصه‌سازی بخش‌هایی از ورودی نیز می‌تواند به Claude کمک کند تا ورودی‌های بزرگ را به طور منسجم‌تر مدیریت کند. به طور خلاصه، کاربران امکان تغذیه یک کتاب کامل به Claude را دوست دارند – آن‌ها فقط می‌خواهند که در طول آن تیز بماند.

  • پلاگین‌ها یا مرور وب: بسیاری از کاربران ChatGPT به پلاگین‌ها عادت کرده‌اند (برای مثال، مرور، اجرای کد و غیره) و آن‌ها علاقه‌مند به داشتن Claude با همان قابلیت گسترش هستند. یک درخواست رایج این است که Claude یک عملکرد جستجو/مرور وب رسمی داشته باشد، به طوری که بتواند اطلاعات به‌روز را به صورت تقاضا بازیابی کند. در حال حاضر، دانش Claude عمدتاً ثابت است (داده‌های آموزشی تا اوایل ۲۰۲۳، با برخی به‌روزرسانی‌ها). اگر Claude بتواند وب را جستجو کند، آن محدودیت را کاهش می‌دهد. به همین ترتیب، یک سیستم پلاگین که Claude بتواند از ابزارهای شخص ثالث (مانند ماشین‌حساب‌ها یا اتصال‌دهنده‌های پایگاه داده) استفاده کند، می‌تواند کاربرد آن را برای کاربران قدرت گسترش دهد. این یک ویژگی است که Claude فاقد آن است و کاربران Reddit اغلب اشاره می‌کنند که اکوسیستم پلاگین‌های ChatGPT در برخی وظایف به آن برتری می‌دهد.

  • ورودی چندرسانه‌ای (تصاویر یا صدا): برخی از کاربران نیز تعجب کرده‌اند که آیا Claude از ورودی‌های تصویری پشتیبانی می‌کند یا تصاویر تولید می‌کند. Google’s Gemini و GPT-4 OpenAI دارای قابلیت‌های چندرسانه‌ای هستند، بنابراین برای رقابت، کاربران انتظار دارند Anthropic این موضوع را بررسی کند. یک درخواست مکرر این است: "آیا می‌توانم یک PDF یا یک تصویر برای تحلیل Claude آپلود کنم؟" در حال حاضر پاسخ منفی است (به جز راه‌حل‌های جایگزین مانند تبدیل تصاویر به متن در جای دیگر). حتی فقط اجازه دادن به تصویر به متن (OCR و توصیف) بسیاری را که یک دستیار یک‌جا می‌خواهند راضی می‌کند. این در لیست خواسته‌ها است، اگرچه Anthropic هنوز چیزی مشابه را تا اوایل ۲۰۲۵ اعلام نکرده است.

  • تنظیم دقیق یا سفارشی‌سازی: کاربران پیشرفته و کسب‌وکارها گاهی اوقات می‌پرسند که آیا می‌توانند Claude را بر روی داده‌های خود تنظیم دقیق کنند یا نسخه‌های سفارشی دریافت کنند. OpenAI تنظیم دقیق را برای برخی مدل‌ها ارائه می‌دهد (هنوز برای GPT-4 نه، اما برای GPT-3.5). Anthropic یک رابط تنظیم دقیق برای Claude 1.3 منتشر کرد، اما برای Claude 2 به طور گسترده تبلیغ نشده است. کاربران Reddit درباره امکان آموزش Claude بر روی دانش شرکت یا سبک نوشتاری شخصی خود پرس و جو کرده‌اند. یک راه آسان‌تر برای انجام این کار (علاوه بر تزریق درخواست‌ها هر بار) بسیار مورد استقبال قرار می‌گیرد، زیرا می‌تواند Claude را به یک دستیار شخصی تبدیل کند که یک پایگاه دانش خاص یا شخصیت را به خاطر می‌سپارد.

  • دسترسی گسترده‌تر: کاربران غیر ایالات متحده به طور مکرر درخواست کرده‌اند که Claude به طور رسمی در کشورهای آن‌ها راه‌اندازی شود. پست‌هایی از کانادا، اروپا، هند و غیره می‌پرسند که چه زمانی می‌توانند از وب‌سایت Claude بدون VPN استفاده کنند یا چه زمانی API Claude به طور گسترده‌تر باز خواهد شد. Anthropic محتاط بوده است، اما تقاضا جهانی است – احتمالاً بهبود در نظر بسیاری به سادگی "اجازه دهید بیشتر ما از آن استفاده کنیم" خواهد بود. گسترش تدریجی دسترسی شرکت تا حدی به این موضوع پرداخته است.

نیازها یا بخش‌های کاربری برآورده نشده

  • پایه کاربری بین‌المللی: همانطور که اشاره شد، برای مدت طولانی پایه کاربری اصلی Claude به جغرافیا محدود بود. این بسیاری از کاربران می‌توانستند را به خوبی خدمت‌رسانی نکرد. برای مثال، یک توسعه‌دهنده در آلمان که به زمینه 100k Claude علاقه‌مند بود، راه رسمی برای استفاده از آن نداشت. در حالی که راه‌حل‌های جایگزین وجود دارد (پلتفرم‌های شخص ثالث، یا VPN + تأیید تلفن در یک کشور پشتیبانی شده)، این موانع به این معنی بود که کاربران بین‌المللی عادی عملاً قفل شده بودند. در مقابل، ChatGPT در اکثر کشورها در دسترس است. بنابراین، انگلیسی‌زبانان غیر ایالات متحده و به ویژه غیر انگلیسی‌زبانان توسط راه‌اندازی محدود Claude به خوبی خدمت‌رسانی نشده‌اند. آن‌ها ممکن است هنوز به ChatGPT یا مدل‌های محلی متکی باشند فقط به دلیل مسائل دسترسی.

  • کاربرانی که به فرمت‌بندی خروجی دقیق نیاز دارند: همانطور که ذکر شد، Claude گاهی اوقات در پاسخ‌ها آزادی عمل می‌کند. کاربرانی که به خروجی‌های بسیار ساختاریافته نیاز دارند (مانند JSON برای یک برنامه، یا پاسخی که به یک قالب دقیق پیروی می‌کند) ممکن است Claude را برای آن کمتر قابل اعتماد بدانند نسبت به ChatGPT. این کاربران – اغلب توسعه‌دهندگانی که AI را در یک سیستم ادغام می‌کنند – یک بخش هستند که می‌تواند بهتر خدمت‌رسانی شود اگر Claude یک "حالت سختگیرانه" را اجازه دهد یا پیروی از دستورالعمل‌های آن را بهبود بخشد. آن‌ها در حال حاضر ممکن است Claude را برای چنین وظایفی اجتناب کنند و به مدل‌هایی که به قالب‌ها به شدت پایبند هستند، پایبند باشند.

  • کاربران عادی پرسش و پاسخ (در مقابل کاربران خلاق): Claude اغلب برای وظایف خلاقانه تحسین می‌شود – آن پروز انسانی و مقالات متفکرانه تولید می‌کند. با این حال، برخی از کاربران در Reddit اشاره کردند که برای پرسش و پاسخ ساده یا پرسش‌های واقعی، Claude گاهی اوقات پاسخ‌های طولانی می‌دهد که در آن اختصار کافی است. کاربری که ChatGPT و Claude را مقایسه کرد گفت ChatGPT تمایل دارد مختصر و به صورت نقطه‌ای باشد، در حالی که Claude به طور پیش‌فرض بیشتر روایت می‌کند. کاربرانی که فقط یک پاسخ واقعی سریع می‌خواهند (مانند "پایتخت X و جمعیت آن چیست؟") ممکن است احساس کنند Claude کمی غیرمستقیم است. این کاربران بهتر توسط چیزی مانند یک جستجوی دقیق یا یک مدل مختصر خدمت‌رسانی می‌شوند. Claude می‌تواند این کار را انجام دهد اگر خواسته شود، اما سبک آن ممکن است با انتظار یک پرسش و پاسخ مختصر مطابقت نداشته باشد، به این معنی که این بخش ممکن است به ابزارهای دیگر (مانند Bing Chat یا Google) منتقل شود.

  • کاربران حساس به ایمنی: برعکس، برخی از کاربرانی که نیاز به پیروی بسیار دقیق از ایمنی دارند (مثلاً مربیانی که AI را با دانش‌آموزان استفاده می‌کنند، یا مشتریان سازمانی که می‌خواهند هیچ خطری از خروجی‌های نادرست وجود نداشته باشد) ممکن است هم‌ترازی Claude را یک مزیت بدانند، اما از آنجا که ChatGPT نیز بسیار هم‌تراز است و ویژگی‌های سازمانی بیشتری دارد، آن کاربران ممکن است به طور خاص Claude را انتخاب نکنند. این یک بخش کوچک است، اما می‌توان استدلال کرد که Claude هنوز به وضوح آن را جذب نکرده است. آن‌ها ممکن است به خوبی خدمت‌رسانی نشده باشند زیرا راه آسانی برای افزایش محافظت‌های Claude یا دیدن "زنجیره تفکر" آن ندارند (که Anthropic به صورت داخلی از طریق رویکرد AI قانون اساسی دارد، اما کاربران نهایی به طور مستقیم با آن تعامل ندارند به جز مشاهده لحن عمومی مودبانه Claude).

  • غیر انگلیسی‌زبانان (کیفیت خروجی): Claude عمدتاً بر روی انگلیسی آموزش دیده است (مانند اکثر LLMهای بزرگ). برخی از کاربران آن را در زبان‌های دیگر آزمایش کرده‌اند؛ می‌تواند در بسیاری از زبان‌ها پاسخ دهد، اما کیفیت ممکن است متفاوت باشد. اگر، مثلاً، کاربری یک پاسخ بسیار ظریف در فرانسوی یا هندی بخواهد، ممکن است توانایی‌های Claude در آنجا به اندازه ChatGPT به خوبی تنظیم نشده باشد (GPT-4 عملکرد چندزبانه قوی‌ای نشان داده است، اغلب در برخی از معیارها بالاتر از مدل‌های دیگر). کاربرانی که عمدتاً به زبان‌های غیر از انگلیسی گفتگو می‌کنند ممکن است روانی یا دقت Claude را کمی ضعیف‌تر بیابند. این بخش تا حدودی به خوبی خدمت‌رسانی نشده است زیرا Anthropic به طور عمومی آموزش چندزبانه را به عنوان یک اولویت برجسته نکرده است.

تفاوت‌های درک شده توسط نوع کاربر

  • توسعه‌دهندگان/کاربران فنی: توسعه‌دهندگان در Reddit به طور فزاینده‌ای Claude، به ویژه Claude 2 / Claude 3.5، را برای وظایف کدنویسی تحسین کرده‌اند. تغییر درک در اواخر ۲۰۲۴ قابل توجه بود: بسیاری از توسعه‌دهندگان شروع به ترجیح Claude بر ChatGPT برای کمک به برنامه‌نویسی کردند. آن‌ها عملکرد "شگفت‌انگیز در کدنویسی" و توانایی مدیریت کدبیس‌های بزرگ در یک بار را ذکر می‌کنند. برای مثال، یک کاربر نوشت "Claude Sonnet 3.5 برای کار با کد (تحلیل، تولید) بهتر از ChatGPT است." توسعه‌دهندگان قدردانی می‌کنند که Claude می‌تواند یک بخش بزرگ از کد پروژه یا گزارش‌ها را بگیرد و تحلیل‌ها یا بهبودهای منسجم تولید کند، به لطف زمینه بزرگ آن. با این حال، آن‌ها همچنین متوجه عجایب آن می‌شوند – مانند گاهی اوقات تزریق بیشتر پرچانگی مکالمه یا عدم پیروی از یک مشخصات به حرف. به طور متعادل، بسیاری از توسعه‌دهندگان هر دو ChatGPT و Claude را در دست دارند: یکی برای منطق گام به گام دقیق (ChatGPT) و یکی برای زمینه گسترده و درک همدلانه (Claude). گفتنی است که یک نظر دهنده گفت "اگر مجبور به انتخاب یکی باشم، Claude را انتخاب می‌کنم" پس از مقایسه روزانه آن دو. این نشان‌دهنده درک بسیار مثبت در میان کاربران پیشرفته است، به ویژه برای موارد استفاده مانند طوفان فکری، بررسی کد یا پیشنهادات معماری. تنها شکایت مشترک از توسعه‌دهندگان برخورد به محدودیت‌های استفاده Claude است وقتی که سعی می‌کنند آن را به شدت فشار دهند (مثلاً تغذیه یک درخواست 50K توکن برای تحلیل یک مخزن کامل). به طور خلاصه، توسعه‌دهندگان Claude را به عنوان یک ابزار بسیار قدرتمند می‌بینند – در برخی موارد برتر از ChatGPT – که تنها با دسترسی و برخی پیش‌بینی‌پذیری در فرمت‌بندی محدود شده است.

  • کاربران عادی/غیر فنی: کاربران عادی که Claude را امتحان کرده‌اند اغلب درباره دوستانه و بیانگر بودن آن نظر می‌دهند. سبک Claude تمایل به مکالمه‌ای، مودبانه و دقیق دارد. یک کاربر جدید که آن را با ChatGPT مقایسه کرد مشاهده کرد که "Claude همدل‌تر است و یک لحن مکالمه‌ای را دنبال می‌کند... ChatGPT به طور پیش‌فرض به نقاط گلوله‌ای بیش از حد می‌پردازد". این گرمای انسانی مانند Claude را برای افرادی که از آن برای نوشتن خلاقانه، مشاوره یا فقط چت برای اطلاعات استفاده می‌کنند، جذاب می‌کند. برخی حتی Claude را به عنوان داشتن یک "شخصیت" که دلسوز است، شخصی‌سازی می‌کنند. کاربران عادی همچنین دوست دارند که نسخه رایگان Claude اجازه دسترسی به معادل هوش GPT-4 را بدون اشتراک می‌دهد (حداقل تا محدودیت‌های نرخ). از طرف دیگر، کاربران عادی به امتناع‌های Claude در برخی موضوعات برخورد می‌کنند و ممکن است دلیل آن را درک نکنند (زیرا Claude آن را به طور عذرخواهانه اما محکم بیان می‌کند). اگر یک کاربر عادی چیزی مرزی بپرسد و از Claude امتناع بگیرد، ممکن است آن را کمتر قادر یا بیش از حد محدود بدانند، بدون اینکه متوجه شوند که این یک موضع سیاستی است. جنبه دیگر این است که Claude فاقد شناخت نام است – بسیاری از کاربران عادی ممکن است حتی ندانند که آن را امتحان کنند مگر اینکه به جوامع AI متصل باشند. کسانی که امتحان می‌کنند به طور کلی نظر می‌دهند که احساس می‌کند "مانند صحبت با یک انسان" است به معنای خوب. آن‌ها به طور کلی از توانایی Claude در مدیریت سوالات باز یا شخصی راضی هستند. بنابراین، درک کاربر عادی به طور عمده مثبت است در مورد کیفیت و لحن خروجی Claude، با برخی سردرگمی یا ناامیدی در مورد دسترسی آن (نیاز به استفاده از آن در یک برنامه خاص یا منطقه) و لحظات "نمی‌توانم این کار را انجام دهم" گاه‌به‌گاه.

  • کاربران تجاری/حرفه‌ای: درک تجاری Claude کمی سخت‌تر از Reddit است (زیرا کاربران سازمانی کمتری به طور دقیق پست می‌کنند)، اما چند روند ظهور می‌کند. اول، Anthropic Claude را به عنوان بیشتر متمرکز بر حریم خصوصی و مایل به امضای توافق‌نامه‌های سازمانی قرار داده است – این برای شرکت‌هایی که نگران داده‌ها با OpenAI هستند جذاب است. در واقع، برخی از بحث‌های Reddit Claude را در زمینه ابزارهایی مانند Slack یا Notion ذکر می‌کنند، جایی که به عنوان یک دستیار یکپارچه شده است. حرفه‌ای‌هایی که از آن یکپارچه‌سازی‌ها استفاده کرده‌اند ممکن است حتی ندانند که Claude موتور است، اما وقتی می‌دانند، آن را به طور مطلوب در مورد سبک نوشتن و توانایی هضم اسناد شرکتی بزرگ مقایسه می‌کنند. برای مثال، یک تیم ممکن است یک گزارش فصلی طولانی را به Claude تغذیه کند و یک خلاصه مناسب دریافت کند – چیزی که زمینه کوچکتر ChatGPT با آن مشکل دارد. با این حال، کاربران تجاری همچنین متوجه کمبود برخی از ویژگی‌های اکوسیستم می‌شوند؛ برای مثال، OpenAI کنترل پیام‌های سیستم، فراخوانی تابع و غیره را در API خود ارائه می‌دهد، که Anthropic پشتیبانی محدودتری برای آن دارد. یک توسعه‌دهنده که روی یک راه‌حل تجاری کار می‌کرد اظهار داشت که Claude در مکالمات بیشتر قابل هدایت است، در حالی که ChatGPT تمایل به سخت‌گیرتر بودن دارد... [اما] ChatGPT دسترسی به وب دارد که می‌تواند بسیار مفید باشد. این نشان می‌دهد که برای وظایف تحقیق یا جستجوی داده‌ای که یک کاربر تجاری ممکن است نیاز داشته باشد (مانند اطلاعات رقابتی)، ChatGPT می‌تواند به طور مستقیم اطلاعات را بازیابی کند، در حالی که Claude نیاز به یک مرحله جداگانه دارد. به طور کلی، کاربران تجاری Claude را به عنوان یک AI بسیار شایسته می‌بینند – در برخی موارد بهتر برای وظایف تحلیلی داخلی – اما شاید هنوز به اندازه کافی ویژگی‌دار برای یکپارچه‌سازی نباشد. هزینه عامل دیگری است: قیمت‌گذاری و شرایط API Claude به اندازه OpenAI عمومی نیست و برخی از استارتاپ‌ها در Reddit از عدم اطمینان درباره قیمت‌گذاری یا پایداری Claude صحبت کرده‌اند. به طور خلاصه، حرفه‌ای‌ها به قابلیت‌های Claude احترام می‌گذارند (به ویژه قابلیت اطمینان آن در پیروی از دستورالعمل‌های سطح بالا و خلاصه‌سازی ورودی‌های بزرگ)، اما آن‌ها به نحوه تکامل آن در زمینه یکپارچه‌سازی، پشتیبانی و دسترسی جهانی توجه می‌کنند قبل از اینکه به طور کامل به آن متعهد شوند نسبت به ChatGPT که بیشتر شناخته شده است.


Google Gemini (Bard)

نقاط ضعف و محدودیت‌های مشترک

  • پاسخ‌های نادرست یا "احمقانه": سیلی از بازخورد Reddit زمانی ظاهر شد که Google ارتقاء Bard با قدرت Gemini خود را راه‌اندازی کرد، بسیاری از آن منفی بود. کاربران شکایت کردند که Gemini در پرسش و پاسخ پایه‌ای نسبت به ChatGPT عملکرد ضعیفی داشت. یک ارزیابی صریح با عنوان "100% نظر صادقانه در مورد Google Gemini" بیان کرد: "این یک چت‌بات LLM شکسته و نادرست است". یک کاربر ناامید دیگر پرسید: "چگونه Gemini هنوز اینقدر بد است؟ تعداد دفعاتی که از Gemini چیزی می‌پرسم و یا پاسخ‌های نادرست یا ناقص می‌دهد، مضحک است". آن‌ها آن را کنار ChatGPT-4 مقایسه کردند و دریافتند که ChatGPT یک *"پاسخ کامل، صحیح و کارآمد در یک بار" می‌دهد، در حالی که Gemini پرچانگی می‌کند و نیاز به چندین درخواست برای رسیدن به یک پاسخ نیمه‌رضایت‌بخش دارد. به عبارت دیگر، کاربران اولیه احساس کردند که Gemini به طور مکرر توهم می‌زند یا نکته سوالات را از دست می‌دهد، نیاز به تلاش بیش از حد برای استخراج اطلاعات صحیح دارد. این ناپایداری در کیفیت یک ناامیدی بزرگ بود با توجه به هیاهوی اطراف Gemini.

  • پرچانگی و پرحرفی بیش از حد: بسیاری از کاربران اشاره کردند که Gemini (به شکل Bard جدید) تمایل به تولید پاسخ‌های طولانی دارد که به نکته نمی‌رسد. همانطور که یک نفر توصیف کرد، "پرچانگی کرد... 3 پاراگراف از زباله‌های AI... حتی سپس، [فقط] در نهایت پاسخ را در پاراگراف‌های زباله ذکر کرد". این یک تضاد آشکار با ChatGPT است که اغلب پاسخ‌های مختصرتر یا به صورت نقطه‌ای ارائه می‌دهد. پرحرفی به یک نقطه ضعف تبدیل می‌شود وقتی که کاربران باید از میان متن زیادی برای یک واقعیت ساده عبور کنند. برخی حدس می‌زنند که Google ممکن است آن را برای مکالمه‌ای یا "مفید" تنظیم کرده باشد، اما بیش از حد توضیح داده بدون محتوا.

  • یکپارچه‌سازی ضعیف با خدمات خود Google: یکی از نقاط فروش دستیار AI Google باید یکپارچه‌سازی با اکوسیستم Google (Gmail، Docs، Drive و غیره) باشد. با این حال، تجربیات کاربری اولیه در این زمینه بسیار ناامیدکننده بود. یک کاربر خشمگین نوشت: "حتی شروع نکنید به من در مورد ناتوانی تقریباً کامل آن در یکپارچه‌سازی با محصولات خود Google که قرار است یک 'ویژگی' باشد (که به نظر می‌رسد نمی‌داند که دارد).". برای مثال، مردم سعی می‌کردند از Gemini (از طریق Bard) بخواهند یک Google Doc را خلاصه کند یا یک ایمیل بر اساس برخی اطلاعات بنویسد – ویژگی‌هایی که Google تبلیغ کرده بود – و ربات پاسخ می‌داد که نمی‌تواند به آن داده‌ها دسترسی پیدا کند. یک کاربر در r/GooglePixel نوشت: "هر بار که سعی می‌کنم از Gemini با Google Docs یا Drive خود استفاده کنم، به من می‌گوید که نمی‌تواند کاری با آن انجام دهد. چه فایده‌ای دارد که حتی این ویژگی‌های یکپارچه‌سازی را داشته باشیم؟". این نشان‌دهنده یک شکاف قابل توجه بین قابلیت‌های وعده داده شده و عملکرد واقعی است، که کاربران را با این احساس که "دستیار AI" در اکوسیستم خود Google چندان کمکی نمی‌کند، باقی می‌گذارد.

  • امتناع‌ها و سردرگمی قابلیت‌ها: کاربران همچنین با امتناع‌های عجیب یا تناقضات از Gemini مواجه شدند. همان کاربر Reddit اشاره کرد که Gemini "از انجام کارها بدون دلیل امتناع می‌کند، فراموش می‌کند که می‌تواند کارهای دیگری انجام دهد... روز دیگر به من گفت که به اینترنت/داده‌های زنده دسترسی ندارد. چه.". این نشان می‌دهد که Gemini گاهی اوقات وظایفی را که باید قادر به انجام آن‌ها باشد رد می‌کند (مانند بازیابی اطلاعات زنده، که Bard به آن متصل است) یا اظهارات نادرستی درباره قابلیت‌های خود می‌دهد. چنین تجربیاتی این تصور را ایجاد کرد که یک AI نه تنها کمتر هوشمند، بلکه کمتر قابل اعتماد یا خودآگاه است. نظر رنگارنگ یک کاربر دیگر: "Gemini زباله مطلق است. آیا تا به حال یکی از آن لحظاتی را داشته‌اید که فقط می‌خواهید دستان خود را بالا ببرید و بگویید، 'چه فکر می‌کردند؟'" ناامیدی را به تصویر می‌کشد. اساساً، مسائل یکپارچه‌سازی محصول و سازگاری Gemini باعث شد که به نظر بسیاری از کاربران اولیه نیمه‌پخته بیاید.

  • توانایی‌های کدنویسی غیرقابل توجه: در حالی که به اندازه پرسش و پاسخ عمومی مورد بحث قرار نگرفته است، چندین کاربر Gemini (Bard) را در وظایف کدنویسی آزمایش کردند و آن را ضعیف یافتند. در انجمن‌های AI، توانایی‌های کدنویسی Gemini معمولاً زیر GPT-4 و حتی زیر Claude رتبه‌بندی می‌شد. برای مثال، یک کاربر به سادگی بیان کرد که "Claude 3.5 Sonnet به وضوح برای کدنویسی بهتر از ChatGPT 4o است... Gemini در آن زمینه زباله مطلق است". توافق عمومی این بود که Gemini می‌تواند کد ساده بنویسد یا الگوریتم‌های پایه را توضیح دهد، اما اغلب در مسائل پیچیده‌تر دچار مشکل می‌شود یا کدی با خطا تولید می‌کند. عدم وجود یک مجموعه ابزار توسعه‌دهنده گسترده (مثلاً، معادل Code Interpreter یا فراخوانی تابع قوی) نیز به این معنی بود که برای برنامه‌نویسان انتخاب اول نبود. بنابراین، در حالی که هر کاربر عادی به کد اهمیت نمی‌دهد، این یک محدودیت برای آن بخش است.

  • محدودیت‌های دستگاه‌های موبایل: Gemini به عنوان بخشی از دستیار Google بر روی گوشی‌های Pixel عرضه شد (با نام "Assistant with Bard"). برخی از کاربران Pixel اشاره کردند که استفاده از آن به عنوان جایگزین دستیار صوتی مشکلاتی داشت. گاهی اوقات درخواست‌های صوتی را به درستی دریافت نمی‌کرد یا نسبت به دستیار Google قدیمی زمان بیشتری برای پاسخگویی می‌گرفت. همچنین نظراتی درباره نیاز به انتخاب و از دست دادن برخی از ویژگی‌های کلاسیک دستیار وجود داشت. این یک درک ایجاد کرد که یکپارچه‌سازی Gemini بر روی دستگاه‌ها به طور کامل آماده نبود، کاربران قدرت اکوسیستم Google را با این احساس که باید بین یک دستیار هوشمند و یک دستیار کاربردی انتخاب کنند، باقی می‌گذارد.

ویژگی‌ها یا بهبودهای درخواست‌شده مکرر

  • بهبود قابل توجه دقت و استدلال: بهبود شماره یک که کاربران برای Gemini می‌خواهند به سادگی هوشمندتر و قابل اعتمادتر باشد. بازخورد Reddit به وضوح نشان می‌دهد که Google باید شکاف کیفیت پاسخ را ببندد. کاربران انتظار دارند Gemini از دسترسی گسترده Google به اطلاعات برای ارائه پاسخ‌های واقعی و مستقیم استفاده کند، نه پاسخ‌های پرچانگی یا نادرست. بنابراین درخواست‌ها (اغلب به صورت طنزآمیز بیان می‌شوند) به این خلاصه می‌شود: آن را به اندازه یا بهتر از GPT-4 در دانش عمومی و استدلال کنید. این شامل بهبود در مدیریت سوالات پیگیری و درخواست‌های پیچیده است. اساساً، "مغز" Gemini را اصلاح کنید – از آن مزایای آموزشی چندرسانه‌ای ادعا شده استفاده کنید تا جزئیات آشکار را از دست ندهد. Google احتمالاً این را به وضوح شنیده است: بسیاری از پست‌ها پاسخ‌های خاصی را مقایسه می‌کنند که در آن ChatGPT برتری داشت و Gemini شکست خورد، که به عنوان گزارش‌های غیررسمی برای بهبود عمل می‌کند.

  • یکپارچه‌سازی بهتر و آگاهی از زمینه: کاربران می‌خواهند Gemini وعده یک دستیار یکپارچه اکوسیستم Google را برآورده کند. این به این معنی است که باید به درستی با Gmail، Calendar، Docs، Drive و غیره ارتباط برقرار کند. اگر کاربری بپرسد "سند باز شده را خلاصه کن" یا "پاسخی به آخرین ایمیل از رئیس من بنویس"، AI باید این کار را انجام دهد – و به صورت ایمن انجام دهد. در حال حاضر، درخواست این است که Google این ویژگی‌ها را فعال کند و Gemini را واقعاً تشخیص دهد که چنین وظیفه‌ای ممکن است. تبلیغ شده بود که Bard می‌تواند به محتوای کاربر متصل شود (با اجازه)، بنابراین کاربران به طور مؤثر از Google می‌خواهند که "این یکپارچه‌سازی را روشن کند" یا اصلاح کند. این یک ویژگی کلیدی برای کاربران تجاری به ویژه است. علاوه بر این، در جبهه مرور وب: Bard (Gemini) می‌تواند وب را جستجو کند، اما برخی از کاربران می‌خواهند که منابع را واضح‌تر ذکر کند یا در ادغام اخبار فوری به موقع‌تر باشد. بنابراین بهبود طبیعت متصل Gemini یک درخواست مکرر است.

  • کنترل‌های اختصار: با توجه به شکایات از پرحرفی، برخی از کاربران یک ویژگی برای تغییر سبک پاسخ پیشنهاد می‌دهند. برای مثال، یک "حالت مختصر" که در آن Gemini به طور پیش‌فرض یک پاسخ کوتاه و به نکته می‌دهد، مگر اینکه درخواست شود که توضیح دهد. برعکس، شاید یک "حالت دقیق" برای کسانی که پاسخ‌های بسیار جامع می‌خواهند. ChatGPT به طور ضمنی اجازه می‌دهد برخی از این موارد با درخواست کاربر ("مختصر نگه‌دار")؛ با Gemini، کاربران احساس می‌کردند حتی وقتی که درخواست جزئیات نمی‌کردند، بیش از حد توضیح می‌داد. بنابراین یک تنظیم داخلی یا فقط تنظیم بهتر برای تولید پاسخ‌های مختصر وقتی که مناسب است، یک بهبود خوش‌آمد خواهد بود. اساساً، تنظیم دکمه پرحرفی.

  • برابری ویژگی با ChatGPT (کدنویسی، پلاگین‌ها و غیره): کاربران قدرت در Reddit به طور صریح ویژگی‌ها را مقایسه می‌کنند. آن‌ها درخواست می‌کنند که Gemini/Bard Google چیزهایی مانند یک محیط اجرای کد (مشابه مفسر کد ChatGPT)، توانایی آپلود تصاویر/PDFها برای تحلیل (از آنجا که Gemini چندرسانه‌ای است، کاربران می‌خواهند واقعاً تصاویر سفارشی را به آن تغذیه کنند، نه فقط آن‌هایی که ارائه شده‌اند را توصیف کند). یک ویژگی مکرر دیگر حافظه درون مکالمه بهتر است – در حالی که Bard حافظه‌ای از تعاملات گذشته دارد، کاربران می‌خواهند که به اندازه ChatGPT در ارجاع به زمینه قبلی خوب باشد، یا حتی ذخیره‌سازی مکالمه پایدار مانند تاریخچه چت ChatGPT که می‌توانید مرور کنید و دوباره بازدید کنید. اساساً، از Google خواسته می‌شود که در تمام ویژگی‌های کیفیت زندگی که کاربران ChatGPT Plus دارند، به روز شود: تاریخچه چت، اکوسیستم پلاگین (یا حداقل یکپارچه‌سازی‌های شخص ثالث قوی)، کمک کدنویسی و غیره.

  • بهبودهای برنامه موبایل و دستیار صوتی: بسیاری از کاربران عادی درخواست یک برنامه موبایل اختصاصی برای Bard/Gemini (مشابه برنامه موبایل ChatGPT) کردند. تکیه بر یک رابط وب یا فقط دستیار Pixel محدود است. یک برنامه رسمی در سراسر iOS/Android با ورودی صوتی، پاسخ‌های گفتاری (برای احساس یک دستیار واقعی) و یکپارچه‌سازی محکم می‌تواند تجربه کاربری را به شدت بهبود بخشد. همراه با آن، صاحبان Pixel می‌خواهند که دستیار با Bard سریع‌تر و کاربردی‌تر شود – اساساً، آن‌ها بهترین‌های دستیار Google قدیمی (اقدامات سریع و دقیق) را با هوش Gemini ترکیب می‌خواهند. برای مثال، چیزهایی مانند ادامه اجازه دادن به فرمان‌های صوتی "Hey Google" برای خانه هوشمند و نه فقط پاسخ‌های چت‌گونه. Google می‌تواند حالت صوتی Gemini را بهبود بخشد تا واقعاً دستیار قدیمی را بدون عقب‌نشینی ویژگی‌ها جایگزین کند.

  • شفافیت و کنترل: برخی از کاربران خواسته‌اند که بینش بیشتری به منابع Bard یا راهی برای تنظیم سبک آن داشته باشند. برای مثال، نشان دادن اینکه Bard از کدام نتیجه Google اطلاعات را می‌گیرد (برای تأیید دقت) – چیزی که Bing Chat با ذکر لینک‌ها انجام می‌دهد. همچنین، به دلیل اینکه Bard گاهی اوقات اطلاعات نادرست تولید می‌کند، کاربران می‌خواهند بتوانند آن را علامت‌گذاری یا اصلاح کنند و ایده‌آل این است که Bard باید از آن بازخورد در طول زمان یاد بگیرد. داشتن یک مکانیزم بازخورد آسان ("انگشت پایین – این نادرست است زیرا...") که به بهبود سریع مدل منجر شود، اعتماد را ایجاد می‌کند که Google گوش می‌دهد. اساساً، ویژگی‌هایی برای تبدیل AI به یک دستیار همکار بیشتر از یک جعبه سیاه.

نیازها یا بخش‌های کاربری برآورده نشده

  • کاربرانی که به دنبال یک دستیار شخصی قابل اعتماد هستند: به طور طنزآمیز، گروهی که Google هدف قرار داده بود – افرادی که یک دستیار شخصی قدرتمند می‌خواهند – در شکل فعلی Gemini احساس می‌کنند که به خوبی خدمت‌رسانی نشده‌اند. کاربران اولیه که دستیار جدید مبتنی بر Bard را فعال کردند، انتظار یک ارتقاء داشتند، اما بسیاری احساس کردند که از نظر عملی یک کاهش است. برای مثال، اگر کسی بخواهد یک دستیار صوتی به دقت به سوالات تریویا پاسخ دهد، یادآوری‌ها را تنظیم کند، دستگاه‌ها را کنترل کند و اطلاعات را از حساب‌های خود یکپارچه کند، Gemini دچار مشکل شد. این گروه از حرفه‌ای‌های مشغول یا علاقه‌مندان به گجت (که به دستیارها برای بهره‌وری متکی هستند) را با این احساس که نیازهای آن‌ها برآورده نشده است، باقی گذاشت. یکی از کاربران اظهار داشت که آن‌ها در نظر خواهند گرفت که برای "دستیار با Bard" Pixel پول بپردازند "اگر [آن] از دستیار Google پیشی بگیرد", که نشان می‌دهد هنوز این کار را نکرده است. بنابراین آن بخش هنوز منتظر یک دستیار AI قابل اعتماد و واقعاً مفید است – اگر Gemini بهبود یابد، آن‌ها به آن می‌پیوندند.

  • غیر انگلیسی‌زبانان / بومی‌سازی: محصولات Google معمولاً بومی‌سازی عالی دارند، اما مشخص نیست که Bard/Gemini به همان اندازه در همه زبان‌ها در زمان راه‌اندازی قوی بود یا خیر. برخی از کاربران بین‌المللی گزارش دادند که پاسخ‌های Bard به زبان مادری آن‌ها کمتر روان یا مفید بود، آن‌ها را به رقبا محلی بازگرداند. اگر داده‌های آموزشی یا بهینه‌سازی Gemini به نفع انگلیسی بود، کاربران غیر انگلیسی به خوبی خدمت‌رسانی نشده‌اند. آن‌ها ممکن است ChatGPT یا مدل‌های محلی را که به طور صریح قابلیت‌های چندزبانه را بهینه کرده‌اند، ترجیح دهند. این فضایی است که Google به طور سنتی می‌تواند در آن برتری داشته باشد (با توجه به فناوری ترجمه‌اش)، اما بازخورد کاربر در این زمینه کم است – احتمالاً نشان‌دهنده این است که Gemini هنوز آن جوامع را شگفت‌زده نکرده است.

  • مشتریان سازمانی (تا کنون): سازمان‌های بزرگ بر اساس گفتگوهای عمومی Bard/Gemini را به طور گسترده‌ای نپذیرفته‌اند، اغلب به دلیل شکاف‌های اعتماد و قابلیت. سازمان‌ها به سازگاری، استنادها و یکپارچه‌سازی با جریان‌های کاری خود نیاز دارند (Office 365 به شدت با فناوری OpenAI از طریق MS Copilot یکپارچه شده است، برای مثال). معادل Google (Duet AI با Gemini) هنوز در حال تکامل است. تا زمانی که Gemini/Bard ثابت نکند که می‌تواند به طور قابل اعتماد ایمیل‌ها را پیش‌نویس کند، اسلایدها را ایجاد کند یا داده‌ها را در Google Sheets تحلیل کند در سطحی برابر یا بالاتر از GPT-4، کاربران سازمانی احساس می‌کنند که راه‌حل Google به طور کامل نیازهای آن‌ها را برآورده نمی‌کند. برخی از پست‌ها در r/Bard از حرفه‌ای‌ها به این صورت است که "من Bard را برای وظایف کاری امتحان کردم، به اندازه ChatGPT خوب نبود، بنابراین منتظر می‌مانیم و می‌بینیم." این نشان می‌دهد که کاربران سازمانی یک بخش برآورده نشده برای اکنون هستند – آن‌ها یک AI می‌خواهند که به Google Workspace متصل شود و واقعاً بهره‌وری را بدون نیاز به تأیید مداوم خروجی‌ها افزایش دهد.

  • کاربران در اکوسیستم Google که راه‌حل‌های یک‌جا را ترجیح می‌دهند: یک بخش از کاربران وجود دارد که از Google برای همه چیز استفاده می‌کنند (جستجو، ایمیل، اسناد) و *خوشحال می‌شوند که از یک AI Google برای همه نیازهای چت‌بات خود استفاده کنند – اگر به همان خوبی باشد. در حال حاضر، آن کاربران به خوبی خدمت‌رسانی نشده‌اند زیرا آن‌ها در نهایت از ChatGPT برای برخی چیزها و Bard برای دیگران استفاده می‌کنند. آن‌ها ممکن است سوالات واقعی را به ChatGPT بپرسند زیرا به کیفیت پاسخ آن بیشتر اعتماد دارند، اما از Bard برای تلاش‌های یکپارچه‌سازی یا مرور استفاده کنند. آن تجربه تقسیم شده ایده‌آل نیست. چنین کاربرانی واقعاً فقط می‌خواهند در یک برنامه/دستیار بمانند. اگر Gemini بهبود یابد، آن‌ها در اطراف آن جمع می‌شوند، اما تا آن زمان استفاده آن‌ها از "یک دستیار برای همه" برآورده نمی‌شود.

  • توسعه‌دهندگان/دانشمندان داده در Google Cloud: Google مدل‌های Gemini را از طریق پلتفرم Vertex AI خود برای توسعه‌دهندگان منتشر کرد. با این حال، گزارش‌ها و معیارهای اولیه نشان دادند که Gemini (به ویژه مدل "Gemini Pro" موجود) از GPT-4 پیشی نمی‌گیرد. توسعه‌دهندگانی که Google Cloud را برای خدمات AI ترجیح می‌دهند، بنابراین از نظر کیفیت مدل کمی به خوبی خدمت‌رسانی نشده‌اند – آن‌ها یا باید یک مدل کمی ضعیف‌تر را بپذیرند یا API OpenAI را به طور جداگانه ادغام کنند. این بخش توسعه‌دهنده سازمانی به شدت به دنبال یک مدل قوی Google است تا بتوانند همه چیز را در یک پشته نگه دارند. تا زمانی که عملکرد Gemini به وضوح در برخی زمینه‌ها برتری پیدا کند یا قیمت‌گذاری یک دلیل قانع‌کننده ارائه دهد، به طور کامل نیازهای این گروه را برآورده نمی‌کند.

تفاوت‌های درک شده توسط نوع کاربر

  • توسعه‌دهندگان/علاقه‌مندان به فناوری: کاربران فنی با انتظارات بالا به Gemini نزدیک شدند (به هر حال این Google است). درک آن‌ها به سرعت پس از آزمایش‌های دستی خراب شد. بسیاری از توسعه‌دهندگان در Reddit معیارها یا سوالات پیچیده مورد علاقه خود را از طریق Gemini اجرا کردند و آن را عقب‌مانده یافتند. یک برنامه‌نویس به صراحت بیان کرد، "Gemini زباله مطلق است مانند Llama 3.0 که قبلاً بود", نشان‌دهنده این است که آن‌ها حتی آن را زیر برخی از مدل‌های باز رتبه‌بندی می‌کنند. توسعه‌دهندگان به ویژه به خطاهای منطقی و پرحرفی حساس هستند. بنابراین وقتی Gemini پاسخ‌های پرحرفی اما نادرست می‌داد، به سرعت اعتبار خود را از دست داد. از طرف دیگر، توسعه‌دهندگان به پتانسیل Google اذعان می‌کنند؛ برخی امیدوارند که "با تنظیم دقیق بیشتر، Gemini بهتر خواهد شد" و آن‌ها به طور دوره‌ای آن را پس از به‌روزرسانی‌ها دوباره آزمایش می‌کنند. در حال حاضر، با این حال، اکثر توسعه‌دهندگان آن را به عنوان پایین‌تر از GPT-4 در تقریباً همه وظایف جدی (کدنویسی، حل مسئله پیچیده) درک می‌کنند. آن‌ها به برخی چیزها قدردانی می‌کنند: برای مثال، Gemini به اطلاعات واقعی زمان دسترسی دارد (از طریق جستجوی Google) بدون نیاز به پلاگین، که برای پرسش‌های به‌روز مفید است. یک توسعه‌دهنده ممکن است از Bard برای چیزی مانند "جستجو و خلاصه کردن آخرین مقالات در مورد X" استفاده کند، جایی که می‌تواند داده‌های وب را نقل کند. اما برای استدلال خودکفا، آن‌ها به مدل‌های دیگر متمایل می‌شوند. به طور خلاصه، علاقه‌مندان به فناوری Gemini را به عنوان یک کار در حال پیشرفت امیدوارکننده می‌بینند که در حال حاضر یک نسل عقب‌تر به نظر می‌رسد. آن‌ها هنوز اعتماد کامل خود را به آن نداده‌اند و اغلب مقایسه‌های کنار هم از اشتباهات آن را ارسال می‌کنند تا Google را به بهبود آن ترغیب کنند.

  • کاربران عادی/روزمره: کاربران عادی، از جمله کسانی که به Bard جدید بر روی گوشی‌های خود یا از طریق وب دسترسی پیدا کردند، احساسات مختلطی داشتند. بسیاری از کاربران عادی ابتدا به Bard (Gemini) نزدیک شدند زیرا رایگان و با یک حساب Google به راحتی قابل دسترسی است، برخلاف GPT-4 که پولی بود. برخی از کاربران عادی در واقع تجربیات مناسبی برای استفاده‌های ساده گزارش می‌دهند: برای مثال، یک کاربر Reddit در r/Bard یک بررسی مثبت ارائه داد و اشاره کرد که Gemini به آن‌ها در مواردی مانند بررسی اسناد قانونی، نوشتن متن و حتی یک مورد استفاده سرگرم‌کننده از شناسایی اندازه لباس از یک عکس کمک کرد. آن‌ها گفتند "Gemini منبع ارزشمندی برای پاسخ به سوالات من بوده است... اطلاعات به‌روز... من به نسخه پولی آن عادت کرده‌ام که نمی‌توانم به یاد بیاورم که نسخه رایگان چگونه عمل می‌کند." – نشان‌دهنده این است که حداقل برخی از کاربران عادی که زمان (و پول) را در Bard Advanced سرمایه‌گذاری کردند، آن را در زندگی روزمره مفید یافتند. این کاربران تمایل دارند از آن برای کمک‌های عملی و روزمره استفاده کنند و ممکن است مدل را به حداکثر نرسانند. با این حال، بسیاری از کاربران عادی دیگر (به ویژه کسانی که ChatGPT را نیز امتحان کرده بودند) ناامید شدند. افراد عادی که چیزهایی مانند مشاوره سفر، تریویا یا کمک به یک وظیفه می‌خواستند، پاسخ‌های Bard را کمتر واضح یا مفید یافتند. درک در اینجا تقسیم شده است: کاربران وفادار به برند Google در مقابل کسانی که قبلاً توسط ChatGPT خراب شده‌اند. گروه اول، اگر آن‌ها ChatGPT را زیاد استفاده نکرده باشند، گاهی اوقات Bard/Gemini را برای نیازهای خود "کاملاً خوب" می‌دانند و قدردانی می‌کنند که با جستجو یکپارچه شده و رایگان است. گروه دوم تقریباً همیشه مقایسه می‌کنند و Gemini را ناکافی می‌یابند. آن‌ها ممکن است بگویند، "چرا باید از Bard استفاده کنم وقتی که ChatGPT 90% مواقع بهتر است؟". بنابراین درک کاربر عادی واقعاً به چارچوب مرجع قبلی آن‌ها بستگی دارد. کسانی که تازه به دستیارهای AI هستند ممکن است Gemini را به عنوان یک نوآوری مفید ارزیابی کنند؛ کسانی که با رقابت تجربه دارند آن را به عنوان یک ناامیدی می‌بینند که *"هنوز اینقدر بد است" و نیاز به بهبود دارد.

  • کاربران تجاری/حرفه‌ای: بسیاری از حرفه‌ای‌ها Bard را زمانی که با یکپارچه‌سازی Google Workspace (Duet AI) راه‌اندازی شد، امتحان کردند. درک در میان این گروه احتیاط‌آمیز است. از یک سو، آن‌ها به وعده‌های سازمانی Google در مورد حریم خصوصی داده‌ها و یکپارچه‌سازی اعتماد دارند (مثلاً، ویرایش اسناد از طریق AI، خلاصه‌سازی جلسات از دعوت‌نامه‌های Calendar و غیره). از سوی دیگر، آزمایش‌های اولیه اغلب نشان دادند که Gemini اشتباهات واقعی می‌کند یا خروجی‌های عمومی ارائه می‌دهد، که برای استفاده تجاری اعتمادآور نیست. برای مثال، یک حرفه‌ای ممکن است از Bard بخواهد یک گزارش مشتری را پیش‌نویس کند – اگر Bard داده‌های نادرست یا بینش‌های ضعیف وارد کند، می‌تواند بیشتر دردسرساز باشد تا کمک. بنابراین، کاربران حرفه‌ای تمایل دارند Bard را برای وظایف غیر بحرانی آزمایش کنند اما هنوز به GPT-4 یا Claude برای خروجی‌های مهم متکی هستند. همچنین درک این است که Google در حال جبران است: بسیاری Bard را به عنوان "آماده برای زمان اصلی" نمی‌دانند و تصمیم به انتظار گرفته‌اند. برخی از درک‌های مثبت در زمینه‌هایی مانند پرسش‌های داده‌ای زمان واقعی وجود دارد – مثلاً، یک تحلیلگر مالی در Reddit اشاره کرد که Bard می‌تواند اطلاعات بازار اخیر را به لطف جستجوی Google بگیرد، که ChatGPT نمی‌تواند مگر اینکه پلاگین‌ها فعال شوند. بنابراین در حوزه‌هایی که داده‌های جاری کلیدی است، چند حرفه‌ای یک مزیت دیدند. یک نکته دیگر: افرادی در اکوسیستم Google (مثلاً، شرکت‌هایی که به طور انحصاری از Google Workspace استفاده می‌کنند) دیدگاه کمی مطلوب‌تر دارند فقط به این دلیل که Bard/Gemini گزینه‌ای است که با محیط آن‌ها مطابقت دارد. آن‌ها امیدوارند که بهبود یابد به جای تغییر به یک اکوسیستم کاملاً متفاوت. به طور خلاصه، کاربران تجاری Gemini را به عنوان احتمالاً بسیار مفید می‌بینند (با توجه به داده‌ها و ابزارهای Google)، اما تا اوایل ۲۰۲۵ هنوز اعتماد کامل را به دست نیاورده است. آن‌ها آن را به عنوان "رقیب جدیدی که هنوز کاملاً آماده نیست" درک می‌کنند – ارزش نظارت دارد، اما هنوز برای وظایف بحرانی به آن اعتماد نمی‌کنند. شهرت Google مقداری صبر از این جمعیت می‌خرد، اما نه به طور نامحدود؛ اگر Gemini به طور قابل توجهی بهبود نیابد، حرفه‌ای‌ها ممکن است آن را به طور گسترده‌ای نپذیرند و به راه‌حل‌های دیگر پایبند بمانند.


LLMهای منبع باز (مثلاً مدل‌های مبتنی بر LLaMA)

نقاط ضعف و محدودیت‌های مشترک

  • نیازهای سخت‌افزاری و تنظیمات: برخلاف چت‌بات‌های ابری، LLMهای منبع باز معمولاً نیاز به اجرای آن‌ها بر روی سخت‌افزار محلی یا یک سرور دارند. این بلافاصله یک نقطه ضعف ارائه می‌دهد: بسیاری از مدل‌ها (برای مثال، یک مدل 70 میلیارد پارامتری LLaMA) به یک GPU قدرتمند با مقدار زیادی VRAM برای اجرای روان نیاز دارند. همانطور که یکی از کاربران Reddit به طور خلاصه بیان کرد، "LLMهای محلی بر روی اکثر سخت‌افزارهای مصرف‌کننده دقت لازم برای هر توسعه پیچیده‌ای را نخواهند داشت." برای فرد متوسط با تنها یک GPU 8GB یا 16GB (یا فقط یک CPU)، اجرای یک مدل با کیفیت بالا می‌تواند کند یا به طور کامل غیرقابل اجرا باشد. کاربران ممکن است به مدل‌های کوچکتر که جا می‌شوند متوسل شوند، اما آن‌ها اغلب خروجی با کیفیت پایین‌تر ("پاسخ‌های احمقانه‌تر") می‌دهند. پیچیدگی تنظیمات یک مسئله دیگر است – نصب وزن‌های مدل، تنظیم محیط‌هایی مانند Oobabooga یا Lang