بازخورد کاربران Reddit در مورد ابزارهای چت LLM اصلی
بررسی کلی: این گزارش به تحلیل بحثهای Reddit درباره چهار ابزار چت هوش مصنوعی محبوب – ChatGPT از OpenAI، Claude از Anthropic، Gemini (Bard) از Google و LLMهای منبع باز (مانند مدلهای مبتنی بر LLaMA) میپردازد. این گزارش نقاط ضعف مشترک گزارش شده توسط کاربران برای هر یک از این ابزارها، ویژگیهایی که بیشتر درخواست میشوند، نیازهای برآورده نشده یا بخشهای کاربری که احساس میکنند به خوبی خدمترسانی نشدهاند، و تفاوتهای درک میان توسعهدهندگان، کاربران عادی و کاربران تجاری را خلاصه میکند. مثالها و نقلقولهای خاص از رشتههای Reddit برای روشن کردن این نقاط گنجانده شده است.
ChatGPT (OpenAI)
نقاط ضعف و محدودیتهای مشترک
-
حافظه محدود زمینه: یکی از شکایات اصلی ناتوانی ChatGPT در مدیریت مکالمات طولانی یا اسناد بزرگ بدون فراموش کردن جزئیات قبلی است. کاربران اغلب به محدودیت طول زمینه (چند هزار توکن) برخورد میکنند و باید اطلاعات را خلاصه یا قطع کنند. یکی از کاربران اشاره کرد که "افزایش اندازه پنجره زمینه به مراتب بزرگترین بهبود خواهد بود... این محدودیتی است که بیشتر با آن مواجه میشوم". وقتی زمینه بیش از حد میشود، ChatGPT دستورالعملها یا محتوای اولیه را فراموش میکند که منجر به افت کیفیت ناامیدکننده در میانه جلسه میشود.
-
محدودیتهای پیام برای GPT-4: کاربران ChatGPT Plus از محدودیت ۲۵ پیام/۳ ساعت در استفاده از GPT-4 (محدودیتی که در سال ۲۰۲۳ وجود داشت) ناراضی هستند. رسیدن به این محدودیت آنها را مجبور به انتظار میکند و کار را قطع میکند. کاربران سنگین این محدودیت را یک نقطه ضعف بزرگ میدانند.
-
فیلترهای محتوای سختگیرانه ("نرفها"): بسیاری از کاربران Reddit احساس میکنند ChatGPT بیش از حد محدود شده است و اغلب درخواستهایی را که نسخههای قبلی انجام میدادند، رد میکند. یک پست با رأی بالا شکایت کرد که "تقریباً هر چیزی که این روزها از آن میخواهید، پاسخ 'متأسفم، نمیتوانم کمک کنم' را برمیگرداند... چگونه از مفیدترین ابزار به معادل Google Assistant تبدیل شد؟". کاربران به مثالهایی اشاره میکنند که ChatGPT از فرمتبندی مجدد متن خودشان (مثلاً اعتبارنامههای ورود) به دلیل سوءاستفاده فرضی امتناع میکند. مشترکان پرداختی استدلال میکنند که "برخی ایدههای مبهم که کاربر ممکن است کار 'بدی' انجام دهد... نباید دلیلی برای نمایش ندادن نتایج باشد", زیرا آنها خروجی مدل را میخواهند و به طور مسئولانه از آن استفاده خواهند کرد.
-
توهمات و اشتباهات: با وجود قابلیت پیشرفتهاش، ChatGPT میتواند اطلاعات نادرست یا ساختگی با اطمینان تولید کند. برخی از کاربران مشاهده کردهاند که این وضعیت با گذشت زمان بدتر شده و مشکوک هستند که مدل "کاهش داده شده است". برای مثال، یک کاربر در حوزه مالی گفت که ChatGPT قبلاً معیارهایی مانند NPV یا IRR را به درستی محاسبه میکرد، اما پس از بهروزرسانیها "من تعداد زیادی پاسخ نادرست دریافت میکنم... هنوز هم پاسخهای نادرست تولید میکند [حتی پس از تصحیح]. واقعاً معتقدم که از زمان تغییرات بسیار کندتر شده است.". چنین نادرستیهای غیرقابل پیشبینی اعتماد را برای وظایفی که نیاز به دقت واقعی دارند، از بین میبرد.
-
خروجیهای کد ناقص: توسعهدهندگان اغلب از ChatGPT برای کمک به کدنویسی استفاده میکنند، اما گزارش میدهند که گاهی اوقات بخشهایی از راهحل را حذف میکند یا کد طولانی را قطع میکند. یکی از کاربران به اشتراک گذاشت که ChatGPT اکنون "کد را حذف میکند، کد غیرمفید تولید میکند و فقط در کاری که نیاز دارم انجام دهد، ضعیف است... اغلب آنقدر کد را حذف میکند که حتی نمیدانم چگونه راهحل آن را ادغام کنم.". این کاربران را مجبور میکند که درخواستهای پیگیری برای استخراج بقیه بپرسند یا به صورت دستی پاسخها را به هم بپیوندند – یک فرآیند خستهکننده.
-
نگرانیهای عملکرد و زمان کار: این تصور وجود دارد که عملکرد ChatGPT برای کاربران فردی با افزایش استفاده سازمانی کاهش یافته است. "فکر میکنم آنها پهنای باند و قدرت پردازش را به کسبوکارها اختصاص میدهند و آن را از کاربران کم میکنند، که با توج ه به هزینه اشتراک غیرقابل تحمل است!" یکی از مشترکان Plus ناراضی اظهار داشت. قطعیها یا کندیها در زمانهای اوج به صورت غیررسمی گزارش شدهاند که میتواند جریان کار را مختل کند.
ویژگیها یا بهبودهای درخواستشده مکرر
-
پنجره زمینه طولانیتر / حافظه: به مراتب بیشترین درخواست بهبود، طول زمینه بزرگتر است. کاربران میخواهند مکالمات بسیار طولانیتری داشته باشند یا اسناد بزرگ را بدون تنظیم مجدد وارد کنند. بسیاری پیشنهاد میدهند که زمینه ChatGPT به اندازه قابلیت 32K توکن GPT-4 (که در حال حاضر از طریق API در دسترس است) یا بیشتر گسترش یابد. همانطور که یکی از کاربران بیان کرد، "GPT با زمینه بهترین است و وقتی آن زمینه اولیه را به خاطر نمیآورد، من ناامید میشوم... اگر شایعات درباره PDFهای زمینه درست باشد، اساساً تمام مشکلاتم را حل میکند." تقاضای زیادی برای ویژگیهایی وجود دارد که به کاربران اجازه میدهد اسناد را بارگذاری کنند یا دادههای شخصی را پیوند دهند تا ChatGPT بتواند آنها را در طول یک جلسه به خاطر بسپارد و به آنها ارجاع دهد.
-
مدیریت فایل و یکپارچهسازی: کاربران اغلب درخواست راههای آسانتر برای وارد کردن فایلها یا دادهها به ChatGPT را دارند. در بحثها، مردم میگویند که میخواهند "گوگل درایو خود را کپی و پیست کنم و کار کند" یا پلاگینهایی داشته باشند که به ChatGPT اجازه میدهد مستقیماً زمینه را از فایلهای شخصی بازیابی کند. برخی از کاربران راهحلهای جایگزین (مانند پلاگینهای خواننده PDF یا پیوند دادن Google Docs) را امتحان کردهاند، اما از خطاها و محدودیتها شکایت کردهاند. یکی از کاربران پلاگین ایدهآل خود را به عنوان چیزی توصیف کرد که "مانند Link Reader کار میکند اما برای فایلهای شخصی... انتخاب قسمتهایی از درایو من برای استفاده در یک مکالمه... این اساساً هر مشکلی که با GPT-4 دارم را حل میکند.". به طور خلاصه، پشتیبانی بومی بهتر برای دانش خارجی (فراتر از دادههای آموزشی) یک درخواست محبوب است.
-
کاهش محدودیتها برای کاربران پرداختی: از آنجا که بسیاری از کاربران Plus به محدودیت پیام GPT-4 برخورد میکنند، آنها خواستار محدودیتهای بالاتر یا گزینهای برای پرداخت بیشتر برای دسترسی نامحدود هستند. محدودیت ۲۵ پیام به عنوان محدودیتی دلخواه و مانعی برای استفاده فشرده دیده میشود. مردم ترجیح میدهند یک مدل مبتنی بر استفاده یا محدودیت بالاتر داشته باشند تا جلسات طولانی حل مسئله قطع نشود.
-
حالتهای تعدیل محتوای "بدون سانسور" یا سفارشی: بخشی از کاربران دوست دارند توانایی تغییر سختی فیلترهای محتوا را داشته باشند، به ویژه هنگامی که از ChatGPT برای خودشان استفاده میکنند (نه محتوای عمومی). آنها احساس میکنند یک حالت "تحقیق" یا "بدون سانسور" – با هشدارها اما بدون رد سخت – به آنها اجازه میدهد آزادانهتر کاوش کنند. همانطور که یکی از کاربران اشاره کرد، مشتریان پرداختی آن را به عنوان یک ابزار میبینند و معتقدند "من برای [آن] پول میپردازم." آنها میخواهند گزینهای برای دریافت پاسخ حتی در پرسشهای مرزی داشته باشند. در حالی که OpenAI باید ایمنی را متعادل کند، این کاربران پیشنهاد میکنند یک پرچم یا تنظیمات برای کاهش سیاستها در چتهای خصوصی وجود داشته باشد.
-
دقت واقعی بهبود یافته و بهروزرسانیها: کاربران معمولاً خواستار دانش بهروزتر و توهمات کمتر هستند. محدودیت دانش ChatGPT (سپتامبر ۲۰۲۱ در نسخههای قبلی) اغلب در Reddit مطرح شده است. OpenAI از آن زمان مرور و پلاگینها را معرفی کرده است که برخی از کاربران از آنها استفاده میکنند، اما دیگران به سادگی درخواست میکنند که مدل پایه با دادههای جدیدتر به طور مکرر بهروزرسانی شود. کاهش خطاهای آشکار – به ویژه در حوزههایی مانند ریاضیات و کدنویسی – یک خواسته مداوم است. برخی از توسعهدهندگان هنگام اشتباه ChatGPT بازخورد میدهند به امید بهبود مدل.
-
خروجیهای کد بهتر و ابزارها: توسعهدهندگان درخواست ویژگیهایی مانند یک مفسر کد بهبود یافته که محتوا را حذف نمیکند و یکپارچهسازی با IDEها یا کنترل نسخه دارند. (پلاگین مفسر کد OpenAI – اکنون بخشی از "تحلیل دادههای پیشرفته" – گامی در این جهت بود و تحسین شد.) با این حال، کاربران اغلب درخواست کنترل دقیقتر در تولید کد دارند: مثلاً گزینهای برای خروجی کد کامل و بدون فیلتر حتی اگر طولانی باشد، یا مکانیسمهایی برای به راحتی اصلاح کد اگر AI اشتباهی کرده باشد. اساساً، آنها میخواهند ChatGPT بیشتر مانند یک دستیار کدنویسی قابل اعتماد رفتار کند بدون نیاز به چندین درخواست برای اصلاح پاسخ.
-
پروفایلهای کاربری پایدار یا حافظه: بهبود دیگری که برخی ذکر میکنند این است که به ChatGPT اجازه دهند چیزهایی درباره کاربر را در جلسات به خاطر بسپارد (با رضایت). برای مثال، به خاطر سپردن سبک نوشتاری فرد، یا اینکه آنها یک مهندس نرمافزار هستند، بدون نیاز به تکرار آن در هر چت جدید. این میتواند به تنظیم دقیق API یا ویژگی "پروفایل" مرتبط باشد. کاربران اکنون به صورت دستی زمینه مهم را در چتهای جدید کپی میکنند، بنابراین یک حافظه داخلی برای ترجیحات شخصی زمان را صرفهجویی میکند.
نیازها یا بخشهای کاربری برآورده نشده
-
محققان و دانشجویان با اسناد طولانی: افرادی که میخواهند ChatGPT مقالات تحقیقاتی طولانی، کتابها یا مجموعه دادههای بزرگ را تحلیل کند، احساس میکنند که به خوبی خدمترسانی نشدهاند. محدودیتهای فعلی آنها را مجبور میکند که متن را خرد کنند یا به خلاصهها بسنده کنند. این بخش به شدت از پنجرههای زمینه بزرگتر یا ویژگیهایی برای مدیریت اسناد طولانی بهرهمند میشود (همانطور که توسط پستهای متعدد درباره تلاش برای دور زدن محدودیتهای توکن نشان داده شده است).
-
کاربرانی که به دنبال داستانسرایی خلاقانه یا نقشآفرین ی فراتر از محدودیتها هستند: در حالی که ChatGPT اغلب برای نوشتن خلاقانه استفاده میشود، برخی از داستاننویسان احساس میکنند که مدل با فراموش کردن نقاط طرح اولیه در یک داستان طولانی یا رد محتوای بزرگسالان/وحشت محدود شده است. آنها به مدلهای جایگزین یا هکها روی میآورند تا روایتهای خود را ادامه دهند. این کاربران خلاق بهتر توسط نسخهای از ChatGPT با حافظه طولانیتر و کمی انعطافپذیری بیشتر در مورد خشونت تخیلی یا تمهای بالغ (در حد معقول) خدمترسانی میشوند. همانطور که یکی از نویسندگان داستان اشاره کرد، وقتی AI مسیر داستان را از دست میدهد، "باید آن را به فرمت یا زمینه دقیق یادآوری کنم... ناامید میشوم که دو درخواست قبل عالی بود، اما حالا باید AI را به روز کنم.".
-
کاربران قدرت و کارشناسان حوزه: حرفهایها در زمینههای تخصصی (مالی، مهندسی، پزشکی) گاهی اوقات پاسخهای ChatGPT را در حوزه خود فاقد عمق یا دقت میدانند، به ویژه اگر سوالات شامل تحولات اخیر باشد. این کاربران دانش کارشناسی قابل اعتمادتر را میخواهند. برخی از آنها از طریق API یا GPTهای سفارشی تنظیم دقیق کردهاند. کسانی که نمیتوانند تنظیم دقیق کنند، نسخههای خاص حوزه ChatGPT یا پلاگینهایی که پایگاههای داده معتبر را جاسازی میکنند، قدردانی میکنند. در فرم پیشفرض خود، ChatGPT ممکن است کاربران را که به اطلاعات بسیار دقیق و خاص حوزه نیاز دارند، به خوبی خدمترسانی نکند (آنها اغلب باید کار آن را دوباره بررسی کنند).
-
کاربرانی که به محتوای بدون سانسور یا موارد خاص نیاز دارند: اقلیتی از کاربران (هکرهایی که سناریوهای امنیتی را آزمایش میکنند، نویسندگان داستانهای افراطی و غیره) محدودیتهای محتوای ChatGPT را برای نیازهای خود بسیار محدود میدانند. آنها در حال حاضر توسط محصول رسمی به خوبی خدمترسانی نمیشوند (زیرا به صراحت از محتوای خاصی اجتناب میکند). این کاربران اغلب با درخواستهای jailbreak یا استفاده از مدلهای منبع باز آزمایش میکنند تا پاسخهایی که میخواهند را دریافت کنند. این یک شکاف عمدی برای OpenAI است (برای حفظ ایمنی)، اما به این معنی است که چنین کاربرانی به دنبال جای دیگری میروند.
-
افراد و شرکتهای حساس به حریم خصوصی: برخی از کاربران (به ویژه در محیطهای شرکتی) از ارسال دادههای حساس به ChatGPT به دلیل نگرانیهای حریم خصوصی ناراحت هستند. OpenAI سیاستهایی دارد که از دادههای API برای آموزش استفاده نمیکند، اما رابط وب ChatGPT به طور تاریخی چنین تضمینهایی را ارائه نمیداد تا اینکه یک ویژگی انصراف اضافه شد. شرکتهایی که با دادههای محرمانه سروکار دارند (قانونی، بهداشتی و غیره) اغلب احساس میکنند که نمیتوانند به طور کامل از ChatGPT استفاده کنند، مگر اینکه راهحلهای خود میزبانی شده بسازند. برای مثال، یکی از کاربران Reddit اشاره کرد که شرکت آنها به یک LLM محلی برای دلایل حریم خصوصی منتقل شده است. تا زمانی که نمونههای محلی یا خصوصی ChatGPT در دسترس نباشند، این بخش محتاط باقی میماند یا از فروشندگان کوچکتر متخصص استفاده میکند.
تفاوتهای درک شده توسط نوع کاربر
-
توسعهدهندگان/کاربران فنی: توسعهدهندگان تمایل دارند هم از بزرگترین حامیان و هم از سختترین منتقدان ChatGPT باشند. آنها عاشق توانایی آن در توضیح کد، تولید کد پایه و کمک به اشکالزدایی هستند. با این حال، آنها به شدت محدودیتهای آن در زمینه طولانیتر و دقت کد را احساس میکنند. همانطور که یکی از توسعهدهندگان شکایت کرد، ChatGPT شروع به "تولید کد غیرمفید" و حذف بخشهای مهم کرد که "من را عصبانی میکند... نمیخواهم به آن بگویم 'تنبل نباش' – فقط میخواهم نتیجه کامل را داشته باشم". توسعهدهندگان اغلب حتی تغییرات جزئی در کیفیت پس از بهروزرسانی مدل را متوجه میشوند و در Reddit بسیار صریح درباره "نرفها" یا کاهش قابلیتهای کدنویسی بودهاند. آنها همچنین محدودیتها را فشار میدهند (ساختن درخواستهای پیچیده، زنجیرهسازی ابزارها)، بنابراین آنها ویژگیهایی مانند زمینه گسترشیافته، محدودیتهای پیام کمتر و یکپارچهسازی بهتر با ابزارهای کدنویسی را میخواهند. به طور خلاصه، توسعهدهندگان ChatGPT را برای سرعت بخشیدن به وظایف روزمره ارزشمند میدانند، اما سریع به اشتباهات در منطق یا کد اشاره میکنند – آنها آن را به عنوان یک دستیار جوان میبینند که هنوز نیاز به نظارت دارد.
-
کاربران عادی/روزمره: کاربران عادیتر – کسانی که به دنبال دانش عمومی، مشاوره یا سرگرمی هستند – اغلب از قابلیتهای ChatGPT شگفتزده میشوند، اما آنها نیز شکایات خود را دارند. یک ناامیدی مشترک کاربران عادی این است که وقتی ChatGPT درخواست را رد میکند که به نظر آنها بیضرر است (احتمالاً یک قانون سیاست را فعال میکند). نویسنده اصلی در یک رشته این موضوع را مثال زد که "خیلی عصبانی میشوم وقتی یک درخواست مینویسم که نباید مشکلی داشته باشد و اکنون آن را رد میکند". کاربران عادی ممکن است همچنین به محدودیت دانش برخورد کنند (یافتن اینکه ربات نمیتواند رویدادهای بسیار جاری را مدیریت کند مگر اینکه به طور صریح بهروزرسانی شده باشد) و گاهی اوقات متوجه میشوند که ChatGPT پاسخی آشکارا نادرست میدهد. برخلاف توسعهدهندگان، آنها ممکن است همیشه AI را دوباره بررسی نکنند، که میتواند منجر به ناامیدی شود اگر آنها بر اساس یک اشتباه عمل کنند. از طرف مثبت، بسیاری از کاربران عادی پاسخهای سریعتر ChatGPT Plus و خروجی بهبود یافته GPT-4 را ارزشمند میدانند – مگر اینکه مشکل "رد" یا محدودیتهای دیگر تجربه را خراب کند. آنها به طور کلی یک دستیار مفید و همهمنظوره میخواهند و میتوانند ناامید شوند وقتی ChatGPT با بیانیههای سیاستی پاسخ میدهد یا نیاز به یک درخواست پیچیده برای دریافت یک پاسخ ساده دارد.
-
کاربران تجاری/حرفهای: کاربران تجاری اغلب از ChatGPT از دیدگاه بهرهوری و قابلیت اطمینان استفاده میکنند. آنها از پیشنویس سریع ایمیلها، خلاصهسازی اسناد یا تولید ایدهها قدردانی میکنند. با این حال، آنها نگران امنیت دادهها، سازگاری و یکپارچهسازی در جریانهای کاری هستند. در Reddit، حرفهایها درباره تمایل به داشتن ChatGPT در ابزارهایی مانند Outlook، Google Docs یا به عنوان یک API در سیستمهای داخلی خود بحث کردهاند. برخی اشاره کردهاند که با چرخش OpenAI به سمت خدمت به مشتریان سازمانی، تمرکز محصول به نظر میرسد تغییر کرده است: این احساس وجود دارد که تجربه کاربر رایگان یا فردی کمی کاهش یافته است (مثلاً کندتر یا "کمهوشتر") زیرا شرکت برای خدمت به مشتریان بزرگتر مقیاسبندی کرده است. درست یا غلط، این یک درک را برجسته میکند: کاربران تجاری قابلیت اطمینان و خدمات اولویتدار را میخواهند و کاربران فردی نگران هستند که اکنون کلاس دوم هستند. علاوه بر این، حرفهایها به خروجیهای صحیح نیاز دارند – یک پاسخ پرزرق و برق اما نادرست میتواند بدتر از هیچ پاسخی باشد. بنابراین، این بخش به دقت حساس است. برای آنها، ویژگیهایی مانند زمینه طولانیتر (برای خواندن قراردادها، تحلیل کدبیسها) و زمان کار تضمین شده حیاتی هستند. آنها احتمالاً برای سطوح خدمات پریمیوم بیشتر پرداخت میکنند، به شرطی که نیازهای انطباق و حریم خصوصی آنها برآورده شود. برخی از شرکتها حتی استقرارهای درونسازمانی یا استفاده از API OpenAI با قوانین سختگیرانه مدیریت دادهها را برای برآورده کردن سیاستهای IT خود بررسی میکنند.
Claude (Anthropic)
نقاط ضعف و محدودیتهای مشترک
-
محدودیتهای استفاده و محدودیتهای دسترسی: Claude برای ارائه یک مدل قدرتمند (Claude 2) به صورت رایگان تحسین شد، اما کاربران به سرعت به محدودیتهای استفاده (به ویژه در سطح رایگان) برخورد کردند. پس از تعداد معینی از درخواستها یا مقدار زیادی متن، Claude ممکن است متوقف شود و بگوید "متأسفم، باید این مکالمه را برای اکنون خاتمه دهم. لطفاً بعداً برگردید." این محدودیت کاربران را که Claude را به عنوان یک شریک کدنویسی یا نوشتن طولانی مدت استفاده میکنند، ناامید میکند. حتی کاربران Claude Pro (پرداختی) "به زمان نامحدود تضمین نشدهاند", همانطور که یکی از کاربران اشاره کرد؛ رسیدن به سهمیه همچنان پیام "بعداً برگردید" را تولید میکند. علاوه بر این، برای مدت طولانی Claude به صورت رسمی محدود به جغرافیا بود (ابتدا فقط در ای الات متحده/بریتانیا در دسترس بود). کاربران بینالمللی در Reddit مجبور به استفاده از VPN یا پلتفرمهای شخص ثالث برای دسترسی به آن بودند که یک ناراحتی بود. این باعث شد بسیاری از کاربران غیر ایالات متحده احساس کنند که تا زمانی که دسترسی گستردهتر شود، کنار گذاشته شدهاند.
-
تمایل به خارج شدن از مسیر با ورودیهای بسیار بزرگ: ویژگی اصلی Claude پنجره زمینه 100k توکن آن است که به درخواستهای بسیار طولانی اجازه میدهد. با این حال، برخی از کاربران متوجه شدهاند که وقتی دهها هزار توکن را به Claude وارد میکنید، پاسخهای آن ممکن است کمتر متمرکز شود. "100k بسیار مفید است اما اگر به درستی دستورالعملها را دنبال نکند و از مسیر خارج شود، چندان مفید نیست," یکی از کاربران مشاهده کرد. این نشان میدهد که با زمینههای بزرگ، Claude ممکن است منحرف شود یا شروع به پرچانگی کند و نیاز به درخواست دقیق برای نگه داشتن آن در کار دارد. این یک محدودیت ذاتی در فشار دادن زمینه به حد است – مدل مقدار زیادی را حفظ میکند اما گاهی اوقات "فراموش میکند" که کدام جزئیات بیشتر مرتبط هستند، که منجر به توهمات جزئی یا انحرافات خارج از موضوع میشود.
-
فرمتبندی ناسازگار یا اطاعت از دستورالعملها: در مقایسههای کنار هم، برخ ی از کاربران Claude را کمتر قابل پیشبینی در نحوه پیروی از برخی دستورات یافتند. برای مثال، Claude به عنوان "بیشتر انسانی در تعاملات. اما کمتر به پیامهای سیستم به شدت پیروی میکند." توصیف شده است. این به این معنی است که اگر به آن یک فرمت ثابت برای پیروی یا یک شخصیت بسیار سخت بدهید، Claude ممکن است بیشتر از ChatGPT منحرف شود. توسعهدهندگانی که به خروجیهای تعیینکننده (مانند فرمتهای JSON یا سبکهای خاص) متکی هستند، گاهی اوقات ناامید میشوند اگر Claude نظر اضافی وارد کند یا به شدت به قالب پایبند نباشد.
-
محدودیتهای محتوا و امتناعها: در حالی که به اندازه ChatGPT به طور مکرر مورد انتقاد قرار نمیگیرد، فیلترهای ایمنی Claude نیز مطرح میشوند. Anthropic Claude را با تأکید زیادی بر AI قانون اساسی (داشتن AI که خود به دستورالعملهای اخلاقی پیروی کند) طراحی کرده است. کاربران به طور کلی Claude را مایل به بحث در مورد طیف گستردهای از موضوعات میدانند، اما مواردی وجود دارد که Claude درخواستهایی را رد میکند که ChatGPT ممکن است اجازه دهد. برای مثال، یک کاربر Reddit اشاره کرد "ChatGPT محدودیتهای اخلاقی کمتری دارد... توضیح میدهد که کدام ماسکهای گاز برای کدام شرایط بهتر هستند در حالی که Claude امتناع میکند". این نشان میدهد که Claude ممکن است در مورد برخی از مشاورههای "حساس" سختگیرتر باشد (شاید آن را به عنوان راهنمایی بالقوه خطرناک تلقی کند). یک کاربر دیگر سعی کرد یک سناریوی نقشآفرینی بازیگوش ("تظاهر کن که توسط بیگانگان ربوده شدهای") را امتحان کند که Claude رد کرد، در حالی که Gemini و ChatGPT درگیر میشدند. بنابراین، Claude فیلترهایی دارد که گاهی اوقات کاربران را که انتظار دارند آن را بیشتر مجاز بدانند، شگفتزده میکند.
-
عدم وجود قابلیتهای چندرسانهای: برخلاف ChatGPT (که تا اواخر ۲۰۲۳ قابلیت درک تصویر با GPT-4 Vision را به دست آورد)، Claude در حال حاضر فقط متنی است. کاربران Reddit اشاره میکنند که Claude نمیتواند تصاویر را تحلیل کند یا به طور مستقیم وب را مرور کند. این دقیقاً یک "نقطه ضعف" نیست (Anthropic هرگز این ویژگیها را تبلیغ نکرده است)، اما یک محدودیت نسبت به رقبا است. کاربرانی که میخواهند AI یک نمودار یا اسکرینشات را تفسیر کند نمیتوانند از Claude برای آن استفاده کنند، در حالی که ChatGPT یا Gemini ممکن است آن را مدیریت کنند. به طور مشابه، هرگونه بازیابی اطلاعات جاری نیاز به استفاده از Claude از طریق یک ابزار شخص ثالث دارد (مثلاً Poe یا یکپارچهسازی موتور جستجو)، زیرا Claude در حال حاضر حالت مرور رسمی ندارد.
-
مشکلات جزئی پایداری: چند کاربر گزارش دادهاند که Claude گاهی اوقات تکراری است یا در حلقهها گیر میکند برای برخی از درخواستها (اگرچه این کمتر از برخی مدلهای کوچکتر رایج است). همچنین، نسخههای قبلی Claude گاهی اوقات پاسخها را زودتر خاتمه میدادند یا با خروجیهای بزرگ زمان زیادی میبردند، که میتواند به عنوان ناراحتیهای جزئی دیده شود، اگرچه Claude 2 در سرعت بهبود یافته است.
ویژگیها یا بهبودهای درخواستشده مکرر
-
محدودیتهای استفاده بالاتر یا قابل تنظیم: علاقهمندان به Claude در Reddit اغلب از Anthropic میخواهند که محدودیتهای مکالمه را افزایش دهد. آنها میخواهند از 100k زمینه به طور کامل استفاده کنند بدون اینکه به یک توقف مصنوعی برخورد کنند. برخی پیشنهاد میدهند که حتی Claude Pro پرداختی باید به طور قابل توجهی توکنهای بیشتری در روز اجازه دهد. دیگران ایده یک "حالت زمینه 100k توسعهیافته" اختیاری را مطرح میکنند – مثلاً "Claude باید یک حالت زمینه 100k با دو برابر محدودیتهای استفاده داشته باشد" – که شاید یک اشتراک میتواند دسترسی گسترشیافته برای کاربران سنگین ارائه دهد. به عبارت دیگر، تقاضا برای یک برنامه وجود دارد که با استفاده نامحدود (یا با محدودیت بالا) ChatGPT برای مشترکان رقابت کند.
-
ناوبری بهتر زمینه طولانی: در حالی که داشتن 100k توکن پیشگامانه است، کاربران میخواهند Claude بهتر از آن زمینه استفاده کند. یکی از بهبودها میتواند بهبود نحوه اولویتبندی اطلاعات توسط Claude باشد تا در مسیر بماند. Anthropic میتواند روی پیروی مدل از درخواستها کار کند وقتی که درخواست بزرگ است. بحثهای Reddit تکنیکهایی مانند اجازه دادن به کاربر برای "پین" کردن برخی از دستورالعملها را پیشنهاد میدهند تا در یک زمینه بزرگ رقیق نشوند. هر ابزار برای کمک به بخشبندی یا خلاصهسازی بخشهایی از ورودی نیز میتواند به Claude کمک کند تا ورودیهای بزرگ را به طور منسجمتر مدیریت کند. به طور خلاصه، کاربران امکان تغذیه یک کتاب کامل به Claude را دوست دارند – آنها فقط میخواهند که در طول آن تیز بماند.
-
پلاگینها یا مرور وب: بسیاری از کاربران ChatGPT به پلاگینها عادت کردهاند (برای مثال، مرور، اجرای کد و غیره) و آنها علاقهمند به داشتن Claude با همان قابلیت گسترش هستند. یک درخواست رایج این است که Claude یک عملکرد جستجو/مرور وب رسمی داشته باشد، به طوری که بتواند اطلاعات بهروز را به صورت تقاضا بازیابی کند. در حال حاضر، دانش Claude عمدتاً ثابت است (دادههای آموزشی تا اوایل ۲۰۲۳، با برخی بهروزرسانیها). اگر Claude بتواند وب را جستجو کند، آن محدودیت را کاهش میدهد. به همین ترتیب، یک سیستم پلاگین که Claude بتواند از ابزارهای شخص ثالث (مانند ماشینحسابها یا اتصالدهندههای پایگاه داده) استفاده کند، میتواند کاربرد آن را برای کاربران قدرت گسترش دهد. این یک ویژگی است که Claude فاقد آن است و کاربران Reddit اغلب اشاره میکنند که اکوسیستم پلاگینهای ChatGPT در برخی وظایف به آن برتری میدهد.
-
ورودی چندرسانهای (تصاویر یا صدا): برخی از کاربران نیز تعجب کردهاند که آیا Claude از ورودیهای تصویری پشتیبانی میکند یا تصاویر تولید میکند. Google’s Gemini و GPT-4 OpenAI دارای قابلیتهای چندرسانهای هستند، بنابراین برای رقابت، کاربران انتظار دارند Anthropic این موضوع را بررسی کند. یک درخواست مکرر این است: "آیا میتوانم یک PDF یا یک تصویر برای تحلیل Claude آپلود کنم؟" در حال حاضر پاسخ منفی است (به جز راهحلهای جایگزین مانند تبدیل تصاویر به متن در جای دیگر). حتی فقط اجازه دادن به تصویر به متن (OCR و توصیف) بسیاری را که یک دستیار یکجا میخواهند راضی میکند. این در لیست خواستهها است، اگرچه Anthropic هنوز چیزی مشابه را تا اوایل ۲۰۲۵ اعلام نکرده است.
-
تنظیم دقیق یا سفارشیسازی: کاربران پیشرفته و کسبوکارها گاهی اوقات میپرسند که آیا میتوانند Claude را بر روی دادههای خود تنظیم دقیق کنند یا نسخههای سفارشی دریافت کنند. OpenAI تنظیم دقیق را برای برخی مدلها ارائه میدهد (هنوز برای GPT-4 نه، اما برای GPT-3.5). Anthropic یک رابط تنظیم دقیق برای Claude 1.3 منتشر کرد، اما برای Claude 2 به طور گسترده تبلیغ نشده است. کاربران Reddit درباره امکان آموزش Claude بر روی دانش شرکت یا سبک نوشتاری شخصی خود پرس و جو کردهاند. یک راه آسان تر برای انجام این کار (علاوه بر تزریق درخواستها هر بار) بسیار مورد استقبال قرار میگیرد، زیرا میتواند Claude را به یک دستیار شخصی تبدیل کند که یک پایگاه دانش خاص یا شخصیت را به خاطر میسپارد.
-
دسترسی گستردهتر: کاربران غیر ایالات متحده به طور مکرر درخواست کردهاند که Claude به طور رسمی در کشورهای آنها راهاندازی شود. پستهایی از کانادا، اروپا، هند و غیره میپرسند که چه زمانی میتوانند از وبسایت Claude بدون VPN استفاده کنند یا چه زمانی API Claude به طور گستردهتر باز خواهد شد. Anthropic محتاط بوده است، اما تقاضا جهانی است – احتمالاً بهبود در نظر بسیاری به سادگی "اجازه دهید بیشتر ما از آن استفاده کنیم" خواهد بود. گسترش تدریجی دسترسی شرکت تا حدی به این موضوع پرداخته است.
نیازها یا بخشهای کاربری برآورده نشده
-
پایه کاربری بینالمللی: همانطور که اشاره شد، برای مدت طولانی پایه کاربری اصلی Claude به جغرافیا محدود بود. این بسیاری از کاربران میتوانستند را به خوبی خدمترسانی نکرد. برای مثال، یک توسعهدهنده در آلمان که به زمینه 100k Claude علاقهمند بود، راه رسمی برای استفاده از آن نداشت. در حالی که راهحلهای جایگزین وجود دارد (پلتفرمهای شخص ثالث، یا VPN + تأیید تلفن در یک کشور پشتیبانی شده)، این موانع به این معنی بود که کاربران بینالمللی عادی عملاً قفل شده بودند. در مقابل، ChatGPT در اکثر کشورها در دسترس است. بنابراین، انگلیسیزبانان غیر ایالات متحده و به ویژه غیر انگلیسیزبانان توسط راهاندازی محدود Claude به خوبی خدمترسانی نشدهاند. آنها ممکن است هنوز به ChatGPT یا مدلهای محلی متکی باشند فقط به دلیل مسائل دسترسی.
-
کاربرانی که به فرمتبندی خروجی دقیق نیاز دارند: همانطور که ذکر شد، Claude گاهی اوقات در پاسخها آزادی عمل میکند. کاربرانی که به خروجیهای بسیار ساختاریافته نیاز دارند (مانند JSON برای یک برنامه، یا پاسخی که به یک قالب دقیق پیروی میکند) ممکن است Claude را برای آن کمتر قابل اعتماد بدانند نسبت به ChatGPT. این کاربران – اغلب توسعهدهندگانی که AI را در یک سیستم ادغام میکنند – یک بخش هستند که میتواند بهتر خدمترسانی شود اگر Claude یک "حالت سختگیرانه" را اجازه دهد یا پیروی از دستورالعملهای آن را بهبود بخشد. آنها در حال حاضر ممکن است Claude را برای چنین وظایفی اجتناب کنند و به مدلهایی که به قالبها به شدت پایبند هستند، پایبند باشند.
-
کاربران عادی پرسش و پاسخ (در مقابل کاربران خلاق): Claude اغلب برای وظایف خلاقانه تحسین میشود – آن پروز انسانی و مقالات متفکرانه تولید میکند. با این حال، برخی از کاربران در Reddit اشاره کردند که برای پرسش و پاسخ ساده یا پرسشهای واقعی، Claude گاهی اوقات پاسخهای طولانی میدهد که در آن اختصار کافی است. کاربری که ChatGPT و Claude را مقایسه کرد گفت ChatGPT تمایل دارد مختصر و به صورت نقطهای باشد، در حالی که Claude به طور پیشفرض بیشتر روایت میکند. کاربرانی که فقط یک پاسخ واقعی سریع میخواهند (مانند "پایتخت X و جمعیت آن چیست؟") ممکن است احساس کنند Claude کمی غیرمستقیم است. این کاربران بهتر توسط چیزی مانند یک جستجوی دقیق یا یک مدل مختصر خدمترسانی میشوند. Claude میتواند این کار را انجام دهد اگر خواسته شود، اما سبک آن ممکن است با انتظار یک پرسش و پاسخ مختصر مطابقت نداشته باشد، به این معنی که این بخش ممکن است به ابزارهای دیگر (مانند Bing Chat یا Google) منتقل شود.
-
کاربران حساس به ایمنی: برعکس، برخی از کاربرانی که نیاز به پیروی بسیار دقیق از ایمنی دارند (مثلاً مربیانی که AI را با دانشآموزان استفاده میکنند، یا مشتریان سازمانی که میخواهند هیچ خطری از خروجیهای نادرست وجود نداشته باشد) ممکن است همترازی Claude را یک مزیت بدانند، اما از آنجا که ChatGPT نیز بسیار همتراز است و ویژگیهای سازمانی بیشتری دارد، آن کاربران ممکن است به طور خاص Claude را انتخاب نکنند. این یک بخش کوچک است، اما میتوان استدلال کرد که Claude هنوز به وضوح آن را جذب نکرده است. آنها ممکن است به خوبی خدمترسانی نشده باشند زیرا راه آسانی برای افزایش محافظتهای Claude یا دیدن "زنجیره تفکر" آن ندارند (که Anthropic به صورت داخلی از طریق رویکرد AI قانون اساسی دارد، اما کاربران نهایی به طور مستقیم با آن تعامل ندارند به جز مشاهده لحن عمومی مودبانه Claude).
-
غیر انگلیسیزبانان (کیفیت خروجی): Claude عمدتاً بر روی انگلیسی آموزش دیده است (مانند اکثر LLMهای بزرگ). برخی از کاربران آن را در زبانهای دیگر آزمایش کردهاند؛ میتواند در بسیاری از زبانها پاسخ دهد، اما کیفیت ممکن است متفاوت باشد. اگر، مثلاً، کاربری یک پاسخ بسیار ظریف در فرانسوی یا هندی بخواهد، ممکن است تواناییهای Claude در آنجا به ان دازه ChatGPT به خوبی تنظیم نشده باشد (GPT-4 عملکرد چندزبانه قویای نشان داده است، اغلب در برخی از معیارها بالاتر از مدلهای دیگر). کاربرانی که عمدتاً به زبانهای غیر از انگلیسی گفتگو میکنند ممکن است روانی یا دقت Claude را کمی ضعیفتر بیابند. این بخش تا حدودی به خوبی خدمترسانی نشده است زیرا Anthropic به طور عمومی آموزش چندزبانه را به عنوان یک اولویت برجسته نکرده است.
تفاوتهای درک شده توسط نوع کاربر
-
توسعهدهندگان/کاربران فنی: توسعهدهندگان در Reddit به طور فزایندهای Claude، به ویژه Claude 2 / Claude 3.5، را برای وظایف کدنویسی تحسین کردهاند. تغییر درک در اواخر ۲۰۲۴ قابل توجه بود: بسیاری از توسعهدهندگان شروع به ترجیح Claude بر ChatGPT برای کمک به برنامهنویسی کردند. آنها عملکرد "شگفتانگیز در کدنویسی" و توانایی مدیریت کدبیسهای بزرگ در یک بار را ذکر میکنند. برای مثال، یک کاربر نوشت "Claude Sonnet 3.5 برای کار با کد (تحلیل، تولید) بهتر از ChatGPT است." توسعهدهندگان قدردانی میکنند که Claude میتواند یک بخش بزرگ از کد پروژه یا گزارشها را بگیرد و تحلیلها یا بهبودهای منسجم تولید کند، به لطف زمینه بزرگ آن. با این حال، آنها همچنین متوجه عجایب آن میشوند – مانند گاهی اوقات تزریق بیشتر پرچانگی مکالمه یا عدم پیروی از یک مشخصات به حرف. به طور متعادل، بسیاری از توسعهدهندگان هر دو ChatGPT و Claude را در دست دارند: یکی برای منطق گام به گام دقیق (ChatGPT) و یکی برای زمینه گسترده و درک همدلانه (Claude). گفتنی است که یک نظر دهنده گفت "اگر مجبور به انتخاب یکی باشم، Claude را انتخاب میکنم" پس از مقایسه روزانه آن دو. این نشاندهنده درک بسیار مثبت در میان کاربران پیشرفته است، به ویژه برای موارد استفاده مانند طوفان فکری، بررسی کد یا پیشنهادات معماری. تنها شکایت مشترک از توسعهدهندگان برخورد به محدودیتهای استفاده Claude است وقتی که سعی میکنند آن را به شدت فشار دهند (مثلاً تغذیه یک درخواست 50K توکن برای تحلیل یک مخزن کامل). به طور خلاصه، توسعهدهندگان Claude را به عنوان یک ابزار بسیار قدرتمند میبینند – در برخی موارد برتر از ChatGPT – که تنها با دسترسی و برخی پیشبینیپذیری در فرمتبندی محدود شده است.
-
کاربران عادی/غیر فنی: کاربران عادی که Claude را امتحان کردهاند اغلب درباره دوستانه و بیانگر بودن آن نظر میدهند. سبک Claude تمایل به مکالمهای، مودبانه و دقیق دارد. یک کاربر جدید که آن را با ChatGPT مقایسه کرد مشاهده کرد که "Claude همدلتر است و یک لحن مکالمهای را دنبال میکند... ChatGPT به طور پیشفرض به نقاط گلولهای بیش از حد میپردازد". این گرمای انسانی مانند Claude را برای افرادی که از آن برای نوشتن خلاقانه، مشاوره یا فقط چت برای اطلاعات استفاده میکنند، جذاب میکند. برخی حتی Claude را به عنوان داشتن یک "شخصیت" که دلسوز است، شخصیسازی میکنند. کاربران عادی همچنین دوست دارند که نسخه رایگان Claude اجازه دسترسی به معادل هوش GPT-4 را بدون اشتراک میدهد (حداقل تا محدودیتهای نرخ). از طرف دیگر، کاربران عادی به امتناعهای Claude در برخی موضوعات برخورد میکنند و ممکن است دلیل آن را درک نکنند (زیرا Claude آن را به طور عذرخواهانه اما محکم بیان میکند). اگر یک کاربر عادی چیزی مرزی بپرسد و از Claude امتناع بگیرد، ممکن است آن را کمتر قادر یا بیش از حد محدود بدانند، بدون اینکه متوجه شوند که این یک موضع سیاستی است. جنبه دیگر این است که Claude فاقد شناخت نام است – بسیاری از کاربران عادی ممکن است حتی ندانند که آن را امتحان کنند مگر اینکه به جوامع AI متصل باشند. کسانی که امتحان میکنند به طور کلی نظر میدهند که احساس میکند "مانند صحبت با یک انسان" است به معنای خوب. آنها به طور کلی از توانایی Claude در مدیریت سوالات باز یا شخصی راضی هستند. بنابراین، درک کاربر عادی به طور عمده مثبت است در مورد کیفیت و لحن خروجی Claude، با برخی سردرگمی یا ناامیدی در مورد دسترسی آن (نیاز به استفاده از آن در یک برنامه خاص یا منطقه) و لحظات "نمیتوانم این کار را انجام دهم" گاهبهگاه.
-
کاربران تجاری/حرفهای: درک تجاری Claude کمی سختتر از Reddit است (زیرا کاربران سازمانی کمتری به طور دقیق پست میکنند)، اما چند روند ظهور میکند. اول، Anthropic Claude را به عنوان بیشتر متمرکز بر حریم خصوصی و مایل به امضای توافقنامههای سازمانی قرار داده است – این برای شرکتهایی که نگران دادهها با OpenAI هستند جذاب است. در واقع، برخی از بحثهای Reddit Claude را در زمینه ابزارهایی مانند Slack یا Notion ذکر میکنند، جایی که به عنوان یک دستیار یکپارچه شده است. حرفهایهایی که از آن یکپارچهسازیها استفاده کردهاند ممکن است حتی ندانند که Claude موتور است، اما وقتی میدانند، آن را به طور مطلوب در مورد سبک نوشتن و توانایی هضم اسناد شرکتی بزرگ مقایسه میکنند. برای مثال، یک تیم ممکن است یک گزارش فصلی طولانی را به Claude تغذیه کند و یک خلاصه مناسب دریافت کند – چیزی که زمینه کوچکتر ChatGPT با آن مشکل دارد. با این حال، کاربران تجاری همچنین متوجه کمبود برخی از ویژگیهای اکوسیستم میشوند؛ برای مثال، OpenAI کنترل پیامهای سیستم، فراخوانی تابع و غیره را در API خود ارائه میدهد، که Anthropic پشتیبانی محدودتری برای آن دارد. یک توسعهدهنده که روی یک راهحل تجاری کار میکرد اظهار داشت که Claude در مکالمات بیشتر قابل هدایت است، در حالی که ChatGPT تمایل به سختگیرتر بودن دارد... [اما] ChatGPT دسترسی به وب دارد که میتواند بسیار مفید باشد. این نشان میدهد که برای وظایف تحقیق یا جستجوی دادهای که یک کاربر تجاری ممکن است نیاز داشته باشد (مانند اطلاعات رقابتی)، ChatGPT میتواند به طور مستقیم اطلاعات را بازیابی کند، در حالی که Claude نیاز به یک مرحله جداگانه دارد. به طور کلی، کاربران تجاری Claude را به عنوان یک AI بسیار شایسته میبینند – در برخی موارد بهتر برای وظایف تحلیلی داخلی – اما شاید هنوز به اندازه کافی ویژگیدار برای یکپارچهسازی نباشد. هزینه عامل دیگری است: قیمتگذاری و شرایط API Claude به اندازه OpenAI عمومی نیست و برخی از استارتاپها در Reddit از عدم اطمینان درباره قیمتگذاری یا پایداری Claude صحبت کردهاند. به طور خلاصه، حرفهایها به قابلیتهای Claude احترام میگذارند (به ویژه قابلیت اطمینان آن در پیروی از دستورالعملهای سطح بالا و خلاصهسازی ورودیهای بزرگ)، اما آنها به نحوه تکامل آن در زمینه یکپارچهسازی، پشتیبانی و دسترسی جهانی توجه میکنند قبل از اینکه به طور کامل به آن متعهد شوند نسبت به ChatGPT که بیشتر شناخته شده است.
Google Gemini (Bard)
نقاط ضعف و محدودیتهای مشترک
-
پاسخهای نادرست یا "احمقانه": سیلی از بازخورد Reddit زمانی ظاهر شد که Google ارتقاء Bard با قدرت Gemini خود را راهاندازی کرد، بسیاری از آن منفی بود. کاربران شکایت کردند که Gemini در پرسش و پاسخ پایهای نسبت به ChatGPT عملکرد ضعیفی داشت. یک ارزیابی صریح با عنوان "100% نظر صادقانه در مورد Google Gemini" بیان کرد: "این یک چتبات LLM شکسته و نادرست است". یک کاربر ناامید دیگر پرسید: "چگونه Gemini هنوز اینقدر بد است؟ تعداد دفعاتی که از Gemini چیزی میپرسم و یا پاسخهای نادرست یا ناقص میدهد، مضحک است". آنها آن را کنار ChatGPT-4 مقایسه کردند و دریافتند که ChatGPT یک *"پاسخ کامل، صحیح و کارآمد در یک بار" میدهد، در حالی که Gemini پرچانگی میکند و نیاز به چندین درخواست برای رسیدن به یک پاسخ نیمهرضایتبخش دارد. به عبارت دیگر، کاربران اولیه احساس کردند که Gemini به طور مکرر توهم میزند یا نکته سوالات را از دست میدهد، نیاز به تلاش بیش از حد برای استخراج اطلاعات صحیح دارد. این ناپایداری در کیفیت یک ناامیدی بزرگ بود با توجه به هیاهوی اطراف Gemini.
-
پرچانگی و پرحرفی بیش از حد: بسیاری از کاربران اشاره کردند که Gemini (به شکل Bard جدید) تمایل به تولید پاسخهای طولانی دارد که به نکته نمیرسد. همانطور که یک نفر توصیف کرد، "پرچانگی کرد... 3 پاراگراف از زبالههای AI... حتی سپس، [فقط] در نهایت پاسخ را در پاراگرافهای زباله ذکر کرد". این یک تضاد آشکار با ChatGPT است که اغلب پاسخهای مختصرتر یا به صورت نقطهای ارائه میدهد. پرحرفی به یک نقطه ضعف تبدیل میشود وقتی که کاربران باید از میان متن زیادی برای یک واقعیت ساده عبور کنند. برخی حدس میزنند که Google ممکن است آن را برای مکالمهای یا "مفید" تنظیم کرده باشد، اما بیش از حد توضیح داده بدون محتوا.
-
یکپارچهسازی ضعیف با خدمات خود Google: یکی از نقاط فروش دستیار AI Google باید یکپارچهسازی با اکوسیستم Google (Gmail، Docs، Drive و غیره) باشد. با این حال، تجربیات کاربری اولیه در این زمینه بسیار ناامیدکننده بود. یک کاربر خشمگین نوشت: "حتی شروع نکنید به من در مورد ناتوانی تقریباً کامل آن در یکپارچهسازی با محصولات خود Google که قرار است یک 'ویژگی' باشد (که به نظر میرسد نمیداند که دارد).". برای مثال، مردم سعی میکردند از Gemini (از طریق Bard) بخواهند یک Google Doc را خلاصه کند یا یک ایمیل بر اساس برخی اطلاعات بنویسد – ویژگیهایی که Google تبلیغ کرده بود – و ربات پاسخ میداد که نمیتواند به آن دادهها دسترسی پیدا کند. یک کاربر در r/GooglePixel نوشت: "هر بار که سعی میکنم از Gemini با Google Docs یا Drive خود استفاده کنم، به من میگوید که نمیتواند کاری با آن انجام دهد. چه فایدهای دارد که حتی این ویژگیهای یکپارچهسازی را داشته باشیم؟". این نشاندهنده یک شکاف قابل توجه بین قابلیتهای وعده داده شده و عملکرد واقعی است، که کاربران را با این احساس که "دستیار AI" در اکوسیستم خود Google چندان کمکی نمیکند، باقی میگذارد.
-
امتناعها و سردرگمی قابلیتها: کاربران همچنین با امتناعهای عجیب یا تناقضات از Gemini مواجه شدند. همان کاربر Reddit اشاره کرد که Gemini "از انجام کارها بدون دلیل امتناع میکند، فراموش میکند که میتواند کارهای دیگری انجام دهد... روز دیگر به من گفت که به اینترنت/دادههای زنده دسترسی ندارد. چه.". این نشان میدهد که Gemini گاهی اوقات وظایفی را که باید قادر به انجام آنها باشد رد میکند (مانند بازیابی اطلاعات زنده، که Bard به آن متصل است) یا اظهارات نادرستی درباره قابلیتهای خود میدهد. چنین تجربیاتی این تصور را ایجاد کرد که یک AI نه تنها کمتر هوشمند، بلکه کمتر قابل اعتماد یا خودآگاه است. نظر رنگارنگ یک کاربر دیگر: "Gemini زباله مطلق است. آیا تا به حال یکی از آن لحظاتی را داشتهاید که فقط میخواهید دستان خود را بالا ببرید و بگویید، 'چه فکر میکردند؟'" ناامیدی را به تصویر میکشد. اساساً، مسائل یکپارچهسازی محصول و سازگاری Gemini باعث شد که به نظر بسیاری از کاربران اولیه نیمهپخته بیاید.
-
تواناییهای کدنویسی غیرقابل توجه: در حالی که به اندازه پرسش و پاسخ عمومی مورد بحث قرار نگرفته است، چندین کاربر Gemini (Bard) را در وظایف کدنویسی آزمایش کردند و آن را ضعیف یافتند. در انجمنهای AI، تواناییهای کدنویسی Gemini معمولاً زیر GPT-4 و حتی زیر Claude رتبهبندی میشد. برای مثال، یک کاربر به سادگی بیان کرد که "Claude 3.5 Sonnet به وضوح برای کدنویسی بهتر از ChatGPT 4o است... Gemini در آن زمینه زباله مطلق است". توافق عمومی این بود که Gemini میتواند کد ساده بنویسد یا الگوریتمهای پایه را توضیح دهد، اما اغلب در مسائل پیچیدهتر دچار مشکل میشود یا کدی با خطا تولید میکند. عدم وجود یک مجموعه ابزار توسعهدهنده گسترده (مثلاً، معادل Code Interpreter یا فراخوانی تابع قوی) نیز به این معنی بود که برای برنامهنویسان انتخاب اول نبود. بنابراین، در حالی که هر کاربر عادی به کد اهمیت نمیدهد، این یک محدودیت برای آن بخش است.
-
محدودیتهای دستگاههای موبایل: Gemini به عنوان بخشی از دستیار Google بر روی گوشیهای Pixel عرضه شد (با نام "Assistant with Bard"). برخی از کاربران Pixel اشاره کردند که استفاده از آن به عنوان جایگزین دستیار صوتی مشکلاتی داشت. گاهی اوقات درخواستهای صوتی را به درستی دریافت نمیکرد یا نسبت به دستیار Google قدیمی زمان بیشتری برای پاسخگویی میگرفت. همچنین نظراتی درباره نیاز به انتخاب و از دست دادن برخی از ویژگیهای کلاسیک دستیار وجود داشت. این یک درک ایجاد کرد که یکپارچهسازی Gemini بر روی دستگاهها به طور کامل آماده نبود، کاربران قدرت اکوسیستم Google را با این احساس که باید بین یک دستیار هوشمند و یک دستیار کاربردی انتخاب کنند، باقی میگذارد.
ویژگیها یا بهبودهای درخواستشده مکرر
-
بهبود قابل توجه دقت و استدلال: بهبود شماره یک که کاربران برای Gemini میخواهند به سادگی هوشمندتر و قابل اعتمادتر باشد. بازخورد Reddit به وضوح نشان میدهد که Google باید شکاف کیفیت پاسخ را ببندد. کاربران انتظار دارند Gemini از دسترسی گسترده Google به اطلاعات برای ارائه پاسخهای واقعی و مستقیم استفاده کند، نه پاسخهای پرچانگی یا نادرست. بنابراین درخواستها (اغلب به صورت طنزآمیز بیان میشوند) به این خلاصه میشود: آن را به اندازه یا بهتر از GPT-4 در دانش عمومی و استدلال کنید. این شامل بهبود در مدیریت سوالات پیگیری و درخواستهای پیچیده است. اساساً، "مغز" Gemini را اصلاح کنید – از آن مزایای آموزشی چندرسانهای ادعا شده استفاده کنید تا جزئیات آشکار را از دست ندهد. Google احتمالاً این را به وضوح شنیده است: بسیاری از پستها پاسخهای خاصی را مقایسه میکنند که در آن ChatGPT برتری داشت و Gemini شکست خورد، که به عنوان گزارشهای غیررسمی برای بهبود عمل میکند.
-
یکپارچهسازی بهتر و آگاهی از زمینه: کاربران میخواهند Gemini وعده یک دستیار یکپارچه اکوسیستم Google را برآورده کند. این به این معنی است که باید به درستی با Gmail، Calendar، Docs، Drive و غیره ارتباط برقرار کند. اگر کاربری بپرسد "سند باز شده را خلاصه کن" یا "پاسخی ب ه آخرین ایمیل از رئیس من بنویس"، AI باید این کار را انجام دهد – و به صورت ایمن انجام دهد. در حال حاضر، درخواست این است که Google این ویژگیها را فعال کند و Gemini را واقعاً تشخیص دهد که چنین وظیفهای ممکن است. تبلیغ شده بود که Bard میتواند به محتوای کاربر متصل شود (با اجازه)، بنابراین کاربران به طور مؤثر از Google میخواهند که "این یکپارچهسازی را روشن کند" یا اصلاح کند. این یک ویژگی کلیدی برای کاربران تجاری به ویژه است. علاوه بر این، در جبهه مرور وب: Bard (Gemini) میتواند وب را جستجو کند، اما برخی از کاربران میخواهند که منابع را واضحتر ذکر کند یا در ادغام اخبار فوری به موقعتر باشد. بنابراین بهبود طبیعت متصل Gemini یک درخواست مکرر است.
-
کنترلهای اختصار: با توجه به شکایات از پرحرفی، برخی از کاربران یک ویژگی برای تغییر سبک پاسخ پیشنهاد میدهند. برای مثال، یک "حالت مختصر" که در آن Gemini به طور پیشفرض یک پاسخ کوتاه و به نکته میدهد، مگر اینکه درخواست شود که توضیح دهد. برعکس، شاید یک "حالت دقیق" برای کسانی که پاسخهای بسیار جامع میخواهند. ChatGPT به طور ضمنی اجازه میدهد برخی از این موارد با درخواست کاربر ("مختصر نگهدار")؛ با Gemini، کاربران احساس میکردند حتی وقتی که درخواست جزئیات نمی کردند، بیش از حد توضیح میداد. بنابراین یک تنظیم داخلی یا فقط تنظیم بهتر برای تولید پاسخهای مختصر وقتی که مناسب است، یک بهبود خوشآمد خواهد بود. اساساً، تنظیم دکمه پرحرفی.
-
برابری ویژگی با ChatGPT (کدنویسی، پلاگینها و غیره): کاربران قدرت در Reddit به طور صریح ویژگیها را مقایسه میکنند. آنها درخواست میکنند که Gemini/Bard Google چیزهایی مانند یک محیط اجرای کد (مشابه مفسر کد ChatGPT)، توانایی آپلود تصاویر/PDFها برای تحلیل (از آنجا که Gemini چندرسانهای است، کاربران میخواهند واقعاً تصاویر سفارشی را به آن تغذیه کنند، نه فقط آنهایی که ارائه شدهاند را توصیف کند). یک ویژگی مکرر دیگر حافظه درون مکالمه بهتر است – در حالی که Bard حافظهای از تعاملات گذشته دارد، کاربران میخواهند که به اندازه ChatGPT در ارجاع به زمینه قبلی خوب باشد، یا حتی ذخیرهسازی مکالمه پایدار مانند تاریخچه چت ChatGPT که میتوانید مرور کنید و دوباره بازدید کنید. اساساً، از Google خواسته میشود که در تمام ویژگیهای کیفیت زندگی که کاربران ChatGPT Plus دارند، به روز شود: تاریخچه چت، اکوسیستم پلاگین (یا حداقل یکپارچهسازیهای شخص ثالث قوی)، کمک کدنویسی و غیره.
-
بهبودهای برنامه موبایل و دستیار صوتی: بسیاری از کاربران عادی درخواست ی ک برنامه موبایل اختصاصی برای Bard/Gemini (مشابه برنامه موبایل ChatGPT) کردند. تکیه بر یک رابط وب یا فقط دستیار Pixel محدود است. یک برنامه رسمی در سراسر iOS/Android با ورودی صوتی، پاسخهای گفتاری (برای احساس یک دستیار واقعی) و یکپارچهسازی محکم میتواند تجربه کاربری را به شدت بهبود بخشد. همراه با آن، صاحبان Pixel میخواهند که دستیار با Bard سریعتر و کاربردیتر شود – اساساً، آنها بهترینهای دستیار Google قدیمی (اقدامات سریع و دقیق) را با هوش Gemini ترکیب میخواهند. برای مثال، چیزهایی مانند ادامه اجازه دادن به فرمانهای صوتی "Hey Google" برای خانه هوشمند و نه فقط پاسخهای چتگونه. Google میتواند حالت صوتی Gemini را بهبود بخشد تا واقعاً دستیار قدیمی را بدون عقبنشینی ویژگیها جایگزین کند.
-
شفافیت و کنترل: برخی از کاربران خواستهاند که بینش بیشتری به منابع Bard یا راهی برای تنظیم سبک آن داشته باشند. برای مثال، نشان دادن اینکه Bard از کدام نتیجه Google اطلاعات را میگیرد (برای تأیید دقت) – چیزی که Bing Chat با ذکر لینکها انجام میدهد. همچنین، به دلیل اینکه Bard گاهی اوقات اطلاعات نادرست تولید میکند، کاربران میخواهند بتوانند آن را علامتگذاری یا اصلاح کنند و ایدهآل این است که Bard باید از آن بازخورد در طول زمان یاد بگیرد. داشت ن یک مکانیزم بازخورد آسان ("انگشت پایین – این نادرست است زیرا...") که به بهبود سریع مدل منجر شود، اعتماد را ایجاد میکند که Google گوش میدهد. اساساً، ویژگیهایی برای تبدیل AI به یک دستیار همکار بیشتر از یک جعبه سیاه.
نیازها یا بخشهای کاربری برآورده نشده
-
کاربرانی که به دنبال یک دستیار شخصی قابل اعتماد هستند: به طور طنزآمیز، گروهی که Google هدف قرار داده بود – افرادی که یک دستیار شخصی قدرتمند میخواهند – در شکل فعلی Gemini احساس میکنند که به خوبی خدمترسانی نشدهاند. کاربران اولیه که دستیار جدید مبتنی بر Bard را فعال کردند، انتظار یک ارتقاء داشتند، اما بسیاری احساس کردند که از نظر عملی یک کاهش است. برای مثال، اگر کسی بخواهد یک دستیار صوتی به دقت به سوالات تریویا پاسخ دهد، یادآوریها را تنظیم کند، دستگاهها را کنترل کند و اطلاعات را از حسابهای خود یکپارچه کند، Gemini دچار مشکل شد. این گروه از حرفهایهای مشغول یا علاقهمندان به گجت (که به دستیارها برای بهرهوری متکی هستند) را با این احساس که نیازهای آنها برآورده نشده است، باقی گذاشت. یکی از کاربران اظهار داشت که آنها در نظر خواهند گرفت که برای "دستیار با Bard" Pixel پول بپردازند "اگر [آن] از دستیار Google پیشی بگیرد", که نشان میدهد هنوز این کار را نکرده است. بنابراین آن بخش هنوز منتظر یک دستیار AI قابل اعتماد و واقعاً مفید است – اگر Gemini بهبود یابد، آنها به آن میپیوندند.
-
غیر انگلیسیزبانان / بومیسازی: محصولات Google معمولاً بومیسازی عالی دارند، اما مشخص نیست که Bard/Gemini به همان اندازه در همه زبانها در زمان راهاندازی قوی بود یا خیر. برخی از کاربران بینالمللی گزارش دادند که پاسخهای Bard به زبان مادری آنها کمتر روان یا مفید بود، آنها را به رقبا محلی بازگرداند. اگر دادههای آموزشی یا بهینهسازی Gemini به نفع انگلیسی بود، کاربران غیر انگلیسی به خوبی خدمترسانی نشدهاند. آنها ممکن است ChatGPT یا مدلهای محلی را که به طور صریح قابلیتهای چندزبانه را بهینه کردهاند، ترجیح دهند. این فضایی است که Google به طور سنتی میتواند در آن برتری داشته باشد (با توجه به فناوری ترجمهاش)، اما بازخورد کاربر در این زمینه کم است – احتمالاً نشاندهنده این است که Gemini هنوز آن جوامع را شگفتزده نکرده است.
-
مشتریان سازمانی (تا کنون): سازمانهای بزرگ بر اساس گفتگوهای عمومی Bard/Gemini را به طور گستردهای نپذیرفتهاند، اغلب به دلیل شکافهای اعتماد و قابلیت. سازمانها به سازگاری، استنادها و یکپارچهسازی با جریانهای کاری خود نیاز دارند (Office 365 به شدت با فناوری OpenAI از طریق MS Copilot یکپارچه شده است، برای مثال). معادل Google (Duet AI با Gemini) هنوز در حال تکامل است. تا زمانی که Gemini/Bard ثابت نکند که میتواند به طور قابل اعتماد ایمیلها را پیشنویس کند، اسلایدها را ایجاد کند یا دادهها را در Google Sheets تحلیل کند در سطحی برابر یا بالاتر از GPT-4، کاربران سازمانی احساس میکنند که راهحل Google به طور کامل نیازهای آنها را برآورده نمیکند. برخی از پستها در r/Bard از حرفهایها به این صورت است که "من Bard را برای وظایف کاری امتحان کردم، به اندازه ChatGPT خوب نبود، بنابراین منتظر میمانیم و میبینیم." این نشان میدهد که کاربران سازمانی یک بخش برآورده نشده برای اکنون هستند – آنها یک AI میخواهند که به Google Workspace متصل شود و واقعاً بهرهوری را بدون نیاز به تأیید مداوم خروجیها افزایش دهد.
-
کاربران در اکوسیستم Google که راهحلهای یکجا را ترجیح میدهند: یک بخش از کاربران وجود دارد که از Google برای همه چیز استفاده میکنند (جستجو، ایمیل، اسناد) و *خوشحال میشوند که از یک AI Google برای همه نیازهای چتبات خود استفاده کنند – اگر به همان خوبی باشد. در حال حاضر، آن کاربران به خوبی خدمترسانی نشدهاند زیرا آنها در نهایت از ChatGPT برای برخی چیزها و Bard برای دیگران استفاده میکنند. آنها ممکن است سوالات واقعی را به ChatGPT بپرسند زیرا به کیفیت پاسخ آن بیشتر اعتماد دارند، اما از Bard برای تلاشهای یکپارچهسازی یا مرور استفاده کنند. آن تجربه تقسیم شده ایدهآل نیست. چنین کاربرانی واقعاً فقط میخواهند در یک برنامه/دستیار بمانند. اگر Gemini بهبود یابد، آنها در اطراف آن جمع میشوند، اما تا آن زمان استفاده آنها از "یک دستیار برای همه" برآورده نمیشود.
-
توسعهدهندگان/دانشمندان داده در Google Cloud: Google مدلهای Gemini را از طریق پلتفرم Vertex AI خود برای توسعهدهندگان منتشر کرد. با این حال، گزارشها و معیارهای اولیه نشان دادند که Gemini (به ویژه مدل "Gemini Pro" موجود) از GPT-4 پیشی نمیگیرد. توسعهدهندگانی که Google Cloud را برای خدمات AI ترجیح میدهند، بنابراین از نظر کیفیت مدل کمی به خوبی خدمترسانی نشدهاند – آنها یا باید یک مدل کمی ضعیفتر را بپذیرند یا API OpenAI را به طور جداگانه ادغام کنند. این بخش توسعهدهنده سازمانی به شدت به دنبال یک مدل قوی Google است تا بتوانند همه چیز را در یک پشته نگه دارند. تا زمانی که عملکرد Gemini به وضوح در برخی زمینهها برتری پیدا کند یا قیمتگذاری یک دلیل قانعکننده ارائه دهد، به طور کامل نیازهای این گروه را برآورده نمیکند.
تفاوتهای درک شده توسط نوع کاربر
-
توسعهدهندگان/علاقهمندان به فناوری: کاربران فنی با انتظارات بالا به Gemini نزدیک شدند (به هر حال این Google است). درک آنها به سرعت پس از آزمایشهای دستی خراب شد. بسیاری از توسعهدهندگان در Reddit معیارها یا سوالات پیچیده مورد علاقه خود را از طریق Gemini اجرا کردند و آن را عقبمانده یافتند. یک برنامهنویس به صراحت بیان کرد، "Gemini زباله مطلق است مانند Llama 3.0 که قبلاً بود", نشاندهنده این است که آنها حتی آن را زیر برخی از مدلهای باز رتبهبندی میکنند. توسعهدهندگان به ویژه به خطاهای منطقی و پرحرفی حساس هستند. بنابراین وقتی Gemini پاسخهای پرحرفی اما نادرست میداد، به سرعت اعتبار خود را از دست داد. از طرف دیگر، توسعهدهندگان به پتانسیل Google اذعان میکنند؛ برخی امیدوارند که "با تنظیم دقیق بیشتر، Gemini بهتر خواهد شد" و آنها به طور دورهای آن را پس از بهروزرسانیها دوباره آزمایش میکنند. در حال حاضر، با این حال، اکثر توسعهده ندگان آن را به عنوان پایینتر از GPT-4 در تقریباً همه وظایف جدی (کدنویسی، حل مسئله پیچیده) درک میکنند. آنها به برخی چیزها قدردانی میکنند: برای مثال، Gemini به اطلاعات واقعی زمان دسترسی دارد (از طریق جستجوی Google) بدون نیاز به پلاگین، که برای پرسشهای بهروز مفید است. یک توسعهدهنده ممکن است از Bard برای چیزی مانند "جستجو و خلاصه کردن آخرین مقالات در مورد X" استفاده کند، جایی که میتواند دادههای وب را نقل کند. اما برای استدلال خودکفا، آنها به مدلهای دیگر متمایل میشوند. به طور خلاصه، علاقهمندان به فناوری Gemini را به عنوان یک کار در حال پیشرفت امیدوارکننده میبینند که در حال حاضر یک نسل عقبتر به نظر میرسد. آنها هنوز اعتماد کامل خود را به آن ندادهاند و اغلب مقایسههای کنار هم از اشتباهات آن را ارسال میکنند تا Google را به بهبود آن ترغیب کنند.
-
کاربران عادی/روزمره: کاربران عادی، از جمله کسانی که به Bard جدید بر روی گوشیهای خود یا از طریق وب دسترسی پیدا کردند، احساسات مختلطی داشتند. بسیاری از کاربران عادی ابتدا به Bard (Gemini) نزدیک شدند زیرا رایگان و با یک حساب Google به راحتی قابل دسترسی است، برخلاف GPT-4 که پولی بود. برخی از کاربران عادی در واقع تجربیات مناسبی برای استفادههای ساده گزارش میدهند: برای مثال، یک کاربر Reddit در r/Bard یک بررسی مثبت ارائه داد و اشاره کرد که Gemini به آنها در مواردی مانند بررسی اسناد قانونی، نوشتن متن و حتی یک مورد استفاده سرگرمکننده از شناسایی اندازه لباس از یک عکس کمک کرد. آنها گفتند "Gemini منبع ارزشمندی برای پاسخ به سوالات من بوده است... اطلاعات بهروز... من به نسخه پولی آن عادت کردهام که نمیتوانم به یاد بیاورم که نسخه رایگان چگونه عمل میکند." – نشاندهنده این است که حداقل برخی از کاربران عادی که زمان (و پول) را در Bard Advanced سرمایهگذاری کردند، آن را در زندگی روزمره مفید یافتند. این کاربران تمایل دارند از آن برای کمکهای عملی و روزمره استفاده کنند و ممکن است مدل را به حداکثر نرسانند. با این حال، بسیاری از کاربران عادی دیگر (به ویژه کسانی که ChatGPT را نیز امتحان کرده بودند) ناامید شدند. افراد عادی که چیزهایی مانند مشاوره سفر، تریویا یا کمک به یک وظیفه میخواستند، پاسخهای Bard را کمتر واضح یا مفید یافتند. درک در اینجا تقسیم شده است: کاربران وفادار به برند Google در مقابل کسانی که قبلاً توسط ChatGPT خراب شدهاند. گروه اول، اگر آنها ChatGPT را زیاد استفاده نکرده باشند، گاهی اوقات Bard/Gemini را برای نیازهای خود "کاملاً خوب" میدانند و قدردانی میکنند که با جس تجو یکپارچه شده و رایگان است. گروه دوم تقریباً همیشه مقایسه میکنند و Gemini را ناکافی مییابند. آنها ممکن است بگویند، "چرا باید از Bard استفاده کنم وقتی که ChatGPT 90% مواقع بهتر است؟". بنابراین درک کاربر عادی واقعاً به چارچوب مرجع قبلی آنها بستگی دارد. کسانی که تازه به دستیارهای AI هستند ممکن است Gemini را به عنوان یک نوآوری مفید ارزیابی کنند؛ کسانی که با رقابت تجربه دارند آن را به عنوان یک ناامیدی میبینند که *"هنوز اینقدر بد است" و نیاز به بهبود دارد.
-
کاربران تجاری/حرفهای: بسیاری از حرفهایها Bard را زمانی که با یکپارچهسازی Google Workspace (Duet AI) راهاندازی شد، امتحان کردند. درک در میان این گروه احتیاطآمیز است. از یک سو، آنها به وعدههای سازمانی Google در مورد حریم خصوصی دادهها و یکپارچهسازی اعتماد دارند (مثلاً، ویرایش اسناد از طریق AI، خلاصهسازی جلسات از دعوتنامههای Calendar و غیره). از سوی دیگر، آزمایشهای اولیه اغلب نشان دادند که Gemini اشتباهات واقعی میکند یا خروجیهای عمومی ارائه میدهد، که برای استفاده تجاری اعتمادآور نیست. برای مثال، یک حرفهای ممکن است از Bard بخواهد یک گزارش مشتری را پیشنویس کند – اگر Bard دادههای نادرست یا بینشهای ضعیف وارد کند، میتواند بیشتر دردسرساز باشد تا کمک. بنابراین، کاربران حرفهای تمایل دارند Bard را برای وظایف غیر بحرانی آزمایش کنند اما هنوز به GPT-4 یا Claude برای خروجیهای مهم متکی هستند. همچنین درک این است که Google در حال جبران است: بسیاری Bard را به عنوان "آماده برای زمان اصلی" نمیدانند و تصمیم به انتظار گرفتهاند. برخی از درکهای مثبت در زمینههایی مانند پرسشهای دادهای زمان واقعی وجود دارد – مثلاً، یک تحلیلگر مالی در Reddit اشاره کرد که Bard میتواند اطلاعات بازار اخیر را به لطف جستجوی Google بگیرد، که ChatGPT نمیتواند مگر اینکه پلاگینها فعال شوند. بنابراین در حوزههایی که دادههای جاری کلیدی است، چند حرفهای یک مزیت دیدند. یک نکته دیگر: افرادی در اکوسیستم Google (مثلاً، شرکتهایی که به طور انحصاری از Google Workspace استفاده میکنند) دیدگاه کمی مطلوبتر دارند فقط به این دلیل که Bard/Gemini گزینهای است که با محیط آنها مطابقت دارد. آنها امیدوارند که بهبود یابد به جای تغییر به یک اکوسیستم کاملاً متفاوت. به طور خلاصه، کاربران تجاری Gemini را به عنوان احتمالاً بسیار مفید میبینند (با توجه به دادهها و ابزارهای Google)، اما تا اوایل ۲۰۲۵ هنوز اعتماد کامل را به دست نیاورده است. آنها آن را به عنوان "رقیب جدیدی که هنوز کاملاً آماده نیست" درک میکنند – ارزش نظارت دارد، اما هنوز برای وظایف بحرانی به آن اعتماد نمیکنند. شهرت Google مقداری صبر از این جمعیت میخرد، اما نه به طور نامحدود؛ اگر Gemini به طور قابل توجهی بهبود نیابد، حرفهایها ممکن است آن را به طور گستردهای نپذیرند و به راهحلهای دیگر پایبند بمانند.
LLMهای منبع باز (مثلاً مدلهای مبتنی بر LLaMA)
نقاط ضعف و محدودیتهای مشترک
- نیازهای سختافزاری و تنظیمات: برخلاف چتباتهای ابری، LLMهای منبع باز معمولاً نیاز به اجرای آنها بر روی سختافزار محلی یا یک سرور دارند. این بلافاصله یک نقطه ضعف ارائه میدهد: بسیاری از مدلها (برای مثال، یک مدل 70 میلیارد پارامتری LLaMA) به یک GPU قدرتمند با مقدار زیادی VRAM برای اجرای روان نیاز دارند. همانطور که یکی از کاربران Reddit به طور خلاصه بیان کرد، "LLMهای محلی بر روی اکثر سختافزارهای مصرفکننده دقت لازم برای هر توسعه پیچیدهای را نخواهند داشت." برای فرد متوسط با تنها یک GPU 8GB یا 16GB (یا فقط یک CPU)، اجرای یک مدل با کیفیت بالا میتواند کند یا به طور کامل غیرقابل اجرا باشد. کاربران ممکن است به مدلهای کوچکتر که جا می شوند متوسل شوند، اما آنها اغلب خروجی با کیفیت پایینتر ("پاسخهای احمقانهتر") میدهند. پیچیدگی تنظیمات یک مسئله دیگر است – نصب وزنهای مدل، تنظیم محیطهایی مانند Oobabooga یا Lang