Lewati ke konten utama

Satu pos ditandai dengan "LLM Sumber Terbuka"

Lihat Semua Tag

Umpan Balik Pengguna Reddit tentang Alat Chat LLM Utama

· Satu menit baca
Lark Birdy
Chief Bird Officer

Ikhtisar: Laporan ini menganalisis diskusi Reddit tentang empat alat chat AI populer – ChatGPT dari OpenAI, Claude dari Anthropic, Gemini dari Google (Bard), dan LLM sumber terbuka (misalnya model berbasis LLaMA). Ini merangkum titik sakit umum yang dilaporkan pengguna untuk masing-masing, fitur yang paling sering mereka minta, kebutuhan yang tidak terpenuhi atau segmen pengguna yang merasa kurang terlayani, dan perbedaan persepsi di antara pengembang, pengguna kasual, dan pengguna bisnis. Contoh spesifik dan kutipan dari thread Reddit disertakan untuk mengilustrasikan poin-poin ini.

Umpan Balik Pengguna Reddit tentang Alat Chat LLM Utama

ChatGPT (OpenAI)

Titik Sakit Umum dan Keterbatasan

  • Memori konteks terbatas: Keluhan utama adalah ketidakmampuan ChatGPT untuk menangani percakapan panjang atau dokumen besar tanpa melupakan detail sebelumnya. Pengguna sering mencapai batas panjang konteks (beberapa ribu token) dan harus memotong atau meringkas informasi. Seorang pengguna mencatat “meningkatkan ukuran jendela konteks akan menjadi peningkatan terbesar... Itu adalah batas yang paling sering saya hadapi”. Ketika konteks terlampaui, ChatGPT melupakan instruksi atau konten awal, menyebabkan penurunan kualitas yang membuat frustrasi di tengah sesi.

  • Batas pesan untuk GPT-4: Pengguna ChatGPT Plus mengeluhkan batas 25 pesan/3 jam pada penggunaan GPT-4 (batas yang ada pada tahun 2023). Mencapai batas ini memaksa mereka untuk menunggu, mengganggu pekerjaan. Pengguna berat menemukan pembatasan ini sebagai titik sakit utama.

  • Filter konten ketat (“nerfs”): Banyak Redditor merasa ChatGPT menjadi terlalu restriktif, sering menolak permintaan yang sebelumnya dapat ditangani. Sebuah postingan dengan banyak upvote mengeluh bahwa “hampir semua yang Anda tanyakan sekarang mengembalikan ‘Maaf, tidak bisa membantu’... Bagaimana ini berubah dari alat paling berguna menjadi setara dengan Google Assistant?”. Pengguna menyebutkan contoh seperti ChatGPT menolak untuk memformat ulang teks mereka sendiri (misalnya kredensial login) karena kemungkinan penyalahgunaan. Pelanggan berbayar berpendapat bahwa “beberapa gagasan samar bahwa pengguna mungkin melakukan 'hal buruk'... tidak seharusnya menjadi alasan untuk tidak menampilkan hasil”, karena mereka menginginkan output model dan akan menggunakannya secara bertanggung jawab.

  • Halusinasi dan kesalahan: Meskipun kemampuannya yang canggih, ChatGPT dapat menghasilkan informasi yang salah atau dibuat-buat dengan percaya diri. Beberapa pengguna mengamati ini semakin buruk seiring waktu, menduga model tersebut “dibodohi.” Misalnya, seorang pengguna di bidang keuangan mengatakan ChatGPT dulu menghitung metrik seperti NPV atau IRR dengan benar, tetapi setelah pembaruan “Saya mendapatkan begitu banyak jawaban yang salah... itu masih menghasilkan jawaban yang salah [bahkan setelah koreksi]. Saya benar-benar percaya itu menjadi jauh lebih bodoh sejak perubahan.”. Ketidakakuratan yang tidak dapat diprediksi seperti itu mengikis kepercayaan untuk tugas-tugas yang memerlukan ketepatan faktual.

  • Output kode yang tidak lengkap: Pengembang sering menggunakan ChatGPT untuk bantuan pengkodean, tetapi mereka melaporkan bahwa kadang-kadang menghilangkan bagian dari solusi atau memotong kode panjang. Seorang pengguna berbagi bahwa ChatGPT sekarang “menghilangkan kode, menghasilkan kode yang tidak berguna, dan hanya buruk dalam hal yang saya butuhkan... Ini sering menghilangkan begitu banyak kode sehingga saya bahkan tidak tahu bagaimana mengintegrasikan solusinya.” Ini memaksa pengguna untuk meminta prompt lanjutan untuk mengeluarkan sisanya, atau untuk secara manual menyatukan jawaban – proses yang membosankan.

  • Kekhawatiran kinerja dan waktu aktif: Ada persepsi bahwa kinerja ChatGPT untuk pengguna individu menurun seiring meningkatnya penggunaan perusahaan. “Saya pikir mereka mengalokasikan bandwidth dan daya pemrosesan untuk bisnis dan menguranginya dari pengguna, yang tidak dapat ditoleransi mengingat berapa biaya langganan!” opined satu pelanggan Plus yang frustrasi. Pemadaman atau perlambatan selama waktu puncak telah dicatat secara anekdot, yang dapat mengganggu alur kerja.

Fitur atau Peningkatan yang Sering Diminta

  • Jendela konteks/memori yang lebih panjang: Jauh dari peningkatan yang paling diminta adalah panjang konteks yang lebih besar. Pengguna ingin memiliki percakapan yang jauh lebih panjang atau memasukkan dokumen besar tanpa reset. Banyak yang menyarankan memperluas konteks ChatGPT agar sesuai dengan kemampuan token 32K GPT-4 (saat ini tersedia melalui API) atau lebih. Seperti yang dikatakan seorang pengguna, “GPT terbaik dengan konteks, dan ketika tidak mengingat konteks awal itu, saya merasa frustrasi... Jika rumor tentang PDF konteks benar, itu akan menyelesaikan hampir semua masalah saya.” Ada permintaan tinggi untuk fitur untuk mengunggah dokumen atau menghubungkan data pribadi sehingga ChatGPT dapat mengingat dan merujuknya sepanjang sesi.

  • Penanganan file dan integrasi: Pengguna sering meminta cara yang lebih mudah untuk memasukkan file atau data ke dalam ChatGPT. Dalam diskusi, orang-orang menyebutkan ingin “menyalin dan menempelkan Google Drive saya dan membuatnya bekerja” atau memiliki plugin yang memungkinkan ChatGPT secara langsung mengambil konteks dari file pribadi. Beberapa telah mencoba solusi (seperti plugin pembaca PDF atau menghubungkan Google Docs), tetapi mengeluh tentang kesalahan dan batasan. Seorang pengguna menggambarkan plugin ideal mereka sebagai yang “bekerja seperti Pembaca Tautan tetapi untuk file pribadi... memilih bagian mana dari drive saya yang akan digunakan dalam percakapan... itu akan menyelesaikan hampir setiap masalah yang saya miliki dengan GPT-4 saat ini.”. Singkatnya, dukungan asli yang lebih baik untuk pengetahuan eksternal (di luar data pelatihan) adalah permintaan populer.

  • Pengurangan pembatasan untuk pengguna berbayar: Karena banyak pengguna Plus mencapai batas pesan GPT-4, mereka meminta batas yang lebih tinggi atau opsi untuk membayar lebih untuk akses tanpa batas. Batas 25 pesan dipandang sebagai sewenang-wenang dan menghambat penggunaan intensif. Orang-orang lebih suka model berbasis penggunaan atau batas yang lebih tinggi sehingga sesi pemecahan masalah yang panjang tidak terputus.

  • Mode moderasi "tanpa sensor" atau kustom: Segmen pengguna ingin memiliki kemampuan untuk mengubah ketatnya filter konten, terutama saat menggunakan ChatGPT untuk diri mereka sendiri (bukan konten yang menghadap publik). Mereka merasa mode “penelitian” atau “tanpa sensor” – dengan peringatan tetapi tidak ada penolakan keras – akan memungkinkan mereka untuk menjelajah lebih bebas. Seperti yang dicatat seorang pengguna, pelanggan yang membayar melihatnya sebagai alat dan percaya “Saya membayar uang untuk [itu].” Mereka menginginkan opsi untuk mendapatkan jawaban bahkan pada kueri batas. Sementara OpenAI harus menyeimbangkan keselamatan, pengguna ini menyarankan bendera atau pengaturan untuk melonggarkan kebijakan dalam obrolan pribadi.

  • Akurasi faktual yang lebih baik dan pembaruan: Pengguna umumnya meminta pengetahuan yang lebih mutakhir dan lebih sedikit halusinasi. Pemotongan pengetahuan ChatGPT (September 2021 dalam versi sebelumnya) adalah batasan yang sering diangkat di Reddit. OpenAI sejak itu memperkenalkan penelusuran dan plugin, yang dimanfaatkan oleh beberapa pengguna, tetapi yang lain hanya meminta model dasar diperbarui lebih sering dengan data baru. Mengurangi kesalahan yang jelas – terutama di domain seperti matematika dan pengkodean – adalah keinginan yang sedang berlangsung. Beberapa pengembang memberikan umpan balik ketika ChatGPT melakukan kesalahan dengan harapan perbaikan model.

  • Output kode dan alat yang lebih baik: Pengembang memiliki permintaan fitur seperti interpreter kode yang lebih baik yang tidak menghilangkan konten, dan integrasi dengan IDE atau kontrol versi. (Plugin Code Interpreter OpenAI – sekarang bagian dari “Advanced Data Analysis” – adalah langkah ke arah ini dan mendapat pujian.) Namun, pengguna sering meminta kontrol yang lebih baik dalam pembuatan kode: misalnya opsi untuk menghasilkan kode lengkap, tidak difilter bahkan jika panjang, atau mekanisme untuk dengan mudah memperbaiki kode jika AI membuat kesalahan. Pada dasarnya, mereka ingin ChatGPT berperilaku lebih seperti asisten pengkodean yang andal tanpa perlu beberapa prompt untuk menyempurnakan jawaban.

  • Profil pengguna atau memori yang persisten: Peningkatan lain yang disebutkan beberapa orang adalah membiarkan ChatGPT mengingat hal-hal tentang pengguna di seluruh sesi (dengan persetujuan). Misalnya, mengingat gaya penulisan seseorang, atau bahwa mereka adalah insinyur perangkat lunak, tanpa harus menyatakannya kembali setiap obrolan baru. Ini bisa diikat ke penyetelan API atau fitur “profil”. Pengguna secara manual menyalin konteks penting ke dalam obrolan baru sekarang, jadi memori bawaan untuk preferensi pribadi akan menghemat waktu.

Kebutuhan atau Segmen Pengguna yang Kurang Terlayani

  • Peneliti dan siswa dengan dokumen panjang: Orang-orang yang ingin ChatGPT menganalisis makalah penelitian panjang, buku, atau kumpulan data besar merasa kurang terlayani. Batasan saat ini memaksa mereka untuk memotong teks atau puas dengan ringkasan. Segmen ini akan sangat diuntungkan dari jendela konteks yang lebih besar atau fitur untuk menangani dokumen panjang (seperti yang dibuktikan oleh banyak posting tentang mencoba mengatasi batas token).

  • Pengguna yang mencari penceritaan kreatif atau role-play di luar batas: Sementara ChatGPT sering digunakan untuk penulisan kreatif, beberapa penulis cerita merasa dibatasi oleh model yang melupakan poin plot awal dalam cerita panjang atau menolak konten dewasa/horor. Mereka beralih ke model alternatif atau trik untuk melanjutkan narasi mereka. Pengguna kreatif ini akan lebih baik dilayani oleh versi ChatGPT dengan memori lebih panjang dan sedikit lebih fleksibel pada kekerasan fiksi atau tema dewasa (dalam batas yang wajar). Seperti yang dicatat seorang penulis fiksi, ketika AI kehilangan jejak cerita, “Saya harus mengingatkannya tentang format atau konteks yang tepat... Saya merasa frustrasi bahwa itu bagus dua prompt yang lalu, tetapi sekarang saya harus mengejar AI.”.

  • Pengguna daya dan ahli domain: Profesional di bidang khusus (keuangan, teknik, kedokteran) terkadang menemukan jawaban ChatGPT kurang mendalam atau akurat di domain mereka, terutama jika pertanyaannya melibatkan perkembangan terbaru. Pengguna ini menginginkan pengetahuan ahli yang lebih andal. Beberapa telah mencoba penyetelan melalui API atau GPT kustom. Mereka yang tidak dapat menyetel akan menghargai versi domain-spesifik dari ChatGPT atau plugin yang menyematkan basis data tepercaya. Dalam bentuk defaultnya, ChatGPT mungkin kurang melayani pengguna yang membutuhkan informasi yang sangat akurat dan spesifik bidang (mereka sering harus memeriksa ulang pekerjaannya).

  • Pengguna yang membutuhkan konten tanpa sensor atau kasus tepi: Minoritas pengguna (peretas yang menguji skenario keamanan, penulis fiksi ekstrem, dll.) menemukan pembatasan konten ChatGPT terlalu membatasi untuk kebutuhan mereka. Mereka saat ini kurang terlayani oleh produk resmi (karena secara eksplisit menghindari konten tertentu). Pengguna ini sering bereksperimen dengan prompt jailbreaking atau menggunakan model sumber terbuka untuk mendapatkan respons yang mereka inginkan. Ini adalah celah yang disengaja untuk OpenAI (untuk menjaga keselamatan), tetapi itu berarti pengguna seperti itu mencari di tempat lain.

  • Individu dan perusahaan yang sadar privasi: Beberapa pengguna (terutama di lingkungan perusahaan) merasa tidak nyaman mengirim data sensitif ke ChatGPT karena masalah privasi. OpenAI memiliki kebijakan untuk tidak menggunakan data API untuk pelatihan, tetapi UI web ChatGPT secara historis tidak menawarkan jaminan seperti itu hingga fitur opt-out ditambahkan. Perusahaan yang menangani data rahasia (hukum, kesehatan, dll.) sering merasa mereka tidak dapat sepenuhnya memanfaatkan ChatGPT, meninggalkan kebutuhan mereka yang kurang terlayani kecuali mereka membangun solusi yang dihosting sendiri. Misalnya, seorang Redditor menyebutkan perusahaan mereka pindah ke LLM lokal karena alasan privasi. Sampai instans on-prem atau pribadi dari ChatGPT tersedia, segmen ini tetap berhati-hati atau menggunakan vendor spesialis yang lebih kecil.

Perbedaan Persepsi berdasarkan Jenis Pengguna

  • Pengembang/Pengguna Teknis: Pengembang cenderung menjadi pendukung terbesar dan kritikus terberat ChatGPT. Mereka menyukai kemampuannya untuk menjelaskan kode, menghasilkan boilerplate, dan membantu debugging. Namun, mereka sangat merasakan keterbatasannya dalam konteks yang lebih panjang dan akurasi kode. Seperti yang dikeluhkan seorang pengembang, ChatGPT mulai “menghasilkan kode yang tidak berguna” dan menghilangkan bagian penting, yang “membuat saya kesal... Saya tidak ingin harus memberitahunya 'jangan malas' – saya hanya ingin hasil penuh”. Pengembang sering memperhatikan bahkan perubahan kualitas yang halus setelah pembaruan model dan sangat vokal di Reddit tentang “nerfs” atau penurunan kemampuan pengkodean yang dirasakan. Mereka juga mendorong batas (membangun prompt yang kompleks, merangkai alat), sehingga mereka mendambakan fitur seperti konteks yang diperluas, lebih sedikit batas pesan, dan integrasi yang lebih baik dengan alat pengkodean. Singkatnya, pengembang menghargai ChatGPT untuk mempercepat tugas rutin tetapi cepat menunjukkan kesalahan dalam logika atau kode – mereka melihatnya sebagai asisten junior yang masih membutuhkan pengawasan.

  • Pengguna Kasual/Sehari-hari: Pengguna yang lebih kasual – mereka yang meminta pengetahuan umum, saran, atau hiburan – sering kali kagum dengan kemampuan ChatGPT, tetapi mereka memiliki keluhan sendiri. Frustrasi pengguna kasual yang umum adalah ketika ChatGPT menolak permintaan yang tampaknya tidak berbahaya bagi mereka (kemungkinan memicu aturan kebijakan). Poster asli dalam satu thread mencontohkan ini, menjadi “sangat kesal ketika saya menulis prompt yang seharusnya tidak ada masalah dengannya dan sekarang menolaknya”. Pengguna kasual juga mungkin mengalami pemotongan pengetahuan (menemukan bot tidak dapat menangani peristiwa yang sangat terkini kecuali diperbarui secara eksplisit) dan terkadang memperhatikan ketika ChatGPT memberikan jawaban yang jelas salah. Tidak seperti pengembang, mereka mungkin tidak selalu memeriksa ulang AI, yang dapat menyebabkan kekecewaan jika mereka bertindak berdasarkan kesalahan. Di sisi positif, banyak pengguna kasual menemukan respons lebih cepat ChatGPT Plus dan output yang lebih baik dari GPT-4 sepadan dengan $20/bulan – kecuali masalah “penolakan” atau batasan lainnya merusak pengalaman. Mereka umumnya menginginkan asisten serba guna yang membantu dan dapat merasa frustrasi ketika ChatGPT menjawab dengan pernyataan kebijakan atau membutuhkan prompt yang rumit untuk mendapatkan jawaban sederhana.

  • Pengguna Bisnis/Profesional: Pengguna bisnis sering mendekati ChatGPT dari sudut pandang produktivitas dan keandalan. Mereka menghargai draf cepat email, ringkasan dokumen, atau generasi ide. Namun, mereka khawatir tentang keamanan data, konsistensi, dan integrasi ke dalam alur kerja. Di Reddit, para profesional telah membahas keinginan ChatGPT dalam alat seperti Outlook, Google Docs, atau sebagai API dalam sistem internal mereka. Beberapa telah mencatat bahwa saat OpenAI beralih untuk melayani klien perusahaan, fokus produk tampaknya bergeser: ada perasaan bahwa pengalaman pengguna gratis atau individu sedikit menurun (misalnya lebih lambat atau “kurang pintar”) saat perusahaan berkembang untuk melayani klien yang lebih besar. Benar atau tidak, ini menyoroti persepsi: pengguna bisnis menginginkan keandalan dan layanan prioritas, dan pengguna individu khawatir mereka sekarang menjadi kelas dua. Selain itu, profesional membutuhkan output yang benar – jawaban yang mencolok tetapi salah bisa lebih buruk daripada tidak ada jawaban. Oleh karena itu, segmen ini sensitif terhadap akurasi. Bagi mereka, fitur seperti konteks yang lebih panjang (untuk membaca kontrak, menganalisis basis kode) dan waktu aktif yang dijamin sangat penting. Mereka cenderung membayar lebih untuk tingkat layanan premium, asalkan persyaratan kepatuhan dan privasi mereka terpenuhi. Beberapa perusahaan bahkan menjelajahi penerapan on-premise atau menggunakan API OpenAI dengan aturan penanganan data yang ketat untuk memenuhi kebijakan TI mereka.


Claude (Anthropic)

Titik Sakit Umum dan Keterbatasan

  • Batasan penggunaan dan pembatasan akses: Claude mendapat pujian karena menawarkan model yang kuat (Claude 2) secara gratis, tetapi pengguna dengan cepat menghadapi batasan penggunaan (terutama pada tingkat gratis). Setelah sejumlah prompt atau sejumlah besar teks, Claude mungkin berhenti dan mengatakan sesuatu seperti “Maaf, saya harus mengakhiri percakapan ini untuk saat ini. Silakan kembali nanti.” Pembatasan ini membuat frustrasi pengguna yang menganggap Claude sebagai mitra pengkodean atau penulisan yang diperpanjang. Bahkan pengguna Claude Pro (berbayar) “tidak dijamin waktu tanpa batas”, seperti yang dicatat seorang pengguna; mencapai kuota masih menghasilkan pesan “kembali nanti”. Selain itu, untuk waktu yang lama Claude secara resmi dibatasi secara geografis (awalnya hanya tersedia di AS/Inggris). Pengguna internasional di Reddit harus menggunakan VPN atau platform pihak ketiga untuk mengaksesnya, yang merupakan ketidaknyamanan. Ini membuat banyak pengguna non-AS merasa ditinggalkan hingga akses diperluas.

  • Kecenderungan untuk keluar jalur dengan input yang sangat besar: Fitur utama Claude adalah jendela konteks 100k-token, memungkinkan prompt yang sangat panjang. Namun, beberapa pengguna telah memperhatikan bahwa ketika Anda memasukkan puluhan ribu token ke dalam Claude, responsnya bisa menjadi kurang fokus. “100k sangat berguna tetapi jika tidak mengikuti instruksi dengan benar dan keluar jalur, itu tidak terlalu berguna,” seorang pengguna mengamati. Ini menunjukkan bahwa dengan konteks besar, Claude mungkin menyimpang atau mulai mengoceh, memerlukan prompt yang hati-hati untuk menjaga tugas. Ini adalah keterbatasan yang melekat pada mendorong konteks ke ekstrem – model mempertahankan banyak tetapi kadang-kadang “melupakan” detail mana yang paling relevan, yang mengarah ke halusinasi kecil atau penyimpangan di luar topik.

  • Pemformatan yang tidak konsisten atau ketaatan pada instruksi: Dalam perbandingan berdampingan, beberapa pengguna menemukan Claude kurang dapat diprediksi dalam bagaimana ia mengikuti arahan tertentu. Misalnya, Claude digambarkan sebagai “lebih mirip manusia dalam interaksi. Tetapi kurang ketat mengikuti pesan sistem.”. Ini berarti jika Anda memberinya format tetap untuk diikuti atau persona yang sangat ketat, Claude mungkin menyimpang lebih dari yang akan dilakukan ChatGPT. Pengembang yang mengandalkan output deterministik (seperti format JSON atau gaya tertentu) terkadang merasa frustrasi jika Claude memperkenalkan komentar tambahan atau tidak secara ketat mematuhi template.

  • Pembatasan konten dan penolakan: Meskipun tidak sering dikritik seperti ChatGPT, filter keamanan Claude memang muncul. Anthropic merancang Claude dengan penekanan berat pada AI konstitusional (memiliki AI itu sendiri mengikuti pedoman etis). Pengguna umumnya menemukan Claude bersedia membahas berbagai topik, tetapi ada contoh di mana Claude menolak permintaan yang mungkin diizinkan oleh ChatGPT. Misalnya, seorang Redditor mencatat “ChatGPT memiliki lebih sedikit pembatasan moral... itu akan menjelaskan masker gas mana yang lebih baik untuk kondisi mana sementara Claude akan menolak”. Ini menunjukkan Claude mungkin lebih ketat tentang saran “sensitif” tertentu (mungkin menganggapnya sebagai panduan yang berpotensi berbahaya). Pengguna lain mencoba skenario role-play yang lucu (“berpura-pura Anda diculik oleh alien”) yang ditolak Claude, sedangkan Gemini dan ChatGPT akan terlibat. Jadi, Claude memang memiliki filter yang kadang-kadang mengejutkan pengguna yang mengharapkannya lebih permisif.

  • Kurangnya kemampuan multimodal: Tidak seperti ChatGPT (yang, pada akhir 2023, memperoleh pemahaman gambar dengan GPT-4 Vision), Claude saat ini hanya berbasis teks. Pengguna Reddit mencatat bahwa Claude tidak dapat menganalisis gambar atau langsung menjelajahi web sendiri. Ini bukanlah “titik sakit” (Anthropic tidak pernah mengiklankan fitur-fitur tersebut), tetapi ini adalah keterbatasan relatif terhadap pesaing. Pengguna yang menginginkan AI untuk menafsirkan diagram atau tangkapan layar tidak dapat menggunakan Claude untuk itu, sedangkan ChatGPT atau Gemini mungkin dapat menanganinya. Demikian pula, pengambilan informasi terkini memerlukan penggunaan Claude melalui alat pihak ketiga (misalnya, Poe atau integrasi mesin pencari), karena Claude saat ini tidak memiliki mode penelusuran resmi.

  • Masalah stabilitas kecil: Beberapa pengguna melaporkan Claude kadang-kadang menjadi repetitif atau terjebak dalam loop untuk prompt tertentu (meskipun ini kurang umum dibandingkan dengan beberapa model yang lebih kecil). Juga, versi awal Claude kadang-kadang mengakhiri respons secara prematur atau memakan waktu lama dengan output besar, yang dapat dianggap sebagai gangguan kecil, meskipun Claude 2 meningkatkan kecepatan.

Fitur atau Peningkatan yang Sering Diminta

  • Batas penggunaan yang lebih tinggi atau dapat disesuaikan: Penggemar Claude di Reddit sering meminta Anthropic untuk menaikkan batas percakapan. Mereka ingin menggunakan konteks 100k sepenuhnya tanpa mencapai batas buatan. Beberapa menyarankan bahwa bahkan Claude Pro berbayar harus memungkinkan lebih banyak token per hari. Yang lain mengusulkan ide “mode konteks 100k diperpanjang” opsional – misalnya, “Claude harus memiliki mode konteks 100k dengan batas penggunaan dua kali lipat” – di mana mungkin langganan dapat menawarkan akses yang diperluas untuk pengguna berat. Intinya, ada permintaan untuk rencana yang bersaing dengan penggunaan tanpa batas (atau batas tinggi) ChatGPT untuk pelanggan.

  • Navigasi konteks panjang yang lebih baik: Meskipun memiliki 100k token adalah terobosan, pengguna ingin Claude lebih baik memanfaatkan konteks itu. Salah satu peningkatan adalah memperbaiki bagaimana Claude memprioritaskan informasi sehingga tetap pada tugas. Anthropic dapat bekerja pada kepatuhan model terhadap prompt ketika prompt sangat besar. Diskusi Reddit menyarankan teknik seperti memungkinkan pengguna untuk “menyematkan” instruksi tertentu sehingga tidak menjadi encer dalam konteks besar. Alat apa pun untuk membantu menyegmentasi atau meringkas bagian dari input juga dapat membantu Claude menangani input besar dengan lebih koheren. Singkatnya, pengguna menyukai kemungkinan memberi makan seluruh buku kepada Claude – mereka hanya ingin itu tetap tajam sepanjang waktu.

  • Plugin atau penelusuran web: Banyak pengguna ChatGPT telah terbiasa dengan plugin (misalnya, penelusuran, eksekusi kode, dll.) dan mereka menyatakan minat agar Claude memiliki ekstensi serupa. Permintaan umum adalah agar Claude memiliki fungsi penelusuran web resmi, sehingga dapat mengambil informasi terbaru sesuai permintaan. Saat ini, pengetahuan Claude sebagian besar statis (data pelatihan hingga awal 2023, dengan beberapa pembaruan). Jika Claude dapat mencari di web, itu akan mengurangi keterbatasan tersebut. Demikian pula, sistem plugin di mana Claude dapat menggunakan alat pihak ketiga (seperti kalkulator atau konektor basis data) dapat memperluas kegunaannya untuk pengguna daya. Ini tetap menjadi fitur yang kurang dimiliki Claude, dan pengguna Reddit sering menyebutkan bagaimana ekosistem plugin ChatGPT memberikannya keunggulan dalam tugas tertentu.

  • Input multimodal (gambar atau audio): Beberapa pengguna juga bertanya-tanya apakah Claude akan mendukung input gambar atau menghasilkan gambar. Google’s Gemini dan GPT-4 dari OpenAI memiliki kemampuan multimodal, sehingga untuk tetap kompetitif, pengguna mengharapkan Anthropic untuk menjelajahi ini. Permintaan yang sering adalah: “Bisakah saya mengunggah PDF atau gambar untuk dianalisis Claude?” Saat ini jawabannya tidak (selain solusi seperti mengonversi gambar ke teks di tempat lain). Bahkan hanya memungkinkan gambar-ke-teks (OCR dan deskripsi) akan memuaskan banyak orang yang menginginkan asisten satu atap. Ini ada dalam daftar keinginan, meskipun Anthropic belum mengumumkan apa pun yang serupa hingga awal 2025.

  • Penyetelan atau kustomisasi: Pengguna tingkat lanjut dan bisnis terkadang bertanya apakah mereka dapat menyetel Claude pada data mereka sendiri atau mendapatkan versi khusus. OpenAI menawarkan penyetelan untuk beberapa model (belum GPT-4, tetapi untuk GPT-3.5). Anthropic merilis antarmuka penyetelan untuk Claude 1.3 sebelumnya, tetapi tidak banyak diiklankan untuk Claude 2. Pengguna Reddit telah bertanya tentang kemampuan melatih Claude pada pengetahuan perusahaan atau gaya penulisan pribadi. Cara yang lebih mudah untuk melakukan ini (selain suntikan prompt setiap kali) akan sangat disambut, karena dapat mengubah Claude menjadi asisten pribadi yang mengingat basis pengetahuan atau persona tertentu.

  • Ketersediaan yang lebih luas: Pengguna non-AS sering meminta agar Claude secara resmi diluncurkan di negara mereka. Posting dari Kanada, Eropa, India, dll., bertanya kapan mereka dapat menggunakan situs web Claude tanpa VPN atau kapan API Claude akan dibuka lebih luas. Anthropic telah berhati-hati, tetapi permintaan bersifat global – kemungkinan peningkatan di mata banyak orang adalah hanya “biarkan lebih banyak dari kami menggunakannya.” Ekspansi bertahap akses perusahaan telah sebagian mengatasi ini.

Kebutuhan atau Segmen Pengguna yang Kurang Terlayani

  • Basis pengguna internasional: Seperti yang dicatat, untuk waktu yang lama basis pengguna utama Claude dibatasi oleh geografi. Ini membuat banyak calon pengguna kurang terlayani. Misalnya, seorang pengembang di Jerman yang tertarik dengan konteks 100k Claude tidak memiliki cara resmi untuk menggunakannya. Meskipun ada solusi (platform pihak ketiga, atau VPN + verifikasi telepon di negara yang didukung), hambatan ini berarti pengguna internasional kasual secara efektif terkunci. Sebaliknya, ChatGPT tersedia di sebagian besar negara. Jadi, penutur bahasa Inggris non-AS dan terutama penutur non-Inggris kurang terlayani oleh peluncuran terbatas Claude. Mereka mungkin masih mengandalkan ChatGPT atau model lokal hanya karena masalah akses.

  • Pengguna yang membutuhkan pemformatan output yang ketat: Seperti disebutkan, Claude kadang-kadang mengambil kebebasan dalam respons. Pengguna yang membutuhkan output yang sangat terstruktur (seperti JSON untuk aplikasi, atau jawaban yang mengikuti format yang tepat) mungkin menemukan Claude kurang dapat diandalkan untuk itu dibandingkan ChatGPT. Pengguna ini – sering kali pengembang yang mengintegrasikan AI ke dalam sistem – adalah segmen yang dapat lebih baik dilayani jika Claude memungkinkan “mode ketat” atau meningkatkan kepatuhan terhadap instruksi. Mereka saat ini mungkin menghindari Claude untuk tugas-tugas seperti itu, tetap menggunakan model yang dikenal mengikuti format lebih ketat.

  • Pengguna Q&A kasual (vs. pengguna kreatif): Claude sering dipuji untuk tugas kreatif – ia menghasilkan prosa yang mengalir, mirip manusia, dan esai yang bijaksana. Namun, beberapa pengguna di Reddit mencatat bahwa untuk pertanyaan-pertanyaan langsung atau kueri faktual, Claude terkadang memberikan jawaban yang panjang lebar di mana singkatnya akan cukup. Pengguna yang membandingkan ChatGPT dan Claude mengatakan ChatGPT cenderung ringkas dan berpoin, sedangkan Claude memberikan lebih banyak narasi secara default. Pengguna yang hanya menginginkan jawaban faktual cepat (seperti “Apa ibu kota X dan populasinya?”) mungkin merasa Claude sedikit tidak langsung. Pengguna ini lebih baik dilayani oleh sesuatu seperti pencarian yang akurat atau model yang ringkas. Claude dapat melakukannya jika diminta, tetapi gayanya mungkin tidak sesuai dengan harapan Q&A yang ringkas, yang berarti segmen ini dapat beralih ke alat lain (seperti Bing Chat atau Google).

  • Pengguna yang sangat memperhatikan keselamatan: Sebaliknya, beberapa pengguna yang memerlukan kepatuhan yang sangat hati-hati terhadap keselamatan (misalnya pendidik yang menggunakan AI dengan siswa, atau pelanggan perusahaan yang menginginkan risiko nol dari output nakal) mungkin menganggap keselarasan Claude sebagai nilai tambah, tetapi karena ChatGPT juga cukup selaras dan memiliki lebih banyak fitur perusahaan, pengguna tersebut mungkin tidak secara khusus memilih Claude. Ini adalah segmen kecil, tetapi seseorang dapat berargumen bahwa Claude belum secara jelas menangkapnya. Mereka mungkin kurang terlayani dalam arti bahwa mereka tidak memiliki cara mudah untuk meningkatkan pengamanan Claude atau melihat “rantai pemikiran” (yang dimiliki Anthropic secara internal melalui pendekatan AI konstitusional, tetapi pengguna akhir tidak langsung berinteraksi dengan itu selain dari memperhatikan nada Claude yang umumnya sopan).

  • Penutur non-Inggris (kualitas output): Claude dilatih terutama dalam bahasa Inggris (seperti kebanyakan LLM besar). Beberapa pengguna telah mengujinya dalam bahasa lain; ia dapat merespons dalam banyak bahasa, tetapi kualitasnya mungkin bervariasi. Jika, misalnya, seorang pengguna menginginkan jawaban yang sangat bernuansa dalam bahasa Prancis atau Hindi, mungkin kemampuan Claude tidak setajam di sana seperti ChatGPT (GPT-4 telah menunjukkan kinerja multibahasa yang kuat, sering kali lebih tinggi daripada model lain dalam tolok ukur tertentu). Pengguna yang terutama berbicara dalam bahasa selain Inggris mungkin menemukan kefasihan atau akurasi Claude sedikit lebih lemah. Segmen ini agak kurang terlayani hanya karena Anthropic belum menyoroti pelatihan multibahasa sebagai prioritas secara publik.

Perbedaan Persepsi berdasarkan Jenis Pengguna

  • Pengembang/Pengguna Teknis: Pengembang di Reddit semakin memuji Claude, terutama Claude 2 / Claude 3.5, untuk tugas pengkodean. Pergeseran persepsi pada akhir 2024 sangat mencolok: banyak pengembang mulai lebih memilih Claude daripada ChatGPT untuk bantuan pemrograman. Mereka menyebut kinerja “luar biasa dalam pengkodean” dan kemampuan untuk menangani basis kode yang lebih besar sekaligus. Misalnya, seorang pengguna menulis “Claude Sonnet 3.5 lebih baik untuk bekerja dengan kode (menganalisis, menghasilkan) [daripada ChatGPT].” Pengembang menghargai bahwa Claude dapat mengambil sejumlah besar kode proyek atau log dan menghasilkan analisis atau perbaikan yang koheren, berkat konteksnya yang besar. Namun, mereka juga memperhatikan keanehannya – seperti kadang-kadang menyuntikkan lebih banyak omong kosong percakapan atau tidak mengikuti spesifikasi secara harfiah. Secara keseluruhan, banyak pengembang menyimpan ChatGPT dan Claude di tangan: satu untuk logika langkah-demi-langkah yang ketat (ChatGPT) dan satu untuk konteks luas dan pemahaman empatik (Claude). Menariknya, seorang komentator mengatakan “Jika saya harus memilih satu, saya akan memilih Claude” setelah membandingkan keduanya setiap hari. Ini menunjukkan persepsi yang sangat positif di antara pengguna tingkat lanjut, terutama untuk kasus penggunaan seperti brainstorming, tinjauan kode, atau saran arsitektur. Satu-satunya keluhan umum dari pengembang adalah mencapai batas penggunaan Claude ketika mereka mencoba mendorongnya dengan keras (misalnya memberi makan prompt 50K-token untuk menganalisis seluruh repositori). Singkatnya, pengembang melihat Claude sebagai alat yang sangat kuat – dalam beberapa kasus lebih unggul dari ChatGPT – hanya terhambat oleh ketersediaan dan beberapa ketidakpastian dalam pemformatan.

  • Pengguna Kasual/Non-teknis: Pengguna kasual yang telah mencoba Claude sering mengomentari betapa ramah dan artikulatifnya itu. Gaya Claude cenderung percakapan, sopan, dan rinci. Seorang pengguna baru yang membandingkannya dengan ChatGPT mengamati bahwa “Claude lebih empatik, dan mengikuti nada percakapan... ChatGPT default ke poin-poin terlalu sering”. Kehangatan mirip manusia ini membuat Claude menarik bagi orang-orang yang menggunakannya untuk penulisan kreatif, saran, atau hanya mengobrol untuk informasi. Beberapa bahkan mempersonifikasikan Claude sebagai memiliki “kepribadian” yang penuh kasih. Pengguna kasual juga menyukai bahwa versi gratis Claude memungkinkan akses ke kecerdasan setara GPT-4 tanpa langganan (setidaknya hingga batas tarif). Di sisi lain, pengguna kasual memang menemui penolakan Claude pada topik tertentu dan mungkin tidak mengerti mengapa (karena Claude akan mengungkapkannya dengan permintaan maaf tetapi tegas). Jika pengguna kasual bertanya sesuatu yang borderline dan mendapat penolakan dari Claude, mereka mungkin menganggapnya kurang mampu atau terlalu dibatasi, tidak menyadari bahwa itu adalah sikap kebijakan. Aspek lain adalah bahwa Claude kurang dikenal – banyak pengguna kasual mungkin bahkan tidak tahu untuk mencobanya kecuali mereka terhubung ke komunitas AI. Mereka yang mencoba umumnya berkomentar bahwa itu terasa “seperti berbicara dengan manusia” dengan cara yang baik. Mereka cenderung sangat puas dengan kemampuan Claude untuk menangani pertanyaan terbuka atau pribadi. Jadi, persepsi pengguna kasual sebagian besar positif mengenai kualitas output dan nada Claude, dengan beberapa kebingungan atau frustrasi seputar ketersediaannya (harus menggunakannya di aplikasi atau wilayah tertentu) dan sesekali momen “tidak bisa melakukan itu”.

  • Pengguna Bisnis/Profesional: Persepsi bisnis tentang Claude sedikit lebih sulit diukur dari Reddit publik (karena lebih sedikit pengguna perusahaan yang memposting secara rinci), tetapi beberapa tren muncul. Pertama, Anthropic telah memposisikan Claude sebagai lebih fokus pada privasi dan bersedia menandatangani perjanjian perusahaan – ini menarik bagi perusahaan yang khawatir tentang data dengan OpenAI. Memang, beberapa diskusi Reddit menyebutkan Claude dalam konteks alat seperti Slack atau Notion, di mana ia diintegrasikan sebagai asisten. Profesional yang telah menggunakan integrasi tersebut mungkin bahkan tidak menyadari Claude adalah mesinnya, tetapi ketika mereka melakukannya, mereka membandingkannya secara menguntungkan dalam hal gaya penulisan dan kemampuan mencerna dokumen perusahaan yang panjang. Misalnya, sebuah tim mungkin memberi makan laporan triwulanan yang panjang ke Claude dan mendapatkan ringkasan yang layak – sesuatu yang akan sulit dilakukan oleh konteks lebih kecil ChatGPT. Yang mengatakan, pengguna bisnis juga memperhatikan kurangnya fitur ekosistem tertentu; misalnya, OpenAI menawarkan kontrol pesan sistem, pemanggilan fungsi, dll., dalam API mereka, yang Anthropic memiliki dukungan yang lebih terbatas. Seorang pengembang yang bekerja pada solusi bisnis berkomentar bahwa Claude lebih dapat diarahkan dalam percakapan, sedangkan ChatGPT cenderung lebih kaku... [tetapi] ChatGPT memiliki akses web yang bisa sangat membantu. Implikasinya adalah bahwa untuk tugas penelitian atau pencarian data yang mungkin dibutuhkan pengguna bisnis (seperti intelijen kompetitif), ChatGPT dapat langsung mengambil info, sedangkan Claude akan memerlukan langkah terpisah. Secara keseluruhan, pengguna bisnis tampaknya melihat Claude sebagai AI yang sangat kompeten – dalam beberapa kasus lebih baik untuk tugas analitik internal – tetapi mungkin belum sefitur kaya untuk integrasi. Biaya adalah faktor lain: harga dan ketentuan API Claude tidak sepublik OpenAI, dan beberapa startup di Reddit menyebutkan ketidakpastian tentang harga atau stabilitas Claude. Singkatnya, profesional menghormati kemampuan Claude (terutama keandalannya dalam mengikuti instruksi tingkat tinggi dan meringkas input besar), tetapi mereka mengawasi bagaimana ia berkembang dalam hal integrasi, dukungan, dan ketersediaan global sebelum sepenuhnya berkomitmen padanya dibandingkan dengan ChatGPT yang lebih mapan.


Google Gemini (Bard)

Titik Sakit Umum dan Keterbatasan

  • Respon yang tidak akurat atau “bodoh”: Banjir umpan balik Reddit muncul ketika Google meluncurkan peningkatan Bard bertenaga Gemini, banyak di antaranya negatif. Pengguna mengeluhkan bahwa Gemini berkinerja buruk dalam QA dasar dibandingkan dengan ChatGPT. Satu penilaian blak-blakan berjudul “100% Honest Take on Google Gemini” menyatakan: “Ini adalah chatbot LLM yang rusak dan tidak akurat”. Pengguna lain yang frustrasi bertanya: “Bagaimana Gemini masih begitu buruk? Berapa kali saya meminta Gemini untuk sesuatu dan itu memberikan jawaban yang salah atau jawaban yang tidak lengkap sangat konyol”. Mereka membandingkannya berdampingan dengan ChatGPT-4 dan menemukan ChatGPT memberikan “jawaban sempurna, benar, efisien dalam satu kali,” sedangkan Gemini mengoceh dan memerlukan beberapa prompt untuk mencapai jawaban yang setengah memuaskan. Intinya, pengguna awal merasa bahwa Gemini sering berhalusinasi atau melewatkan inti pertanyaan, memerlukan upaya prompt yang berlebihan untuk mengekstrak informasi yang benar. Ketidakkonsistenan dalam kualitas ini adalah kekecewaan besar mengingat hype seputar Gemini.

  • Kebanyakan kata-kata dan omong kosong: Banyak pengguna mencatat bahwa Gemini (dalam bentuk Bard baru) cenderung menghasilkan jawaban yang panjang lebar yang tidak langsung ke intinya. Seperti yang dijelaskan seseorang, “Itu mengoceh... 3 paragraf sampah AI... bahkan kemudian, itu [hanya] akhirnya menyebutkan jawaban yang terkubur dalam paragraf omong kosong”. Ini adalah kontras yang mencolok dengan ChatGPT, yang sering memberikan jawaban yang lebih ringkas atau poin-poin ketika sesuai. Verbositas menjadi titik sakit ketika pengguna harus menyaring banyak teks untuk fakta sederhana. Beberapa berspekulasi bahwa Google mungkin telah menyetelnya untuk menjadi percakapan atau “membantu,” tetapi terlalu banyak menjelaskan tanpa substansi.

  • Integrasi yang buruk dengan layanan Google sendiri: Salah satu poin penjualan asisten AI Google seharusnya adalah integrasi dengan ekosistem Google (Gmail, Docs, Drive, dll.). Namun, pengalaman pengguna awal sangat mengecewakan di bidang ini. Seorang pengguna mengeluh: “Jangan sampai saya mulai pada ketidakmampuan hampir lengkapnya untuk berintegrasi dengan produk Google sendiri yang seharusnya menjadi ‘fitur’ (yang tampaknya tidak tahu itu ada).”. Misalnya, orang-orang akan mencoba meminta Gemini (melalui Bard) untuk meringkas Google Doc atau membuat draf email berdasarkan beberapa info – fitur yang diiklankan oleh Google – dan bot akan merespons bahwa tidak dapat mengakses data tersebut. Seorang pengguna di r/GooglePixel menulis: “Setiap kali saya mencoba menggunakan Gemini dengan Google Docs atau Drive saya, itu memberi tahu saya bahwa itu tidak dapat melakukan apa pun dengannya. Apa gunanya bahkan memiliki fitur integrasi ini?”. Ini menunjukkan kesenjangan yang signifikan antara kemampuan yang dijanjikan dan kinerja aktual, membuat pengguna merasa bahwa “asisten AI” tidak banyak membantu dalam ekosistem Google sendiri.

  • Penolakan dan kebingungan kemampuan: Pengguna juga mengalami penolakan atau kontradiksi aneh dari Gemini. Redditor yang sama mencatat Gemini “menolak melakukan hal-hal tanpa alasan, lupa bahwa ia dapat melakukan hal-hal lain... Suatu hari itu memberi tahu saya bahwa ia tidak memiliki akses ke internet/data langsung. Apa.”. Ini menunjukkan bahwa Gemini terkadang menolak tugas yang seharusnya dapat dilakukan (seperti mengambil info langsung, yang terhubung dengan Bard) atau membuat pernyataan yang salah tentang kemampuannya sendiri. Pengalaman seperti itu memberikan kesan AI yang tidak hanya kurang cerdas, tetapi juga kurang dapat diandalkan atau sadar diri. Komentar berwarna pengguna lain: “Gemini adalah sampah mutlak. Pernahkah Anda mengalami salah satu momen di mana Anda hanya ingin mengangkat tangan dan berkata, ‘Apa yang mereka pikirkan?’” merangkum frustrasi. Pada dasarnya, masalah integrasi produk dan konsistensi Gemini membuatnya terasa setengah matang bagi banyak pengguna awal.

  • Kemampuan pengkodean yang tidak mengesankan: Meskipun tidak dibahas secara luas seperti Q&A umum, beberapa pengguna menguji Gemini (Bard) pada tugas pengkodean dan menemukannya di bawah standar. Dalam forum AI, kemampuan pengkodean Gemini biasanya dinilai di bawah GPT-4 dan bahkan di bawah Claude. Misalnya, seorang pengguna menyatakan dengan jelas bahwa “Claude 3.5 Sonnet jelas lebih baik untuk pengkodean daripada ChatGPT 4o... Gemini adalah sampah mutlak [dalam konteks itu]”. Konsensusnya adalah bahwa Gemini dapat menulis kode sederhana atau menjelaskan algoritma dasar, tetapi sering tersandung pada masalah yang lebih kompleks atau menghasilkan kode dengan kesalahan. Kurangnya alat pengembang yang luas (misalnya, tidak memiliki yang setara dengan Code Interpreter atau pemanggilan fungsi yang kuat) juga berarti itu bukan pilihan pertama bagi programmer. Jadi, meskipun tidak setiap pengguna kasual peduli tentang kode, ini adalah keterbatasan untuk segmen itu.

  • Keterbatasan perangkat seluler: Gemini diluncurkan sebagai bagian dari Asisten Google di ponsel Pixel (bermerek “Asisten dengan Bard”). Beberapa pengguna Pixel mencatat bahwa menggunakannya sebagai pengganti asisten suara memiliki masalah. Terkadang tidak mengambil prompt suara dengan akurat atau memerlukan waktu lama untuk merespons dibandingkan dengan Asisten Google lama. Ada juga komentar tentang perlu memilih dan kehilangan beberapa fitur Asisten klasik. Ini menciptakan persepsi bahwa integrasi Gemini pada perangkat belum sepenuhnya siap, meninggalkan pengguna daya ekosistem Google merasa bahwa mereka harus memilih antara asisten pintar dan yang fungsional.

Fitur atau Peningkatan yang Sering Diminta

  • Peningkatan akurasi dan penalaran yang dramatis: Peningkatan nomor satu yang diinginkan pengguna untuk Gemini adalah menjadi lebih pintar dan lebih andal. Umpan balik Reddit membuatnya jelas bahwa Google perlu menutup kesenjangan dalam kualitas jawaban. Pengguna mengharapkan Gemini memanfaatkan akses informasi Google yang luas untuk memberikan jawaban faktual dan langsung, bukan yang bertele-tele atau salah. Jadi permintaan (sering kali diungkapkan secara sarkastis) bermuara pada: buat itu sebaik atau lebih baik dari GPT-4 dalam pengetahuan umum dan penalaran. Ini termasuk penanganan yang lebih baik dari pertanyaan lanjutan dan prompt yang kompleks. Pada dasarnya, “perbaiki otak” Gemini – manfaatkan keunggulan pelatihan multimodal yang diklaim sehingga berhenti melewatkan detail yang jelas. Google kemungkinan telah mendengar ini dengan jelas: banyak posting membandingkan jawaban spesifik di mana ChatGPT unggul dan Gemini gagal, yang berfungsi sebagai laporan bug informal untuk perbaikan.

  • Integrasi yang lebih baik & kesadaran konteks: Pengguna ingin Gemini memenuhi janji sebagai pembantu ekosistem Google yang mulus. Ini berarti harus berinteraksi dengan benar dengan Gmail, Kalender, Dokumen, Drive, dll. Jika seorang pengguna bertanya “Ringkas dokumen yang saya buka” atau “Buat draf balasan untuk email terakhir dari bos saya,” AI harus melakukannya – dan melakukannya dengan aman. Saat ini, permintaannya adalah agar Google mengaktifkan fitur-fitur tersebut dan membuat Gemini benar-benar mengenali kapan tugas semacam itu mungkin dilakukan. Diiklankan bahwa Bard dapat terhubung ke konten pengguna (dengan izin), jadi pengguna secara efektif menuntut Google “menghidupkan” atau memperbaiki integrasi ini. Ini adalah fitur kunci terutama bagi pengguna bisnis. Selain itu, di bidang penelusuran web: Bard (Gemini) dapat mencari di web, tetapi beberapa pengguna ingin itu mengutip sumber lebih jelas atau lebih tepat waktu dalam menggabungkan berita terkini. Jadi meningkatkan sifat terhubung Gemini adalah permintaan yang sering.

  • Kontrol ringkas: Mengingat keluhan tentang verbositas, beberapa pengguna menyarankan fitur untuk mengubah gaya respons. Misalnya, mode “singkat” di mana Gemini memberikan jawaban singkat dan langsung secara default, kecuali diminta untuk menjelaskan. Sebaliknya, mungkin mode “terperinci” bagi mereka yang menginginkan jawaban yang sangat rinci. ChatGPT secara implisit memungkinkan beberapa dari ini oleh prompt pengguna (“buat singkat”); dengan Gemini, pengguna merasa bahkan ketika mereka tidak meminta detail, itu terlalu menjelaskan. Jadi pengaturan bawaan atau hanya penyesuaian yang lebih baik untuk menghasilkan jawaban ringkas ketika sesuai akan menjadi peningkatan yang disambut baik. Pada dasarnya, sesuaikan dial verbositas.

  • Kesetaraan fitur dengan ChatGPT (pengkodean, plugin, dll.): Pengguna daya di Reddit secara eksplisit membandingkan fitur. Mereka meminta agar Gemini/Bard dari Google menawarkan hal-hal seperti sandbox eksekusi kode (mirip dengan Code Interpreter ChatGPT), kemampuan untuk mengunggah gambar/PDF untuk analisis (karena Gemini adalah multimodal, pengguna ingin benar-benar memberinya gambar kustom, bukan hanya mendeskripsikan yang disediakan). Fitur lain yang sering disebutkan adalah memori dalam percakapan – sementara Bard memang memiliki beberapa memori interaksi masa lalu, pengguna ingin itu sebaik ChatGPT dalam merujuk konteks sebelumnya, atau bahkan memiliki penyimpanan percakapan yang persisten seperti riwayat obrolan ChatGPT yang dapat Anda gulir dan kunjungi kembali. Pada dasarnya, Google diminta untuk mengejar semua fitur kualitas hidup yang dimiliki pengguna ChatGPT Plus: riwayat obrolan, ekosistem plugin (atau setidaknya integrasi pihak ketiga yang kuat), bantuan pengkodean, dll.

  • Aplikasi seluler dan peningkatan suara: Banyak pengguna kasual meminta aplikasi seluler khusus untuk Bard/Gemini (mirip dengan aplikasi seluler ChatGPT). Mengandalkan antarmuka web atau hanya Asisten Pixel terbatas. Aplikasi resmi di seluruh iOS/Android dengan input suara, respons berbicara (untuk nuansa asisten sejati), dan integrasi yang ketat dapat sangat meningkatkan pengalaman pengguna. Bersamaan dengan itu, pemilik Pixel ingin Asisten dengan Bard menjadi lebih cepat dan lebih fungsional – pada dasarnya, mereka menginginkan yang terbaik dari Asisten Google lama (tindakan cepat dan tepat) digabungkan dengan kecerdasan Gemini. Misalnya, hal-hal seperti terus memungkinkan perintah suara “Hey Google” untuk rumah pintar dan bukan hanya respons obrolan. Google dapat meningkatkan mode suara Gemini untuk benar-benar menggantikan asisten lama tanpa regresi fitur.

  • Transparansi dan kontrol: Beberapa pengguna telah meminta lebih banyak wawasan tentang sumber Bard atau cara untuk menyetel gayanya. Misalnya, menunjukkan hasil Google mana yang diambil Bard untuk informasi (untuk memverifikasi akurasi) – sesuatu yang dilakukan Bing Chat dengan mengutip tautan. Juga, karena Bard kadang-kadang menghasilkan info yang salah, pengguna ingin dapat menandai atau memperbaikinya, dan idealnya Bard harus belajar dari umpan balik itu dari waktu ke waktu. Memiliki mekanisme umpan balik yang mudah (“jempol ke bawah – ini salah karena...”) yang mengarah pada peningkatan model yang cepat akan menanamkan kepercayaan bahwa Google mendengarkan. Pada dasarnya, fitur untuk membuat AI lebih dari asisten kolaboratif daripada kotak hitam.

Kebutuhan atau Segmen Pengguna yang Kurang Terlayani

  • Pengguna yang mencari asisten pribadi yang dapat diandalkan: Ironisnya, kelompok yang ditargetkan Google – orang-orang yang menginginkan asisten pribadi yang kuat – merasa paling kurang terlayani oleh Gemini dalam bentuknya saat ini. Pengguna awal yang mengaktifkan Asisten berbasis Bard baru mengharapkan peningkatan, tetapi banyak yang merasa itu adalah penurunan dalam hal praktis. Misalnya, jika seseorang menginginkan asisten suara untuk *menjawab trivia dengan akurat, mengatur pengingat, mengontrol perangkat, dan mengintegrasikan info dari akun mereka, Gemini kesulitan. Ini meninggalkan segmen profesional sibuk atau penggemar gadget (yang mengandalkan asisten untuk produktivitas) merasa bahwa kebutuhan mereka tidak terpenuhi. Seorang pengguna berkomentar bahwa mereka akan mempertimbangkan untuk membayar “Asisten dengan Bard” Pixel “jika [itu] melampaui Google Assistant”, yang menyiratkan bahwa itu belum. Jadi segmen itu masih menunggu asisten AI yang andal dan benar-benar membantu – mereka akan melompat ke sana jika Gemini membaik.

  • Penutur non-Inggris / lokalisasi: Produk Google biasanya memiliki lokalisasi yang sangat baik, tetapi tidak jelas apakah Bard/Gemini sama kuatnya dalam semua bahasa saat peluncuran. Beberapa pengguna internasional melaporkan bahwa jawaban Bard dalam bahasa asli mereka kurang lancar atau berguna, mendorong mereka kembali ke pesaing lokal. Jika data pelatihan atau optimasi Gemini lebih mengutamakan bahasa Inggris, maka pengguna non-Inggris kurang terlayani. Mereka mungkin lebih memilih ChatGPT atau model lokal yang secara eksplisit mengoptimalkan kemampuan multibahasa. Ini adalah ruang di mana Google biasanya unggul (mengingat teknologi terjemahannya), tetapi umpan balik pengguna tentang itu jarang – kemungkinan menunjukkan bahwa Gemini belum benar-benar memukau komunitas-komunitas tersebut.

  • Pelanggan perusahaan (sejauh ini): Organisasi besar belum banyak mengadopsi Bard/Gemini berdasarkan percakapan publik, sering kali karena kesenjangan kepercayaan dan kemampuan. Perusahaan membutuhkan konsistensi, kutipan, dan integrasi dengan alur kerja mereka (Office 365 terintegrasi dengan teknologi OpenAI melalui MS Copilot, misalnya). Setara Google (Duet AI dengan Gemini) masih berkembang. Sampai Gemini/Bard membuktikan dapat dengan andal membuat draf email, membuat slide presentasi, atau menganalisis data di Google Sheets pada tingkat yang setara atau di atas GPT-4, pengguna perusahaan akan merasa bahwa solusi Google tidak sepenuhnya memenuhi kebutuhan mereka. Beberapa posting di r/Bard dari profesional adalah seperti “Saya mencoba Bard untuk tugas kerja, itu tidak sebaik ChatGPT, jadi kami akan menunggu dan melihat.” Itu menunjukkan pengguna perusahaan adalah segmen yang kurang terlayani untuk saat ini – mereka menginginkan AI yang terintegrasi dengan Google Workspace dan benar-benar meningkatkan produktivitas tanpa perlu verifikasi output yang konstan.

  • Pengguna dalam ekosistem Google yang lebih suka solusi satu atap: Ada segmen pengguna yang menggunakan Google untuk segalanya (pencarian, email, dokumen) dan akan dengan senang hati menggunakan AI Google untuk semua kebutuhan chatbot mereka – jika itu sebaik. Saat ini, pengguna tersebut agak kurang terlayani karena mereka akhirnya menggunakan ChatGPT untuk hal-hal tertentu dan Bard untuk yang lain. Mereka mungkin bertanya pertanyaan faktual ke ChatGPT karena mereka lebih mempercayai kualitas jawabannya, tetapi menggunakan Bard untuk penelusuran atau upaya integrasi. Pengalaman yang terpisah itu tidak ideal. Pengguna semacam itu benar-benar hanya ingin tetap dalam satu aplikasi/asisten. Jika Gemini membaik, mereka akan berkonsolidasi di sekitarnya, tetapi sampai saat itu kasus penggunaan mereka “satu asisten untuk menguasai semuanya” tidak terpenuhi.

  • Pengembang/Ilmuwan data di Google Cloud: Google memang merilis model Gemini melalui platform Vertex AI untuk pengembang. Namun, laporan awal dan tolok ukur menunjukkan Gemini (khususnya model “Gemini Pro” yang tersedia) tidak mengalahkan GPT-4. Pengembang yang lebih suka Google Cloud untuk layanan AI dengan demikian agak kurang terlayani oleh kualitas model – mereka harus menerima model yang sedikit inferior atau mengintegrasikan API OpenAI secara terpisah. Segmen pengembang perusahaan ini lapar akan model Google yang kuat sehingga mereka dapat menyimpan semuanya dalam satu tumpukan. Sampai kinerja Gemini jelas unggul di beberapa area atau harga menawarkan alasan yang menarik, itu tidak sepenuhnya memenuhi kebutuhan kelompok ini dalam istilah kompetitif.

Perbedaan Persepsi berdasarkan Jenis Pengguna

  • Pengembang/Antusias Teknologi: Pengguna yang paham teknologi mendekati Gemini dengan harapan tinggi (bagaimanapun juga, ini adalah Google). Persepsi mereka dengan cepat memburuk setelah pengujian langsung. Banyak pengembang di Reddit menjalankan tolok ukur atau pertanyaan rumit favorit mereka melalui Gemini dan menemukannya tertinggal. Seorang programmer secara blak-blakan menyatakan, “Gemini adalah sampah mutlak seperti Llama 3.0 dulu”, menunjukkan mereka menilainya bahkan di bawah beberapa model terbuka. Pengembang sangat sensitif terhadap kesalahan logika dan verbositas. Jadi ketika Gemini memberikan jawaban yang panjang lebar tetapi salah, itu kehilangan kredibilitas dengan cepat. Di sisi lain, pengembang mengenali potensi Google; beberapa berharap bahwa “dengan lebih banyak penyetelan, Gemini akan menjadi lebih baik” dan mereka secara berkala mengujinya setelah pembaruan. Saat ini, bagaimanapun, sebagian besar pengembang menganggapnya sebagai inferior terhadap GPT-4 dalam hampir semua tugas serius (pengkodean, pemecahan masalah kompleks). Mereka memang menghargai hal-hal tertentu: misalnya, Gemini memiliki akses ke informasi waktu nyata (melalui pencarian Google) tanpa memerlukan plugin, yang berguna untuk kueri terkini. Seorang pengembang mungkin menggunakan Bard untuk sesuatu seperti “cari dan ringkas makalah terbaru tentang X,” di mana ia dapat mengutip data web. Tetapi untuk penalaran mandiri, mereka condong ke model lain. Singkatnya, penggemar teknologi melihat Gemini sebagai pekerjaan yang menjanjikan yang saat ini terasa satu generasi di belakang. Itu belum mendapatkan kepercayaan penuh mereka, dan mereka sering memposting perbandingan berdampingan yang menyoroti kesalahannya untuk mendorong Google memperbaikinya.

  • Pengguna Kasual/Sehari-hari: Pengguna kasual, termasuk mereka yang mendapatkan akses ke Bard baru di ponsel mereka atau melalui web, memiliki perasaan campur aduk. Banyak pengguna kasual awalnya mendekati Bard (Gemini) karena gratis dan mudah diakses dengan akun Google, tidak seperti GPT-4 yang berbayar. Beberapa pengguna kasual sebenarnya melaporkan pengalaman yang layak untuk penggunaan sederhana: misalnya, seorang Redditor di r/Bard memberikan ulasan positif yang mencatat bahwa Gemini membantu mereka dengan hal-hal seperti meninjau dokumen hukum, menulis salinan, dan bahkan kasus penggunaan yang menyenangkan dalam mengidentifikasi ukuran pakaian dari foto. Mereka mengatakan “Gemini telah menjadi sumber daya yang berharga untuk menjawab pertanyaan saya... informasi terkini... Saya sudah terbiasa dengan versi berbayar sehingga saya tidak ingat bagaimana versi gratisnya berkinerja.” – menunjukkan bahwa setidaknya beberapa pengguna kasual yang menginvestasikan waktu (dan uang) ke Bard Advanced menemukannya berguna dalam kehidupan sehari-hari. Pengguna ini cenderung menggunakannya untuk bantuan praktis dan sehari-hari dan mungkin tidak mendorong model ke batasnya. Namun, banyak pengguna kasual lainnya (terutama mereka yang juga telah mencoba ChatGPT) merasa kecewa. Orang-orang biasa yang bertanya hal-hal seperti saran perjalanan, trivia, atau bantuan dengan tugas menemukan jawaban Bard kurang jelas atau berguna. Persepsi di sini terpecah: pengguna setia merek Google vs. mereka yang sudah dimanjakan oleh ChatGPT. Kelompok pertama, jika mereka belum banyak menggunakan ChatGPT, kadang-kadang menemukan Bard/Gemini “cukup baik” untuk kebutuhan mereka dan menghargai bahwa itu terintegrasi dengan pencarian dan gratis. Kelompok kedua hampir selalu membandingkan dan menemukan Gemini kurang. Mereka mungkin berkata, “Mengapa saya menggunakan Bard ketika ChatGPT lebih baik 90% dari waktu?”. Jadi persepsi pengguna kasual benar-benar tergantung pada kerangka acuan mereka sebelumnya. Mereka yang baru mengenal asisten AI mungkin menilai Gemini sebagai hal baru yang membantu; mereka yang berpengalaman dengan kompetisi melihatnya sebagai kekecewaan yang “masih sangat buruk” dan perlu ditingkatkan.

  • Pengguna Bisnis/Profesional: Banyak profesional mencoba Bard ketika diluncurkan dengan integrasi Google Workspace (Duet AI). Persepsi di antara kelompok ini adalah skeptisisme hati-hati. Di satu sisi, mereka mempercayai janji perusahaan Google mengenai privasi data dan integrasi (misalnya, mengedit Dokumen melalui AI, meringkas rapat dari undangan Kalender, dll.). Di sisi lain, tes awal sering menunjukkan Gemini membuat kesalahan faktual atau memberikan output generik, yang tidak menginspirasi kepercayaan untuk penggunaan bisnis. Misalnya, seorang profesional mungkin meminta Bard untuk membuat draf laporan klien – jika Bard memasukkan data yang salah atau wawasan yang lemah, itu bisa lebih merepotkan daripada membantu. Oleh karena itu, pengguna profesional cenderung menguji coba Bard pada tugas non-kritis tetapi masih mengandalkan GPT-4 atau Claude untuk output penting. Ada juga persepsi bahwa Google sedang mengejar: banyak yang melihat Bard sebagai “belum siap untuk prime time” dan memutuskan untuk menunggu. Beberapa persepsi positif ada di area seperti kueri data waktu nyata – misalnya, seorang analis keuangan di Reddit mencatat Bard dapat menarik info pasar terbaru berkat pencarian Google, yang tidak dapat dilakukan ChatGPT kecuali plugin diaktifkan. Jadi dalam domain di mana data terkini adalah kunci, beberapa profesional melihat keuntungan. Nuansa lain: orang-orang dalam ekosistem Google (misalnya, perusahaan yang menggunakan Google Workspace secara eksklusif) memiliki pandangan yang sedikit lebih menguntungkan hanya karena Bard/Gemini adalah opsi yang sesuai dengan lingkungan mereka. Mereka berharap itu membaik daripada beralih ke ekosistem yang sama sekali berbeda. Singkatnya, pengguna bisnis melihat Gemini sebagai berpotensi sangat berguna (mengingat data dan integrasi alat Google), tetapi pada awal 2025, itu belum mendapatkan kepercayaan penuh. Mereka melihatnya sebagai “penantang baru yang belum sepenuhnya siap” – layak dipantau, tetapi belum menjadi pilihan utama untuk tugas-tugas penting. Reputasi Google membelinya beberapa kesabaran dari kerumunan ini, tetapi tidak tanpa batas; jika Gemini tidak meningkat secara signifikan, para profesional mungkin tidak mengadopsinya secara luas, tetap dengan solusi lain.


LLM Sumber Terbuka (misalnya Model Berbasis LLaMA)

Titik Sakit Umum dan Keterbatasan

  • Persyaratan perangkat keras dan pengaturan: Tidak seperti chatbot cloud, LLM sumber terbuka biasanya memerlukan pengguna untuk menjalankannya pada perangkat keras lokal atau server. Ini segera menghadirkan titik sakit: banyak model (misalnya, model LLaMA dengan 70 miliar parameter) membutuhkan GPU yang kuat dengan banyak VRAM untuk berjalan dengan lancar. Seperti yang dikatakan seorang Redditor dengan singkat, “LLM lokal pada sebagian besar perangkat keras konsumen tidak akan memiliki presisi yang dibutuhkan untuk pengembangan yang kompleks.” Bagi orang biasa dengan hanya GPU 8GB atau 16GB (atau hanya CPU), menjalankan model berkualitas tinggi bisa lambat atau tidak mungkin. Pengguna mungkin beralih ke model yang lebih kecil yang cocok, tetapi itu sering menghasilkan output berkualitas lebih rendah (jawaban “lebih bodoh”). Kompleksitas pengaturan adalah masalah lain – menginstal bobot model, mengatur lingkungan seperti Oobabooga atau LangChain, mengelola perpustakaan tokenisasi, dll., bisa menakutkan bagi non-pengembang. Bahkan pengguna yang terampil secara teknis menggambarkannya sebagai kerumitan untuk mengikuti versi model baru, keanehan driver GPU, dan sebagainya. Satu thread berjudul “Serius, bagaimana Anda benar-benar menggunakan LLM lokal?” memiliki orang-orang yang berbagi bahwa banyak model “baik berkinerja buruk atau tidak berjalan dengan lancar pada perangkat keras saya”, dan meminta saran praktis.

  • Kinerja yang lebih rendah dibandingkan model tertutup mutakhir: Model sumber terbuka telah membuat kemajuan pesat, tetapi pada tahun 2025 banyak pengguna mencatat bahwa mereka masih tertinggal di belakang model kepemilikan teratas (GPT-4, Claude) dalam penalaran kompleks, pengkodean, dan akurasi faktual. Contoh yang jelas: seorang pengguna di r/LocalLLaMA membandingkan output dalam bahasa asli mereka dan berkata “Setiap model lain yang saya coba gagal... Mereka bahkan tidak mendekati [GPT-4]. ChatGPT 4 benar-benar luar biasa dalam menulis”. Sentimen ini diungkapkan secara luas: sementara model terbuka yang lebih kecil (seperti 13B atau 7B yang disetel halus) bisa mengesankan untuk ukurannya, mereka kesulitan dengan tugas yang memerlukan pemahaman mendalam atau logika multi-langkah. Bahkan model terbuka yang lebih besar (65B, 70B) yang mendekati tingkat GPT-3.5 masih bisa gagal pada jenis masalah rumit yang ditangani GPT-4. Pengguna mengamati lebih banyak halusinasi dan kesalahan dalam model terbuka, terutama pada pengetahuan khusus atau ketika prompt sedikit menyimpang dari distribusi pelatihan. Jadi, kesenjangan dalam kemampuan mentah adalah titik sakit – seseorang harus menyesuaikan harapan saat menggunakan model lokal, yang bisa membuat frustrasi bagi mereka yang terbiasa dengan keandalan ChatGPT.

  • Panjang konteks terbatas: Sebagian besar LLM sumber terbuka secara tradisional memiliki jendela konteks yang lebih kecil (2048 token, mungkin 4k token) dibandingkan dengan apa yang ditawarkan ChatGPT atau Claude. Beberapa penyetelan dan arsitektur baru memperpanjang ini (misalnya, ada versi token 8K atau 16K dari LLaMA-2, dan penelitian seperti MPT-7B memiliki konteks 16K). Namun, penggunaan praktis model konteks panjang yang sangat panjang masih dalam tahap awal. Ini berarti pengguna model lokal menghadapi masalah memori serupa – model melupakan bagian awal percakapan atau teks, kecuali mereka menerapkan skema memori eksternal (seperti basis data vektor untuk pengambilan). Dalam diskusi Reddit, pengguna sering menyebutkan harus secara manual meringkas atau memotong riwayat untuk tetap dalam batas, yang melelahkan. Ini adalah keterbatasan yang mencolok terutama karena model kepemilikan mendorong panjang konteks lebih jauh (seperti 100k Claude).

  • Kurangnya penyetelan instruksi yang disetel halus dalam beberapa model: Sementara banyak model terbuka disetel instruksi (Alpaca, LLaMA-2-Chat, dll.), tidak semua dilatih RLHF dengan ketat seperti ChatGPT. Ini dapat mengakibatkan model lokal kadang-kadang kurang responsif terhadap instruksi atau prompt sistem. Misalnya, model LLaMA mentah hanya akan melanjutkan teks dan mengabaikan format prompt pengguna sepenuhnya – seseorang harus menggunakan versi obrolan yang disetel. Bahkan kemudian, kualitas data penyetelan penting. Beberapa pengguna Reddit mencatat bahwa model instruksi tertentu baik terlalu menolak (karena mereka disetel dengan keamanan yang berat, misalnya beberapa obrolan LLaMA-2 Facebook akan membalas dengan penolakan kebijakan mirip dengan ChatGPT) atau kurang-berkinerja (tidak mengikuti kueri dengan tepat). Keluhan pengguna di GitHub tentang CodeLlama-70B-instruct mengatakan itu “begitu disensor sehingga pada dasarnya tidak berguna”, menunjukkan frustrasi bahwa model terbuka mengadopsi ketat yang sama tanpa alternatif untuk mematikannya. Jadi, tergantung pada model yang dipilih, pengguna mungkin menghadapi model yang terlalu longgar (dan memberikan kelanjutan yang tidak relevan) atau yang terlalu ketat/terjaga. Mendapatkan perilaku instruksi yang seimbang sering kali memerlukan mencoba beberapa penyetelan halus.

  • Fragmentasi dan perubahan cepat: Lanskap LLM sumber terbuka berkembang sangat cepat, dengan model dan teknik baru (kuantisasi, penyetelan LoRA, dll.) muncul setiap minggu. Meskipun menarik, ini adalah titik sakit bagi pengguna yang tidak ingin terus-menerus menyesuaikan pengaturan mereka. Apa yang berhasil bulan lalu mungkin sudah usang bulan ini. Seorang Redditor dengan humor membandingkannya dengan wild west, mengatakan komunitas “menemukan cara untuk ‘memalsukannya’ sehingga terasa seperti mirip [dengan GPT-4]” tetapi sering kali ini adalah solusi sementara. Bagi pengguna kasual, memilih dari puluhan nama model (Vicuna, Alpaca, Mythomax, Mistral, dll.), masing-masing dengan beberapa versi dan cabang, bisa membingungkan. Tanpa platform terpadu tunggal, pengguna mengandalkan panduan komunitas – yang bisa membingungkan – untuk memutuskan model mana yang sesuai dengan kebutuhan mereka. Fragmentasi dalam alat dan kualitas model ini adalah titik sakit tidak langsung: ini meningkatkan penghalang masuk dan upaya pemeliharaan.

  • Tidak ada dukungan resmi atau jaminan: Ketika sesuatu tidak berfungsi dengan LLM lokal (misalnya, model mengeluarkan konten ofensif atau macet), tidak ada dukungan pelanggan yang bisa dihubungi. Pengguna harus mengandalkan bantuan komunitas. Bagi penggemar ini baik-baik saja, tetapi untuk penggunaan profesional kurangnya dukungan formal ini adalah hambatan. Beberapa pengguna Reddit yang bekerja di perusahaan mencatat bahwa meskipun mereka ingin privasi model terbuka, mereka khawatir tentang siapa yang harus dihubungi jika model mengalami kerusakan atau jika mereka membutuhkan pembaruan. Pada dasarnya, menggunakan sumber terbuka adalah DIY – baik kekuatan maupun kelemahan.

Fitur atau Peningkatan yang Sering Diminta

  • Efisiensi yang lebih baik (kuantisasi dan optimasi): Fokus utama dalam komunitas (dan dengan demikian permintaan umum) adalah membuat model besar berjalan pada perangkat keras yang lebih kecil. Pengguna dengan antusias menunggu teknik yang memungkinkan model 70B berjalan semulus model 7B. Sudah ada kuantisasi 4-bit atau 8-bit, dan thread sering membahas metode baru seperti AWQ atau adaptor mirip RNN. Seorang pengguna mengutip penelitian di mana kuantisasi yang ditingkatkan dapat mempertahankan kualitas pada presisi bit yang lebih rendah. Keinginannya pada dasarnya: “Biarkan saya menjalankan model tingkat GPT-4 di PC saya tanpa lag.” Setiap terobosan yang mendekati (seperti arsitektur transformer yang lebih efisien atau offloading GPU ke CPU) dirayakan. Jadi, permintaan untuk alat yang lebih baik (seperti generasi berikutnya dari llama.cpp atau akselerator lainnya) adalah umum – apa pun untuk mengurangi penghalang perangkat keras.

  • Model yang lebih besar dan lebih baik (menutup kesenjangan kualitas): Komunitas terus mendorong model sumber terbuka mutakhir baru. Pengguna bersemangat tentang proyek seperti LLaMA 3 (jika/dan ketika Meta merilis satu) atau kolaborasi yang dapat menghasilkan model terbuka 100B+. Banyak yang menyatakan optimisme bahwa “kami akan memiliki model GPT-4 lokal di mesin kami pada akhir tahun ini”. Dalam kutipan itu, pengguna bertaruh pada LLaMA 3 ditambah penyetelan halus untuk memberikan kinerja mirip GPT-4. Jadi, seseorang bisa mengatakan “fitur yang diminta” adalah: lebih banyak bobot, lebih banyak pelatihan – komunitas menginginkan perusahaan teknologi atau kelompok penelitian untuk membuka model yang lebih besar dan lebih baik sehingga mereka dapat menjalankannya secara lokal. Setiap kali model baru (seperti Mistral 7B atau Falcon 40B) keluar, pengguna menguji apakah itu mengalahkan yang terakhir. Permintaan utama adalah model terbuka yang benar-benar menyaingi GPT-4, menghilangkan kebutuhan akan AI tertutup bagi mereka yang dapat meng-host-nya.

  • Antarmuka yang ramah pengguna dan pengaturan satu klik: Untuk memperluas adopsi, banyak pengguna meminta cara yang lebih mudah untuk menggunakan LLM lokal. Ini termasuk antarmuka GUI di mana seseorang dapat mengunduh model dan mulai mengobrol tanpa pekerjaan baris perintah. Ada proyek yang menangani ini (antarmuka web text-generation Oobabooga, LM Studio, dll.), tetapi pendatang baru masih berjuang. Thread Reddit baru-baru ini mungkin bertanya, “Bagaimana saya mengatur LLM mirip ChatGPT secara lokal?”, dengan pengguna meminta panduan langkah demi langkah. Jadi keinginan yang sering adalah instalasi yang disederhanakan – mungkin aplikasi resmi atau kontainer Docker yang menggabungkan semua yang dibutuhkan, atau integrasi ke dalam perangkat lunak populer (bayangkan ekstensi yang membawa LLM lokal ke VSCode atau Chrome dengan mudah). Pada dasarnya, kurangi overhead teknis sehingga orang yang kurang paham teknologi juga dapat menikmati LLM pribadi.

  • Konteks yang lebih panjang dan memori untuk model lokal: Pengembang sumber terbuka dan pengguna bereksperimen dengan memperpanjang konteks (melalui penyesuaian embedding posisi atau model khusus). Banyak pengguna meminta agar model baru datang dengan jendela konteks yang lebih panjang secara default – misalnya, model terbuka dengan konteks 32k akan sangat menarik. Sampai itu terjadi, beberapa mengandalkan solusi “pengambilan” eksternal (LangChain dengan toko vektor yang memberi makan info relevan ke dalam prompt). Pengguna di r/LocalLLaMA sering mendiskusikan pengaturan mereka untuk pseudo-konteks panjang, tetapi juga menyatakan keinginan agar model itu sendiri dapat menangani lebih banyak. Jadi perbaikan yang mereka cari adalah: “Beri kami Claude lokal – sesuatu dengan puluhan ribu token konteks.” Ini akan memungkinkan mereka melakukan analisis buku, percakapan panjang, atau pekerjaan basis kode besar secara lokal.

  • Alat penyetelan halus dan kustomisasi model yang ditingkatkan: Permintaan lain adalah membuatnya lebih mudah untuk menyetel atau mempersonalisasi model. Meskipun perpustakaan ada untuk menyetel model pada data baru (Alpaca melakukannya dengan 52K instruksi, Adaptasi Low-Rank (LoRA) memungkinkan penyetelan dengan komputasi terbatas, dll.), itu masih agak terlibat. Pengguna akan menyukai alat yang lebih mudah diakses untuk, misalnya, memberi makan semua tulisan atau dokumen perusahaan mereka ke model dan membuatnya beradaptasi. Proyek seperti LoRA adalah langkah ke arah itu, tetapi solusi yang lebih otomatis (mungkin antarmuka wizard: “unggah dokumen Anda di sini untuk menyetel halus”) akan disambut. Pada dasarnya, bawa kemampuan yang disediakan OpenAI melalui API (menyetel model pada data kustom) ke ranah lokal dengan cara yang ramah pengguna.

  • Alat keselamatan dan moderasi yang digerakkan oleh komunitas: Mengingat model terbuka dapat menghasilkan apa saja (termasuk konten yang tidak diizinkan), beberapa pengguna telah meminta atau mulai mengembangkan lapisan moderasi yang dapat diaktifkan atau disesuaikan oleh pengguna. Ini agak niche, tetapi idenya adalah memiliki filter opsional untuk menangkap output yang mencolok jika seseorang menginginkannya (misalnya, jika anak-anak atau siswa mungkin berinteraksi dengan model secara lokal). Karena model terbuka tidak akan menghentikan diri mereka sendiri, memiliki plugin atau skrip untuk memindai output untuk konten ekstrem bisa berguna. Beberapa di komunitas bekerja pada “pagar etis” yang dapat Anda pilih untuk diikuti, yang menarik karena memberikan kontrol pengguna. Jadi, fitur seputar mengontrol perilaku model – apakah untuk membuatnya lebih aman atau untuk menghapus pengamanan – sering dibahas dan diminta, tergantung pada tujuan pengguna.

Kebutuhan atau Segmen Pengguna yang Kurang Terlayani

  • Pengguna non-teknis yang menghargai privasi: Saat ini, LLM lokal sebagian besar melayani penggemar teknologi. Seseorang yang tidak paham komputer tetapi peduli tentang privasi data (misalnya, seorang psikoterapis yang menginginkan bantuan AI menganalisis catatan tetapi tidak dapat mengunggahnya ke cloud) kurang terlayani. Mereka membutuhkan solusi lokal yang mudah dan aman, tetapi kompleksitasnya adalah penghalang. Sampai AI lokal menjadi semudah menginstal aplikasi, pengguna ini tetap di pinggir – baik berkompromi dengan menggunakan AI cloud dan mempertaruhkan privasi, atau tidak menggunakan AI sama sekali. Segmen ini – individu yang sadar privasi tetapi tidak sangat teknis – jelas kurang terlayani oleh penawaran sumber terbuka saat ini.

  • Pengguna yang sadar anggaran di daerah dengan internet yang buruk: Segmen lain yang mendapat manfaat dari model lokal adalah orang-orang yang tidak memiliki internet yang andal atau tidak mampu membayar panggilan API. Jika seseorang dapat mendapatkan chatbot offline yang layak di mesin berbiaya rendah, itu akan berharga (bayangkan pendidik atau siswa di daerah terpencil). Saat ini, kualitas offline mungkin tidak bagus kecuali Anda memiliki PC kelas atas. Ada beberapa model yang sangat kecil yang berjalan di ponsel, tetapi kemampuannya terbatas. Jadi, pengguna yang membutuhkan AI offline – karena konektivitas atau biaya – adalah kelompok yang dapat dilayani oleh sumber terbuka, tetapi teknologinya baru di ambang menjadi cukup membantu. Mereka akan lebih baik dilayani saat model menjadi lebih efisien.

  • Pembuat konten NSFW atau konten khusus: Salah satu alasan model terbuka mendapatkan popularitas adalah karena mereka dapat tidak disensor, memungkinkan kasus penggunaan yang dilarang oleh AI tertutup (per