Passer au contenu principal

Retour d'expérience des utilisateurs de Reddit sur les principaux outils de chat LLM

· 58 minutes de lecture
Lark Birdy
Chief Bird Officer

Aperçu : Ce rapport analyse les discussions sur Reddit concernant quatre outils de chat IA populaires – ChatGPT d'OpenAI, Claude d'Anthropic, Gemini (Bard) de Google, et les LLM open-source (par exemple, les modèles basés sur LLaMA). Il résume les points de douleur courants signalés par les utilisateurs pour chacun, les fonctionnalités qu'ils demandent le plus fréquemment, les besoins non satisfaits ou les segments d'utilisateurs qui se sentent sous-desservis, et les différences de perception parmi les développeurs, les utilisateurs occasionnels et les utilisateurs professionnels. Des exemples spécifiques et des citations de fils de discussion Reddit sont inclus pour illustrer ces points.

Retour d'expérience des utilisateurs de Reddit sur les principaux outils de chat LLM

ChatGPT (OpenAI)

Points de douleur et limitations courants

  • Mémoire contextuelle limitée : Une plainte majeure est l'incapacité de ChatGPT à gérer de longues conversations ou de grands documents sans oublier les détails précédents. Les utilisateurs atteignent fréquemment la limite de longueur de contexte (quelques milliers de tokens) et doivent tronquer ou résumer les informations. Un utilisateur a noté « augmenter la taille de la fenêtre de contexte serait de loin la plus grande amélioration… C'est la limite que je rencontre le plus souvent ». Lorsque le contexte est dépassé, ChatGPT oublie les instructions ou le contenu initiaux, entraînant des baisses de qualité frustrantes en milieu de session.

  • Limites de messages pour GPT-4 : Les utilisateurs de ChatGPT Plus déplorent la limite de 25 messages/3 heures sur l'utilisation de GPT-4 (une limite présente en 2023). Atteindre cette limite les oblige à attendre, interrompant leur travail. Les utilisateurs intensifs trouvent cette limitation majeure.

  • Filtres de contenu stricts (« nerfs ») : De nombreux Redditors estiment que ChatGPT est devenu trop restrictif, refusant souvent des demandes que les versions précédentes traitaient. Un post très voté se plaignait que « pratiquement tout ce que vous lui demandez de nos jours renvoie un 'Désolé, je ne peux pas vous aider'… Comment est-ce passé de l'outil le plus utile à l'équivalent de Google Assistant ? ». Les utilisateurs citent des exemples comme ChatGPT refusant de reformater leur propre texte (par exemple, des identifiants de connexion) en raison d'une mauvaise utilisation hypothétique. Les abonnés payants soutiennent que « une vague notion que l'utilisateur pourrait faire des 'mauvaises' choses… ne devrait pas être un motif pour ne pas afficher les résultats », car ils veulent la sortie du modèle et l'utiliseront de manière responsable.

  • Hallucinations et erreurs : Malgré ses capacités avancées, ChatGPT peut produire des informations incorrectes ou fabriquées avec confiance. Certains utilisateurs ont observé que cela s'aggravait avec le temps, soupçonnant que le modèle avait été « simplifié ». Par exemple, un utilisateur dans la finance a déclaré que ChatGPT calculait correctement des métriques comme la VAN ou le TRI, mais après des mises à jour « je reçois tellement de mauvaises réponses… il produit toujours de mauvaises réponses [même après correction]. Je crois vraiment qu'il est devenu beaucoup plus stupide depuis les changements. ». Ces inexactitudes imprévisibles érodent la confiance pour les tâches nécessitant une précision factuelle.

  • Sorties de code incomplètes : Les développeurs utilisent souvent ChatGPT pour obtenir de l'aide en codage, mais ils signalent qu'il omet parfois des parties de la solution ou tronque un long code. Un utilisateur a partagé que ChatGPT « omet du code, produit du code inutile, et est juste mauvais dans ce que j'ai besoin qu'il fasse… Il omet souvent tellement de code que je ne sais même pas comment intégrer sa solution. » Cela oblige les utilisateurs à poser des questions de suivi pour obtenir le reste, ou à assembler manuellement les réponses – un processus fastidieux.

  • Problèmes de performance et de disponibilité : Une perception existe selon laquelle la performance de ChatGPT pour les utilisateurs individuels a diminué à mesure que l'utilisation par les entreprises a augmenté. « Je pense qu'ils allouent de la bande passante et de la puissance de traitement aux entreprises et les retirent des utilisateurs, ce qui est insupportable compte tenu du coût d'un abonnement ! » a opiné un abonné Plus frustré. Des pannes ou des ralentissements pendant les heures de pointe ont été notés de manière anecdotique, ce qui peut perturber les flux de travail.

Fonctionnalités ou améliorations fréquemment demandées

  • Fenêtre de contexte/mémoire plus longue : De loin l'amélioration la plus demandée est une longueur de contexte plus grande. Les utilisateurs veulent avoir des conversations beaucoup plus longues ou fournir de grands documents sans réinitialisations. Beaucoup suggèrent d'étendre le contexte de ChatGPT pour correspondre à la capacité de 32K tokens de GPT-4 (actuellement disponible via l'API) ou au-delà. Comme l'a dit un utilisateur, « GPT est meilleur avec le contexte, et quand il ne se souvient pas de ce contexte initial, je suis frustré… Si les rumeurs sont vraies sur les PDF de contexte, cela résoudrait pratiquement tous mes problèmes. » Il y a une forte demande pour des fonctionnalités permettant de télécharger des documents ou de lier des données personnelles afin que ChatGPT puisse s'en souvenir et s'y référer tout au long d'une session.

  • Gestion de fichiers et intégration : Les utilisateurs demandent fréquemment des moyens plus faciles d'alimenter ChatGPT avec des fichiers ou des données. Dans les discussions, les gens mentionnent vouloir « copier et coller mon Google Drive et que cela fonctionne » ou avoir des plugins qui permettent à ChatGPT de récupérer directement le contexte à partir de fichiers personnels. Certains ont essayé des solutions de contournement (comme des plugins de lecteur PDF ou la liaison de Google Docs), mais se sont plaints d'erreurs et de limites. Un utilisateur a décrit son plugin idéal comme un qui « fonctionne comme Link Reader mais pour les fichiers personnels… choisir quelles parties de mon drive utiliser dans une conversation… cela résoudrait pratiquement tous mes problèmes avec GPT-4 actuellement. ». En résumé, un meilleur support natif pour la connaissance externe (au-delà des données d'entraînement) est une demande populaire.

  • Réduction de la limitation pour les utilisateurs payants : Étant donné que de nombreux utilisateurs Plus atteignent la limite de messages GPT-4, ils demandent des limites plus élevées ou une option pour payer plus pour un accès illimité. La limite de 25 messages est considérée comme arbitraire et entrave l'utilisation intensive. Les gens préféreraient un modèle basé sur l'utilisation ou une limite plus élevée pour que les longues sessions de résolution de problèmes ne soient pas interrompues.

  • Modes de modération « non censurés » ou personnalisés : Un segment d'utilisateurs aimerait avoir la possibilité de basculer la rigueur des filtres de contenu, surtout lorsqu'ils utilisent ChatGPT pour eux-mêmes (pas pour du contenu public). Ils estiment qu'un mode « recherche » ou « non censuré » – avec des avertissements mais pas de refus stricts – leur permettrait d'explorer plus librement. Comme l'a noté un utilisateur, les clients payants le voient comme un outil et croient « je paie pour [ça]. » Ils veulent avoir la possibilité d'obtenir des réponses même sur des requêtes limites. Bien qu'OpenAI doive équilibrer la sécurité, ces utilisateurs suggèrent un drapeau ou un réglage pour assouplir les politiques dans les chats privés.

  • Amélioration de la précision factuelle et mises à jour : Les utilisateurs demandent couramment des connaissances plus à jour et moins d'hallucinations. La coupure de connaissance de ChatGPT (septembre 2021 dans les versions précédentes) était une limitation souvent soulevée sur Reddit. OpenAI a depuis introduit la navigation et les plugins, que certains utilisateurs exploitent, mais d'autres demandent simplement que le modèle de base soit mis à jour plus fréquemment avec de nouvelles données. Réduire les erreurs évidentes – surtout dans des domaines comme les mathématiques et le codage – est un souhait permanent. Certains développeurs fournissent des commentaires lorsque ChatGPT se trompe dans l'espoir d'améliorer le modèle.

  • Meilleures sorties de code et outils : Les développeurs ont des demandes de fonctionnalités telles qu'un interprète de code amélioré qui n'omette pas de contenu, et une intégration avec des IDE ou le contrôle de version. (Le plugin Code Interpreter d'OpenAI – maintenant partie de « Advanced Data Analysis » – était un pas dans cette direction et a reçu des éloges.) Pourtant, les utilisateurs demandent souvent un contrôle plus fin dans la génération de code : par exemple, une option pour produire du code complet, non filtré même s'il est long, ou des mécanismes pour corriger facilement le code si l'IA a fait une erreur. En gros, ils veulent que ChatGPT se comporte plus comme un assistant de codage fiable sans avoir besoin de multiples invites pour affiner la réponse.

  • Profils d'utilisateur ou mémoire persistants : Une autre amélioration mentionnée par certains est de permettre à ChatGPT de se souvenir de choses sur l'utilisateur entre les sessions (avec consentement). Par exemple, se souvenir de son style d'écriture, ou qu'il est ingénieur logiciel, sans avoir à le répéter à chaque nouveau chat. Cela pourrait s'intégrer dans le réglage fin de l'API ou une fonctionnalité de « profil ». Les utilisateurs copient manuellement le contexte important dans de nouveaux chats maintenant, donc une mémoire intégrée pour les préférences personnelles ferait gagner du temps.

Besoins ou segments d'utilisateurs sous-desservis

  • Chercheurs et étudiants avec de longs documents : Les personnes qui veulent que ChatGPT analyse de longs articles de recherche, livres, ou grands ensembles de données se sentent sous-desservies. Les limites actuelles les obligent à découper le texte ou à se contenter de résumés. Ce segment bénéficierait grandement de fenêtres de contexte plus grandes ou de fonctionnalités pour gérer de longs documents (comme en témoignent de nombreux posts sur la tentative de contourner les limites de tokens).

  • Utilisateurs cherchant des récits créatifs ou des jeux de rôle au-delà des limites : Bien que ChatGPT soit souvent utilisé pour l'écriture créative, certains conteurs se sentent contraints par le modèle oubliant les premiers points de l'intrigue dans une longue histoire ou refusant le contenu adulte/horreur. Ils se tournent vers des modèles alternatifs ou des astuces pour continuer leurs récits. Ces utilisateurs créatifs seraient mieux servis par une version de ChatGPT avec une mémoire plus longue et un peu plus de flexibilité sur la violence fictive ou les thèmes matures (dans la mesure du raisonnable). Comme l'a noté un écrivain de fiction, lorsque l'IA perd le fil de l'histoire, « je dois lui rappeler le format ou le contexte exact… Je suis frustré qu'il était génial il y a deux invites, mais maintenant je dois rattraper l'IA. ».

  • Utilisateurs intensifs et experts de domaine : Les professionnels dans des domaines spécialisés (finance, ingénierie, médecine) trouvent parfois que les réponses de ChatGPT manquent de profondeur ou de précision dans leur domaine, surtout si les questions impliquent des développements récents. Ces utilisateurs désirent des connaissances expertes plus fiables. Certains ont essayé le réglage fin via l'API ou des GPT personnalisés. Ceux qui ne peuvent pas faire de réglage fin apprécieraient des versions de ChatGPT spécifiques à un domaine ou des plugins qui intègrent des bases de données de confiance. Dans sa forme par défaut, ChatGPT peut sous-desservir les utilisateurs qui ont besoin d'informations très précises et spécifiques à un domaine (ils doivent souvent vérifier son travail).

  • Utilisateurs ayant besoin de contenu non censuré ou de cas limites : Une minorité d'utilisateurs (hackers testant des scénarios de sécurité, écrivains de fiction extrême, etc.) trouvent les restrictions de contenu de ChatGPT trop limitantes pour leurs besoins. Ils sont actuellement sous-desservis par le produit officiel (puisqu'il évite explicitement certains contenus). Ces utilisateurs expérimentent souvent avec des invites de jailbreak ou utilisent des modèles open-source pour obtenir les réponses qu'ils veulent. C'est un écart délibéré pour OpenAI (pour maintenir la sécurité), mais cela signifie que ces utilisateurs cherchent ailleurs.

  • Individus et entreprises soucieux de la confidentialité : Certains utilisateurs (surtout dans les environnements d'entreprise) sont mal à l'aise d'envoyer des données sensibles à ChatGPT en raison de préoccupations de confidentialité. OpenAI a des politiques pour ne pas utiliser les données de l'API pour l'entraînement, mais l'interface web de ChatGPT n'offrait historiquement pas de telles garanties jusqu'à ce qu'une fonction d'exclusion soit ajoutée. Les entreprises qui traitent des données confidentielles (juridique, santé, etc.) estiment souvent qu'elles ne peuvent pas utiliser pleinement ChatGPT, laissant leurs besoins sous-desservis à moins qu'elles ne construisent des solutions auto-hébergées. Par exemple, un Redditor a mentionné que leur entreprise passait à un LLM local pour des raisons de confidentialité. Jusqu'à ce que des instances sur site ou privées de ChatGPT soient disponibles, ce segment reste prudent ou utilise des vendeurs spécialisés plus petits.

Différences de perception selon le type d'utilisateur

  • Développeurs/Utilisateurs techniques : Les développeurs ont tendance à être à la fois parmi les plus grands défenseurs et les plus sévères critiques de ChatGPT. Ils adorent sa capacité à expliquer le code, générer des modèles et aider au débogage. Cependant, ils ressentent vivement ses limitations en matière de contexte plus long et de précision du code. Comme l'a déploré un développeur, ChatGPT a commencé à « produire du code inutile » et à omettre des parties importantes, ce qui « m'énerve… Je ne veux pas avoir à lui dire 'ne sois pas paresseux' – je veux juste le résultat complet ». Les développeurs remarquent souvent même des changements subtils de qualité après les mises à jour du modèle et ont été très vocaux sur Reddit à propos des « nerfs » perçus ou des déclins de capacité de codage. Ils poussent également les limites (en construisant des invites complexes, en enchaînant des outils), donc ils aspirent à des fonctionnalités comme un contexte étendu, moins de limites de messages, et une meilleure intégration avec les outils de codage. En résumé, les développeurs apprécient ChatGPT pour accélérer les tâches routinières mais sont prompts à signaler les erreurs de logique ou de code – ils le considèrent comme un assistant junior qui nécessite encore une supervision.

  • Utilisateurs occasionnels/quotidiens : Les utilisateurs plus occasionnels – ceux qui demandent des connaissances générales, des conseils, ou du divertissement – s'émerveillent souvent des capacités de ChatGPT, mais ils ont leurs propres griefs. Une frustration courante des utilisateurs occasionnels est lorsque ChatGPT refuse une demande qui leur semble anodine (probablement déclenchant une règle de politique). L'auteur original dans un fil exemplifiait cela, étant « tellement énervé quand j'écris une invite qui ne devrait pas poser de problème et qu'elle refuse maintenant ». Les utilisateurs occasionnels peuvent également rencontrer la coupure de connaissance (découvrant que le bot ne peut pas gérer des événements très actuels à moins d'être explicitement mis à jour) et remarquent parfois lorsque ChatGPT donne une réponse manifestement incorrecte. Contrairement aux développeurs, ils ne vérifient pas toujours l'IA, ce qui peut entraîner une déception s'ils agissent sur une erreur. Du côté positif, de nombreux utilisateurs occasionnels trouvent que les réponses plus rapides de ChatGPT Plus et la sortie améliorée de GPT-4 valent 20 $/mois – à moins que le problème de « refus » ou d'autres limites ne gâchent l'expérience. Ils veulent généralement un assistant utile et polyvalent et peuvent être frustrés lorsque ChatGPT répond par des déclarations de politique ou a besoin d'une invite complexe pour obtenir une réponse simple.

  • Utilisateurs professionnels : Les utilisateurs professionnels abordent souvent ChatGPT d'un point de vue productivité et fiabilité. Ils apprécient la rédaction rapide d'e-mails, les résumés de documents, ou la génération d'idées. Cependant, ils sont préoccupés par la sécurité des données, la cohérence, et l'intégration dans les flux de travail. Sur Reddit, les professionnels ont discuté de vouloir ChatGPT dans des outils comme Outlook, Google Docs, ou comme une API dans leurs systèmes internes. Certains ont noté qu'à mesure qu'OpenAI se tourne vers les clients d'entreprise, le focus du produit semble changer : il y a un sentiment que l'expérience utilisateur gratuite ou individuelle s'est légèrement dégradée (par exemple, plus lente ou « moins intelligente ») à mesure que l'entreprise s'est développée pour servir de plus grands clients. Que cela soit vrai ou non, cela met en évidence une perception : les utilisateurs professionnels veulent fiabilité et service prioritaire, et les utilisateurs individuels s'inquiètent d'être maintenant de seconde classe. De plus, les professionnels ont besoin de sorties correctes – une réponse flashy mais incorrecte peut être pire que pas de réponse. Ainsi, ce segment est sensible à la précision. Pour eux, des fonctionnalités comme un contexte plus long (pour lire des contrats, analyser des bases de code) et une disponibilité garantie sont cruciales. Ils sont susceptibles de payer plus pour des niveaux de service premium, à condition que leurs exigences de conformité et de confidentialité soient respectées. Certaines entreprises explorent même des déploiements sur site ou l'utilisation de l'API d'OpenAI avec des règles strictes de gestion des données pour satisfaire leurs politiques informatiques.


Claude (Anthropic)

Points de douleur et limitations courants

  • Limites d'utilisation et restrictions d'accès : Claude a été salué pour offrir un modèle puissant (Claude 2) gratuitement, mais les utilisateurs ont rapidement rencontré des limites d'utilisation (surtout sur le niveau gratuit). Après un certain nombre d'invites ou une grande quantité de texte, Claude peut s'arrêter et dire quelque chose comme « Je suis désolé, je dois conclure cette conversation pour l'instant. Revenez plus tard. » Cette limitation frustre les utilisateurs qui traitent Claude comme un partenaire de codage ou d'écriture prolongé. Même les utilisateurs de Claude Pro (payants) ne sont « pas garantis d'un temps illimité », comme l'a noté un utilisateur ; atteindre le quota produit toujours le message « revenez plus tard ». De plus, pendant longtemps, Claude était officiellement géo-restreint (initialement disponible uniquement aux États-Unis/Royaume-Uni). Les utilisateurs internationaux sur Reddit devaient utiliser des VPN ou des plateformes tierces pour y accéder, ce qui était un inconvénient. Cela a fait que de nombreux utilisateurs non américains se sentaient exclus jusqu'à ce que l'accès soit élargi.

  • Tendance à dévier avec des entrées très larges : La fonctionnalité phare de Claude est sa fenêtre de contexte de 100k tokens, permettant des invites extrêmement longues. Cependant, certains utilisateurs ont remarqué que lorsque vous bourrez des dizaines de milliers de tokens dans Claude, ses réponses peuvent devenir moins concentrées. « 100k est super utile mais s'il ne suit pas correctement les instructions et dévie, ce n'est pas si utile, » a observé un utilisateur. Cela suggère qu'avec des contextes énormes, Claude pourrait dériver ou commencer à divaguer, nécessitant un promptage soigneux pour le garder sur la tâche. C'est une limitation inhérente à pousser le contexte à l'extrême – le modèle retient beaucoup mais parfois « oublie » quels détails sont les plus pertinents, menant à de petites hallucinations ou des digressions hors sujet.

  • Formatage incohérent ou obéissance aux instructions : Dans des comparaisons côte à côte, certains utilisateurs ont trouvé Claude moins prévisible dans la façon dont il suit certaines directives. Par exemple, Claude est décrit comme « plus humain dans les interactions. Mais il suit moins strictement les messages système. ». Cela signifie que si vous lui donnez un format fixe à suivre ou une persona très stricte, Claude pourrait dévier plus que ChatGPT ne le ferait. Les développeurs qui dépendent de sorties déterministes (comme des formats JSON ou des styles spécifiques) se frustrent parfois si Claude introduit des commentaires supplémentaires ou ne suit pas rigoureusement le modèle.

  • Restrictions de contenu et refus : Bien que pas aussi fréquemment critiqués que ceux de ChatGPT, les filtres de sécurité de Claude sont mentionnés. Anthropic a conçu Claude avec un fort accent sur l'IA constitutionnelle (l'IA elle-même suivant des lignes directrices éthiques). Les utilisateurs trouvent généralement Claude disposé à discuter d'une large gamme de sujets, mais il y a des cas où Claude refuse des demandes que ChatGPT pourrait autoriser. Par exemple, un Redditor a noté « ChatGPT a moins de restrictions morales… il expliquera quels masques à gaz sont meilleurs pour quelles conditions tandis que Claude refusera ». Cela suggère que Claude pourrait être plus strict sur certains conseils « sensibles » (peut-être les traitant comme des conseils potentiellement dangereux). Un autre utilisateur a essayé un scénario de jeu de rôle ludique (« prétendez que vous avez été enlevé par des extraterrestres ») que Claude a refusé, alors que Gemini et ChatGPT s'engageraient. Donc, Claude a des filtres qui peuvent parfois surprendre les utilisateurs s'attendant à ce qu'il soit plus permissif.

  • Absence de capacités multimodales : Contrairement à ChatGPT (qui, fin 2023, a acquis la compréhension d'images avec GPT-4 Vision), Claude est actuellement uniquement textuel. Les utilisateurs de Reddit notent que Claude ne peut pas analyser d'images ou naviguer directement sur le web par lui-même. Ce n'est pas exactement un « point de douleur » (Anthropic n'a jamais annoncé ces fonctionnalités), mais c'est une limitation par rapport aux concurrents. Les utilisateurs qui veulent qu'une IA interprète un diagramme ou une capture d'écran ne peuvent pas utiliser Claude pour cela, alors que ChatGPT ou Gemini pourraient le faire. De même, toute récupération d'informations actuelles nécessite d'utiliser Claude via un outil tiers (par exemple, Poe ou une intégration de moteur de recherche), car Claude n'a pas de mode de navigation officiel à ce moment.

  • Problèmes mineurs de stabilité : Quelques utilisateurs ont signalé que Claude était parfois répétitif ou bloqué dans des boucles pour certaines invites (bien que cela soit moins fréquent qu'avec certains modèles plus petits). De plus, les versions antérieures de Claude terminaient parfois prématurément les réponses ou prenaient beaucoup de temps avec de grandes sorties, ce qui peut être considéré comme des désagréments mineurs, bien que Claude 2 ait amélioré la vitesse.

Fonctionnalités ou améliorations fréquemment demandées

  • Limites d'utilisation plus élevées ou ajustables : Les enthousiastes de Claude sur Reddit demandent souvent à Anthropic d'augmenter les limites de conversation. Ils aimeraient utiliser le contexte de 100k à son plein potentiel sans atteindre un arrêt artificiel. Certains suggèrent que même Claude Pro payant devrait permettre beaucoup plus de tokens par jour. D'autres ont proposé l'idée d'un « mode étendu 100k » optionnel – par exemple, « Claude devrait avoir un mode de contexte 100k avec le double des limites d'utilisation » – où peut-être un abonnement pourrait offrir un accès étendu pour les utilisateurs intensifs. En essence, il y a une demande pour un plan qui rivalise avec l'utilisation illimitée (ou à haute capacité) de ChatGPT pour les abonnés.

  • Meilleure navigation dans les longs contextes : Bien qu'avoir 100k tokens soit révolutionnaire, les utilisateurs veulent que Claude utilise mieux ce contexte. Une amélioration serait d'affiner la façon dont Claude priorise les informations pour rester sur la tâche. Anthropic pourrait travailler sur l'adhérence du modèle aux invites lorsque l'invite est énorme. Les discussions sur Reddit suggèrent des techniques comme permettre à l'utilisateur de « fixer » certaines instructions pour qu'elles ne soient pas diluées dans un grand contexte. Tous les outils pour aider à segmenter ou résumer des parties de l'entrée pourraient également aider Claude à gérer de grandes entrées plus cohérentes. En bref, les utilisateurs aiment la possibilité de nourrir un livre entier à Claude – ils veulent juste qu'il reste pointu tout au long.

  • Plugins ou navigation sur le web : De nombreux utilisateurs de ChatGPT se sont habitués aux plugins (par exemple, navigation, exécution de code, etc.) et expriment leur intérêt pour que Claude ait une extensibilité similaire. Une demande courante est que Claude ait une fonction officielle de recherche/navigation sur le web, afin qu'il puisse récupérer des informations à jour à la demande. Actuellement, les connaissances de Claude sont principalement statiques (données d'entraînement jusqu'à début 2023, avec quelques mises à jour). Si Claude pouvait interroger le web, cela atténuerait cette limitation. De même, un système de plugins où Claude pourrait utiliser des outils tiers (comme des calculateurs ou des connecteurs de base de données) pourrait étendre son utilité pour les utilisateurs intensifs. Cela reste une fonctionnalité que Claude n'a pas, et les utilisateurs de Reddit mentionnent souvent comment l'écosystème de plugins de ChatGPT lui donne un avantage dans certaines tâches.

  • Entrée multimodale (images ou audio) : Certains utilisateurs se sont également demandé si Claude prendrait en charge les entrées d'images ou générerait des images. Google’s Gemini et GPT-4 d'OpenAI ont des capacités multimodales, donc pour rester compétitif, les utilisateurs s'attendent à ce qu'Anthropic explore cela. Une demande fréquente est : « Puis-je télécharger un PDF ou une image pour que Claude l'analyse ? » Actuellement, la réponse est non (à part des solutions de contournement comme convertir des images en texte ailleurs). Même permettre simplement l'image-texte (OCR et description) satisferait beaucoup de ceux qui veulent un assistant tout-en-un. C'est sur la liste de souhaits, bien qu'Anthropic n'ait pas annoncé quelque chose de similaire début 2025.

  • Réglage fin ou personnalisation : Les utilisateurs avancés et les entreprises demandent parfois s'ils peuvent régler finement Claude sur leurs propres données ou obtenir des versions personnalisées. OpenAI offre le réglage fin pour certains modèles (pas encore GPT-4, mais pour GPT-3.5). Anthropic a publié une interface de réglage fin pour Claude 1.3 plus tôt, mais elle n'est pas largement annoncée pour Claude 2. Les utilisateurs de Reddit se sont renseignés sur la possibilité de former Claude sur les connaissances de l'entreprise ou le style d'écriture personnel. Une façon plus facile de faire cela (en plus des injections d'invite à chaque fois) serait très bienvenue, car cela pourrait transformer Claude en un assistant personnalisé qui se souvient d'une base de connaissances ou d'une persona spécifique.

  • Disponibilité plus large : Les utilisateurs non américains demandent fréquemment que Claude soit officiellement lancé dans leur pays. Des posts du Canada, d'Europe, d'Inde, etc., demandent quand ils pourront utiliser le site de Claude sans VPN ou quand l'API de Claude sera ouverte plus largement. Anthropic a été prudent, mais la demande est mondiale – probablement une amélioration aux yeux de beaucoup serait simplement « laissez plus d'entre nous l'utiliser. » L'expansion progressive de l'accès par l'entreprise a partiellement répondu à cela.

Besoins ou segments d'utilisateurs sous-desservis

  • Base d'utilisateurs internationale : Comme mentionné, pendant longtemps, la base d'utilisateurs principale de Claude était limitée par la géographie. Cela a laissé de nombreux futurs utilisateurs sous-desservis. Par exemple, un développeur en Allemagne intéressé par le contexte de 100k de Claude n'avait aucun moyen officiel de l'utiliser. Bien que des solutions de contournement existent (plateformes tierces, ou VPN + vérification téléphonique dans un pays pris en charge), ces barrières signifiaient que les utilisateurs internationaux occasionnels étaient effectivement exclus. En revanche, ChatGPT est disponible dans la plupart des pays. Donc, les anglophones non américains et surtout les non-anglophones ont été sous-desservis par le déploiement limité de Claude. Ils peuvent encore s'appuyer sur ChatGPT ou des modèles locaux simplement en raison des problèmes d'accès.

  • Utilisateurs ayant besoin de sorties formatées strictement : Comme mentionné, Claude prend parfois des libertés dans les réponses. Les utilisateurs qui ont besoin de sorties très structurées (comme JSON pour une application, ou une réponse suivant un format précis) pourraient trouver Claude moins fiable pour cela que ChatGPT. Ces utilisateurs – souvent des développeurs intégrant l'IA dans un système – sont un segment qui pourrait être mieux servi si Claude permettait un « mode strict » ou améliorait son adhérence aux instructions. Ils pourraient actuellement éviter Claude pour de telles tâches, en restant avec des modèles connus pour suivre les formats plus rigoureusement.

  • Utilisateurs occasionnels de questions-réponses (vs. utilisateurs créatifs) : Claude est souvent loué pour les tâches créatives – il produit une prose fluide, humaine et des essais réfléchis. Cependant, certains utilisateurs sur Reddit ont noté que pour des questions-réponses simples ou des requêtes factuelles, Claude donne parfois des réponses verbeuses là où la concision suffirait. L'utilisateur qui a comparé ChatGPT et Claude a dit que ChatGPT a tendance à être succinct et en points, tandis que Claude donne plus de narration par défaut. Les utilisateurs qui veulent juste une réponse factuelle rapide (comme « Quelle est la capitale de X et sa population ? ») pourraient sentir que Claude est un peu indirect. Ces utilisateurs sont mieux servis par quelque chose comme une recherche précise ou un modèle concis. Claude peut le faire si on le demande, mais son style peut ne pas correspondre à l'attente d'une question-réponse concise, ce qui signifie que ce segment pourrait se tourner vers d'autres outils (comme Bing Chat ou Google).

  • Utilisateurs soucieux de la sécurité : Inversement, certains utilisateurs qui nécessitent une adhérence très prudente à la sécurité (par exemple, les éducateurs utilisant l'IA avec des étudiants, ou les clients d'entreprise qui veulent zéro risque de sorties indésirables) pourraient considérer l'alignement de Claude comme un plus, mais comme ChatGPT est également assez aligné et a plus de fonctionnalités d'entreprise, ces utilisateurs pourraient ne pas choisir spécifiquement Claude. C'est un petit segment, mais on pourrait dire que Claude ne l'a pas encore capturé distinctement. Ils peuvent être sous-desservis en ce sens qu'ils n'ont pas de moyen facile d'augmenter les garanties de Claude ou de voir sa « chaîne de pensée » (qu'Anthropic a en interne via l'approche de l'IA constitutionnelle, mais les utilisateurs finaux n'interfacent pas directement avec cela à part remarquer le ton généralement poli de Claude).

  • Non-anglophones (qualité de sortie) : Claude a été formé principalement en anglais (comme la plupart des grands LLM). Certains utilisateurs l'ont testé dans d'autres langues ; il peut répondre dans beaucoup, mais la qualité peut varier. Si, par exemple, un utilisateur veut une réponse très nuancée en français ou en hindi, il est possible que les capacités de Claude ne soient pas aussi bien ajustées là que celles de ChatGPT (GPT-4 a démontré de fortes performances multilingues, souvent supérieures à d'autres modèles dans certains benchmarks). Les utilisateurs qui conversent principalement dans des langues autres que l'anglais pourraient trouver la fluidité ou la précision de Claude légèrement plus faibles. Ce segment est quelque peu sous-desservi simplement parce qu'Anthropic n'a pas mis en avant la formation multilingue comme une priorité publiquement.

Différences de perception selon le type d'utilisateur

  • Développeurs/Utilisateurs techniques : Les développeurs sur Reddit ont de plus en plus loué Claude, surtout Claude 2 / Claude 3.5, pour les tâches de codage. Le changement de perception fin 2024 était notable : de nombreux développeurs ont commencé à préférer Claude à ChatGPT pour l'assistance au codage. Ils citent des performances « étonnantes en codage » et la capacité à gérer de plus grands ensembles de code en une seule fois. Par exemple, un utilisateur a écrit « Claude Sonnet 3.5 est meilleur pour travailler avec le code (analyser, générer) [que ChatGPT]. » Les développeurs apprécient que Claude puisse prendre un grand morceau de code de projet ou de journaux et produire des analyses ou des améliorations cohérentes, grâce à son énorme contexte. Cependant, ils remarquent aussi ses bizarreries – comme parfois injecter plus de fluff conversationnel ou ne pas suivre un cahier des charges à la lettre. En balance, beaucoup de développeurs gardent à la fois ChatGPT et Claude à portée de main : un pour la logique rigoureuse étape par étape (ChatGPT) et un pour le contexte large et la compréhension empathique (Claude). Il est révélateur qu'un commentateur ait dit « Si je devais en choisir un, je choisirais Claude » après les avoir comparés quotidiennement. Cela indique une perception très positive parmi les utilisateurs avancés, surtout pour des cas d'utilisation comme le brainstorming, la révision de code, ou les suggestions architecturales. Le seul reproche commun des développeurs est d'atteindre les limites d'utilisation de Claude lorsqu'ils essaient de le pousser fort (par exemple, nourrir une invite de 50K tokens pour analyser un dépôt entier). En résumé, les développeurs voient Claude comme un outil extrêmement puissant – dans certains cas supérieur à ChatGPT – limité seulement par la disponibilité et une certaine imprévisibilité dans le formatage.

  • Utilisateurs occasionnels/Non-techniques : Les utilisateurs occasionnels qui ont essayé Claude commentent souvent à quel point il est amical et articulé. Le style de Claude tend à être conversationnel, poli, et détaillé. Un nouvel utilisateur le comparant à ChatGPT a observé que « Claude est plus empathique, et suit un ton conversationnel… ChatGPT revient trop souvent aux points. » Cette chaleur humaine rend Claude attrayant pour les gens l'utilisant pour l'écriture créative, les conseils, ou juste discuter pour obtenir des informations. Certains personnifient même Claude comme ayant une « personnalité » qui est compatissante. Les utilisateurs occasionnels aiment aussi que la version gratuite de Claude ait permis l'accès à un équivalent de l'intelligence de niveau GPT-4 sans abonnement (au moins jusqu'aux limites de taux). D'un autre côté, les utilisateurs occasionnels tombent sur les refus de Claude sur certains sujets et pourraient ne pas comprendre pourquoi (puisque Claude le formulera de manière apologétique mais ferme). Si un utilisateur occasionnel demandait quelque chose de limite et recevait un refus de Claude, il pourrait le percevoir comme moins capable ou trop contraint, sans réaliser que c'est une position de politique. Un autre aspect est que Claude manque de reconnaissance de nom – beaucoup d'utilisateurs occasionnels pourraient ne même pas savoir l'essayer à moins qu'ils ne soient connectés aux communautés IA. Ceux qui essaient généralement commentent que cela ressemble « à parler à un humain » de manière positive. Ils ont tendance à être très satisfaits de la capacité de Claude à gérer des questions ouvertes ou personnelles. Donc, la perception des utilisateurs occasionnels est largement positive concernant la qualité de sortie et le ton de Claude, avec une certaine confusion ou frustration autour de sa disponibilité (devant l'utiliser sur une application ou une région spécifique) et des moments occasionnels de « je ne peux pas faire ça ».

  • Utilisateurs professionnels : Les perceptions commerciales de Claude sont un peu plus difficiles à évaluer à partir de Reddit public (puisque moins d'utilisateurs d'entreprise postent en détail), mais quelques tendances émergent. Premièrement, Anthropic a positionné Claude comme plus axé sur la confidentialité et prêt à signer des accords d'entreprise – cela attire les entreprises inquiètes des données avec OpenAI. En effet, certaines discussions sur Reddit mentionnent Claude dans le contexte d'outils comme Slack ou Notion, où il est intégré en tant qu'assistant. Les professionnels qui ont utilisé ces intégrations pourraient ne même pas réaliser que Claude est le moteur, mais quand ils le font, ils le comparent favorablement en termes de style d'écriture et de capacité à digérer de longs documents d'entreprise. Par exemple, une équipe pourrait nourrir un long rapport trimestriel à Claude et obtenir un bon résumé – quelque chose que le plus petit contexte de ChatGPT aurait du mal à faire. Cela dit, les utilisateurs professionnels remarquent également le manque de certaines fonctionnalités d'écosystème ; par exemple, OpenAI offre un contrôle des messages système, des appels de fonction, etc., dans leur API, ce qu'Anthropic a un support plus limité. Un développeur travaillant sur une solution commerciale a remarqué que Claude est plus dirigeable dans les conversations, tandis que ChatGPT a tendance à être plus rigide… [mais] ChatGPT a accès au web ce qui peut être très utile. L'implication est que pour des tâches de recherche ou de récupération de données qu'un utilisateur professionnel pourrait avoir besoin (comme l'intelligence concurrentielle), ChatGPT peut directement récupérer des informations, tandis que Claude nécessiterait une étape séparée. Dans l'ensemble, les utilisateurs professionnels semblent voir Claude comme une IA très compétente – dans certains cas meilleure pour les tâches analytiques internes – mais peut-être pas encore aussi riche en fonctionnalités pour l'intégration. Le coût est un autre facteur : les prix et les conditions de l'API de Claude ne sont pas aussi publics que ceux d'OpenAI, et certaines startups sur Reddit ont mentionné une incertitude quant aux prix ou à la stabilité de Claude. En résumé, les professionnels respectent les capacités de Claude (surtout sa fiabilité à suivre des instructions de haut niveau et à résumer de grandes entrées), mais ils gardent un œil sur son évolution en termes d'intégration, de support, et de disponibilité mondiale avant de s'y engager pleinement par rapport au ChatGPT plus établi.


Google Gemini (Bard)

Points de douleur et limitations courants

  • Réponses inexactes ou « stupides » : Un flot de retours Reddit est apparu lorsque Google a lancé sa mise à niveau Bard alimentée par Gemini, dont beaucoup étaient négatifs. Les utilisateurs se sont plaints que Gemini sous-performait dans les questions-réponses de base par rapport à ChatGPT. Une évaluation franche intitulée « Avis 100% honnête sur Google Gemini » a déclaré : « C'est un chatbot LLM cassé et inexact ». Un autre utilisateur frustré a demandé : « Comment Gemini est-il encore si nul ? Le nombre de fois où je demande quelque chose à Gemini et qu'il me donne soit des réponses incorrectes soit incomplètes est ridicule ». Ils l'ont comparé côte à côte avec ChatGPT-4 et ont trouvé que ChatGPT donnait « une réponse parfaite, correcte, efficace en une seule fois, » tandis que Gemini divaguait et nécessitait plusieurs invites pour arriver à une réponse à moitié satisfaisante. En essence, les premiers utilisateurs ont estimé que Gemini hallucinait fréquemment ou manquait le point des questions, nécessitant un effort excessif d'invite pour extraire des informations correctes. Cette incohérence de qualité était une grande déception compte tenu du battage médiatique autour de Gemini.

  • Verbosit頻 excessive et remplissage : De nombreux utilisateurs ont noté que Gemini (sous la forme du nouveau Bard) a tendance à produire des réponses longues qui ne vont pas droit au but. Comme l'a décrit une personne, « Il a divagué… 3 paragraphes de déchets d'IA… même alors, il [seulement] a finalement mentionné la réponse enfouie dans des paragraphes de déchets ». C'est un contraste frappant avec ChatGPT, qui fournit souvent des réponses plus concises ou en points lorsque c'est approprié. La verbosité devient un point de douleur lorsque les utilisateurs doivent passer au crible beaucoup de texte pour un simple fait. Certains ont spéculé que Google pourrait l'avoir réglé pour être conversationnel ou « utile », mais a dépassé dans trop d'explications sans substance.

  • Mauvaise intégration avec les propres services de Google : L'un des arguments de vente de l'assistant IA de Google est censé être l'intégration avec l'écosystème de Google (Gmail, Docs, Drive, etc.). Cependant, les premières expériences utilisateur étaient très décevantes sur ce front. Un utilisateur a ventilé : « Ne me lancez même pas sur son incapacité quasi-complète à s'intégrer avec les propres produits de Google qui est censé être une 'fonctionnalité' (qu'il ne sait apparemment pas qu'il a). ». Par exemple, les gens essaieraient de demander à Gemini (via Bard) de résumer un document Google ou de rédiger un e-mail basé sur certaines informations – des fonctionnalités que Google a annoncées – et le bot répondrait qu'il ne peut pas accéder à ces données. Un utilisateur sur r/GooglePixel a écrit : « Chaque fois que j'essaie d'utiliser Gemini avec mes Google Docs ou Drive, il me dit qu'il ne peut rien faire avec. Quel est l'intérêt d'avoir même ces fonctionnalités d'intégration ? ». Cela montre un écart significatif entre les capacités promises et les performances réelles, laissant les utilisateurs sentir que l'« assistant IA » n'assiste pas beaucoup dans l'écosystème de Google lui-même.

  • Refus et confusion des capacités : Les utilisateurs ont également rencontré des refus bizarres ou des contradictions de Gemini. Le même Redditor a noté que Gemini « refuse de faire des choses sans raison, oublie qu'il peut faire d'autres choses… L'autre jour, il m'a dit qu'il n'avait pas accès à l'internet/données en direct. Quoi. ». Cela indique que Gemini refuserait parfois des tâches qu'il devrait pouvoir faire (comme récupérer des informations en direct, auxquelles Bard est connecté) ou ferait des déclarations incorrectes sur ses propres capacités. De telles expériences donnaient l'impression d'une IA qui n'est pas seulement moins intelligente, mais aussi moins fiable ou consciente d'elle-même. Un autre commentaire coloré d'utilisateur : « Gemini est une poubelle absolue. Vous avez déjà eu un de ces moments où vous voulez juste lever les mains et dire, 'À quoi pensaient-ils ?' » encapsule la frustration. Essentiellement, les problèmes d'intégration de produit et de cohérence de Gemini l'ont fait sentir à moitié cuit à de nombreux premiers utilisateurs.

  • Capacités de codage peu remarquables : Bien que pas aussi largement discutées que les questions-réponses générales, plusieurs utilisateurs ont testé Gemini (Bard) sur des tâches de codage et l'ont trouvé médiocre. Dans les forums IA, les capacités de codage de Gemini étaient généralement évaluées en dessous de GPT-4 et même en dessous de Claude. Par exemple, un utilisateur a déclaré simplement que « Claude 3.5 Sonnet est clairement meilleur pour coder que ChatGPT 4o… Gemini est une poubelle absolue [dans ce contexte] ». Le consensus était que Gemini pouvait écrire du code simple ou expliquer des algorithmes de base, mais il trébuchait souvent sur des problèmes plus complexes ou produisait du code avec des erreurs. Son manque d'un large ensemble d'outils pour développeurs (par exemple, il n'a pas d'équivalent de Code Interpreter ou d'appel de fonction robuste) signifiait également qu'il n'était pas un premier choix pour les programmeurs. Donc, bien que tous les utilisateurs occasionnels ne se soucient pas du code, c'est une limitation pour ce segment.

  • Limitations sur les appareils mobiles : Gemini a été déployé dans le cadre de l'assistant de Google sur les téléphones Pixel (marqué comme « Assistant avec Bard »). Certains utilisateurs de Pixel ont noté que l'utiliser comme remplacement d'assistant vocal avait des problèmes. Il ne captait parfois pas les invites vocales avec précision ou prenait trop de temps pour répondre par rapport à l'ancien Assistant Google. Il y avait aussi des commentaires sur le besoin de s'inscrire et de perdre certaines fonctionnalités classiques de l'Assistant. Cela a créé une perception que l'intégration de Gemini sur les appareils n'était pas entièrement prête, laissant les utilisateurs intensifs de l'écosystème de Google sentir qu'ils devaient choisir entre un assistant intelligent et un fonctionnel.

Fonctionnalités ou améliorations fréquemment demandées

  • Amélioration dramatique de la précision et du raisonnement : L'amélioration numéro un que les utilisateurs veulent pour Gemini est simplement d'être plus intelligent et plus fiable. Les retours Reddit rendent clair que Google doit combler l'écart en qualité de réponse. Les utilisateurs s'attendent à ce que Gemini utilise l'accès massif aux informations de Google pour donner des réponses factuelles et directes, pas des réponses vagues ou incorrectes. Donc les demandes (souvent formulées de manière sarcastique) se résument à : le rendre aussi bon que ou meilleur que GPT-4 sur les connaissances générales et le raisonnement. Cela inclut une meilleure gestion des questions de suivi et des invites complexes. Essentiellement, « réparer le cerveau » de Gemini – tirer parti de ces prétendus avantages de formation multimodale pour qu'il arrête de manquer des détails évidents. Google l'a probablement entendu haut et clair : de nombreux posts comparent des réponses spécifiques où ChatGPT a excellé et Gemini a échoué, ce qui sert de rapports de bogues informels pour l'amélioration.

  • Meilleure intégration et conscience du contexte : Les utilisateurs veulent que Gemini tienne la promesse d'un assistant d'écosystème Google transparent. Cela signifie qu'il devrait s'interfacer correctement avec Gmail, Calendar, Docs, Drive, etc. Si un utilisateur demande « Résumez le document que j'ai ouvert » ou « Rédigez une réponse au dernier e-mail de mon patron », l'IA devrait le faire – et le faire en toute sécurité. Pour l'instant, la demande est que Google active ces fonctionnalités et fasse en sorte que Gemini reconnaisse réellement quand une telle tâche est possible. Il a été annoncé que Bard pouvait se connecter au contenu utilisateur (avec permission), donc les utilisateurs demandent effectivement à Google de « l'activer » ou de réparer cette intégration. C'est une fonctionnalité clé pour les utilisateurs professionnels surtout. De plus, sur le front de la navigation web : Bard (Gemini) peut rechercher sur le web, mais certains utilisateurs veulent qu'il cite les sources plus clairement ou soit plus rapide à incorporer les nouvelles de dernière minute. Donc améliorer la nature connectée de Gemini est une demande fréquente.

  • Contrôles de concision : Étant donné les plaintes de verbosité, certains utilisateurs suggèrent une fonctionnalité pour basculer le style de réponse. Par exemple, un « mode bref » où Gemini donne une réponse courte et directe par défaut, sauf demande d'élaboration. Inversement, peut-être un « mode détaillé » pour ceux qui veulent des réponses très approfondies. ChatGPT permet implicitement une partie de cela par l'invite utilisateur (« restez bref ») ; avec Gemini, les utilisateurs ont senti que même lorsqu'ils ne demandaient pas de détail, il sur-expliquait. Donc un réglage intégré ou juste un meilleur réglage pour produire des réponses concises lorsque c'est approprié serait une amélioration bienvenue. En essence, ajuster le cadran de verbosité.

  • Parité de fonctionnalités avec ChatGPT (codage, plugins, etc.) : Les utilisateurs intensifs sur Reddit comparent explicitement les fonctionnalités. Ils demandent que Gemini/Bard de Google offre des choses comme un bac à sable d'exécution de code (similaire à l'interprète de code de ChatGPT), la capacité de télécharger des images/PDF pour analyse (puisque Gemini est multimodal, les utilisateurs veulent réellement lui fournir des images personnalisées, pas seulement qu'il décrive celles fournies). Une autre fonctionnalité fréquemment mentionnée est une meilleure mémoire dans la conversation – bien que Bard ait une certaine mémoire des interactions passées, les utilisateurs veulent qu'il soit aussi bon que ChatGPT pour référencer le contexte antérieur, ou même avoir un stockage de conversation persistant comme l'historique de chat de ChatGPT que vous pouvez faire défiler et revisiter. Essentiellement, Google est invité à rattraper toutes les fonctionnalités de qualité de vie que les utilisateurs de ChatGPT Plus ont : historique de chat, écosystème de plugins (ou au moins de fortes intégrations tierces), assistance au codage, etc.

  • Améliorations de l'application mobile et de la voix : De nombreux utilisateurs occasionnels ont demandé une application mobile dédiée pour Bard/Gemini (similaire à l'application mobile ChatGPT). S'appuyer sur une interface web ou seulement l'assistant Pixel est limitant. Une application officielle sur iOS/Android avec entrée vocale, réponses parlées (pour une véritable sensation d'assistant), et une intégration étroite pourrait grandement améliorer l'expérience utilisateur. Avec cela, les propriétaires de Pixel veulent que l'Assistant avec Bard devienne plus rapide et plus fonctionnel – en gros, ils veulent le meilleur de l'ancien Assistant Google (actions rapides et précises) combiné à l'intelligence de Gemini. Par exemple, des choses comme continuer à permettre les commandes vocales « Hey Google » pour la maison intelligente et pas seulement des réponses bavardes. Google pourrait améliorer le mode vocal de Gemini pour vraiment remplacer l'assistant hérité sans régressions de fonctionnalités.

  • Transparence et contrôle : Certains utilisateurs ont demandé plus de visibilité sur les sources de Bard ou un moyen d'affiner son style. Par exemple, montrer de quel résultat Google Bard tire ses informations (pour vérifier l'exactitude) – quelque chose que Bing Chat fait en citant des liens. Aussi, parce que Bard produit parfois des informations incorrectes, les utilisateurs veulent pouvoir les signaler ou les corriger, et idéalement Bard devrait apprendre de ce retour au fil du temps. Avoir un mécanisme de retour facile (« pouce vers le bas – c'est incorrect parce que… ») qui mène à une amélioration rapide du modèle instaurerait la confiance que Google écoute. En gros, des fonctionnalités pour rendre l'IA plus un assistant collaboratif qu'une boîte noire.

Besoins ou segments d'utilisateurs sous-desservis

  • Utilisateurs cherchant un assistant personnel fiable : Ironiquement, le groupe que Google ciblait – les gens voulant un assistant personnel puissant – se sentent les plus sous-desservis par Gemini dans sa forme actuelle. Les premiers adoptants qui ont activé le nouvel Assistant basé sur Bard s'attendaient à une mise à niveau, mais beaucoup ont estimé que c'était une dégradation en termes pratiques. Par exemple, si quelqu'un veut un assistant vocal pour répondre avec précision à des questions de culture générale, définir des rappels, contrôler des appareils, et intégrer des informations de leurs comptes, Gemini a eu du mal. Cela a laissé le segment même des professionnels occupés ou des passionnés de gadgets (qui comptent sur les assistants pour la productivité) sentir que leurs besoins n'étaient pas satisfaits. Un utilisateur a commenté qu'il envisagerait de payer pour le « Assistant avec Bard » du Pixel « si [il] surpass[ait] Google Assistant », impliquant qu'il ne l'avait pas encore fait. Donc ce segment attend toujours un assistant IA fiable et vraiment utile – ils sauteront dessus si Gemini s'améliore.

  • Non-anglophones / localisation : Les produits Google ont généralement une excellente localisation, mais il n'est pas clair si Bard/Gemini était également fort dans toutes les langues au lancement. Certains utilisateurs internationaux ont signalé que les réponses de Bard dans leur langue maternelle étaient moins fluides ou utiles, les poussant à revenir à des concurrents locaux. Si les données de formation ou l'optimisation de Gemini favorisaient l'anglais, alors les utilisateurs non anglophones sont sous-desservis. Ils pourraient préférer ChatGPT ou des modèles locaux qui ont explicitement optimisé les capacités multilingues. C'est un espace où Google pourrait traditionnellement exceller (étant donné sa technologie de traduction), mais les retours des utilisateurs à ce sujet sont rares – indiquant probablement que Gemini n'a pas encore impressionné ces communautés.

  • Clients d'entreprise (jusqu'à présent) : Les grandes organisations n'ont pas largement adopté Bard/Gemini sur la base des discussions publiques, souvent en raison de lacunes de confiance et de capacités. Les entreprises ont besoin de cohérence, de citations, et d'intégration dans leurs flux de travail (Office 365 est profondément intégré avec la technologie d'OpenAI via MS Copilot, par exemple). L'équivalent de Google (Duet AI avec Gemini) est encore en évolution. Jusqu'à ce que Gemini/Bard prouve qu'il peut rédiger des e-mails de manière fiable, créer des présentations, ou analyser des données dans Google Sheets à un niveau égal ou supérieur à GPT-4, les utilisateurs d'entreprise sentiront que la solution de Google ne répond pas pleinement à leurs besoins. Certains posts sur r/Bard de professionnels sont du genre « J'ai essayé Bard pour des tâches professionnelles, ce n'était pas aussi bon que ChatGPT, donc nous attendrons et verrons. » Cela indique que les utilisateurs d'entreprise sont un segment sous-desservi pour l'instant – ils veulent un IA qui s'intègre dans Google Workspace et booste réellement la productivité sans nécessiter une vérification constante des sorties.

  • Utilisateurs dans l'écosystème Google qui préfèrent des solutions tout-en-un : Il y a un segment d'utilisateurs qui utilisent Google pour tout (recherche, e-mail, documents) et utiliseraient volontiers une IA de Google pour tous leurs besoins de chatbot – si elle était aussi bonne. Pour l'instant, ces utilisateurs sont quelque peu sous-desservis car ils finissent par utiliser ChatGPT pour certaines choses et Bard pour d'autres. Ils pourraient poser des questions factuelles à ChatGPT parce qu'ils font plus confiance à sa qualité de réponse, mais utiliser Bard pour ses tentatives d'intégration ou de navigation. Cette expérience partagée n'est pas idéale. Ces utilisateurs veulent vraiment rester dans une seule application/assistant. Si Gemini s'améliore, ils se regrouperont autour de lui, mais jusqu'à ce moment leur cas d'utilisation de « un assistant pour les gouverner tous » n'est pas rempli.

  • Développeurs/Data scientists sur Google Cloud : Google a publié des modèles Gemini via sa plateforme Vertex AI pour les développeurs. Cependant, les premiers rapports et benchmarks suggéraient que Gemini (en particulier le modèle « Gemini Pro » disponible) ne battait pas GPT-4. Les développeurs qui préfèrent Google Cloud pour les services IA sont donc un peu sous-desservis par la qualité du modèle – ils doivent soit accepter un modèle légèrement inférieur soit intégrer l'API d'OpenAI séparément. Ce segment de développeurs d'entreprise est avide d'un modèle Google fort pour pouvoir tout garder dans une seule pile. Jusqu'à ce que les performances de Gemini s'excellent clairement dans certains domaines ou que le prix offre une raison convaincante, il ne sert pas pleinement les besoins de ce groupe en termes compétitifs.

Différences de perception selon le type d'utilisateur

  • Développeurs/Passionnés de technologie : Les utilisateurs technophiles ont abordé Gemini avec de grandes attentes (c'est Google, après tout). Leur perception s'est rapidement détériorée après des tests pratiques. De nombreux développeurs sur Reddit ont exécuté des benchmarks ou leurs questions difficiles préférées à travers Gemini et l'ont trouvé à la traîne. Un programmeur a déclaré sans ambages, « Gemini est une poubelle absolue comme Llama 3.0 l'était », indiquant qu'ils le classent même en dessous de certains modèles ouverts. Les développeurs sont particulièrement sensibles aux erreurs logiques et à la verbosité. Donc lorsque Gemini a donné des réponses verbeuses mais incorrectes, il a rapidement perdu en crédibilité. D'un autre côté, les développeurs reconnaissent le potentiel de Google ; certains espèrent que « avec plus de réglage fin, Gemini s'améliorera » et ils le retestent périodiquement après les mises à jour. À l'heure actuelle, cependant, la plupart des développeurs perçoivent Gemini comme inférieur à GPT-4 dans presque toutes les tâches sérieuses (codage, résolution de problèmes complexes). Ils apprécient certaines choses : par exemple, Gemini a accès à des informations en temps réel (via la recherche Google) sans avoir besoin d'un plugin, ce qui est utile pour les requêtes à jour. Un développeur pourrait utiliser Bard pour quelque chose comme « rechercher et résumer les derniers articles sur X », où il peut citer des données web. Mais pour le raisonnement autonome, ils penchent vers d'autres modèles. En résumé, les passionnés de technologie voient Gemini comme un travail prometteur en cours qui actuellement semble une génération en retard. Il n'a pas gagné leur pleine confiance, et ils publient souvent des comparaisons côte à côte mettant en évidence ses erreurs pour inciter Google à l'améliorer.

  • Utilisateurs occasionnels/quotidiens : Les utilisateurs occasionnels, y compris ceux qui ont eu accès au nouveau Bard sur leurs téléphones ou via le web, avaient des sentiments mitigés. De nombreux utilisateurs occasionnels ont initialement abordé Bard (Gemini) parce qu'il est gratuit et facile d'accès avec un compte Google, contrairement à GPT-4 qui était payant. Certains utilisateurs occasionnels rapportent en fait des expériences décentes pour des utilisations simples : par exemple, un Redditor sur r/Bard a donné un avis positif notant que Gemini les a aidés avec des choses comme la révision de documents juridiques, la rédaction, et même un cas d'utilisation amusant d'identification de tailles de vêtements à partir d'une photo. Ils ont dit « Gemini a été une ressource précieuse pour répondre à mes questions… informations à jour… Je suis devenu si habitué à la version payante que je ne me souviens pas comment la version gratuite fonctionne. » – indiquant qu'au moins certains utilisateurs occasionnels qui ont investi du temps (et de l'argent) dans Bard Advanced l'ont trouvé utile dans la vie quotidienne. Ces utilisateurs ont tendance à l'utiliser pour une aide pratique et quotidienne et peuvent ne pas pousser le modèle à ses limites. Cependant, beaucoup d'autres utilisateurs occasionnels (surtout ceux qui avaient également essayé ChatGPT) étaient déçus. Les gens ordinaires demandant des conseils de voyage, des anecdotes, ou de l'aide pour une tâche ont trouvé les réponses de Bard moins claires ou utiles. La perception ici est partagée : utilisateurs fidèles à la marque Google vs. ceux déjà gâtés par ChatGPT. Le premier groupe, s'ils n'avaient pas beaucoup utilisé ChatGPT, trouve parfois Bard/Gemini « plutôt bon » pour leurs besoins et apprécie qu'il soit intégré à la recherche et gratuit. Le second groupe compare presque invariablement et trouve Gemini insuffisant. Ils pourraient dire, « Pourquoi utiliserais-je Bard alors que ChatGPT est meilleur 90% du temps ? ». Donc la perception des utilisateurs occasionnels dépend vraiment de leur cadre de référence préalable. Ceux qui sont nouveaux aux assistants IA pourraient évaluer Gemini comme une nouveauté utile ; ceux expérimentés avec la concurrence le voient comme une déception qui « est encore si mauvais » et doit s'améliorer.

  • Utilisateurs professionnels : De nombreux professionnels ont essayé Bard lorsqu'il a été lancé avec l'intégration Google Workspace (Duet AI). La perception parmi ce groupe est un scepticisme prudent. D'une part, ils font confiance aux promesses d'entreprise de Google concernant la confidentialité des données et l'intégration (par exemple, éditer des Docs via l'IA, résumer des réunions à partir d'invitations de calendrier, etc.). D'autre part, les premiers tests ont souvent montré que Gemini faisait des erreurs factuelles ou fournissait des sorties génériques, ce qui n'est pas inspirant pour une utilisation professionnelle. Par exemple, un professionnel pourrait demander à Bard de rédiger un rapport client – si Bard insère des données incorrectes ou des idées faibles, cela pourrait être plus de tracas que d'aide. Par conséquent, les utilisateurs professionnels ont tendance à piloter Bard sur des tâches non critiques mais s'appuient encore sur GPT-4 ou Claude pour des sorties importantes. Il y a aussi une perception que Google rattrapait son retard : beaucoup ont vu Bard comme « pas prêt pour le prime time » et ont décidé d'attendre. Il existe une perception positive dans des domaines comme les requêtes de données en temps réel – par exemple, un analyste financier sur Reddit a noté que Bard pouvait extraire des informations de marché récentes grâce à la recherche Google, ce que ChatGPT ne pouvait pas à moins que les plugins ne soient activés. Donc dans les domaines où les données actuelles sont essentielles, quelques professionnels ont vu un avantage. Une autre nuance : les personnes dans l'écosystème Google (par exemple, les entreprises qui utilisent exclusivement Google Workspace) ont une vue légèrement plus favorable simplement parce que Bard/Gemini est l'option qui s'adapte à leur environnement. Ils espèrent qu'il s'améliorera plutôt que de passer à un tout autre écosystème. En résumé, les utilisateurs professionnels voient Gemini comme potentiellement très utile (étant donné les données et l'intégration d'outils de Google), mais début 2025, il n'a pas encore gagné pleine confiance. Ils le perçoivent comme le « nouveau concurrent qui n'est pas encore tout à fait là » – à surveiller, mais pas encore un choix pour des tâches critiques. La réputation de Google lui achète un peu de patience de la part de cette foule, mais pas indéfiniment ; si Gemini ne s'améliore pas nettement, les professionnels pourraient ne pas l'adopter largement, en restant avec d'autres solutions.


LLM open-source (par exemple, modèles basés sur LLaMA)

Points de douleur et limitations courants

  • Exigences matérielles et de configuration : Contrairement aux chatbots cloud, les LLM open-source nécessitent généralement que les utilisateurs les exécutent sur du matériel local ou un serveur. Cela présente immédiatement un point de douleur : de nombreux modèles (par exemple, un modèle LLaMA de 70 milliards de paramètres) nécessitent un GPU puissant avec beaucoup de VRAM pour fonctionner sans problème. Comme l'a succinctement dit un Redditor, « Les LLM locaux sur la plupart des matériels grand public ne vont pas avoir la précision nécessaire pour un développement complexe. » Pour la personne moyenne avec seulement un GPU de 8 Go ou 16 Go (ou juste un CPU), exécuter un modèle de haute qualité peut être lent ou carrément irréalisable. Les utilisateurs pourraient se tourner vers des modèles plus petits qui s'adaptent, mais ceux-ci produisent souvent des sorties de qualité inférieure (« réponses plus stupides »). La complexité de la configuration est un autre problème – installer des poids de modèle, configurer des environnements comme Oobabooga ou LangChain, gérer les bibliothèques de tokenisation, etc., peut être intimidant pour les non-développeurs. Même les utilisateurs techniquement compétents le décrivent comme une corvée de suivre les nouvelles versions de modèle, les bizarreries des pilotes GPU, et ainsi de suite. Un fil intitulé « Sérieusement, comment utilisez-vous réellement les LLM locaux ? » avait des gens partageant que de nombreux modèles « soit sous-performent soit ne fonctionnent pas bien sur mon matériel », et demandant des conseils pratiques.

  • Performance inférieure aux modèles fermés à la pointe : Les modèles open-source ont fait des progrès rapides, mais en 2025, de nombreux utilisateurs notent qu'ils sont encore à la traîne par rapport aux meilleurs modèles propriétaires (GPT-4, Claude) en raisonnement complexe, codage, et précision factuelle. Un exemple frappant : un utilisateur sur r/LocalLLaMA a comparé les sorties dans sa langue maternelle et a dit « Tous les autres modèles que j'ai essayés échouent… Ils ne s'approchent même pas [de GPT-4]. ChatGPT 4 est absolument incroyable en écriture ». Ce sentiment est largement partagé : bien que les petits modèles ouverts (comme un 13B ou 7B finement ajusté) puissent être impressionnants pour leur taille, ils luttent avec des tâches nécessitant une compréhension profonde ou une logique multi-étapes. Même les grands modèles ouverts (65B, 70B) qui approchent le niveau GPT-3.5 peuvent encore faillir aux types de problèmes délicats que GPT-4 gère. Les utilisateurs observent plus d'hallucinations et d'erreurs dans les modèles ouverts, surtout sur des connaissances de niche ou lorsque les invites dévient légèrement de la distribution d'entraînement. Donc, l'écart en capacité brute est un point de douleur – il faut tempérer les attentes lors de l'utilisation de modèles locaux, ce qui peut être frustrant pour ceux habitués à la fiabilité de ChatGPT.

  • Longueur de contexte limitée : La plupart des LLM open-source ont traditionnellement des fenêtres de contexte plus petites (2048 tokens, peut-être 4k tokens) par rapport à ce que ChatGPT ou Claude offrent. Certains nouveaux ajustements fins et architectures étendent cela (par exemple, il y a des versions de 8K ou 16K tokens de LLaMA-2, et des recherches comme MPT-7B avaient un contexte de 16K). Cependant, l'utilisation pratique de modèles ouverts à très long contexte est encore à ses débuts. Cela signifie que les utilisateurs de modèles locaux font face à des problèmes de mémoire similaires – le modèle oublie les parties antérieures de la conversation ou du texte, à moins qu'ils n'implémentent des schémas de mémoire externes (comme des bases de données vectorielles pour la récupération). Dans les discussions Reddit, les utilisateurs mentionnent souvent devoir résumer ou tronquer manuellement l'historique pour rester dans les limites, ce qui est laborieux. C'est une limitation notable surtout puisque les modèles propriétaires poussent les longueurs de contexte plus loin (comme les 100k de Claude).

  • Manque de réglage fin de suivi des instructions dans certains modèles : Bien que de nombreux modèles ouverts soient réglés sur les instructions (Alpaca, LLaMA-2-Chat, etc.), tous ne sont pas aussi rigoureusement entraînés RLHF que ChatGPT. Cela peut entraîner des modèles locaux parfois moins réactifs aux instructions ou aux invites système. Par exemple, un modèle LLaMA brut continuera simplement le texte et ignorera complètement un format d'invite utilisateur – il faut utiliser une version chat-tuned. Même alors, la qualité des données de réglage compte. Certains utilisateurs de Reddit ont noté que certains modèles d'instructions refusaient trop (parce qu'ils étaient réglés avec une sécurité lourde, par exemple certains chats LLaMA-2 de Facebook répondraient par des refus de politique similaires à ChatGPT) ou sous-performaient (ne suivant pas précisément la requête). Une plainte d'utilisateur sur un GitHub à propos de CodeLlama-70B-instruct disait qu'il « est tellement censuré qu'il est pratiquement inutile », montrant la frustration qu'un modèle ouvert adopte la même rigueur sans l'alternative de l'éteindre. Donc, selon le modèle choisi, les utilisateurs pourraient faire face soit à un modèle trop lâche (et donne une continuation non pertinente) soit à un modèle trop strict/guardé. Obtenir un comportement de suivi des instructions bien équilibré nécessite souvent d'essayer plusieurs ajustements fins.

  • Fragmentation et changement rapide : Le paysage des LLM open-source évolue extrêmement rapidement, avec de nouveaux modèles et techniques (quantification, ajustements LoRA, etc.) émergeant chaque semaine. Bien que passionnant, c'est un point de douleur pour les utilisateurs qui ne veulent pas constamment ajuster leur configuration. Ce qui fonctionnait le mois dernier pourrait être obsolète ce mois-ci. Un Redditor a humoristiquement comparé cela au Far West, disant que la communauté « trouve des moyens de 'faire semblant' pour que cela ressemble à [GPT-4] » mais souvent ce sont des solutions de contournement. Pour un utilisateur occasionnel, il est décourageant de choisir parmi des dizaines de noms de modèles (Vicuna, Alpaca, Mythomax, Mistral, etc.), chacun avec plusieurs versions et forks. Sans une plateforme unifiée, les utilisateurs s'appuient sur des guides communautaires – qui peuvent être déroutants – pour décider quel modèle convient à leurs besoins. Cette fragmentation dans les outils et la qualité des modèles est un point de douleur indirect : elle élève la barrière d'entrée et l'effort de maintenance.

  • Pas de support officiel ou de garanties : Quand quelque chose tourne mal avec un LLM local (par exemple, le modèle produit un contenu offensant ou plante), il n'y a pas de support client à appeler. Les utilisateurs sont seuls ou dépendent de l'aide communautaire. Pour les amateurs, cela va, mais pour une utilisation professionnelle, ce manque de support formel est un obstacle. Certains utilisateurs de Reddit travaillant dans des entreprises ont noté que bien qu'ils aimeraient la confidentialité d'un modèle ouvert, ils s'inquiètent de savoir vers qui se tourner si le modèle fonctionne mal ou s'ils ont besoin de mises à jour. Essentiellement, utiliser l'open-source est du bricolage – à la fois une force et une faiblesse.

Fonctionnalités ou améliorations fréquemment demandées

  • Meilleure efficacité (quantification et optimisation) : Un objectif majeur dans la communauté (et donc une demande courante) est de faire fonctionner de grands modèles sur du matériel plus petit. Les utilisateurs attendent avec impatience des techniques qui permettent à un modèle de 70B de fonctionner aussi bien qu'un modèle de 7B. Il y a déjà une quantification en 4 bits ou 8 bits, et les threads discutent souvent de nouvelles méthodes comme AWQ ou les adaptateurs de type RNN. Un utilisateur a cité des recherches où une quantification améliorée pourrait maintenir la qualité à une précision de bits inférieure. Le souhait est essentiellement : « Laissez-moi exécuter un modèle de niveau GPT-4 sur mon PC sans décalage. » Chaque percée qui se rapproche (comme des architectures de transformateurs plus efficaces ou le déchargement GPU vers le CPU) est célébrée. Donc, des demandes pour de meilleurs outils (comme la prochaine génération de llama.cpp ou d'autres accélérateurs) sont courantes – tout pour réduire la barrière matérielle.

  • Modèles plus grands et meilleurs (réduire l'écart de qualité) : La communauté pousse constamment pour de nouveaux modèles open-source à la pointe. Les utilisateurs sont excités par des projets comme LLaMA 3 (si/quand Meta en publie un) ou des collaborations qui pourraient produire un modèle ouvert de 100B+. Beaucoup expriment l'optimisme que « nous aurons des modèles GPT-4 locaux sur nos machines d'ici la fin de cette année ». Dans cette citation, l'utilisateur parie sur LLaMA 3 plus un réglage fin pour offrir des performances de type GPT-4. Donc, on pourrait dire qu'une « fonctionnalité demandée » est simplement : plus de poids, plus d'entraînement – la communauté veut que les entreprises technologiques ou les groupes de recherche open-source des modèles plus grands et meilleurs pour qu'ils puissent les exécuter localement. Chaque fois qu'un nouveau modèle (comme Mistral 7B ou Falcon 40B) sort, les utilisateurs testent s'il bat le dernier. La demande ultime est un modèle ouvert qui rivalise vraiment avec GPT-4, éliminant le besoin d'IA fermée pour ceux qui peuvent l'héberger.

  • Interfaces conviviales et configurations en un clic : Pour élargir l'adoption, de nombreux utilisateurs demandent des moyens plus faciles d'utiliser les LLM locaux. Cela inclut des interfaces GUI où l'on peut télécharger un modèle et commencer à discuter sans travail en ligne de commande. Il y a des projets qui s'attaquent à cela (l'interface web de génération de texte d'Oobabooga, LM Studio, etc.), mais les nouveaux venus luttent encore. Un fil Reddit récent pourrait demander, « Comment configurer un LLM de type ChatGPT localement ? », avec des utilisateurs demandant des guides étape par étape. Donc un souhait fréquent est pour une installation simplifiée – peut-être une application officielle ou un conteneur Docker qui regroupe tout ce qui est nécessaire, ou une intégration dans des logiciels populaires (imaginez une extension qui amène un LLM local dans VSCode ou Chrome facilement). Essentiellement, réduire la surcharge technique pour que les personnes moins férues de technologie puissent également profiter des LLM privés.

  • Contexte plus long et mémoire pour les modèles locaux : Les développeurs open-source et les utilisateurs expérimentent l'extension du contexte (à travers des ajustements d'embeddings positionnels ou des modèles spécialisés). De nombreux utilisateurs demandent que de nouveaux modèles viennent avec des fenêtres de contexte plus longues par défaut – par exemple, un modèle ouvert avec un contexte de 32k serait très attractif. Jusqu'à ce que cela se produise, certains s'appuient sur des solutions de « récupération » externes (LangChain avec un magasin vectoriel qui alimente des informations pertinentes dans l'invite). Les utilisateurs sur r/LocalLLaMA discutent fréquemment de leurs configurations pour un pseudo-long-contexte, mais expriment également le désir que les modèles eux-mêmes gèrent plus. Donc une amélioration qu'ils recherchent est : « Donnez-nous un Claude local – quelque chose avec des dizaines de milliers de tokens de contexte. » Cela leur permettrait de faire des analyses de livres, de longues conversations, ou de grands travaux de base de code localement.

  • Outils de réglage fin améliorés et personnalisation des modèles : Une autre demande est de rendre plus facile le réglage fin ou la