メインコンテンツにスキップ

"Google Gemini"でタグ付けされた1 投稿

すべてのタグを見る

主要なLLMチャットツールに関するRedditユーザーのフィードバック

· 1 分読了
Lark Birdy
Chief Bird Officer

概要: 本レポートは、4つの人気AIチャットツール – OpenAIのChatGPTAnthropicのClaudeGoogleのGemini (Bard)、およびオープンソースLLM(例:LLaMAベースのモデル)についてのRedditの議論を分析します。各ツールに対するユーザーが報告する一般的な問題点、最も頻繁にリクエストされる機能、満たされていないニーズやサービスが不十分と感じるユーザーセグメント、開発者、一般ユーザー、ビジネスユーザー間の認識の違いを要約します。これらのポイントを説明するために、Redditスレッドからの具体例や引用も含まれています。

主要なLLMチャットツールに関するRedditユーザーのフィードバック

ChatGPT (OpenAI)

一般的な問題点と制限

  • 限られたコンテキストメモリ: 主な不満は、ChatGPTが長い会話や大きな文書を扱う際に以前の詳細を忘れてしまうことです。ユーザーは頻繁にコンテキストの長さの制限(数千トークン)に達し、情報を切り詰めたり要約したりしなければなりません。あるユーザーは「コンテキストウィンドウのサイズを増やすことが最大の改善になるだろう…これが私が最も直面する制限です」と述べています。コンテキストが超過すると、ChatGPTは初期の指示や内容を忘れ、セッション中に品質が低下することがあります。

  • GPT-4のメッセージ制限: ChatGPT Plusユーザーは、GPT-4の使用に25メッセージ/3時間の制限があることを嘆いています(2023年時点の制限)。この制限に達すると待たなければならず、作業が中断されます。ヘビーユーザーはこの制限を大きな問題点と感じています。

  • 厳しいコンテンツフィルター(「ナーフ」): 多くのRedditユーザーは、ChatGPTが過度に制限的になり、以前のバージョンで処理できたリクエストを拒否することが多いと感じています。非常に多くの票を集めた投稿では、「最近は何を頼んでも『申し訳ありませんが、お手伝いできません』という返答が返ってくる…どうしてこんなに役に立たないツールになったのか?」と不満を述べています。ユーザーは、ChatGPTが自分のテキスト(例:ログイン情報)を再フォーマットすることを拒否する例を挙げています。支払いをしている加入者は、「ユーザーが『悪いこと』をするかもしれないという漠然とした考えが、結果を表示しない理由になるべきではない」と主張しています。

  • 幻覚とエラー: 高度な能力を持つにもかかわらず、ChatGPTは誤った情報や作り話を自信を持って生成することがあります。あるユーザーは、モデルが「ダウングレードされた」と疑っており、以前は正確に計算できたNPVやIRRのような指標が、更新後は「多くの間違った答えを得ている…修正後でも間違った答えを出し続ける」と述べています。このような予測不可能な不正確さは、事実の正確性が求められるタスクに対する信頼を損ないます。

  • 不完全なコード出力: 開発者はしばしばChatGPTをコーディングの助けとして使用しますが、解決策の一部を省略したり、長いコードを切り詰めたりすることがあると報告しています。あるユーザーは、ChatGPTが「コードを省略し、役に立たないコードを生成し、必要なことをうまくできない…省略されたコードが多すぎて、解決策を統合する方法がわからない」と述べています。これにより、ユーザーは追加のプロンプトを使用して残りを引き出すか、手動で答えをつなぎ合わせる必要があります。

  • パフォーマンスと稼働時間の懸念: ChatGPTの個々のユーザーに対するパフォーマンスが、企業の使用が増えるにつれて低下しているという認識があります。ある不満を持つPlus加入者は、「企業に帯域幅と処理能力を割り当て、ユーザーからそれを剥ぎ取っていると思う。それはサブスクリプションのコストを考えると耐え難い」と述べています。ピーク時の停止や遅延が報告されており、ワークフローを中断させることがあります。

よくリクエストされる機能や改善

  • 長いコンテキストウィンドウ/メモリ: 最もリクエストされる改善は、より大きなコンテキストの長さです。ユーザーは、リセットなしで長い会話をしたり、大きな文書をフィードしたりしたいと考えています。多くの人が、ChatGPTのコンテキストをGPT-4の32Kトークン能力(現在APIで利用可能)に合わせるか、それ以上に拡張することを提案しています。あるユーザーは、「GPTはコンテキストがあるときに最も優れており、初期のコンテキストを覚えていないときにイライラする…コンテキストPDFの噂が本当なら、私の問題は基本的にすべて解決する」と述べています。文書をアップロードしたり、個人データをリンクしたりする機能に対する需要が高く、ChatGPTがセッション全体でそれらを覚えて参照できるようにしたいと考えています。

  • ファイル処理と統合: ユーザーは頻繁に、ChatGPTにファイルやデータを簡単にフィードする方法を求めています。議論の中で、人々は「Googleドライブをコピーして貼り付け、それが機能するようにしたい」と述べたり、ChatGPTが個人ファイルから直接コンテキストを取得するプラグインを求めたりしています。一部のユーザーは(PDFリーダープラグインやGoogleドキュメントのリンクなどの)回避策を試みましたが、エラーや制限について不満を述べています。あるユーザーは理想的なプラグインを「リンクリーダーのように機能するが、個人ファイル用…会話で使用するドライブの部分を選択できる…それが私のGPT-4に関するすべての問題を解決する」と説明しています。要するに、外部知識(トレーニングデータを超えて)に対するより良いネイティブサポートが人気のリクエストです。

  • 有料ユーザーのスロットリングの削減: 多くのPlusユーザーがGPT-4のメッセージ制限に達するため、より高い制限や無制限アクセスのためのオプションを求めています。25メッセージの制限は任意であり、集中的な使用を妨げると見なされています。人々は、長い問題解決セッションが中断されないように、使用ベースのモデルやより高い制限を好みます。

  • 「検閲なし」またはカスタムモデレーションモード: 一部のユーザーは、特に自分自身のためにChatGPTを使用する際に、コンテンツフィルターの厳しさを切り替える能力を望んでいます(公開コンテンツではなく)。彼らは「研究」または「検閲なし」モードが警告を出すが、厳しい拒否をしないようにすることで、より自由に探求できると感じています。あるユーザーは、支払いをしている顧客がそれをツールと見なし、「私は[それ]にお金を払っている」と信じていると述べています。彼らは、境界線上のクエリでも答えを得るオプションを望んでいます。OpenAIは安全性をバランスさせる必要がありますが、これらのユーザーは、プライベートチャットでポリシーを緩和するためのフラグや設定を提案しています。

  • 事実の正確性と更新の改善: ユーザーは一般的に、より最新の知識と幻覚の減少を求めています。ChatGPTの知識カットオフ(以前のバージョンでは2021年9月)は、Redditで頻繁に取り上げられる制限でした。OpenAIはその後、ブラウジングとプラグインを導入し、一部のユーザーはそれを活用していますが、他のユーザーは単にベースモデルが新しいデータでより頻繁に更新されることを求めています。特に数学やコーディングのような分野での明らかなエラーを減らすことは、継続的な願いです。ChatGPTがエラーを犯したときにフィードバックを提供し、モデルの改善を期待する開発者もいます。

  • より良いコード出力とツール: 開発者は、コンテンツを省略しない改善されたコードインタープリターや、IDEやバージョン管理との統合などの機能をリクエストしています(OpenAIのコードインタープリタープラグインは「高度なデータ分析」の一部として受け入れられました)。それでも、ユーザーはコード生成におけるより細かい制御を要求することが多いです:たとえば、長くても完全でフィルターされていないコードを出力するオプションや、AIがエラーを犯した場合にコードを簡単に修正するメカニズムなどです。基本的に、ChatGPTが信頼できるコーディングアシスタントのように振る舞い、答えを洗練するために複数のプロンプトを必要としないようにしたいと考えています。

  • 持続的なユーザープロファイルやメモリ: ある改善点として、ChatGPTがセッションをまたいでユーザーに関する情報を記憶することが挙げられます(同意を得た上で)。たとえば、ユーザーの書き方やソフトウェアエンジニアであることを毎回新しいチャットで再度述べる必要がないようにすることです。これはAPIの微調整や「プロファイル」機能に結びつく可能性があります。ユーザーは現在、重要なコンテキストを新しいチャットに手動でコピーしていますが、個人の好みを記憶するための組み込みメモリがあれば時間を節約できます。

不十分なニーズやユーザーセグメント

  • 長い文書を持つ研究者や学生: ChatGPTに長い研究論文や本、大規模なデータセットを分析させたい人々は不十分なサービスを受けています。現在の制限により、テキストを分割したり要約に頼ったりする必要があります。このセグメントは、より大きなコンテキストウィンドウや長い文書を処理する機能から大いに恩恵を受けるでしょう(トークン制限を回避しようとする多くの投稿が証明しています)。

  • 制限を超えた創造的なストーリーテリングやロールプレイを求めるユーザー: ChatGPTはしばしば創造的な執筆に使用されますが、一部のストーリーテラーは、モデルが長い物語の初期のプロットポイントを忘れたり、成人向け/ホラーコンテンツを拒否したりすることに制約を感じています。彼らは物語を続けるために代替モデルやハックを使用します。これらの創造的なユーザーは、長いメモリを持ち、フィクションの暴力や成熟したテーマに対してもう少し柔軟なChatGPTのバージョンによってより良くサービスされるでしょう(合理的な範囲内で)。あるフィクション作家は、AIがストーリーを見失うと、「正確な形式やコンテキストを思い出させなければならない…2つ前のプロンプトでは素晴らしかったのに、今はAIを追いつかせなければならない」と述べています。

  • パワーユーザーとドメインエキスパート: 特定の分野(金融エンジニアリング医学)の専門家は、特に最近の開発に関する質問の場合、ChatGPTの回答がその分野での深さや正確性に欠けることがあります。これらのユーザーは、より信頼性のある専門知識を求めています。一部はAPIやカスタムGPTを通じて微調整を試みています。微調整できない人々は、信頼できるデータベースを埋め込んだChatGPTのドメイン固有バージョンやプラグインを高く評価するでしょう。デフォルトの形では、ChatGPTは高度に正確で分野特有の情報を必要とするユーザーに不十分なサービスを提供しているかもしれません(彼らはしばしばその作業を二重に確認する必要があります)。

  • 検閲されていないまたはエッジケースのコンテンツを必要とするユーザー: 少数のユーザー(セキュリティシナリオをテストするハッカー、極端なフィクションの作家など)は、ChatGPTのコンテンツ制限が彼らのニーズに対してあまりにも制限的であると感じています。彼らは現在、公式製品では不十分なサービスを受けています(特定のコンテンツを明示的に避けるため)。これらのユーザーはしばしばプロンプトを脱獄させたり、オープンソースモデルを使用して望む回答を得ることを試みます。これはOpenAIの意図的なギャップです(安全性を維持するため)、しかしそれはそのようなユーザーが他の場所を探すことを意味します。

  • プライバシーを重視する個人や企業: 一部のユーザー(特に企業環境で)は、プライバシーの懸念からChatGPTに機密データを送信することに不安を感じています。OpenAIはAPIデータをトレーニングに使用しないポリシーを持っていますが、ChatGPTのウェブUIは歴史的にそのような保証を提供していませんでした(オプトアウト機能が追加されるまで)。機密データを扱う企業(法律、医療など)は、ChatGPTを完全に活用できないと感じることが多く、独自のホストソリューションを構築しない限り、彼らのニーズは不十分なままです。たとえば、あるRedditユーザーは、プライバシーの理由で自社がローカルLLMに移行したと述べています。オンプレミスまたはプライベートインスタンスのChatGPTが利用可能になるまで、このセグメントは慎重であり、または小規模な専門ベンダーを使用しています。

ユーザータイプによる認識の違い

  • 開発者/技術ユーザー: 開発者は、ChatGPTの最大の支持者であり、最も厳しい批評家でもあります。彼らはそのコードの説明、ボイラープレートの生成、デバッグの支援能力を愛しています。しかし、彼らは長いコンテキストとコードの正確性における制限を鋭く感じています。ある開発者は、ChatGPTが「役に立たないコードを生成し、重要な部分を省略するようになった」と不満を述べ、「怠けるなと言いたくない – 完全な結果を求めているだけだ」と述べています。開発者は、モデルの更新後の品質の微妙な変化にも気づき、コーディング能力の「ナーフ」や低下を感じたときにRedditで非常に声を上げています。また、彼らは限界を押し広げる(複雑なプロンプトを構築し、ツールを連鎖させる)ので、拡張されたコンテキスト、メッセージ制限の少ない、コーディングツールとのより良い統合などの機能を切望しています。要するに、開発者はChatGPTを日常のタスクをスピードアップするために価値を見出していますが、論理やコードのエラーを指摘するのが早いです – 彼らはそれをまだ監督が必要なジュニアアシスタントと見なしています。

  • カジュアル/一般ユーザー: よりカジュアルなユーザー – 一般的な知識、アドバイス、または楽しみを求める人々 – はしばしばChatGPTの能力に驚嘆しますが、彼らにも不満があります。一般的なカジュアルユーザーの不満は、ChatGPTが彼らにとって無害に思えるリクエストを拒否することがあることです(おそらくポリシールールに引っかかっている)。あるスレッドの元投稿者は、「問題があるはずのないプロンプトを書いたときに拒否されると非常に腹が立つ」と述べています。カジュアルユーザーはまた、知識のカットオフに遭遇することがあります(ボットが非常に最新のイベントを処理できないことを発見する)し、時にはChatGPTが明らかに間違った答えを与えることに気づくこともあります。開発者とは異なり、彼らはAIを常に二重にチェックするわけではないため、間違いに基づいて行動すると失望することがあります。ポジティブな面では、多くのカジュアルユーザーは、ChatGPT Plusの高速な応答とGPT-4の改善された出力が月額20ドルの価値があると感じています – ただし、「拒否」問題や他の制限が経験を損なわない限り。彼らは一般的に役立つ、万能のアシスタントを求めており、ChatGPTがポリシー声明で応答したり、簡単な答えを得るために複雑なプロンプトを必要とするときにイライラすることがあります。

  • ビジネス/プロフェッショナルユーザー: ビジネスユーザーはしばしば生産性と信頼性の観点からChatGPTにアプローチします。彼らはメールの草案作成、文書の要約、アイデアの生成を迅速に行えることを評価しています。しかし、彼らはデータセキュリティ、一貫性、ワークフローへの統合について懸念しています。Redditでは、プロフェッショナルがChatGPTをOutlookやGoogle Docsなどのツールに組み込むことを望んでいると議論しています。OpenAIが企業クライアントにサービスを提供するためにピボットするにつれて、製品の焦点がシフトしているように感じると指摘する人もいます:無料または個々のユーザーエクスペリエンスがわずかに劣化した(たとえば、遅くなったり「賢くなくなった」)と感じることがありますが、これは企業が大規模なクライアントにサービスを提供するためにスケールアップしたためです。それが真実であるかどうかにかかわらず、それは認識を強調しています:ビジネスユーザーは信頼性と優先サービスを望んでおり、個々のユーザーは今や二級市民であると心配しています。さらに、プロフェッショナルは正確な出力を必要としています – 派手で間違った答えは答えがないよりも悪いことがあります。したがって、このセグメントは正確性に敏感です。彼らにとって、長いコンテキスト(契約書の読み取り、コードベースの分析)や稼働時間の保証などの機能は重要です。彼らはコンプライアンスとプライバシー要件が満たされれば、プレミアムサービスレベルにもっと支払う可能性があります。一部の企業は、オンプレミスの展開やITポリシーを満たすために厳格なデータ処理ルールを持つOpenAIのAPIを使用することさえ検討しています。


Claude (Anthropic)

一般的な問題点と制限

  • 使用制限とアクセス制限: Claudeは強力なモデル(Claude 2)を無料で提供することで称賛されましたが、ユーザーはすぐに使用制限(特に無料ティアで)に直面しました。一定数のプロンプトや大量のテキストを超えると、Claudeは「申し訳ありませんが、今はこの会話を終了する必要があります。後で戻ってきてください」と言うことがあります。このスロットリングは、Claudeを拡張コーディングやライティングパートナーとして扱うユーザーをイライラさせます。Claude Pro(有料)ユーザーでさえ、「無制限の時間は保証されていない」とあるユーザーが指摘しています。制限に達すると、「後で戻ってきてください」というメッセージが表示されます。さらに、Claudeは長い間公式に地理的に制限されていました(最初は米国/英国のみで利用可能)。国際的なユーザーは、VPNやサードパーティプラットフォームを使用してアクセスする必要があり、不便でした。これにより、多くの非米国ユーザーはアクセスが広がるまで取り残されたと感じました。

  • 非常に大きな入力での軌道逸脱傾向: Claudeの目玉機能は100kトークンのコンテキストウィンドウで、非常に長いプロンプトを可能にします。しかし、数万トークンをClaudeに詰め込むと、応答が集中しなくなることに気づいたユーザーもいます。「100kは非常に便利ですが、指示に適切に従わず、軌道を逸脱すると、それほど役に立たない」とあるユーザーは観察しました。これは、巨大なコンテキストを持つと、Claudeがドリフトしたり、話が脱線したりすることを示唆しています。これは、コンテキストを極限まで押し進めることに固有の制限であり、モデルは多くを保持しますが、どの詳細が最も関連性があるかを「忘れる」ことがあり、軽微な幻覚やオフトピックの脱線を引き起こします。

  • 指示に対する不一致なフォーマットまたは従順性: サイドバイサイドの比較では、Claudeが特定の指示に従う方法で予測不可能であると感じるユーザーもいます。たとえば、Claudeは*「インタラクションでより人間らしい。しかし、システムメッセージにはあまり厳密に従わない。」*と説明されています。これは、固定フォーマットを与えたり、非常に厳格なペルソナを与えたりすると、ClaudeがChatGPTよりも逸脱する可能性があることを意味します。決定論的な出力(JSONフォーマットや特定のスタイルなど)に依存する開発者は、Claudeが余分なコメントを挿入したり、テンプレートに厳密に従わない場合にフラストレーションを感じることがあります。

  • コンテンツ制限と拒否: ChatGPTほど頻繁には批判されませんが、Claudeの安全フィルターも話題になります。Anthropicは、倫理的ガイドラインに従うAIを持つことに重点を置いてClaudeを設計しました。ユーザーは一般的にClaudeが幅広いトピックを議論することを認めていますが、ChatGPTが許可するかもしれないリクエストをClaudeが拒否する場合があります。たとえば、あるRedditユーザーは「ChatGPTは道徳的な制限が少ない…どの条件にどのガスマスクが適しているかを説明するが、Claudeは拒否する」と述べています。これは、Claudeが特定の「センシティブ」なアドバイス(おそらく潜在的に危険なガイダンスとして扱う)についてより厳格である可能性があることを示唆しています。別のユーザーは、遊び心のあるロールプレイシナリオ(「エイリアンに誘拐されたふりをする」)を試みましたが、Claudeは拒否し、GeminiとChatGPTは参加しました。したがって、Claudeにはユーザーがより許容的であると期待するフィルターがあります。

  • マルチモーダル機能の欠如: ChatGPT(2023年後半にはGPT-4 Visionで画像理解を獲得した)とは異なり、Claudeは現在テキストのみです。Redditユーザーは、Claudeが画像を分析したり、自分でウェブを直接閲覧したりできないことに注意しています。これは「痛点」ではありません(Anthropicはこれらの機能を宣伝していません)が、競合他社と比較した制限です。ダイアグラムやスクリーンショットを解釈するAIを望むユーザーは、Claudeを使用できませんが、ChatGPTやGeminiはそれを処理できるかもしれません。同様に、現在の情報を取得するには、Claudeをサードパーティツール(たとえば、Poeや検索エンジン統合)を介して使用する必要があります。Claudeには公式のブラウジングモードがないためです。

  • 軽微な安定性の問題: 一部のユーザーは、特定のプロンプトでClaudeが時折繰り返しやループに陥ることを報告しています(ただし、これは一部の小さなモデルよりも一般的ではありません)。また、Claudeの初期バージョンは時折応答を早期に終了したり、大量の出力に時間がかかることがあり、軽微な煩わしさと見なされることがありますが、Claude 2は速度が改善されました。

よくリクエストされる機能や改善

  • より高いまたは調整可能な使用制限: RedditのClaudeファンはしばしばAnthropicに会話制限を引き上げるよう求めています。彼らは100kコンテキストを最大限に活用したいと考えており、人工的な停止に達したくありません。一部のユーザーは、有料のClaude Proでさえ、大幅に多くのトークンを1日に許可するべきだと提案しています。他のユーザーは、「100k拡張モード」のオプションを提案しました – たとえば、「Claudeは2倍の使用制限で100kコンテキストモードを持つべきだ」 – おそらくサブスクリプションがヘビーユーザーのために拡張アクセスを提供するかもしれません。要するに、加入者のためにChatGPTの無制限(または高キャップ)使用に匹敵するプランに対する需要があります。

  • 長いコンテキストのナビゲーションの改善: 100kトークンを持つことは画期的ですが、ユーザーはClaudeがそのコンテキストをよりよく活用することを望んでいます。1つの改善点は、Claudeが情報を優先順位付けする方法を改善し、軌道を逸脱しないようにすることです。Anthropicは、プロンプトが巨大な場合にモデルのプロンプト遵守を改善することができます。Redditの議論は、ユーザーが「ピン留め」できるようにする技術を提案しています。入力の一部をセグメント化または要約するツールも、Claudeが大きな入力をより一貫して処理するのに役立ちます。要するに、ユーザーはClaudeに本全体をフィードする可能性を愛しています – 彼らはそれが鋭敏であり続けることを望んでいます。

  • プラグインやウェブブラウジング: 多くのChatGPTユーザーはプラグインに慣れており(たとえば、ブラウジング、コード実行など)、Claudeにも同様の拡張性を持つことを望んでいます。一般的なリクエストは、Claudeが公式のウェブ検索/ブラウジング機能を持ち、オンデマンドで最新情報を取得できるようにすることです。現在、Claudeの知識は主に静的です(2023年初頭までのトレーニングデータと一部の更新)。Claudeがウェブをクエリできれば、その制限が軽減されます。同様に、Claudeがサードパーティツール(計算機やデータベースコネクタなど)を使用できるプラグインシステムは、パワーユーザーにとってのユーティリティを拡大する可能性があります。これはClaudeが欠いている機能であり、RedditユーザーはChatGPTのプラグインエコシステムが特定のタスクで優位性を持っているとしばしば言及しています。

  • マルチモーダル入力(画像や音声): 一部のユーザーは、Claudeが画像入力をサポートしたり、画像を生成したりするかどうかを疑問に思っています。GoogleのGeminiやOpenAIのGPT-4はマルチモーダル機能を持っているため、競争力を維持するためにAnthropicがこれを探求することを期待しています。頻繁にリクエストされるのは、「Claudeに分析するためのPDFや画像をアップロードできますか?」 現在のところ答えはノーです(他の場所で画像をテキストに変換する回避策を除いて)。画像からテキスト(OCRと説明)への変換を許可するだけでも、多くの人がワンストップアシスタントを望んでいることを満たすでしょう。これは希望リストにありますが、2025年初頭の時点でAnthropicはこれに類似したものを発表していません。

  • 微調整やカスタマイズ: 高度なユーザーや企業は、Claudeを独自のデータで微調整したり、カスタムバージョンを取得したりできるかどうかを尋ねることがあります。OpenAIは一部のモデル(GPT-4ではまだですが、GPT-3.5では)に微調整を提供しています。Anthropicは以前にClaude 1.3の微調整インターフェースをリリースしましたが、Claude 2では広く宣伝されていません。Redditユーザーは、会社の知識や個人の書き方にClaudeをトレーニングできるかどうかを問い合わせています。これを行う簡単な方法(プロンプトインジェクションを毎回行う以外に)が非常に歓迎されるでしょう。Claudeを特定の知識ベースやペルソナを覚えるパーソナライズされたアシスタントに変えることができるかもしれません。

  • より広い利用可能性: 非米国ユーザーはしばしばClaudeが公式に彼らの国で開始されることをリクエストしています。カナダ、ヨーロッパ、インドなどからの投稿は、ClaudeのウェブサイトをVPNなしで使用できるようになる時期や、Claude APIがより広く開放される時期を尋ねています。Anthropicは慎重ですが、需要はグローバルです – 多くの人にとっての改善は単に「もっと多くの人が使用できるようにする」ことです。同社のアクセス拡大の段階的な進展はこれに部分的に対処しています。

不十分なニーズやユーザーセグメント

  • 国際的なユーザーベース: 前述のように、Claudeの主なユーザーベースは長い間地理的に制限されていました。これにより、多くの潜在的なユーザーが不十分なサービスを受けました。たとえば、Claudeの100kコンテキストに興味を持つドイツの開発者は、公式な使用方法がありませんでした。回避策は存在します(サードパーティプラットフォーム、またはVPN + サポートされている国での電話確認)が、これらの障壁により、国際的なカジュアルユーザーは事実上締め出されました。それに対して、ChatGPTはほとんどの国で利用可能です。そのため、非米国の英語話者、特に非英語話者は、Claudeの限定的な展開によって不十分なサービスを受けています。彼らは単にアクセスの問題でChatGPTやローカルモデルに依存しているかもしれません。

  • 厳密な出力フォーマットを必要とするユーザー: 前述のように、Claudeは時折応答に自由を取ります。非常に構造化された出力(アプリケーション用のJSONや特定のフォーマットに従う回答など)を必要とするユーザーは、ChatGPTよりもClaudeを信頼できないと感じるかもしれません。これらのユーザー – しばしばAIをシステムに統合する開発者 – は、Claudeが「厳密モード」を許可したり、指示に対する遵守を改善したりすれば、より良くサービスされる可能性があります。彼らは現在、そのようなタスクにはClaudeを避け、フォーマットをより厳密に守ることで知られているモデルを使用するかもしれません。

  • カジュアルなQ&Aユーザー(創造的なユーザーに対して): Claudeは創造的なタスクでしばしば称賛されます – 流れるような、人間らしいプローズや思慮深いエッセイを生成します。しかし、一部のユーザーは、単純な質問応答や事実のクエリに対して、Claudeが簡潔さが求められる場合に冗長な回答をすることに注意しています。ChatGPTとClaudeを比較したユーザーは、ChatGPTが簡潔で箇条書きにする傾向があるのに対し、Claudeはデフォルトでより物語的な回答をすることが多いと述べています。単に迅速な事実の回答を求めるユーザー(「Xの首都とその人口は?」)は、Claudeが少し間接的であると感じるかもしれません。これらのユーザーは、正確な検索や簡潔なモデルのようなものによってより良くサービスされるでしょう。Claudeは求められればそれを行うことができますが、そのスタイルは簡潔なQ&Aの期待に合わないかもしれません。このセグメントは他のツール(Bing ChatやGoogleなど)に移行する可能性があります。

  • 安全性が重要なユーザー: 逆に、非常に慎重に安全性を守る必要があるユーザー(たとえば、学生とAIを使用する教育者や、出力のリスクをゼロにしたい企業顧客)は、Claudeの整合性をプラスと見なすかもしれませんが、ChatGPTも非常に整合性があり、より多くの企業機能を持っているため、これらのユーザーは特にClaudeを選ぶことはないかもしれません。これは小さなセグメントですが、Claudeがまだ明確に捕らえていないと言えるかもしれません。彼らはClaudeの安全策を増やす簡単な方法や、その「思考の連鎖」を見る方法がない(Anthropicは内部的に憲法AIアプローチを持っていますが、エンドユーザーはその直接的なインターフェースを持っていません。Claudeの一般的に丁寧なトーンを除いて)。

  • 非英語話者(出力の質): Claudeは主に英語でトレーニングされました(ほとんどの大規模LLMと同様)。一部のユーザーは他の言語でテストしましたが、多くの言語で応答することができますが、質は異なる場合があります。たとえば、フランス語やヒンディー語で非常に微妙な回答を求めるユーザーがいる場合、Claudeの能力はChatGPTほど細かく調整されていない可能性があります(GPT-4は多言語パフォーマンスで強力であり、特定のベンチマークで他のモデルよりも高いことが多い)。主に英語以外の言語で会話するユーザーは、Claudeの流暢さや正確性がわずかに劣ると感じるかもしれません。このセグメントは、Anthropicが多言語トレーニングを優先事項として公に強調していないため、ある程度不十分にサービスされています。

ユーザータイプによる認識の違い

  • 開発者/技術ユーザー: Redditの開発者は、特にClaude 2 / Claude 3.5をコーディングタスクで称賛しています。2024年後半の認識の変化は注目に値します:多くの開発者がプログラミング支援においてClaudeをChatGPTよりも好むようになりました。彼らは*「コーディングにおいて驚異的」なパフォーマンスと、一度に大きなコードベースを処理できる能力を挙げています。たとえば、あるユーザーは「Claude Sonnet 3.5はコードで作業するのにChatGPTよりも優れている(分析、生成)」と書いています。開発者は、Claudeがプロジェクトコードやログの大部分を取り込み、一貫した分析や改善を生成できることを評価しています。これは巨大なコンテキストのおかげです。しかし、彼らはまたその癖にも気づいています – たとえば、時折会話のフラフを注入したり、仕様に厳密に従わないことがあります。バランスとして、多くの開発者はChatGPTとClaudeの両方を手元に置いています:1つは厳密なステップバイステップのロジック(ChatGPT)用、もう1つは広範なコンテキストと共感的な理解(Claude)用です。「1つを選ばなければならないならClaudeを選ぶ」*と述べたコメントは、日常的に2つを比較した後の非常に肯定的な認識を示しています。これは、特にブレインストーミング、コードレビュー、アーキテクチャの提案などのユースケースで、上級ユーザーの間で非常に肯定的な認識を示しています。開発者からの唯一の一般的な不満は、Claudeをハードに押すときに使用制限に達することです(たとえば、50Kトークンのプロンプトをフィードしてリポジトリ全体を分析する)。要するに、開発者はClaudeを非常に強力なツールと見なしています – 一部のケースではChatGPTよりも優れている – が、利用可能性とフォーマットの予測不可能性によってのみ制約されています。

  • カジュアル/非技術ユーザー: Claudeを試したカジュアルユーザーは、親しみやすく、明確であるとコメントすることが多いです。Claudeのスタイルは会話的で、丁寧で、詳細です。ChatGPTと比較した新しいユーザーは、「Claudeはより共感的で、会話のトーンに従う…ChatGPTは箇条書きにすることが多すぎる」と観察しました。この人間らしい温かさは、創造的な執筆、アドバイス、または情報を求めるためのチャットにClaudeを使用する人々にとって魅力的です。一部の人はClaudeを「性格」を持つ「思いやりのある」存在として擬人化さえしています。カジュアルユーザーはまた、Claudeの無料バージョンがサブスクリプションなしでGPT-4レベルの知性にアクセスできることを好んでいます(少なくともレート制限まで)。その一方で、カジュアルユーザーはClaudeが特定のトピックで拒否することに遭遇し、その理由を理解できないことがあります(Claudeは謝罪的にしかし断固として表現します)。カジュアルユーザーが境界線上の質問をしてClaudeから拒否された場合、彼らはそれを能力が低いまたは制約が多すぎると認識するかもしれませんが、それがポリシースタンスであることに気づいていないかもしれません。もう一つの側面は、Claudeが認知度を欠いていることです – 多くのカジュアルユーザーはAIコミュニティに関与していない限り、試してみることを知らないかもしれません。試してみた人は一般的に「人と話しているようだ」と感じることが多いです。彼らはClaudeの出力の質とトーンに非常に満足していますが、利用可能性(特定のアプリや地域で使用する必要がある)や時折の「できません」な瞬間に関する混乱やフラストレーションがあります。

  • ビジネス/プロフェッショナルユーザー: Claudeに対するビジネスの認識は、公開されたRedditからは少し把握しにくいですが、いくつかの傾向が浮かび上がります。まず、AnthropicはClaudeをよりプライバシー重視で企業契約に応じる姿勢を示しています – これはOpenAIに対するデータの懸念を抱える企業にアピールします。実際、Redditの議論では、ClaudeがSlackやNotionのようなツールでアシスタントとして統合されていることが言及されています。これらの統合を使用したプロフェッショナルは、Claudeがエンジンであることに気づかないかもしれませんが、気づいたときには、その書き方や長い企業文書を消化する能力を好意的に比較します。たとえば、チームが長い四半期報告書をClaudeにフィードし、適切な要約を得ることができる – ChatGPTの小さなコンテキストでは難しいことです。ただし、ビジネスユーザーは特定のエコシステム機能の欠如にも気づきます。たとえば、OpenAIはシステムメッセージの制御や関数呼び出しなどをAPIで提供していますが、Anthropicはそれに対するサポートが限られています。ビジネスソリューションを開発している開発者は、Claudeは会話でより操縦可能であるが、ChatGPTはより堅固である… [しかし] ChatGPTは非常に役立つウェブアクセスを持っていると述べています。これは、ビジネスユーザーが必要とする研究やデータ検索タスクにおいて、ChatGPTが直接情報を取得できるのに対し、Claudeは別のステップを必要とすることを示唆しています。全体として、ビジネスユーザーはClaudeを非常に有能なAIと見なしています – 特に内部分析タスクにおいて優れている場合がありますが、統合の面でまだ機能が豊富ではないかもしれません。コストも別の要因です:ClaudeのAPIの価格設定と条件はOpenAIほど公開されておらず、Redditの一部のスタートアップはClaudeの価格や安定性について不確実性を示しています。要するに、プロフェッショナルはClaudeの能力を尊重しています(特に高レベルの指示に従い、大きな入力を要約する信頼性において)が、統合、サポート、グローバルな利用可能性の面でどのように進化するかを注視しています。より確立されたChatGPTに完全に切り替える前に、まだClaudeを監視しています。


Google Gemini (Bard)

一般的な問題点と制限

  • 不正確または「愚かな」応答: GoogleがGemini搭載のBardアップグレードを開始したとき、Redditにフィードバックの洪水が現れ、その多くは否定的でした。ユーザーは、GeminiがChatGPTと比較して基本的なQAで劣っていると不満を述べました。「Google Geminiに関する100%正直な意見」と題された率直な評価では、*「壊れた、不正確なLLMチャットボット」と述べられました。別のフラストレーションを感じたユーザーは、「Geminiはまだどうしてこんなにひどいのか?何度もGeminiに何かを頼んで、間違った答えや不完全な答えを得るのは馬鹿げている」と尋ねました。彼らはChatGPT-4と並べて比較し、ChatGPTが「完璧で正確で効率的な答えを一度に与えた」*のに対し、Geminiは冗長で、満足のいく答えを得るために複数のプロンプトを必要としました。要するに、初期のユーザーは、Geminiが頻繁に幻覚を見たり、質問の要点を見逃したりし、正しい情報を引き出すために過剰なプロンプト努力を必要とすることを感じました。この品質の一貫性の欠如は、Geminiに対する期待が高かったため、大きな失望でした。

  • 過剰な冗長性と無駄: 多くのユーザーは、Gemini(新しいBardの形で)が要点に達しない長ったらしい回答を生成する傾向があると指摘しました。ある人は、*「それは冗長で…AIのゴミの3段落…それでも、最終的に答えが無駄な段落に埋もれている」*と説明しました。これは、ChatGPTが適切な場合により簡潔な回答や箇条書きを提供することと対照的です。冗長性は、ユーザーが単純な事実を求めるために大量のテキストをふるいにかける必要がある場合に痛点となります。Googleがそれを会話的または「役立つ」と調整した可能性があると推測する人もいますが、あまりにも多くの説明に過剰に調整されていると感じました。

  • Google自身のサービスとの統合の不十分さ: GoogleのAIアシスタントの売りの一つは、Googleのエコシステム(Gmail、Docs、Driveなど)との統合であるはずです。しかし、初期のユーザー体験はこの点で非常に失望しました。あるユーザーは、*「Googleの製品との統合が『機能』であるはずなのに、それができないことについては話さないでください。」と発言しました。たとえば、人々はGemini(Bard経由)にGoogleドキュメントを要約させたり、情報に基づいてメールを作成させたりしようとしましたが、ボットはそのデータにアクセスできないと応答しました。r/GooglePixelのあるユーザーは、「Google DocsやDriveと一緒にGeminiを使おうとするたびに、何もできないと言われます。これらの統合機能がある意味は何ですか?」*と書きました。これは、約束された機能と実際のパフォーマンスの間に大きなギャップがあり、ユーザーが「AIアシスタント」がGoogleのエコシステム内であまり役立たないと感じることを示しています。

  • 拒否と能力の混乱: ユーザーはGeminiからの奇妙な拒否や矛盾にも遭遇しました。同じRedditユーザーは、Geminiが*「理由なく物事を拒否し、他のことを忘れる…先日、インターネット/ライブデータにアクセスできないと言われました。何。」と述べました。これは、Geminiができるはずのタスクを拒否する(Bardが接続されているライブ情報の取得など)ことや、自分の能力について間違った発言をすることがあることを示しています。このような経験は、AIがあまりにも賢くなく、信頼性や自己認識が低いという印象を与えました。別のユーザーのカラフルなコメント:「Geminiは絶対にゴミです。『彼らは何を考えていたのか?』と手を挙げたくなる瞬間がある」とは、フラストレーションを要約しています。要するに、Geminiの製品統合と一貫性の問題は、多くの初期採用者にとって未完成*に感じられました。

  • 目立たないコーディング能力: 一般的なQ&Aほど広く議論されていませんが、いくつかのユーザーはGemini(Bard)をコーディングタスクでテストし、劣っていると感じました。AIフォーラムでは、Geminiのコーディング能力は通常、GPT-4やClaudeよりも低く評価されました。たとえば、あるユーザーは明確に述べました*「Claude 3.5 SonnetはChatGPT 4oよりもコーディングにおいて明らかに優れている…Geminiはその文脈で絶対にゴミです」*。コンセンサスは、Geminiが単純なコードを書いたり基本的なアルゴリズムを説明したりすることはできるが、より複雑な問題ではつまずいたり、エラーのあるコードを生成したりすることがあるというものでした。広範な開発者ツールセットの欠如(たとえば、コードインタープリターや堅牢な関数呼び出しの同等物がない)も、プログラマーにとって第一選択ではないことを意味しました。したがって、すべてのカジュアルユーザーがコードを気にするわけではありませんが、このセグメントにとっては制限です。

  • モバイルデバイスの制限: GeminiはGoogleのAssistantの一部としてPixel電話で展開されました(「Assistant with Bard」としてブランド化)。一部のPixelユーザーは、音声アシスタントの代替として使用する際に問題があると指摘しました。古いGoogle Assistantと比較して、音声プロンプトを正確に拾わなかったり、応答に時間がかかったりすることがありました。また、参加するためにオプトインし、一部の古典的なアシスタント機能を失う必要があるというコメントもありました。これにより、Geminiのデバイス統合が完全に準備されていないという認識が生まれ、Googleのエコシステムのパワーユーザーがスマートアシスタントと機能的なアシスタントの間で選択しなければならないと感じることになりました。

よくリクエストされる機能や改善

  • 劇的な精度と推論の改善: ユーザーがGeminiに求める最大の改善は、単により賢く、より信頼性のあるものになることです。Redditのフィードバックは、Googleが回答の質のギャップを埋める必要があることを明確に示しています。ユーザーは、GeminiがGoogleの広範な情報アクセスを活用して事実に基づいた直接的な回答を提供することを期待していますが、冗長で不正確なものではありません。したがって、リクエストは(しばしば皮肉を込めて表現されますが)要するに:一般的な知識と推論においてGPT-4と同等かそれ以上にすることです。これには、フォローアップ質問や複雑なプロンプトの処理が含まれます。要するに、Geminiの「脳を修正する」こと – その多様なマルチモーダルトレーニングの利点を活用して明らかな詳細を見逃さないようにすることです。Googleはこれを明確に聞いている可能性があります:多くの投稿がChatGPTが優れた回答を提供し、Geminiが失敗した特定の回答を比較しており、これは改善のための非公式なバグレポートとして機能します。

  • より良い統合とコンテキストの認識: ユーザーは、GeminiがシームレスなGoogleエコシステムのヘルパーの約束を果たすことを望んでいます。つまり、Gmail、カレンダー、Docs、Driveなどと適切にインターフェースすることです。ユーザーが「開いた文書を要約して」や「上司からの最後のメールに返信を作成して」と頼んだ場合、AIはそれを行うべきであり、安全に行うべきです。現在のリクエストは、Googleがこれらの機能を有効にし、Geminiがそのようなタスクが可能であることを実際に認識することです。Bardがユーザーコンテンツに接続できると広告されていたので、ユーザーは実質的にGoogleにこの統合を「オンにする」または修正することを要求しています。これは特にビジネスユーザーにとって重要な機能です。さらに、ウェブブラウジングの面では:Bard(Gemini)はウェブを検索できますが、一部のユーザーは情報源をより明確に引用したり、最新ニュースをよりタイムリーに取り入れたりすることを望んでいます。したがって、Geminiの接続された性質を改善することが頻繁に求められています。

  • 簡潔さのコントロール: 冗長性の苦情を受けて、一部のユーザーは応答スタイルを切り替える機能を提案しています。たとえば、*「簡潔モード」*では、Geminiがデフォルトで短く要点を押さえた回答を提供し、詳細を求められた場合にのみ詳述するようにします。逆に、非常に詳細な回答を求める人のための「詳細モード」も考えられます。ChatGPTはユーザープロンプト(「簡潔にして」)によってこれを暗黙的に許可していますが、Geminiではユーザーが詳細を求めていないときでも過剰に説明することを感じました。したがって、組み込みの設定や適切な場合に簡潔な回答を生成するための調整が歓迎される改善となるでしょう。要するに、冗長性のダイヤルを調整します。

  • ChatGPTとの機能の均等化(コーディング、プラグインなど): Redditのパワーユーザーは機能を明示的に比較します。彼らは、GoogleのGemini/Bardがコード実行サンドボックス(ChatGPTのコードインタープリターに似たもの)、画像/PDFのアップロード分析(Geminiがマルチモーダルであるため、ユーザーは実際にカスタム画像をフィードしたいと考えています。提供されたものを説明するだけでなく)を提供することを求めています。もう一つ頻繁に言及される機能は、会話内のメモリの向上です – Bardには過去のやり取りの一部のメモリがありますが、ユーザーはそれがChatGPTと同じくらい良いことを望んでいます。あるいは、ChatGPTのチャット履歴のような持続的な会話ストレージを持ち、スクロールして再訪できるようにしたいと考えています。要するに、GoogleはChatGPT Plusユーザーが持っているすべての生活の質の向上に追いつくように求められています:チャット履歴、プラグインエコシステム(または少なくとも強力なサードパーティ統合)、コーディング支援など。

  • モバイルアプリと音声の改善: 多くのカジュアルユーザーは、Bard/Geminiの専用モバイルアプリ(ChatGPTモバイルアプリに似たもの)を求めています。ウェブインターフェースやPixel Assistantだけに依存するのは制限があります。iOS/Android全体で公式アプリを提供し、音声入力、音声応答(真のアシスタント感を提供)、緊密な統合を行うことで、ユーザーエクスペリエンスが大幅に向上する可能性があります。それに加えて、Pixel所有者はAssistant with Bardがより速く、より機能的になることを望んでいます – 基本的に、彼らは古いGoogle Assistantの最高の機能(迅速で正確なアクション)とGeminiの知性を組み合わせたいと考えています。たとえば、「Hey Google」スマートホーム音声コマンドを引き続き許可し、チャット応答だけでなくすることです。GoogleはGeminiの音声モードを改善し、レガシーアシスタントを機能の後退なしに真に置き換えることができます。

  • 透明性とコントロール: 一部のユーザーはBardの情報源への洞察やスタイルを微調整する方法を求めています。たとえば、BardがどのGoogle結果から情報を引き出しているかを示す(正確性を確認するため) – Bing Chatがリンクを引用するように。さらに、Bardが時折誤った情報を生成するため、ユーザーはそれをフラグ付けしたり修正したりすることを望んでおり、理想的にはBardがそのフィードバックから時間とともに学習することを望んでいます。AIをブラックボックスではなく協力的なアシスタントにするための機能を基本的に求めています。

不十分なニーズやユーザーセグメント

  • 信頼できるパーソナルアシスタントを求めるユーザー: 皮肉なことに、Googleがターゲットにしたグループ – 強力なパーソナルアシスタントを望む人々 – は、現在の形でGeminiによって最も不十分なサービスを受けています。新しいBardベースのアシスタントを切り替えた初期採用者は、アップグレードを期待していましたが、多くは実際的な観点でダウングレードと感じました。たとえば、誰かが音声アシスタントに正確にトリビアに答え、リマインダーを設定し、デバイスを制御し、アカウントから情報を統合することを望む場合、Geminiは苦労しました。これにより、アシスタントを生産性のために頼りにしている非常に忙しいプロフェッショナルやガジェット愛好家のセグメントが、彼らのニーズが満たされていないと感じました。あるユーザーは、Pixelの「Assistant with Bard」に*「Google Assistantを超えた場合に支払うことを検討する」*とコメントし、それがまだ達成されていないことを示唆しています。そのため、このセグメントはまだ信頼できる、本当に役立つAIアシスタントを待っています – 改善されれば飛びつくでしょう。

  • 非ネイティブ英語話者/ローカライゼーション: Google製品は通常、優れたローカライゼーションを持っていますが、Bard/Geminiがすべての言語で同様に強力であったかどうかは不明です。一部の国際ユーザーは、Bardの回答が母国語であまり流暢でないか、役に立たないと報告し、地元の競合他社に戻りました。Geminiのトレーニングデータや最適化が英語を優先していた場合、非英語ユーザーは不十分なサービスを受けています。彼らはChatGPTや地元のモデルを好むかもしれませんが、それらは多言語機能を明示的に最適化しています。これはGoogleが伝統的に優れている分野です(翻訳技術を考慮すると)、しかしその点でのユーザーフィードバックは乏しいです – おそらくGeminiがこれらのコミュニティをまだ驚かせていないことを示しています。

  • 企業顧客(これまでのところ): 大規模な組織はBard/Geminiを広く採用していないようです(公開されたチャットから判断すると)、しばしば信頼と能力のギャップのためです。企業は一貫性、引用、ワークフローへの統合を必要としています(Office 365はMS Copilotを介してOpenAIの技術と深く統合されています)。Googleの同等物(Geminiを搭載したDuet AI)はまだ進化しています。Gemini/Bardが信頼性を持ってメールを作成し、スライドデッキを作成し、Google Sheetsのデータを分析できることを証明するまで、企業ユーザーはGoogleのソリューションが完全にニーズを満たしていないと感じるでしょう。r/Bardのプロフェッショナルからの投稿のいくつかは、「Bardを仕事のタスクで試したが、ChatGPTほど良くなかったので、様子を見ることにした」というものでした。これは企業ユーザーが現在不十分なセグメントであることを示しています – 彼らはGoogle Workspaceに統合され、生産性を実際に向上させるAIを求めていますが、出力を常に検証する必要がないものを求めています。

  • Googleエコシステム内のワンストップソリューションを好むユーザー: Googleをすべてに使用するユーザーのセグメントがあり(検索、メール、ドキュメント)、もしそれが同等であれば、すべてのチャットボットニーズにGoogle AIを喜んで使用します。現在、これらのユーザーはある程度不十分なサービスを受けています。なぜなら、特定のことにはChatGPTを使用し、他のことにはBardを使用するからです。彼らは事実の質問をChatGPTに尋ねるかもしれませんが、それは回答の質をより信頼しているからです。しかし、Bardはそのブラウジングや統合の試みのために使用します。その分割された体験は理想的ではありません。Geminiが改善されれば、彼らはそれに集中するでしょうが、それまでは「すべてを支配する1つのアシスタント」という彼らのユースケースは満たされていません。

  • Google Cloudの開発者/データサイエンティスト: GoogleはVertex AIプラットフォームを介して開発者向けにGeminiモデルをリリースしました。しかし、初期の報告とベンチマークは、Gemini(特に利用可能な「Gemini Pro」モデル)がGPT-4を打ち負かしていないことを示唆しました。AIサービスにGoogle Cloudを好む開発者は、モデルの質が劣っているか、OpenAIのAPIを別途統合する必要があるため、ある程度不十分なサービスを受けています。この企業開発者セグメントは、すべてを1つのスタックに保持できる強力なGoogleモデルを求めています。Geminiのパフォーマンスが明確に優れているか、価格設定が説得力のある理由を提供するまで、このグループのニーズを競争的に完全に満たしているわけではありません。

ユーザータイプによる認識の違い

  • 開発者/技術愛好家: 技術に精通したユーザーは、Geminiに高い期待を持ってアプローチしました(何しろGoogleです)。彼らの認識は、ハンズオンテストの後にすぐに悪化しました。多くの開発者はRedditでベンチマークを実行したり、彼らの好きな難しい質問をGeminiに通したりして、遅れていることを発見しました。あるプログラマーは率直に述べました、「GeminiはLlama 3.0がかつてそうだったように絶対にゴミです」、それが一部のオープンモデルよりも低くランク付けされていることを示しています。開発者は特に論理エラーと冗長性に敏感です。したがって、Geminiが冗長で不正確な回答をしたとき、それはすぐに信頼を失いました。しかし、開発者はGoogleの可能性を認識しています。いくつかは*「より多くの微調整で、Geminiは良くなるだろう」*と期待し、更新後に定期的に再テストします。しかし、現時点では、ほとんどの開発者はGeminiをGPT-4よりも劣っていると見なしています(コーディング、複雑な問題解決などのほぼすべての真剣なタスクで)。彼らは特定のことを評価しています:たとえば、Geminiはプラグインを必要とせずにリアルタイム情報