주 콘텐츠로 건너뛰기

"Google Gemini" 태그가 붙은 하나의 게시물

모든 태그 보기

주요 LLM 채팅 도구에 대한 Reddit 사용자 피드백

· 1분 읽기
Lark Birdy
Chief Bird Officer

개요: 이 보고서는 네 가지 인기 있는 AI 채팅 도구 – OpenAI의 ChatGPT, Anthropic의 Claude, Google의 Gemini (Bard), 오픈 소스 LLMs (예: LLaMA 기반 모델) – 에 대한 Reddit 토론을 분석합니다. 각 도구에 대해 사용자가 보고한 일반적인 문제점, 가장 자주 요청하는 기능, 충족되지 않은 요구 또는 소외된 사용자 세그먼트, 개발자, 일반 사용자, 비즈니스 사용자 간의 인식 차이를 요약합니다. 이러한 점을 설명하기 위해 Reddit 스레드의 구체적인 예와 인용문이 포함되어 있습니다.

주요 LLM 채팅 도구에 대한 Reddit 사용자 피드백

ChatGPT (OpenAI)

일반적인 문제점 및 제한 사항

  • 제한된 컨텍스트 메모리: 가장 큰 불만 사항은 ChatGPT가 긴 대화나 대용량 문서를 처리할 수 없다는 것입니다. 사용자는 자주 컨텍스트 길이 제한(몇 천 개의 토큰)을 초과하여 정보를 잘라내거나 요약해야 합니다. 한 사용자는 *“컨텍스트 창의 크기를 늘리는 것이 가장 큰 개선 사항이 될 것입니다… 이것이 제가 가장 자주 부딪히는 한계입니다”*라고 언급했습니다. 컨텍스트가 초과되면 ChatGPT는 초기 지침이나 내용을 잊어버려 세션 중간에 품질이 떨어지는 경우가 발생합니다.

  • GPT-4의 메시지 제한: ChatGPT Plus 사용자들은 GPT-4 사용에 대한 25개 메시지/3시간 제한(2023년에 존재하는 제한)을 아쉬워합니다. 이 제한에 도달하면 작업이 중단되며, 빈번한 사용자들은 이 제한이 큰 문제라고 느낍니다.

  • 엄격한 콘텐츠 필터(“nerfs”): 많은 Reddit 사용자들은 ChatGPT가 지나치게 제한적이 되어 이전 버전에서 처리했던 요청을 거부한다고 느낍니다. 한 사용자는 *“요즘에는 거의 모든 요청이 ‘죄송합니다, 도와드릴 수 없습니다’라는 응답을 받습니다… 어떻게 이렇게 유용한 도구가 Google Assistant와 동등한 수준이 되었나요?”*라고 불평했습니다. 사용자는 ChatGPT가 가상의 오용 때문에 자신의 텍스트(예: 로그인 자격 증명)를 재구성하는 것을 거부하는 예를 들었습니다. 유료 구독자는 *“사용자가 ‘나쁜’ 일을 할 수 있다는 막연한 개념이 결과를 표시하지 않는 이유가 되어서는 안 된다”*고 주장합니다. 그들은 모델의 출력을 원하며 책임 있게 사용할 것입니다.

  • 환각 및 오류: 고급 기능에도 불구하고 ChatGPT는 자신 있게 잘못된 정보나 허구의 정보를 생성할 수 있습니다. 일부 사용자는 시간이 지남에 따라 이 문제가 악화되었다고 관찰했으며, 모델이 “둔화되었다”고 의심합니다. 예를 들어, 금융 분야의 한 사용자는 ChatGPT가 NPV나 IRR과 같은 지표를 올바르게 계산했지만 업데이트 후 *“너무 많은 잘못된 답변을 받고 있습니다… 수정 후에도 여전히 잘못된 답변을 제공합니다. 변경 이후로 훨씬 더 둔해졌다고 믿습니다.”*라고 말했습니다. 이러한 예측할 수 없는 부정확성은 사실적 정확성이 필요한 작업에 대한 신뢰를 저하시킵니다.

  • 불완전한 코드 출력: 개발자들은 종종 코딩 도움을 위해 ChatGPT를 사용하지만, 솔루션의 일부를 생략하거나 긴 코드를 잘라내는 경우가 있다고 보고합니다. 한 사용자는 ChatGPT가 이제 *“코드를 생략하고, 도움이 되지 않는 코드를 생성하며, 내가 필요한 작업에 대해 형편없다… 너무 많은 코드를 생략하여 솔루션을 통합하는 방법조차 모른다.”*라고 공유했습니다. 이는 사용자가 나머지를 유도하기 위해 후속 프롬프트를 요청하거나 수동으로 답변을 연결해야 하는 번거로운 과정을 강요합니다.

  • 성능 및 가동 시간 문제: ChatGPT의 성능이 기업 사용이 증가함에 따라 개별 사용자에게 저하되었다는 인식이 있습니다. 한 실망한 Plus 구독자는 *“그들이 대역폭과 처리 능력을 기업에 할당하고 사용자로부터 이를 빼앗고 있다고 생각합니다. 구독 비용을 고려할 때 참을 수 없습니다!”*라고 의견을 밝혔습니다. 피크 시간 동안의 중단이나 속도 저하가 일화적으로 언급되었으며, 이는 워크플로를 방해할 수 있습니다.

자주 요청되는 기능 또는 개선 사항

  • 긴 컨텍스트 창 / 메모리: 가장 많이 요청되는 개선 사항은 더 큰 컨텍스트 길이입니다. 사용자는 훨씬 더 긴 대화를 하거나 대용량 문서를 리셋 없이 제공하기를 원합니다. 많은 사용자가 ChatGPT의 컨텍스트를 GPT-4의 32K 토큰 기능(현재 API를 통해 사용 가능) 또는 그 이상으로 확장할 것을 제안합니다. 한 사용자는 *“GPT는 컨텍스트와 함께 가장 잘 작동하며, 초기 컨텍스트를 기억하지 못할 때 좌절감을 느낍니다… PDF 컨텍스트에 대한 소문이 사실이라면, 기본적으로 모든 문제가 해결될 것입니다.”*라고 말했습니다. 문서를 업로드하거나 개인 데이터를 연결하여 ChatGPT가 세션 내내 이를 기억하고 참조할 수 있는 기능에 대한 높은 수요가 있습니다.

  • 파일 처리 및 통합: 사용자는 ChatGPT에 파일이나 데이터를 쉽게 제공할 수 있는 방법을 자주 요청합니다. 토론에서 사람들은 *“Google Drive를 복사하여 붙여넣고 작동하게 하고 싶다”*거나 ChatGPT가 개인 파일에서 직접 컨텍스트를 가져올 수 있는 플러그인을 원한다고 언급합니다. 일부 사용자는 PDF 리더 플러그인이나 Google Docs 연결과 같은 해결책을 시도했지만, 오류와 제한에 대해 불평했습니다. 한 사용자는 이상적인 플러그인을 *“개인 파일에 대한 Link Reader처럼 작동하며… 대화에서 내 드라이브의 어떤 부분을 사용할지 선택할 수 있는 것… 그것이 현재 GPT-4와 관련된 모든 문제를 해결할 것입니다.”*라고 설명했습니다. 요컨대, 외부 지식(훈련 데이터 외부)에 대한 더 나은 기본 지원은 인기 있는 요청입니다.

  • 유료 사용자에 대한 제한 완화: 많은 Plus 사용자가 GPT-4 메시지 제한에 도달하기 때문에 더 높은 제한이나 무제한 액세스를 위한 추가 요금 옵션을 요구합니다. 25개 메시지 제한은 임의적이며 집중적인 사용을 방해하는 것으로 간주됩니다. 사람들은 긴 문제 해결 세션이 중단되지 않도록 사용 기반 모델이나 더 높은 제한을 선호합니다.

  • “검열 해제” 또는 사용자 정의 모더레이션 모드: 일부 사용자는 콘텐츠 필터의 엄격성을 조정할 수 있는 기능을 원합니다, 특히 ChatGPT를 개인적으로 사용할 때(공개 콘텐츠가 아닌 경우). 그들은 “연구” 또는 “검열 해제” 모드 – 경고는 있지만 강제 거부는 없는 – 가 더 자유롭게 탐색할 수 있게 해줄 것이라고 생각합니다. 한 사용자가 언급했듯이, 유료 고객은 이를 도구로 보고 *“[그것]에 돈을 지불합니다.”*라고 믿습니다. 그들은 경계선 쿼리에 대해서도 답변을 얻을 수 있는 옵션을 원합니다. OpenAI는 안전을 균형 있게 유지해야 하지만, 이러한 사용자는 개인 채팅에서 정책을 완화할 수 있는 플래그나 설정을 제안합니다.

  • 개선된 사실적 정확성 및 업데이트: 사용자는 더 최신의 지식과 환각 감소를 자주 요청합니다. ChatGPT의 지식 컷오프(이전 버전의 경우 2021년 9월)는 Reddit에서 자주 제기된 제한 사항이었습니다. OpenAI는 이후 브라우징 및 플러그인을 도입했으며, 일부 사용자는 이를 활용하지만, 다른 사용자는 기본 모델이 새로운 데이터로 더 자주 업데이트되기를 단순히 요청합니다. 특히 수학 및 코딩과 같은 도메인에서 명백한 오류를 줄이는 것은 지속적인 바람입니다. 일부 개발자는 ChatGPT가 오류를 범할 때 피드백을 제공하여 모델 개선을 희망합니다.

  • 더 나은 코드 출력 및 도구: 개발자는 콘텐츠를 생략하지 않는 개선된 코드 인터프리터와 IDE 또는 버전 제어와의 통합과 같은 기능을 요청합니다. (OpenAI의 코드 인터프리터 플러그인 – 이제 “고급 데이터 분석”의 일부 – 는 이 방향으로의 한 걸음이었으며 칭찬을 받았습니다.) 여전히, 사용자는 코드 생성에서 더 세밀한 제어를 자주 요청합니다: 예를 들어, 길더라도 완전하고 필터링되지 않은 코드를 출력하는 옵션 또는 AI가 오류를 범했을 때 쉽게 코드를 수정할 수 있는 메커니즘. 기본적으로, 그들은 ChatGPT가 여러 프롬프트 없이도 신뢰할 수 있는 코딩 도우미처럼 행동하기를 원합니다.

  • 지속적인 사용자 프로필 또는 메모리: 또 다른 개선 사항으로 일부 사용자는 ChatGPT가 세션 간에 사용자에 대한 정보를 기억할 수 있도록 하는 것을 언급합니다(동의 하에). 예를 들어, 사용자의 글쓰기 스타일을 기억하거나 소프트웨어 엔지니어라는 사실을 기억하여 새로운 채팅마다 이를 반복하지 않아도 되도록 하는 것입니다. 이는 API 미세 조정 또는 “프로필” 기능과 연결될 수 있습니다. 사용자는 현재 중요한 컨텍스트를 새로운 채팅에 수동으로 복사하므로 개인 선호도를 위한 내장 메모리는 시간을 절약할 수 있습니다.

충족되지 않은 요구 또는 사용자 세그먼트

  • 긴 문서를 가진 연구자 및 학생: ChatGPT가 긴 연구 논문, 책, 대규모 데이터 세트를 분석하기를 원하는 사람들은 충족되지 않는다고 느낍니다. 현재 제한으로 인해 텍스트를 잘라내거나 요약에 만족해야 합니다. 이 세그먼트는 더 큰 컨텍스트 창이나 긴 문서를 처리할 수 있는 기능이 크게 도움이 될 것입니다(토큰 제한을 우회하려는 수많은 게시물에서 증명됨).

  • 제한을 초과하는 창의적 스토리텔링 또는 롤플레이를 원하는 사용자: ChatGPT는 종종 창의적인 글쓰기에 사용되지만, 일부 스토리텔러는 모델이 긴 이야기에서 초기 플롯 포인트를 잊어버리거나 성인/공포 콘텐츠를 거부한다고 느낍니다. 그들은 대체 모델이나 해킹을 통해 이야기를 계속합니다. 이러한 창의적인 사용자는 ChatGPT의 더 긴 메모리와 허구의 폭력이나 성숙한 주제에 대한 약간의 유연성을 가진 버전으로 더 잘 서비스될 것입니다(합리적인 범위 내에서). 한 소설 작가는 AI가 이야기를 잃어버리면 *“정확한 형식이나 컨텍스트를 상기시켜야 합니다… 두 프롬프트 전에는 훌륭했지만 이제는 AI를 따라잡아야 한다는 사실에 좌절합니다.”*라고 말했습니다.

  • 전문 사용자 및 도메인 전문가: 특정 분야(예: 금융, 공학, 의학)의 전문가들은 때때로 ChatGPT의 답변이 도메인 내에서 깊이 또는 정확성이 부족하다고 느낍니다, 특히 질문이 최근 개발과 관련된 경우. 이러한 사용자는 더 신뢰할 수 있는 전문가 지식을 원합니다. 일부는 API를 통해 미세 조정을 시도하거나 사용자 정의 GPT를 사용했습니다. 미세 조정을 할 수 없는 사람들은 ChatGPT의 도메인별 버전이나 신뢰할 수 있는 데이터베이스를 내장한 플러그인을 원합니다. 기본 형태의 ChatGPT는 매우 정확하고 분야별 정보가 필요한 사용자를 충분히 지원하지 못할 수 있습니다(종종 작업을 이중 확인해야 함).

  • 검열되지 않은 콘텐츠 또는 엣지 케이스 콘텐츠가 필요한 사용자: 소수의 사용자(보안 시나리오를 테스트하는 해커, 극단적인 소설을 쓰는 작가 등)는 ChatGPT의 콘텐츠 제한이 그들의 요구에 비해 너무 제한적이라고 느낍니다. 그들은 현재 공식 제품에 의해 충분히 지원되지 않습니다(특정 콘텐츠를 명시적으로 피하기 때문). 이러한 사용자는 원하는 응답을 얻기 위해 탈옥 프롬프트를 실험하거나 오픈 소스 모델을 사용합니다. 이는 OpenAI의 고의적인 간극입니다(안전을 유지하기 위해), 그러나 이러한 사용자는 다른 곳을 찾게 됩니다.

  • 개인 정보 보호를 중시하는 개인 및 기업: 일부 사용자(특히 기업 환경에서)는 개인 정보 보호 문제로 인해 ChatGPT에 민감한 데이터를 보내는 것을 꺼립니다. OpenAI는 API 데이터를 훈련에 사용하지 않는 정책을 가지고 있지만, ChatGPT 웹 UI는 역사적으로 그러한 보장을 제공하지 않았습니다(옵트아웃 기능이 추가되기 전까지). 기밀 데이터를 처리하는 회사(법률, 의료 등)는 종종 ChatGPT를 완전히 활용할 수 없다고 느끼며, 자체 호스팅 솔루션을 구축하지 않으면 요구가 충족되지 않습니다. 예를 들어, 한 Reddit 사용자는 회사가 개인 정보 보호 문제로 인해 로컬 LLM으로 전환했다고 언급했습니다. ChatGPT의 온프레미스 또는 개인 인스턴스가 제공될 때까지 이 세그먼트는 신중하거나 더 작은 전문 공급업체를 사용합니다.

사용자 유형별 인식 차이

  • 개발자/기술 사용자: 개발자는 ChatGPT의 가장 큰 옹호자이자 가장 가혹한 비평가 중 일부입니다. 그들은 코드 설명, 보일러플레이트 생성, 디버깅 지원을 좋아합니다. 그러나 그들은 긴 컨텍스트와 코드 정확성의 한계를 예리하게 느낍니다. 한 개발자는 ChatGPT가 “도움이 되지 않는 코드를 생성하고” 중요한 부분을 생략하기 시작했다고 불평하며, *“짜증이 납니다… ‘게으르지 마세요’라고 말하고 싶지 않습니다 – 전체 결과를 원합니다”*라고 말했습니다. 개발자는 모델 업데이트 후 품질의 미묘한 변화조차도 자주 인식하며, 코딩 능력의 “nerfs” 또는 저하에 대한 인식을 Reddit에서 매우 목소리 높여 비판했습니다. 그들은 또한 한계를 밀어붙입니다(복잡한 프롬프트를 구축하고 도구를 연결함), 따라서 확장된 컨텍스트, 더 적은 메시지 제한, 코딩 도구와의 더 나은 통합과 같은 기능을 갈망합니다. 요약하면, 개발자는 ChatGPT가 일상적인 작업을 가속화하는 데 가치를 두지만, 논리나 코드의 오류를 지적하는 데 빠릅니다 – 그들은 여전히 감독이 필요한 주니어 도우미로 봅니다.

  • 일반/일상 사용자: 더 일반적인 사용자 – 일반 지식, 조언, 재미를 요청하는 사람들 – 는 종종 ChatGPT의 능력에 감탄하지만, 그들만의 불만도 있습니다. 일반 사용자 불만의 공통점은 ChatGPT가 그들에게 무해해 보이는 요청을 거부할 때입니다(정책 규칙을 트리거했을 가능성이 큼). 한 스레드의 원래 포스터는 *“문제가 없어야 할 프롬프트를 작성했는데 이제는 거부한다”*며 *“너무 화가 난다”*고 말했습니다. 일반 사용자는 또한 지식 컷오프에 부딪힐 수 있습니다(봇이 매우 최신 이벤트를 처리할 수 없음을 발견함) 및 때때로 ChatGPT가 명백히 잘못된 답변을 제공할 때 이를 인식합니다. 개발자와 달리, 그들은 항상 AI를 이중 확인하지 않을 수 있으며, 실수에 따라 행동하면 실망할 수 있습니다. 긍정적인 측면에서, 많은 일반 사용자는 ChatGPT Plus의 더 빠른 응답과 GPT-4의 개선된 출력을 월 $20의 가치로 봅니다 – “거부” 문제나 다른 제한이 경험을 망치지 않는 한. 그들은 일반적으로 도움이 되는 만능 도우미를 원하며, ChatGPT가 정책 성명을 응답하거나 간단한 답변을 얻기 위해 복잡한 프롬프트가 필요할 때 좌절할 수 있습니다.

  • 비즈니스/전문 사용자: 비즈니스 사용자는 종종 생산성과 신뢰성 관점에서 ChatGPT에 접근합니다. 그들은 이메일 초안 작성, 문서 요약, 아이디어 생성의 빠름을 높이 평가합니다. 그러나 그들은 데이터 보안, 일관성, 워크플로에의 통합에 대해 우려합니다. Reddit에서 전문가들은 ChatGPT를 Outlook, Google Docs와 같은 도구에 통합하거나 내부 시스템의 API로 사용하고 싶다고 논의했습니다. 일부는 OpenAI가 기업 고객을 대상으로 전환함에 따라 제품의 초점이 이동하는 것 같다고 언급했습니다: 무료 또는 개별 사용자 경험이 약간 저하된 느낌이 듭니다(예: 더 느리거나 “덜 스마트함”) 회사가 더 큰 고객을 대상으로 확장하면서. 사실 여부와 관계없이, 이는 인식을 강조합니다: 비즈니스 사용자는 신뢰성과 우선 서비스를 원하며, 개별 사용자는 이제 2급 시민이 된 것 같다고 걱정합니다. 또한, 전문가는 올바른 출력을 필요로 합니다 – 화려하지만 잘못된 답변은 답변이 없는 것보다 더 나쁠 수 있습니다. 따라서 이 세그먼트는 정확성에 민감합니다. 그들에게는 더 긴 컨텍스트(계약 읽기, 코드베이스 분석) 및 보장된 가동 시간이 중요합니다. 그들은 컴플라이언스 및 개인 정보 보호 요구 사항이 충족된다면 더 높은 서비스 수준에 대해 더 많은 비용을 지불할 가능성이 있습니다. 일부 기업은 심지어 온프레미스 배포를 탐색하거나 OpenAI의 API를 엄격한 데이터 처리 규칙과 함께 사용하여 IT 정책을 충족시킵니다.


Claude (Anthropic)

일반적인 문제점 및 제한 사항

  • 사용 제한 및 접근 제한: Claude는 강력한 모델(Claude 2)을 무료로 제공하여 찬사를 받았지만, 사용자들은 곧 사용 제한(특히 무료 티어에서)을 경험했습니다. 일정 수의 프롬프트나 대량의 텍스트 후에 Claude는 *“죄송합니다, 지금은 이 대화를 종료해야 합니다. 나중에 다시 오세요.”*라는 메시지를 표시하며 중단될 수 있습니다. 이 제한은 Claude를 확장된 코딩 또는 글쓰기 파트너로 사용하는 사용자에게 좌절감을 줍니다. Claude Pro(유료) 사용자조차도 “무제한 시간이 보장되지 않습니다”, 한 사용자가 언급했듯이; 할당량에 도달하면 여전히 “나중에 다시 오세요” 메시지가 표시됩니다. 또한, Claude는 오랫동안 공식적으로 지리적으로 제한되었습니다(처음에는 미국/영국에서만 사용 가능). Reddit의 국제 사용자는 VPN이나 타사 플랫폼을 사용하여 접근해야 했으며, 이는 불편함을 초래했습니다. 이는 많은 비미국 사용자가 접근이 확대될 때까지 소외감을 느끼게 했습니다.

  • 매우 큰 입력에서 벗어나는 경향: Claude의 주요 기능은 100k 토큰 컨텍스트 창으로, 매우 긴 프롬프트를 허용합니다. 그러나 일부 사용자는 수만 개의 토큰을 Claude에 입력하면 응답이 덜 집중될 수 있다고 관찰했습니다. *“100k는 매우 유용하지만 지시를 제대로 따르지 않고 벗어나면 그다지 유용하지 않습니다,”*라고 한 사용자가 관찰했습니다. 이는 거대한 컨텍스트를 사용하면 Claude가 벗어나거나 횡설수설하기 시작할 수 있음을 시사하며, 주의 깊은 프롬프트가 필요합니다. 이는 컨텍스트를 극단적으로 밀어붙이는 것에 내재된 제한입니다 – 모델은 많은 것을 유지하지만 때로는 가장 관련 있는 세부 사항을 “잊어버려” 사소한 환각이나 주제에서 벗어난 이야기가 발생할 수 있습니다.

  • 지시나 명령에 대한 일관성 없는 형식: 나란히 비교했을 때, 일부 사용자는 Claude가 특정 지시를 따르는 방식에서 덜 예측 가능하다고 발견했습니다. 예를 들어, Claude는 *“상호작용에서 더 인간적입니다. 그러나 시스템 메시지를 덜 엄격하게 따릅니다.”*라고 설명됩니다. 이는 고정된 형식을 따르거나 매우 엄격한 페르소나를 부여할 때 Claude가 ChatGPT보다 더 벗어날 수 있음을 의미합니다. 결정론적 출력을 의존하는 개발자(예: JSON 형식이나 특정 스타일)는 Claude가 추가적인 설명을 도입하거나 템플릿을 엄격하게 따르지 않을 때 좌절할 수 있습니다.

  • 콘텐츠 제한 및 거부: ChatGPT만큼 자주 비판받지는 않지만, Claude의 안전 필터도 언급됩니다. Anthropic은 Claude를 윤리적 지침을 따르는 헌법적 AI(스스로 윤리적 지침을 따르는 AI)로 설계했습니다. 사용자는 일반적으로 Claude가 광범위한 주제를 논의할 의향이 있다고 느끼지만, ChatGPT가 허용할 수 있는 요청을 Claude가 거부하는 경우가 있습니다. 예를 들어, 한 Reddit 사용자는 *“ChatGPT는 도덕적 제한이 적습니다… Claude는 어떤 조건에 더 적합한 가스 마스크를 설명할 것입니다.”*라고 언급했습니다. 이는 Claude가 특정 “민감한” 조언(아마도 잠재적으로 위험한 지침으로 취급)을 더 엄격하게 다룰 수 있음을 시사합니다. 또 다른 사용자는 장난스러운 롤플레이 시나리오(“외계인에게 납치된 척하세요”)를 시도했지만 Claude는 거부했으며, Gemini와 ChatGPT는 참여했습니다. 따라서 Claude에는 사용자가 더 관대할 것으로 예상하는 필터가 있습니다.

  • 멀티모달 기능 부족: ChatGPT(2023년 말까지 GPT-4 Vision으로 이미지 이해 기능을 얻음)와 달리, Claude는 현재 텍스트 전용입니다. Reddit 사용자는 Claude가 이미지를 분석하거나 자체적으로 웹을 직접 검색할 수 없음을 지적합니다. 이는 정확히 “문제점”은 아니지만(Anthropic은 이러한 기능을 광고하지 않음), 경쟁자에 비해 제한 사항입니다. 다이어그램이나 스크린샷을 해석할 AI를 원하는 사용자는 Claude를 사용할 수 없으며, ChatGPT나 Gemini가 이를 처리할 수 있습니다. 마찬가지로, 현재 정보를 검색하려면 Claude를 타사 도구(예: Poe 또는 검색 엔진 통합)를 통해 사용해야 하며, Claude는 현재 공식적인 브라우징 모드를 제공하지 않습니다.

  • 사소한 안정성 문제: 일부 사용자는 Claude가 특정 프롬프트에 대해 반복적이거나 루프에 갇히는 경우가 있다고 보고했습니다(일부 작은 모델보다 덜 일반적임). 또한, Claude의 이전 버전은 때때로 응답을 조기에 종료하거나 대량 출력에 시간이 오래 걸렸으며, 이는 사소한 불편으로 간주될 수 있지만, Claude 2는 속도 면에서 개선되었습니다.

자주 요청되는 기능 또는 개선 사항

  • 더 높은 또는 조정 가능한 사용 제한: Reddit의 Claude 팬들은 종종 Anthropic에 대화 제한을 늘릴 것을 요청합니다. 그들은 100k 컨텍스트를 최대한 활용하고 싶어하며 인위적인 중단에 도달하지 않기를 원합니다. 일부는 유료 Claude Pro조차도 상당히 더 많은 토큰을 하루에 허용해야 한다고 제안합니다. 다른 사람들은 *“Claude는 두 배의 사용 제한이 있는 100k 컨텍스트 모드를 가져야 한다”*와 같은 선택적 “100k 확장 모드” 아이디어를 제시했습니다 – 아마도 구독이 무거운 사용자에게 확장된 액세스를 제공할 수 있는 경우. 본질적으로, 구독자에게 무제한(또는 높은 한도) 사용을 제공하는 ChatGPT와 경쟁하는 계획에 대한 수요가 있습니다.

  • 긴 컨텍스트 탐색 개선: 100k 토큰을 갖는 것은 획기적이지만, 사용자는 Claude가 그 컨텍스트를 더 잘 활용하기를 원합니다. 한 가지 개선 사항은 Claude가 정보를 우선 순위화하여 작업을 유지하는 방식을 개선하는 것입니다. Anthropic은 프롬프트가 거대할 때 모델의 프롬프트 준수를 개선할 수 있습니다. Reddit 토론에서는 사용자가 “고정”할 수 있는 특정 지시를 허용하여 대형 컨텍스트에서 희석되지 않도록 하는 기술을 제안합니다. 입력의 일부를 세분화하거나 요약하는 도구도 Claude가 대형 입력을 더 일관되게 처리하는 데 도움이 될 수 있습니다. 요컨대, 사용자는 Claude에게 전체 책을 제공할 가능성을 좋아합니다 – 그들은 단지 그것이 전체적으로 날카롭게 유지되기를 원합니다.

  • 플러그인 또는 웹 브라우징: 많은 ChatGPT 사용자는 플러그인(예: 브라우징, 코드 실행 등)에 익숙해졌으며 Claude가 유사한 확장성을 갖기를 희망합니다. 일반적인 요청은 Claude가 공식적인 웹 검색/브라우징 기능을 갖추어 필요에 따라 최신 정보를 가져올 수 있도록 하는 것입니다. 현재 Claude의 지식은 대부분 정적입니다(2023년 초까지의 훈련 데이터, 일부 업데이트 포함). Claude가 웹을 쿼리할 수 있다면 그 제한을 완화할 수 있습니다. 마찬가지로, Claude가 타사 도구(계산기나 데이터베이스 커넥터와 같은)를 사용할 수 있는 플러그인 시스템은 파워 유저에게 유용성을 확장할 수 있습니다. 이는 Claude가 부족한 기능이며, Reddit 사용자는 ChatGPT의 플러그인 생태계가 특정 작업에서 어떻게 우위를 점하는지 자주 언급합니다.

  • 멀티모달 입력(이미지 또는 오디오): 일부 사용자는 Claude가 이미지 입력을 지원하거나 이미지를 생성할 수 있을지 궁금해합니다. Google의 Gemini와 OpenAI의 GPT-4는 멀티모달 기능을 가지고 있으므로 경쟁력을 유지하기 위해 사용자는 Anthropic이 이를 탐색할 것으로 기대합니다. 자주 요청되는 기능은: “Claude가 분석할 PDF나 이미지를 업로드할 수 있나요?” 현재 답은 아니지만(다른 곳에서 이미지를 텍스트로 변환하는 해결책 제외), 이미지-텍스트(OCR 및 설명)만 허용하더라도 많은 사람들이 원스톱 도우미를 원할 것입니다. 이는 소원 목록에 있으며, Anthropic은 2025년 초까지 유사한 것을 발표하지 않았습니다.

  • 미세 조정 또는 사용자 정의: 고급 사용자와 기업은 때때로 Claude를 자체 데이터로 미세 조정하거나 사용자 정의 버전을 얻을 수 있는지 묻습니다. OpenAI는 일부 모델(GPT-4는 아직 아니지만 GPT-3.5에 대해) 미세 조정을 제공합니다. Anthropic은 이전에 Claude 1.3에 대한 미세 조정 인터페이스를 출시했지만, Claude 2에 대해 널리 광고되지 않았습니다. Reddit 사용자는 Claude를 회사 지식이나 개인 글쓰기 스타일에 맞게 훈련할 수 있는지에 대해 문의했습니다. 이를 수행하는 더 쉬운 방법(매번 프롬프트 주입 외에)은 매우 환영받을 것입니다, 이는 Claude를 특정 지식 기반이나 페르소나를 기억하는 개인화된 도우미로 바꿀 수 있습니다.

  • 더 넓은 가용성: 비미국 사용자는 Claude가 공식적으로 그들의 국가에서 출시되기를 자주 요청합니다. 캐나다, 유럽, 인도 등에서의 게시물은 Claude의 웹사이트를 VPN 없이 사용할 수 있는 시기나 Claude API가 더 널리 열릴 시기를 묻습니다. Anthropic은 신중했지만, 수요는 글로벌입니다 – 많은 사람들이 개선으로 간주할 가능성이 높은 것은 단순히 “더 많은 사람들이 사용할 수 있게 하라”는 것입니다. 회사의 점진적인 접근 확대는 이를 부분적으로 해결했습니다.

충족되지 않은 요구 또는 사용자 세그먼트

  • 국제 사용자 기반: 앞서 언급했듯이, Claude의 주요 사용자 기반은 지리적으로 제한되었습니다. 이는 많은 잠재적 사용자를 소외시켰습니다. 예를 들어, Claude의 100k 컨텍스트에 관심이 있는 독일의 개발자는 공식적으로 사용할 방법이 없었습니다. 해결책은 존재하지만(타사 플랫폼, 또는 지원되는 국가에서의 VPN + 전화 인증), 이러한 장벽은 캐주얼한 국제 사용자를 효과적으로 차단했습니다. 반면, ChatGPT는 대부분의 국가에서 사용 가능합니다. 따라서 비미국 영어 사용자, 특히 비영어 사용자는 Claude의 제한된 출시로 인해 소외되었습니다. 그들은 단순히 접근 문제로 인해 ChatGPT나 로컬 모델에 의존할 수 있습니다.

  • 엄격한 출력 형식을 필요로 하는 사용자: 앞서 언급했듯이, Claude는 응답에서 자유롭게 행동하는 경향이 있습니다. 매우 구조화된 출력(예: 애플리케이션을 위한 JSON, 또는 특정 형식을 따르는 답변)이 필요한 사용자는 Claude가 ChatGPT보다 덜 신뢰할 수 있다고 느낄 수 있습니다. 이러한 사용자 – 종종 AI를 시스템에 통합하는 개발자 – 는 Claude가 그러한 작업에 덜 적합하다고 느낄 수 있습니다. 그들은 현재 Claude를 피하고 더 엄격하게 형식을 따르는 것으로 알려진 모델을 사용합니다.

  • 일반 Q&A 사용자(창의적 사용자와 대조): Claude는 창의적인 작업에 대해 자주 칭찬받습니다 – 흐르는 듯한 인간 같은 산문과 사려 깊은 에세이를 생성합니다. 그러나 Reddit의 일부 사용자는 간단한 질문-답변이나 사실적 쿼리에 대해 Claude가 때때로 간결함이 필요한 곳에서 장황한 답변을 제공한다고 언급했습니다. ChatGPT와 Claude를 비교한 사용자는 ChatGPT가 간결하고 목록 형식으로 제공되는 경향이 있는 반면, Claude는 기본적으로 더 서술적이라고 말했습니다. 단순한 사실적 답변(예: “X의 수도와 인구는 무엇인가?”)을 원하는 사용자는 Claude가 약간 간접적이라고 느낄 수 있습니다. 이러한 사용자는 정확한 검색이나 간결한 모델을 더 잘 활용할 수 있습니다. Claude는 요청하면 할 수 있지만, 스타일이 간결한 Q&A의 기대와 일치하지 않을 수 있으며, 이 세그먼트는 다른 도구(Bing Chat 또는 Google)로 이동할 수 있습니다.

  • 안전이 중요한 사용자: 반대로, 매우 신중하게 안전을 준수해야 하는 사용자(예: 학생과 AI를 사용하는 교육자, 또는 기업 고객으로서의 위험이 없는 출력을 원하는 사용자)는 Claude의 정렬을 장점으로 볼 수 있지만, ChatGPT도 상당히 정렬되어 있으며 더 많은 기업 기능을 가지고 있기 때문에, 이러한 사용자는 Claude를 특별히 선택하지 않을 수 있습니다. 이는 작은 세그먼트이지만, Claude가 아직 명확하게 포착하지 못한 것일 수 있습니다. 그들은 Claude의 안전 장치를 증가시키거나 “사고의 연쇄”를 볼 수 있는 쉬운 방법이 없다는 점에서 소외될 수 있습니다(Anthropic은 헌법적 AI 접근 방식을 통해 내부적으로 이를 가지고 있지만, 최종 사용자는 Claude의 일반적으로 정중한 톤을 제외하고는 직접적으로 이를 인터페이스하지 않습니다).

  • 비영어 사용자(출력 품질): Claude는 주로 영어로 훈련되었습니다(대부분의 대형 LLM과 마찬가지로). 일부 사용자는 다른 언어로 Claude를 테스트했으며, 여러 언어로 응답할 수 있지만 품질이 다를 수 있습니다. 예를 들어, 사용자가 프랑스어나 힌디어로 매우 미묘한 답변을 원할 경우, Claude의 능력은 ChatGPT의 것보다 덜 정밀할 수 있습니다(GPT-4는 특정 벤치마크에서 다른 모델보다 높은 다국어 성능을 자주 보여주었습니다). 주로 영어가 아닌 언어로 대화하는 사용자는 Claude의 유창성이나 정확성이 약간 약하다고 느낄 수 있습니다. 이 세그먼트는 단순히 Anthropic이 다국어 훈련을 공개적으로 우선시하지 않았기 때문에 다소 소외되었습니다.

사용자 유형별 인식 차이

  • 개발자/기술 사용자: Reddit의 개발자는 특히 Claude 2 / Claude 3.5의 코딩 작업에 대해 점점 더 Claude를 칭찬하고 있습니다. 2024년 말에 인식 변화가 두드러졌습니다: 많은 개발자가 프로그래밍 지원을 위해 ChatGPT보다 Claude를 선호하기 시작했습니다. 그들은 *“코딩에서 놀라운 성능”*과 한 번에 더 큰 코드베이스를 처리할 수 있는 능력을 인용합니다. 예를 들어, 한 사용자는 *“Claude Sonnet 3.5는 코드 작업(분석, 생성)에서 ChatGPT보다 더 좋습니다.”*라고 썼습니다. 개발자는 Claude가 프로젝트 코드나 로그의 큰 부분을 가져와 일관된 분석이나 개선을 생성할 수 있다는 점을 높이 평가합니다, 이는 거대한 컨텍스트 덕분입니다. 그러나 그들은 또한 그것의 특이점을 인식합니다 – 때때로 더 많은 대화적 플러프를 주입하거나 사양을 문자 그대로 따르지 않을 수 있습니다. 균형을 맞추면, 많은 개발자는 ChatGPT와 Claude를 모두 손에 들고 있습니다: 하나는 엄격한 단계별 논리를 위해(ChatGPT) 다른 하나는 광범위한 컨텍스트와 공감적 이해를 위해(Claude). 한 댓글 작성자가 *“하나를 선택해야 한다면 Claude를 선택할 것입니다”*라고 말한 것은 매우 긍정적인 인식을 나타냅니다, 특히 브레인스토밍, 코드 검토, 아키텍처 제안과 같은 사용 사례에서. 개발자들이 Claude를 강하게 밀어붙일 때 Claude의 사용 제한에 부딪히는 것이 유일한 일반적인 불만입니다(예: 전체 리포지토리를 분석하기 위해 50K 토큰 프롬프트를 제공할 때). 요약하면, 개발자는 Claude를 매우 강력한 도구로 봅니다 – 일부 경우 ChatGPT보다 우수한 – 단지 가용성과 형식의 예측 불가능성에 의해 제한됩니다.

  • 일반/비기술 사용자: Claude를 시도한 일반 사용자는 Claude가 친절하고 명확하다고 자주 언급합니다. Claude의 스타일은 대화적이고, 정중하며, 상세한 경향이 있습니다. ChatGPT와 비교한 새로운 사용자는 *“Claude는 더 공감적이고, 대화 톤을 따릅니다… ChatGPT는 너무 자주 목록 형식으로 기본 설정됩니다”*라고 관찰했습니다. 이러한 인간 같은 따뜻함은 Claude를 창의적인 글쓰기, 조언, 정보 대화를 위해 사용하는 사람들에게 매력적입니다. 일부는 Claude를 “성격”이 있는 동정적인 존재로 의인화하기도 합니다. 일반 사용자는 또한 Claude의 무료 버전이 구독 없이 GPT-4 수준의 지능에 접근할 수 있도록 허용한 점을 좋아합니다(적어도 비율 제한까지). 반면, 일반 사용자는 Claude가 특정 주제에 대한 거부에 부딪힐 때도 있으며, 그 이유를 이해하지 못할 수 있습니다(Claude는 사과하지만 확고하게 표현할 것입니다). 일반 사용자가 경계선에 있는 것을 요청하고 Claude로부터 거부를 받으면, 그들은 이를 덜 유능하거나 너무 제한적이라고 인식할 수 있으며, 이는 정책 입장임을 깨닫지 못할 수 있습니다. 또 다른 측면은 Claude가 이름 인식이 부족하다는 것입니다 – 많은 일반 사용자는 AI 커뮤니티에 연결되지 않으면 시도할 줄 모를 수 있습니다. 시도한 사람들은 일반적으로 *“인간과 대화하는 것 같다”*고 긍정적으로 평가합니다. 그들은 Claude의 개방적이거나 개인적인 질문을 처리하는 능력에 매우 만족하는 경향이 있습니다. 따라서 일반 사용자 인식은 Claude의 출력 품질과 톤에 대해 대체로 긍정적이며, 특정 주제에 대한 가용성(특정 앱이나 지역에서 사용해야 함) 및 때때로 “할 수 없습니다” 순간에 대한 혼란이나 좌절이 있습니다.

  • 비즈니스/전문 사용자: Reddit에서 Claude에 대한 비즈니스 인식을 자세히 파악하기는 어렵지만(더 적은 수의 기업 사용자가 자세히 게시함), 몇 가지 경향이 나타납니다. 첫째, Anthropic은 Claude를 더 개인 정보 보호 중심으로 위치시키고 기업 계약에 서명할 의향이 있습니다 – 이는 OpenAI와 관련된 데이터에 대해 걱정하는 회사에 매력적입니다. 실제로, 일부 Reddit 토론에서는 Claude가 Slack이나 Notion과 같은 도구에서 통합된 도우미로 언급되었습니다. 이러한 통합을 사용한 전문가들은 Claude가 엔진이라는 사실을 깨닫지 못할 수도 있지만, 깨달았을 때 글쓰기 스타일과 대규모 기업 문서를 소화하는 능력을 긍정적으로 비교합니다. 예를 들어, 팀은 Claude에게 긴 분기 보고서를 제공하고 괜찮은 요약을 받을 수 있습니다 – ChatGPT의 더 작은 컨텍스트가 어려움을 겪을 수 있는 것입니다. 그렇다고 해도, 비즈니스 사용자는 특정 생태계 기능의 부족을 인식합니다; 예를 들어, OpenAI는 시스템 메시지 제어, 함수 호출 등을 API에서 제공하며, Anthropic은 이에 대한 지원이 더 제한적입니다. 비즈니스 솔루션을 개발하는 한 개발자는 Claude는 대화에서 더 조정 가능하며, ChatGPT는 더 엄격한 경향이 있습니다… [하지만] ChatGPT는 매우 유용할 수 있는 웹 액세스를 가지고 있습니다라고 말했습니다. 이는 연구나 데이터 조회 작업에서 비즈니스 사용자가 필요로 할 수 있는 경우(예: 경쟁 정보), ChatGPT는 직접 정보를 가져올 수 있는 반면, Claude는 별도의 단계가 필요하다는 것을 의미합니다. 전반적으로, 비즈니스 사용자는 Claude를 매우 유능한 AI로 봅니다 – 일부 경우 내부 분석 작업에 더 나은 – 하지만 통합에 대한 기능이 아직 충분하지 않을 수 있습니다. 비용도 또 다른 요인입니다: Claude의 API 가격 및 조건은 OpenAI만큼 공개적이지 않으며, Reddit의 일부 스타트업은 Claude의 가격이나 안정성에 대한 불확실성을 언급했습니다. 요약하면, 전문가들은 Claude의 능력을 존중합니다(특히 고급 지침을 따르고 대규모 입력을 요약하는 데 있어 신뢰성), 그러나 그들은 통합, 지원 및 글로벌 가용성 측면에서 어떻게 발전하는지를 주시하며, 더 확립된 ChatGPT보다 완전히 의존하기 전에 주시합니다.


Google Gemini (Bard)

일반적인 문제점 및 제한 사항

  • 부정확하거나 “어리석은” 응답: Google이 Gemini 기반 Bard 업그레이드를 출시했을 때 Reddit 피드백이 폭발적으로 나타났으며, 그 중 많은 부분이 부정적이었습니다. 사용자는 Gemini가 ChatGPT에 비해 기본 QA에서 성능이 떨어진다고 불평했습니다. “Google Gemini에 대한 100% 솔직한 평가”라는 제목의 한 명확한 평가는 *“이것은 고장난 부정확한 LLM 챗봇입니다”*라고 말했습니다. 또 다른 실망한 사용자는 *“Gemini가 여전히 이렇게 형편없는 이유는 무엇입니까? Gemini에게 무언가를 요청할 때마다 부정확한 답변이나 불완전한 답변을 제공하는 횟수가 너무 많습니다”*라고 물었습니다. 그들은 이를 ChatGPT-4와 나란히 비교했으며, ChatGPT는 *“한 번에 완벽하고 정확하며 효율적인 답변을 제공했습니다”*라고 말했으며, Gemini는 장황하게 설명하며 만족스러운 답변을 얻기 위해 여러 프롬프트가 필요했습니다. 본질적으로, 초기 사용자는 Gemini가 자주 환각하거나 질문의 요점을 놓치며, 올바른 정보를 추출하기 위해 과도한 프롬프트 노력이 필요하다고 느꼈습니다. 이러한 품질의 일관성 부족은 Gemini에 대한 과대 광고에 비해 큰 실망이었습니다.

  • 과도한 장황함과 불필요한 설명: 많은 사용자는 Gemini(Bard 형태로)가 요점에 도달하지 않는 장황한 답변을 생성하는 경향이 있다고 언급했습니다. 한 사람은 *“그것은 장황하게 설명했습니다… AI 쓰레기의 3단락… 그럼에도 불구하고, 결국 답변이 쓰레기의 단락 속에 묻혀 있었습니다”*라고 설명했습니다. 이는 ChatGPT와 대조적으로, ChatGPT는 종종 더 간결한 답변이나 적절할 때 목록 형식을 제공합니다. 장황함은 사용자가 간단한 사실을 위해 많은 텍스트를 걸러내야 할 때 문제가 됩니다. 일부는 Google이 이를 대화적이거나 “도움이 되는” 것으로 조정했을 수 있다고 추측했지만, 실질 없는 너무 많은 설명으로 과도하게 조정되었다고 생각합니다.

  • Google 자체 서비스와의 통합 부족: Google의 AI 도우미의 판매 포인트 중 하나는 Google 생태계(Gmail, Docs, Drive 등)와의 통합이어야 했습니다. 그러나 초기 사용자 경험은 이 점에서 매우 실망스러웠습니다. 한 사용자는 *“Google의 제품과의 통합이 ‘기능’으로 광고되었지만 거의 할 수 없는 것에 대해 시작하지도 마세요.”*라고 불평했습니다. 예를 들어, 사람들은 Gemini(Bard를 통해)에게 Google Doc을 요약하거나 일부 정보를 기반으로 이메일 초안을 작성하도록 요청하려고 했으며, 이는 Google이 광고한 기능이지만, 봇은 그 데이터를 액세스할 수 없다고 응답했습니다. r/GooglePixel의 한 사용자는 *“Google Docs나 Drive와 함께 Gemini를 사용할 때마다 아무것도 할 수 없다고 말합니다. 이러한 통합 기능이 있는 이유는 무엇입니까?”*라고 썼습니다. 이는 약속된 기능과 실제 성능 간의 큰 격차를 보여주며, 사용자에게 “AI 도우미”가 Google의 자체 생태계 내에서 거의 도움이 되지 않는다는 느낌을 줍니다.

  • 거부 및 기능 혼란: 사용자들은 또한 Gemini의 이상한 거부나 모순에 직면했습니다. 동일한 Reddit 사용자는 Gemini가 *“아무 이유 없이 일을 거부하고, 다른 일을 할 수 있다는 것을 잊어버립니다… 어느 날 그것은 인터넷/실시간 데이터에 액세스할 수 없다고 말했습니다. 뭐라고요.”*라고 언급했습니다. 이는 Gemini가 할 수 있어야 하는 작업을 거부하거나(Bard가 연결된 라이브 정보를 검색하는 것과 같은) 자신의 능력에 대한 잘못된 진술을 할 수 있음을 나타냅니다. 이러한 경험은 AI가 덜 지능적일 뿐만 아니라 덜 신뢰할 수 있거나 자기 인식이 부족하다는 인상을 주었습니다. 또 다른 사용자의 생생한 댓글: *“Gemini는 절대 쓰레기입니다. ‘그들은 무슨 생각을 했을까요?’라고 말하고 싶은 순간이 있습니까?”*는 좌절감을 요약합니다. 본질적으로, Gemini의 제품 통합 및 일관성 문제는 많은 초기 사용자에게 반쯤 완성된 느낌을 주었습니다.

  • 눈에 띄지 않는 코딩 능력: 일반 Q&A만큼 널리 논의되지는 않았지만, 여러 사용자가 Gemini(Bard)를 코딩 작업에 테스트했으며, 이를 형편없다고 평가했습니다. AI 포럼에서 Gemini의 코딩 능력은 일반적으로 GPT-4 및 Claude보다 낮게 평가되었습니다. 예를 들어, 한 사용자는 *“Claude 3.5 Sonnet은 ChatGPT 4o보다 코딩에 명확히 더 좋습니다… Gemini는 그 맥락에서 절대 쓰레기입니다”*라고 명확히 말했습니다. 합의는 Gemini가 간단한 코드를 작성하거나 기본 알고리즘을 설명할 수 있지만, 더 복잡한 문제에서 자주 실수하거나 오류가 있는 코드를 생성한다는 것입니다. 광범위한 개발자 도구 세트의 부족(예: Code Interpreter 또는 강력한 함수 호출의 동등한 기능이 없음)도 그것이 프로그래머의 첫 번째 선택이 되지 않는다는 것을 의미합니다. 따라서 모든 일반 사용자가 코드를 중요하게 생각하지는 않지만, 이는 해당 세그먼트에 대한 제한 사항입니다.

  • 모바일 기기 제한: Gemini는 Google의 Assistant의 일부로 Pixel 휴대폰에서 출시되었습니다(“Assistant with Bard”라는 브랜드로). 일부 Pixel 사용자는 이를 음성 도우미 대체로 사용하는 데 문제가 있다고 언급했습니다. 그것은 때때로 음성 프롬프트를 정확하게 인식하지 않거나 이전 Google Assistant에 비해 응답 시간이 오래 걸렸습니다. 또한, 일부 고전적인 Assistant 기능을 잃고 옵트인해야 한다는 댓글도 있었습니다. 이는 Gemini의 기기 통합이 완전히 준비되지 않았다는 인식을 만들어, Google 생태계의 파워 유저들이 스마트 도우미와 기능적 도우미 사이에서 선택해야 한다고 느끼게 했습니다.

자주 요청되는 기능 또는 개선 사항

  • 극적으로 개선된 정확성과 추론: 사용자가 Gemini에 대해 원하는 가장 큰 개선 사항은 단순히 더 똑똑하고 신뢰할 수 있는 것입니다. Reddit 피드백은 Google이 답변 품질 격차를 메워야 한다는 것을 분명히 합니다. 사용자는 Gemini가 Google의 방대한 정보 액세스를 활용하여 사실적이고 직접적인 답변을 제공하기를 기대하며, 장황하거나 부정확한 답변이 아닌 것을 원합니다. 따라서 요청(종종 비꼬는 어조로 표현됨)은 다음과 같습니다: 일반 지식과 추론에서 GPT-4와 동등하거나 더 나은 것이 되십시오. 여기에는 후속 질문 및 복잡한 프롬프트를 더 잘 처리하는 것이 포함됩니다. 본질적으로, Gemini의 “뇌를 고치십시오” – 그렇게 해서 명백한 세부 사항을 놓치지 않도록 멀티모달 훈련의 장점을 활용하십시오. Google은 이 점을 분명히 들었을 것입니다: 많은 게시물이 ChatGPT가 뛰어난 특정 답변과 Gemini가 실패한 답변을 비교하며, 이는 개선을 위한 비공식적인 버그 보고서 역할을 합니다.

  • 더 나은 통합 및 컨텍스트 인식: 사용자는 Gemini가 원활한 Google 생태계 도우미의 약속을 이행하기를 원합니다. 이는 Gmail, Calendar, Docs, Drive 등과 적절히 인터페이스해야 한다는 것을 의미합니다. 사용자가 “열린 문서를 요약해 주세요” 또는 “상사로부터 받은 마지막 이메일에 대한 응답 초안을 작성해 주세요”라고 요청하면 AI가 이를 수행해야 하며, 안전하게 수행해야 합니다. 현재 요청은 Google이 이러한 기능을 활성화하고 Gemini가 실제로 그러한 작업이 가능할 때 이를 인식하도록 만드는 것입니다. Bard가 사용자 콘텐츠에 연결할 수 있다고 광고되었으므로, 사용자는 Google이 이를 “켜거나” 이 통합을 수정할 것을 요구하고 있습니다. 이는 특히 비즈니스 사용자에게 중요한 기능입니다. 또한, 웹 브라우징 측면에서: Bard(Gemini)는 웹을 검색할 수 있지만, 일부 사용자는 더 명확하게 출처를 인용하거나 최신 뉴스를 더 신속하게 통합하기를 원합니다. 따라서 Gemini의 연결된 특성을 개선하는 것이 자주 요청됩니다.

  • 간결함 제어: 장황함에 대한 불만을 고려할 때, 일부 사용자는 응답 스타일을 전환할 수 있는 기능을 제안합니다. 예를 들어, 기본적으로 Gemini가 짧고 간결한 답변을 제공하는 “간결 모드” 또는 더 자세한 답변을 원하는 사람들을 위한 “상세 모드”가 있습니다. ChatGPT는 사용자 프롬프트(“간결하게 유지”)로 일부 이를 암시적으로 허용합니다; Gemini의 경우, 사용자가 세부 사항을 요청하지 않았을 때도 과도하게 설명했다고 느꼈습니다. 따라서 내장된 설정이나 적절할 때 간결한 답변을 생성하도록 더 잘 조정하는 것이 환영받는 개선 사항이 될 것입니다. 본질적으로, 장황함 다이얼을 조정하십시오.

  • ChatGPT와의 기능 동등성(코딩, 플러그인 등): Reddit의 파워 유저는 기능을 명시적으로 비교합니다. 그들은 Google의 Gemini/Bard가 코드 실행 샌드박스 (ChatGPT의 Code Interpreter와 유사), 분석을 위한 이미지/PDF 업로드 기능(사용자가 제공한 이미지를 설명하는 것뿐만 아니라 실제로 사용자 정의 이미지를 피드할 수 있기를 원함)을 제공할 것을 요청합니다. 또 다른 자주 언급되는 기능은 대화 내 메모리 개선 – Bard는 과거 상호작용의 일부를 기억하지만, 사용자는 ChatGPT만큼 초기 컨텍스트를 참조하거나 ChatGPT의 채팅 기록처럼 지속적인 대화 저장을 원합니다. 본질적으로, Google은 ChatGPT Plus 사용자가 가진 모든 품질의 삶 기능을 따라잡기를 요청받고 있습니다: 채팅 기록, 플러그인 생태계(또는 적어도 강력한 타사 통합), 코딩 지원 등.

  • 모바일 앱 및 음성 개선: 많은 일반 사용자는 Bard/Gemini의 전용 모바일 앱을 요청했습니다(ChatGPT 모바일 앱과 유사). 웹 인터페이스나 Pixel Assistant에만 의존하는 것은 제한적입니다. iOS/Android 전반에 걸쳐 음성 입력, 응답 말하기(진정한 도우미 느낌을 위해), 긴밀한 통합을 갖춘 공식 앱은 사용자 경험을 크게 개선할 수 있습니다. 그와 함께, Pixel 소유자는 Bard와 함께하는 Assistant가 더 빠르고 더 기능적이 되기를 원합니다 – 기본적으로, 그들은 옛 Google Assistant의 최고 기능(빠르고 정확한 작업)을 Gemini의 지능과 결합하기를 원합니다. 예를 들어, “Hey Google” 스마트 홈 음성 명령을 계속 허용하고, 단순히 대화형 응답이 아닌 것을 원합니다. Google은 Gemini의 음성 모드를 개선하여 기능 퇴보 없이 레거시 도우미를 진정으로 대체할 수 있습니다.

  • 투명성과 제어: 일부 사용자는 Bard의 출처에 대한 더 많은 통찰력이나 스타일을 미세 조정할 수 있는 방법을 요청했습니다. 예를 들어, Bard가 정보를 가져오는 Google 결과를 보여주는 것(정확성을 확인하기 위해) – Bing Chat이 링크를 인용하여 수행하는 것. 또한, Bard가 때때로 잘못된 정보를 생성하기 때문에, 사용자는 이를 플래그하거나 수정할 수 있기를 원하며, 이상적으로는 Bard가 시간이 지남에 따라 해당 피드백에서 학습해야 합니다. “이것은 잘못되었습니다… 이유는…”와 같은 쉬운 피드백 메커니즘을 갖추어 빠른 모델 개선으로 이어질 수 있다면 Google이 경청하고 있다는 신뢰를 심어줄 것입니다. 기본적으로, AI를 블랙박스가 아닌 협력 도우미로 만드는 기능입니다.

충족되지 않은 요구 또는 사용자 세그먼트

  • 신뢰할 수 있는 개인 도우미를 원하는 사용자: 아이러니하게도, Google이 대상으로 삼은 그룹 – 강력한 개인 도우미를 원하는 사람들 – 은 현재 형태의 Gemini에 의해 가장 소외감을 느낍니다. Bard 기반의 새로운 Assistant를 켠 초기 사용자들은 업그레이드를 기대했지만, 많은 사람들이 실질적으로는 다운그레이드라고 느꼈습니다. 예를 들어, 누군가가 음성 도우미에게 정확하게 퀴즈에 답하고, 알림을 설정하고, 장치를 제어하고, 계정에서 정보를 통합하도록 원한다면, Gemini는 어려움을 겪었습니다. 이는 매우 바쁜 전문가나 기기 애호가(생산성을 위해 도우미에 의존하는)가 그들의 요구가 충족되지 않았다고 느끼게 했습니다. 한 사용자는 Pixel의 “Assistant with Bard”에 대해 “Google Assistant를 능가한다면” 지불할 것을 고려하겠다고 언급하며, 이는 아직 그렇지 않다는 것을 암시합니다. 따라서 그 세그먼트는 여전히 신뢰할 수 있고 진정으로 도움이 되는 AI 도우미를 기다리고 있습니다 – Gemini가 개선되면 그들은 그것을 사용할 것입니다.

  • 비원어민 영어 사용자 / 현지화: Google 제품은 일반적으로 훌륭한 현지화를 가지고 있지만, Bard/Gemini가 모든 언어에서 동등하게 강력했는지는 불분명합니다. 일부 국제 사용자는 Bard의 모국어 답변이 덜 유창하거나 유용하다고 보고했으며, 이는 그들을 로컬 경쟁자로 다시 밀어냈습니다. Gemini의 훈련 데이터나 최적화가 영어를 선호했다면, 비영어 사용자는 소외됩니다. 그들은 ChatGPT나 현지 모델을 선호할 수 있으며, 이는 명시적으로 다국어 기능을 최적화했습니다. 이는 Google이 전통적으로 뛰어난 분야일 수 있지만(번역 기술을 고려할 때), 이에 대한 사용자 피드백은 부족합니다 – 이는 Gemini가 아직 그 커뮤니티를 놀라게 하지 않았음을 나타냅니다.

  • 기업 고객(현재까지): 대규모 조직은 Bard/Gemini를 널리 채택하지 않았습니다(공개적인 대화에서), 종종 신뢰와 기능 격차 때문입니다. 기업은 일관성, 인용, 워크플로와의 통합을 필요로 합니다(Office 365는 MS Copilot을 통해 OpenAI의 기술과 깊이 통합됨). Google의 동등한 기능(Duet AI with Gemini)은 여전히 발전 중입니다. Gemini/Bard가 이메일 초안 작성, 슬라이드 덱 생성, Google Sheets의 데이터 분석을 GPT-4 수준으로 또는 그 이상으로 신뢰할 수 있게 할 때까지, 기업 사용자는 Google의 솔루션이 그들의 요구를 완전히 충족하지 않는다고 느낄 것입니다. r/Bard의 전문가 게시물 중 일부는 “업무 작업에 Bard를 시도했지만 ChatGPT만큼 좋지 않았습니다, 그래서 기다려 보겠습니다.”라는 내용입니다. 이는 기업 사용자가 현재 소외된 세그먼트임을 나타냅니다 – 그들은 Google Workspace에 맞는 AI를 원하며, 실제로 생산성을 높이고 출력의 지속적인 검증이 필요하지 않기를 원합니다.

  • Google 생태계에서 원스톱 솔루션을 선호하는 사용자: Google을 모든 것에 사용하는 사용자 세그먼트가 있으며(검색, 이메일, 문서) Google AI를 모든 챗봇 요구에 기꺼이 사용할 것입니다 – 만약 그것이 좋다면. 현재, 이러한 사용자는 다소 소외되어 있으며, 특정 작업에 ChatGPT를 사용하고 Bard를 다른 작업에 사용합니다. 그들은 ChatGPT의 답변 품질을 더 신뢰하기 때문에 사실적 질문을 ChatGPT에 할 수 있지만, Bard를 브라우징이나 통합 시도에 사용합니다. 그러한 분할 경험은 이상적이지 않습니다. 이러한 사용자는 실제로 하나의 앱/도우미에 머물기를 원합니다. Gemini가 개선되면 그들은 그것에 집중할 것이지만, 그때까지 그들의 “모든 것을 지배하는 하나의 도우미” 사용 사례는 충족되지 않습니다.

  • Google Cloud의 개발자/데이터 과학자: Google은 개발자를 위해 Vertex AI 플랫폼을 통해 Gemini 모델을 출시했습니다. 그러나 초기 보고서와 벤치마크는 Gemini(특히 사용 가능한 “Gemini Pro” 모델)가 GPT-4를 능가하지 못했다고 제안했습니다. Google Cloud를 AI 서비스에 선호하는 개발자는 모델 품질로 인해 다소 소외됩니다 – 그들은 약간 열등한 모델을 수용하거나 OpenAI의 API를 별도로 통합해야 합니다. 이 기업 개발자 세그먼트는 강력한 Google 모델을 간절히 원합니다, 그래서 그들은 모든 것을 하나의 스택에 유지할 수 있습니다. Gemini의 성능이 일부 영역에서 명확하게 뛰어나거나 가격이 설득력 있는 이유를 제공하지 않는 한, 이는 이 그룹의 요구를 경쟁적으로 충분히 충족하지 않습니다.

사용자 유형별 인식 차이

  • 개발자/기술 애호가: 기술에 정통한 사용자는 Gemini에 대한 높은 기대를 가지고 접근했습니다(결국 Google이니까요). 그들의 인식은 직접적인 테스트 후 빠르게 악화되었습니다. 많은 개발자가 Reddit에서 벤치마크를 실행하거나 그들의 좋아하는 까다로운 질문을 Gemini에 던졌고, 그것이 뒤처진 것을 발견했습니다. 한 프로그래머는 *“Gemini는 Llama 3.0이 그랬던 것처럼 절대 쓰레기입니다”*라고 직설적으로 말하며, 그들은 그것을 일부 오픈 모델보다도 낮게 평가합니다. 개발자는 논리적 오류와 장황함에 특히 민감합니다. 따라서 Gemini가 장황하지만 부정확한 답변을 제공할 때, 그것은 신뢰를 빠르게 잃었습니다. 반면, 개발자는 Google의 잠재력을 인식합니다; 일부는 *“더 많은 미세 조정으로 Gemini가 더 나아질 것”*이라고 희망하며, 업데이트 후 주기적으로 이를 재테스트합니다. 현재로서는, 대부분의 개발자는 거의 모든 진지한 작업(코딩, 복잡한 문제 해결)에서 GPT-4보다 열등하다고 인식합니다. 그들은 특정한 것들을 높이 평가합니다: 예를 들어, Gemini는 플러그인 없이도 실시간 정보(구글 검색을 통해)에 접근할 수 있으며, 이는 최신 쿼리에 유용합니다. 개발자는 “X에 대한 최신 논문을 검색하고 요약하라”와 같은 작업에 Bard를 사용할 수 있으며, 이는 웹 데이터를 인용할 수 있습니다. 그러나 자급자족 추론을 위해, 그들은 다른 모델을 선호합니다. 요약하면, 기술 애호가는 Gemini를 유망한 진행 중인 작업으로 보고 있으며, 현재 한 세대 뒤떨어진 느낌을 받습니다. 그것은 그들의 완전한 신뢰를 얻지 못했으며, 그들은 종종 Google이 이를 개선하도록 자극하기 위해 그것의 실수를 강조하는 나란히 비교를 게시합니다.

  • 일반/일상 사용자: Bard를 휴대폰이나 웹을 통해 접근한 일반 사용자는 혼합된 감정을 가졌습니다. 많은 일반 사용자는 Bard(Gemini)에 처음 접근한 이유가 무료이고 Google 계정으로 쉽게 접근할 수 있기 때문이며, GPT-4는 유료로 접근할 수 없었습니다. 일부 일반 사용자는 실제로 간단한 사용에 대해 괜찮은 경험을 보고합니다: 예를 들어, r/Bard의 한 Reddit 사용자는 Gemini가 법률 문서 검토, 카피라이팅, 심지어 사진에서 의류 크기 식별과 같은 재미있는 사용 사례에서 그들을 도왔다고 긍정적인 리뷰를 남겼습니다. 그들은 *“Gemini는 내 질문에 대한 귀중한 자원이었습니다… 최신 정보… 나는 유료 버전에 너무 익숙해져서 무료 버전이 어떻게 수행되는지 기억할 수 없습니다.”*라고 말하며, 적어도 일부 Bard Advanced에 시간(및 돈)을 투자한 일반 사용자는 일상 생활에서 유용하다고 발견했습니다. 이러한 사용자는 실용적이고 일상적인 도움을 위해 이를 사용하며, 모델을 한계까지 밀어붙이지 않을 수 있습니다. 그러나 많은 다른 일반 사용자(특히 ChatGPT를 시도한 사람들)는 실망했습니다. 여행 조언, 퀴즈, 작업 도움을 요청하는 일반 사용자는 Bard의 답변이 덜 명확하거나 유용하다고 발견했습니다. 여기에서 인식은 분열됩니다: 브랜드 충성도가 높은 Google 사용자이미 ChatGPT에 익숙한 사용자. 전자는 AI 도우미에 익숙하지 않다면, 그들의 필요에 대해 Bard/Gemini가 “꽤 좋다”고 평가하며, 검색과 통합 시도가 통합된 점을 높이 평가합니다. 후자는 거의 항상 비교하며 Gemini가 부족하다고 느낍니다. 그들은 *“Bard를 사용할 이유가 ChatGPT가 90%의 시간 동안 더 나은데 왜 있을까요?”*라고 말할 수 있습니다. 따라서 일반 사용자 인식은 그들의 이전 참조 프레임에 따라 다릅니다. AI 도우미에 처음 접하는 사람들은 Gemini를 유용한 신기함으로 평가할 수 있으며, 경쟁에 익숙한 사람들은 *“여전히 너무 형편없다”*고 실망하며 개선이 필요하다고 봅니다.

  • 비즈니스/전문 사용자: 많은 전문가는 Bard가 Google Workspace 통합(Duet AI)과 함께 출시되었을 때 이를 시도했습니다. 이 그룹의 인식은 신중한 회의론입니다. 한편으로, 그들은 데이터 개인 정보 보호 및 통합에 대한 Google의 기업 약속을 신뢰합니다(예: AI를 통해 Docs 편집, Calendar 초대에서 회의 요약 등). 다른 한편으로, 초기 테스트는 종종 Gemini가 사실적 오류를 범하거나 일반적인 출력을 제공하는 것을 보여주었으며, 이는 비즈니스 사용에 대한 신뢰를 주지 않습니다. 예를 들어, 전문가는 Bard에게 고객 보고서를 초안하도록 요청할 수 있습니다 – Bard가 잘못된 데이터를 삽입하거나 약한 통찰력을 제공하면, 이는 도움이 되기보다 번거로울 수 있습니다. 따라서 전문 사용자는 Bard를 비판적인 작업이 아닌 비판적이지 않은 작업에 파일럿하지만, 여전히 중요한 출력에 대해 GPT-4 또는 Claude에 의존합니다. Google이 따라잡고 있다는 인식도 있습니다: 많은 사람들이 Bard를 “프라임 타임에 준비되지 않았다”고 보고 기다리기로 결정했습니다. 특정 영역에서 긍정적인 인식이 있습니다, 예를 들어 실시간 데이터 쿼리 – 예를 들어, Reddit의 한 금융 분석가는 Bard가 Google 검색 덕분에 최근 시장 정보를 가져올 수 있다고 언급했으며, 이는 ChatGPT가 플러그인이 활성화되지 않으면 할 수 없는 것입니다. 따라서 최신 데이터가 중요한 도메인에서는 몇몇 전문가들이 장점을 보았습니다. 또 다른 뉘앙스: Google 생태계에 있는 사람들(예: Google Workspace를 독점적으로 사용하는 회사)은 단순히 Bard/Gemini가 그들의 환경에 맞기 때문에 약간 더 긍정적인 견해를 가지고 있습니다. 그들은 전환하기보다는 그것이 개선되기를 바라고 있습니다. 요약하면, 비즈니스 사용자는 Gemini를 잠재적으로 매우 유용한 것으로 봅니다(Google의 데이터 및 도구 통합을 고려할 때), 그러나 2025년 초까지는 완전한 신뢰를 얻지 못했습니다. 그들은 이를 “아직 거기까지 도달하지 않은 새로운 경쟁자”로 인식합니다 – 주시할 가치가 있지만, 아직 중요한 작업에 대한 주요 선택은 아닙니다. Google의 평판은 이 군중에게 약간의 인내심을 사지만, 무한하지는 않습니다; Gemini가 현저히 개선되지 않으면, 전문가는 이를 널리 채택하지 않을 수 있으며, 다른 솔루션에 의존할 수 있습니다.


오픈 소스 LLMs (예: LLaMA 기반 모델)

일반적인 문제점 및 제한 사항

  • 하드웨어 및 설정 요구 사항: 클라우드 챗봇과 달리, 오픈 소스 LLMs는 일반적으로 사용자가 로컬 하드웨어나 서버에서 실행해야 합니다. 이는 즉시 문제점을 제시합니다: 많은 모델(예: 70억 매개변수 LLaMA 모델)은 원활하게 실행되기 위해 많은 VRAM을 가진 강력한 GPU가 필요합니다. 한 Reddit 사용자는 간결하게 *“대부분의 소비자 하드웨어에서의 로컬 LLMs는 복잡한 개발에 필요한 정밀성을 갖지 못할 것입니다.”*라고 말했습니다. 8GB 또는 16GB GPU(또는 단순히 CPU)만 있는 일반 사용자는 고품질 모델을 실행하는 것이 느리거나 불가능할 수 있습니다. 사용자는 적합한 작은 모델로 전환할 수 있지만, 이는 종종 낮은 품질의 출력(“더 어리석은” 응답)을 생성합니다. 설정의 복잡성도 또 다른 문제입니다 – 모델 가중치 설치, Oobabooga나 LangChain과 같은 환경 설정, 토큰화 라이브러리 관리 등이 비개발자에게는 위협적일 수 있습니다. 기술적으로 숙련된 사용자조차도 새로운 모델 버전, GPU 드라이버의 특이점 등을 따라가는 것이 번거롭다고 설명합니다. “진지하게, 로컬 LLMs를 실제로 어떻게 사용합니까?”라는 제목의 스레드에서 사람들은 많은 모델이 *“내 하드웨어에서 부적절하게 실행되거나 원활하게 실행되지 않습니다”*라고 공유하며, 실용적인 조언을 요청했습니다.

  • 최신 폐쇄형 모델에 비해 성능이 떨어짐: 오픈 소스 모델은 빠르게 발전했지만, 2025년 현재 많은 사용자는 여전히 복잡한 추론, 코딩, 사실적 정확성에서 최상위 독점 모델(GPT-4, Claude)보다 뒤처진다고 언급합니다. 생생한 예로, r/LocalLLaMA의 한 사용자는 모국어로 출력을 비교하며 *“내가 시도한 다른 모든 모델은 실패합니다… 그들은 [GPT-4]에 전혀 근접하지 않습니다. ChatGPT 4는 글쓰기에 절대적으로 놀랍습니다”*라고 말했습니다. 이 감정은 널리 퍼져 있습니다: 작은 오픈 모델(예: 미세 조정된 13B 또는 7B)은 그 크기에 비해 인상적일 수 있지만, 깊은 이해나 다단계 논리가 필요한 작업에서 어려움을 겪습니다. 심지어 더 큰 오픈 모델(65B, 70B)은 GPT-3.5 수준에 접근하더라도 GPT-4가 처리하는 까다로운 문제에서 실패할 수 있습니다. 사용자는 특히 틈새 지식이나 프롬프트가 훈련 분포에서 약간 벗어날 때 오픈 모델에서 더 많은 환각과 오류를 관찰합니다. 따라서 원시 능력의 격차는 문제점입니다 – 로컬 모델을 사용할 때 기대치를 조절해야 하며, 이는 ChatGPT의 신뢰성에 익숙한 사람들에게 좌절감을 줄 수 있습니다.

  • 제한된 컨텍스트 길이: 대부분의 오픈 소스 LLMs는 전통적으로 더 작은 컨텍스트 창(2048 토큰, 아마도 4k 토큰)을 가지고 있으며, 이는 ChatGPT나 Claude가 제공하는 것에 비해 작습니다. 일부 새로운 미세 조정 및 아키텍처는 이를 확장하고 있습니다(예를 들어, LLaMA-2의 8K 또는 16K 토큰 버전이 있으며, MPT-7B와 같은 연구는 16K 컨텍스트를 가졌습니다). 그러나 매우 긴 컨텍스트 오픈 모델의 실질적인 사용은 여전히 초기 단계입니다. 이는 로컬 모델 사용자가 유사한 메모리 문제에 직면한다는 것을 의미합니다 – 모델은 대화나 텍스트의 초기 부분을 잊어버리며, 외부 메모리 체계를 구현하지 않으면(예: 검색을 위한 벡터 데이터베이스) 그렇습니다. Reddit 토론에서는 사용자가 종종 수동으로 기록을 요약하거나 잘라내야 한다고 언급하며, 이는 번거롭습니다. 이는 특히 Claude의 100k와 같은 독점 모델이 컨텍스트 길이를 더 늘리고 있는 상황에서 주목할 만한 제한 사항입니다.

  • 일부 모델에서 미세 조정된 지시 따르기 부족: 많은 오픈 모델이 지시 조정되어 있지만(Alpaca, LLaMA-2-Chat 등), 모두가 ChatGPT처럼 엄격하게 RLHF 훈련된 것은 아닙니다. 이는 로컬 모델이 때때로 지시나 시스템 프롬프트에 덜 반응할 수 있음을 의미합니다. 예를 들어, 원시 LLaMA 모델은 사용자 프롬프트 형식을 완전히 무시하고 텍스트를 계속합니다 – 채팅 조정된 버전을 사용해야 합니다. 그럼에도 불구하고, 조정 데이터의 품질이 중요합니다. 일부 Reddit 사용자는 특정 지시 모델이 과도하게 거부하거나(무거운 안전으로 조정되었기 때문에, 예를 들어 일부 Facebook LLaMA-2 채팅은 ChatGPT와 유사한 정책 거부로 응답할 수 있음) 수행한다고 언급했습니다(쿼리를 정확히 따르지 않음). CodeLlama-70B-instruct에 대한 GitHub의 사용자 불만은 *“너무 검열되어 기본적으로 쓸모가 없습니다”*라고 말하며, 오픈 모델이 대안을 끌어내지 않고 동일한 엄격함을 채택한 것에 대한 좌절감을 보여줍니다. 따라서 선택한 모델에 따라 사용자는 너무 느슨한 모델(관련 없는 연속을 제공) 또는 너무 엄격한/보호된 모델에 직면할 수 있습니다. 잘 균형 잡힌 지시 따르기 행동을 얻으려면 여러 미세 조정을 시도해야 하는 경우가 많습니다.

  • 분열 및 빠른 변화: 오픈 소스 LLM 풍경은 매우 빠르게 진화하며, 새로운 모델과 기술(양자화, LoRA 미세 조정 등)이 매주 등장합니다. 흥미롭지만, 이는 설정을 지속적으로 조정하고 싶지 않은 사용자에게 문제점입니다. 지난달에 작동했던 것이 이번 달에는 구식일 수 있습니다. 한 Reddit 사용자는 이를 서부 개척 시대와 비교하며, 커뮤니티가 *“GPT-4와 유사하게 느껴지도록 ‘속이는’ 방법을 찾고 있습니다”*라고 유머러스하게 말했지만, 종종 이러한 해결책은 임시방편입니다. 캐주얼한 사용자에게는 수십 개의 모델 이름(Vicuna, Alpaca, Mythomax, Mistral 등) 중에서 선택하는 것이 압도적일 수 있습니다. 단일 통합 플랫폼 없이, 사용자는 커뮤니티 가이드에 의존하며, 이는 혼란스러울 수 있습니다 – 어떤 모델이 그들의 요구에 적합한지 결정하는 데. 도구와 모델 품질의 분열은 간접적인 문제점입니다: 이는 진입 장벽과 유지 보수 노력을 높입니다.

  • 공식 지원이나 보장이 없음: 로컬 LLM에서 무언가 잘못되었을 때(예: 모델이 공격적인 콘텐츠를 출력하거나 충돌함), 고객 지원에 전화할 수 없습니다. 사용자는 스스로 해결하거나 커뮤니티의 도움에 의존해야 합니다. 취