연구
Model comparison
성능 지표
다음 표는 다양한 모델과 평가 기준에 걸친 종합적인 벤치마킹 결과를 보여줍니다.
평균 수치 점수
모델 | 평균 점수 (%) | 토큰 수 | 응답 시간 (초) | 사실적 정확도 (%) | 환각 비율 (%) | 논리적 정확성 (%) | 출처 품질 (%) |
---|---|---|---|---|---|---|---|
Claude | 87 | 1623 | 104 | 84 | 88 | 91 | 81 |
Gemini | 92 | 10501 | 600 | 91 | 92 | 95 | 88 |
Manus | 79 | 4278 | 891 | 73 | 72 | 90 | 69 |
OpenAI | 93 | 9316 | 737 | 93 | 93 | 95 | 89 |
Perplexity | 88 | 3152 | 180 | 86 | 89 | 93 | 82 |
xAI Grok 3 Deep Search | 89 | 2929 | 39 | 83 | 89 | 93 | 86 |
xAI Grok 3 Deeper Search | 85 | 2905 | 229 | 80 | 80 | 92 | 78 |
정성적 평가
모델 | 평가 | 토큰 수 | 응답 시간 | 사실적 정확도 | 실수 | 정확성 | 출처 품질 |
---|---|---|---|---|---|---|---|
Claude | 3 | 2 | 5 | 3 | 4 | 4 | 3 |
Gemini | 4 | 5 | 2 | 5 | 5 | 5 | 5 |
Manus | 1 | 3 | 1 | 1 | 1 | 4 | 1 |
OpenAI | 4 | 5 | 2 | 5 | 5 | 5 | 5 |
Perplexity | 3 | 2 | 5 | 4 | 5 | 4 | 4 |
xAI Grok 3 Deep Search | 3 | 2 | 5 | 3 | 4 | 4 | 5 |
xAI Grok 3 Deeper Search | 2 | 2 | 4 | 2 | 2 | 4 | 3 |
구독 비용
모델 | 비용 |
---|---|
OpenAI ChatGPT Deep Research | $200/mo (Pro, 250 queries/mo); $20/mo (Plus, Team, Edu, Enterprise, 25 queries/mo) |
Anthropic Claude Research | $100 or $200/mo (Max tier only, US/JP/BR, early beta) |
Gemini 2.5 Pro Deep Research | $20/month |
Perplexity Deep Research | Free (5 queries/day) or $20/month |
xAI Grok 3 Deep Research | $30/month (SuperGrok) |
xAI Grok 3 Deeper Research | $30/month (SuperGrok - Deeper Mode) |
Manus AI | $2-10 per task (depending on task intensity & difficulty) |