Research overview
개요
대규모 언어 모델(LLM)의 연구 능력을 평가하려면 복잡한 정보 합성, 논리적 추론 및 사실적 근거에 대한 정교한 평가가 필요합니다. Falcon: Deep Research Benchmark & Evaluation Framework는 정교한 연구 프롬프트에 대한 LLM 응답을 위한 자동화된 구조화된 평가 시스템을 제공함으로써 이 문제를 해결합니다.
설계 철학
핵심 원칙
- 모듈성: 시스템 구성 요소는 유지 관리성과 확장성을 향상시키기 위해 분리되어 있습니다
- 자동화: 스크립트 가능하고 반복 가능한 워크플로우를 통해 수동 작업을 최소화합니다
- 투명성: 명시적인 평가 기준과 저장된 원시 점수를 통해 상세한 분석이 가능합니다
- 객관성: 개별 편향을 줄이기 위해 여러 평가자의 평가를 집계합니다
- 표준화: 일관된 프롬프트와 형식으로 비교 가능한 평가를 보장합니다
- 구성: 유연성을 위해 환경 변수를 통해 설정을 관리합니다
- 실용성: 효율적인 구현을 위해 사용 가능한 API와 라이브러리를 활용합니다
프레임워크 구성 요소
소스 코드 접근
전체 Falcon 소스 코드는 다음에서 확인할 수 있습니다:
- GitHub 저장소: https://github.com/chima-org/falcon
- 상세 설계 문서: report.md
연구 프롬프트 및 응답
프롬프트 선택
우리는 다양한 영역에 걸쳐 10개의 독점적이고 복잡한 연구 질문을 선별했습니다:
- 학술 연구 질문
- 산업 수준 분석 작업
- 오픈소스 인텔리전스 수집
- 최신 정보 및 뉴스 분석
예시 프롬프트
-
크리에이터 콘텐츠 분석: “TikTok과 Instagram에서 이번 주 가장 높은 참여도를 보인 크리에이터 콘텐츠가 whiteclaws와 하드 셀처에 대해 생성한 전체 전환 퍼널을 모델링하세요. 참여도 급증과 온라인 및 매장 내 판매 증가의 상관관계를 분석하고, 가장 큰 증분 ROI를 제공하는 크리에이터 등급, 콘텐츠 형식 및 게시 주기를 식별하세요.”
-
소비자 행동 예측: “최근 뉴스에서 수집한 데이터를 사용하여 다가오는 달의 Dunkin’s 커피 및 커피 전반에 관한 소비자 행동을 예측하세요.”
평가 프레임워크
주관적 기준
-
논리적 정확성
- 내부 일관성 평가
- 추론 명확성 평가
-
철저함
- 완전성 측정
- 요구사항 대비 깊이 평가
-
환각 비율
- 높은 점수는 낮은 환각 비율을 나타냄
- 인간 개입 피드백을 통해 검증
-
사실적 정확성
- 인터넷 검색을 통한 주장 검증
- 반복적 점수 부여 과정
-
출처 품질
- 출처의 신뢰성 평가
- 정보 관련성 평가
객관적 기준
-
응답 시간
- 생성 완료 시간 측정
-
토큰 수
- 응답 길이 측정
- 전체 평가에 직접적인 영향을 미치지 않음
LLM 심사위원
선택된 모델
세 가지 최첨단 LLM이 심사위원 역할을 합니다:
- Claude 3.7 Sonnet
- GPT-4.1
- Gemini 2.5 Pro
검색 통합
- Claude 3.7 Sonnet을 위한 Exa AI 웹 검색 API
- GPT-4.1 및 Gemini의 내장 검색 기능
점수 부여 방법론
계산 접근법
- 정량적 원시 점수 결합
- 1-5 등급으로 정성적 분류
- Z-점수와 절대 점수를 사용한 하이브리드 모델
- 카테고리별 특정 계산 방법
- 여러 심사위원의 가중 평균
주요 발견사항
모델 성능
- 모든 기준에서 단일 모델이 지배적이지 않음
- OpenAI와 Gemini가 종합적인 연구에서 선두
- xAI Grok 3는 속도 대 깊이 비율에서 탁월함
- 품질과 응답 시간 사이의 트레이드오프
비용 고려사항
구독 기반 가격은 크게 다양합니다:
- OpenAI: $20-200/month
- Anthropic: $100-200/month
- Gemini: $20/month
- Perplexity: Free-$20/month
- xAI: $30/month
- Manus AI: 작업당 $2-10
향후 개선사항
현재 한계
- 모호한 프롬프트 처리의 어려움
- 비공개/제한된 데이터에 대한 도전
- 제한된 검색 기능
계획된 개선사항
-
확장된 범위
- 추가 프롬프트 및 응답
- 더 다양한 평가 측면
-
향상된 평가
- 새로운 LLM 심사위원 통합
- 고급 웹 검색 도구
-
브라우저 사용 통합
- 자동화된 프롬프트 처리
- 인용 검증
- 웹 페이지 검증
결론
Falcon 프레임워크는 LLM 연구 능력을 평가하기 위한 강력한 자동화된 평가 시스템을 제공합니다. 다중 심사위원 접근 방식과 포괄적인 기준을 통해 오픈소스 및 독점 모델의 객관적 평가가 가능하며, 기업 수준의 연구 작업과 고급 분석 워크플로우를 지원합니다.