개요

대규모 언어 모델(LLM)의 연구 능력을 평가하려면 복잡한 정보 합성, 논리적 추론 및 사실적 근거에 대한 정교한 평가가 필요합니다. Falcon: Deep Research Benchmark & Evaluation Framework는 정교한 연구 프롬프트에 대한 LLM 응답을 위한 자동화된 구조화된 평가 시스템을 제공함으로써 이 문제를 해결합니다.


설계 철학

핵심 원칙

  • 모듈성: 시스템 구성 요소는 유지 관리성과 확장성을 향상시키기 위해 분리되어 있습니다
  • 자동화: 스크립트 가능하고 반복 가능한 워크플로우를 통해 수동 작업을 최소화합니다
  • 투명성: 명시적인 평가 기준과 저장된 원시 점수를 통해 상세한 분석이 가능합니다
  • 객관성: 개별 편향을 줄이기 위해 여러 평가자의 평가를 집계합니다
  • 표준화: 일관된 프롬프트와 형식으로 비교 가능한 평가를 보장합니다
  • 구성: 유연성을 위해 환경 변수를 통해 설정을 관리합니다
  • 실용성: 효율적인 구현을 위해 사용 가능한 API와 라이브러리를 활용합니다

프레임워크 구성 요소

소스 코드 접근

전체 Falcon 소스 코드는 다음에서 확인할 수 있습니다:


연구 프롬프트 및 응답

프롬프트 선택

우리는 다양한 영역에 걸쳐 10개의 독점적이고 복잡한 연구 질문을 선별했습니다:

  • 학술 연구 질문
  • 산업 수준 분석 작업
  • 오픈소스 인텔리전스 수집
  • 최신 정보 및 뉴스 분석

예시 프롬프트

  1. 크리에이터 콘텐츠 분석: “TikTok과 Instagram에서 이번 주 가장 높은 참여도를 보인 크리에이터 콘텐츠가 whiteclaws와 하드 셀처에 대해 생성한 전체 전환 퍼널을 모델링하세요. 참여도 급증과 온라인 및 매장 내 판매 증가의 상관관계를 분석하고, 가장 큰 증분 ROI를 제공하는 크리에이터 등급, 콘텐츠 형식 및 게시 주기를 식별하세요.”

  2. 소비자 행동 예측: “최근 뉴스에서 수집한 데이터를 사용하여 다가오는 달의 Dunkin’s 커피 및 커피 전반에 관한 소비자 행동을 예측하세요.”


평가 프레임워크

주관적 기준

  1. 논리적 정확성

    • 내부 일관성 평가
    • 추론 명확성 평가
  2. 철저함

    • 완전성 측정
    • 요구사항 대비 깊이 평가
  3. 환각 비율

    • 높은 점수는 낮은 환각 비율을 나타냄
    • 인간 개입 피드백을 통해 검증
  4. 사실적 정확성

    • 인터넷 검색을 통한 주장 검증
    • 반복적 점수 부여 과정
  5. 출처 품질

    • 출처의 신뢰성 평가
    • 정보 관련성 평가

객관적 기준

  1. 응답 시간

    • 생성 완료 시간 측정
  2. 토큰 수

    • 응답 길이 측정
    • 전체 평가에 직접적인 영향을 미치지 않음

LLM 심사위원

선택된 모델

세 가지 최첨단 LLM이 심사위원 역할을 합니다:

  • Claude 3.7 Sonnet
  • GPT-4.1
  • Gemini 2.5 Pro

검색 통합

  • Claude 3.7 Sonnet을 위한 Exa AI 웹 검색 API
  • GPT-4.1 및 Gemini의 내장 검색 기능

점수 부여 방법론

계산 접근법

  • 정량적 원시 점수 결합
  • 1-5 등급으로 정성적 분류
  • Z-점수와 절대 점수를 사용한 하이브리드 모델
  • 카테고리별 특정 계산 방법
  • 여러 심사위원의 가중 평균

주요 발견사항

모델 성능

  • 모든 기준에서 단일 모델이 지배적이지 않음
  • OpenAI와 Gemini가 종합적인 연구에서 선두
  • xAI Grok 3는 속도 대 깊이 비율에서 탁월함
  • 품질과 응답 시간 사이의 트레이드오프

비용 고려사항

구독 기반 가격은 크게 다양합니다:

  • OpenAI: $20-200/month
  • Anthropic: $100-200/month
  • Gemini: $20/month
  • Perplexity: Free-$20/month
  • xAI: $30/month
  • Manus AI: 작업당 $2-10

향후 개선사항

현재 한계

  • 모호한 프롬프트 처리의 어려움
  • 비공개/제한된 데이터에 대한 도전
  • 제한된 검색 기능

계획된 개선사항

  1. 확장된 범위

    • 추가 프롬프트 및 응답
    • 더 다양한 평가 측면
  2. 향상된 평가

    • 새로운 LLM 심사위원 통합
    • 고급 웹 검색 도구
  3. 브라우저 사용 통합

    • 자동화된 프롬프트 처리
    • 인용 검증
    • 웹 페이지 검증

결론

Falcon 프레임워크는 LLM 연구 능력을 평가하기 위한 강력한 자동화된 평가 시스템을 제공합니다. 다중 심사위원 접근 방식과 포괄적인 기준을 통해 오픈소스 및 독점 모델의 객관적 평가가 가능하며, 기업 수준의 연구 작업과 고급 분석 워크플로우를 지원합니다.