Research overview

개요

대규모 언어 모델(LLM)의 연구 능력을 평가하려면 복잡한 정보 합성, 논리적 추론 및 사실적 근거에 대한 정교한 평가가 필요합니다. Falcon: Deep Research Benchmark & Evaluation Framework는 정교한 연구 프롬프트에 대한 LLM 응답을 위한 자동화된 구조화된 평가 시스템을 제공함으로써 이 문제를 해결합니다.

설계 철학

핵심 원칙

모듈성: 시스템 구성 요소는 유지 관리성과 확장성을 향상시키기 위해 분리되어 있습니다
자동화: 스크립트 가능하고 반복 가능한 워크플로우를 통해 수동 작업을 최소화합니다
투명성: 명시적인 평가 기준과 저장된 원시 점수를 통해 상세한 분석이 가능합니다
객관성: 개별 편향을 줄이기 위해 여러 평가자의 평가를 집계합니다
표준화: 일관된 프롬프트와 형식으로 비교 가능한 평가를 보장합니다
구성: 유연성을 위해 환경 변수를 통해 설정을 관리합니다
실용성: 효율적인 구현을 위해 사용 가능한 API와 라이브러리를 활용합니다

프레임워크 구성 요소

소스 코드 접근

전체 Falcon 소스 코드는 다음에서 확인할 수 있습니다:

GitHub 저장소: https://github.com/chima-org/falcon
상세 설계 문서: report.md

연구 프롬프트 및 응답

프롬프트 선택

우리는 다양한 영역에 걸쳐 10개의 독점적이고 복잡한 연구 질문을 선별했습니다:

학술 연구 질문
산업 수준 분석 작업
오픈소스 인텔리전스 수집
최신 정보 및 뉴스 분석

예시 프롬프트

크리에이터 콘텐츠 분석: “TikTok과 Instagram에서 이번 주 가장 높은 참여도를 보인 크리에이터 콘텐츠가 whiteclaws와 하드 셀처에 대해 생성한 전체 전환 퍼널을 모델링하세요. 참여도 급증과 온라인 및 매장 내 판매 증가의 상관관계를 분석하고, 가장 큰 증분 ROI를 제공하는 크리에이터 등급, 콘텐츠 형식 및 게시 주기를 식별하세요.”
소비자 행동 예측: “최근 뉴스에서 수집한 데이터를 사용하여 다가오는 달의 Dunkin’s 커피 및 커피 전반에 관한 소비자 행동을 예측하세요.”

평가 프레임워크

주관적 기준

논리적 정확성
- 내부 일관성 평가
- 추론 명확성 평가
철저함
- 완전성 측정
- 요구사항 대비 깊이 평가
환각 비율
- 높은 점수는 낮은 환각 비율을 나타냄
- 인간 개입 피드백을 통해 검증
사실적 정확성
- 인터넷 검색을 통한 주장 검증
- 반복적 점수 부여 과정
출처 품질
- 출처의 신뢰성 평가
- 정보 관련성 평가

객관적 기준

응답 시간
- 생성 완료 시간 측정
토큰 수
- 응답 길이 측정
- 전체 평가에 직접적인 영향을 미치지 않음

LLM 심사위원

선택된 모델

세 가지 최첨단 LLM이 심사위원 역할을 합니다:

Claude 3.7 Sonnet
GPT-4.1
Gemini 2.5 Pro

검색 통합

Claude 3.7 Sonnet을 위한 Exa AI 웹 검색 API
GPT-4.1 및 Gemini의 내장 검색 기능

점수 부여 방법론

계산 접근법

정량적 원시 점수 결합
1-5 등급으로 정성적 분류
Z-점수와 절대 점수를 사용한 하이브리드 모델
카테고리별 특정 계산 방법
여러 심사위원의 가중 평균

주요 발견사항

모델 성능

모든 기준에서 단일 모델이 지배적이지 않음
OpenAI와 Gemini가 종합적인 연구에서 선두
xAI Grok 3는 속도 대 깊이 비율에서 탁월함
품질과 응답 시간 사이의 트레이드오프

비용 고려사항

구독 기반 가격은 크게 다양합니다:

OpenAI: $20-200/month
Anthropic: $100-200/month
Gemini: $20/month
Perplexity: Free-$20/month
xAI: $30/month
Manus AI: 작업당 $2-10

향후 개선사항

현재 한계

모호한 프롬프트 처리의 어려움
비공개/제한된 데이터에 대한 도전
제한된 검색 기능

계획된 개선사항

확장된 범위
- 추가 프롬프트 및 응답
- 더 다양한 평가 측면
향상된 평가
- 새로운 LLM 심사위원 통합
- 고급 웹 검색 도구
브라우저 사용 통합
- 자동화된 프롬프트 처리
- 인용 검증
- 웹 페이지 검증

결론

Falcon 프레임워크는 LLM 연구 능력을 평가하기 위한 강력한 자동화된 평가 시스템을 제공합니다. 다중 심사위원 접근 방식과 포괄적인 기준을 통해 오픈소스 및 독점 모델의 객관적 평가가 가능하며, 기업 수준의 연구 작업과 고급 분석 워크플로우를 지원합니다.

일반

소개

프롬프트 엔지니어링

샘플 주제

학습 수준

연구

Research overview

개요

설계 철학

핵심 원칙

프레임워크 구성 요소

소스 코드 접근

연구 프롬프트 및 응답

프롬프트 선택

예시 프롬프트

평가 프레임워크

주관적 기준

객관적 기준

LLM 심사위원

선택된 모델

검색 통합

점수 부여 방법론

계산 접근법

주요 발견사항

모델 성능

비용 고려사항

향후 개선사항

현재 한계

계획된 개선사항

결론

일반

소개

프롬프트 엔지니어링

샘플 주제

학습 수준

연구

​개요

​설계 철학

​핵심 원칙

​프레임워크 구성 요소

​소스 코드 접근

​연구 프롬프트 및 응답

​프롬프트 선택

​예시 프롬프트

​평가 프레임워크

​주관적 기준

​객관적 기준

​LLM 심사위원

​선택된 모델

​검색 통합

​점수 부여 방법론

​계산 접근법

​주요 발견사항

​모델 성능

​비용 고려사항

​향후 개선사항

​현재 한계

​계획된 개선사항

​결론

개요

설계 철학

핵심 원칙

프레임워크 구성 요소

소스 코드 접근

연구 프롬프트 및 응답

프롬프트 선택

예시 프롬프트

평가 프레임워크

주관적 기준

객관적 기준

LLM 심사위원

선택된 모델

검색 통합

점수 부여 방법론

계산 접근법

주요 발견사항

모델 성능

비용 고려사항

향후 개선사항

현재 한계

계획된 개선사항

결론