Research overview
Ikhtisar
Mengevaluasi kemampuan penelitian Model Bahasa Besar (LLM) memerlukan penilaian canggih terhadap sintesis informasi kompleks, penalaran logis, dan dasar faktual. Falcon: Deep Research Benchmark & Evaluation Framework mengatasi tantangan ini dengan menyediakan sistem evaluasi otomatis dan terstruktur untuk respons LLM terhadap prompt penelitian yang canggih.
Filosofi Desain
Prinsip Inti
- Modularitas: Komponen sistem dipisahkan untuk meningkatkan pemeliharaan dan ekstensibilitas
- Otomatisasi: Meminimalkan upaya manual melalui alur kerja yang dapat diskrip dan diulang
- Transparansi: Kriteria evaluasi eksplisit dan skor mentah yang disimpan memungkinkan analisis terperinci
- Objektivitas: Mengumpulkan beberapa penilaian juri untuk mengurangi bias individu
- Standardisasi: Prompt dan format yang konsisten memastikan evaluasi yang sebanding
- Konfigurasi: Pengaturan dikelola melalui variabel lingkungan untuk fleksibilitas
- Pragmatisme: Memanfaatkan API dan pustaka yang tersedia untuk implementasi yang efisien
Komponen Kerangka
Akses Kode Sumber
Kode sumber Falcon lengkap tersedia di:
- GitHub Repository: https://github.com/chima-org/falcon
- Dokumentasi Desain Terperinci: report.md
Prompt & Respons Penelitian
Pemilihan Prompt
Kami mengkurasi 10 pertanyaan penelitian kompleks eksklusif di berbagai domain:
- Pertanyaan penelitian akademis
- Tugas analisis tingkat industri
- Pengumpulan intelijen sumber terbuka
- Analisis informasi dan berita terkini
Contoh Prompt
-
Analisis Konten Kreator: “Modelkan seluruh corong konversi yang dihasilkan oleh konten kreator dengan engagement tertinggi minggu ini di TikTok dan Instagram khusus untuk whiteclaws dan hard seltzers. Korelasikan lonjakan engagement dengan peningkatan penjualan yang dapat diatribusikan secara online dan di toko, identifikasi tingkatan kreator, format konten, dan pola posting yang memberikan ROI inkremental terbesar.”
-
Perkiraan Perilaku Konsumen: “Menggunakan data yang dikumpulkan dari berita terkini, perkirakan perilaku konsumen terkait kopi Dunkin dan kopi secara umum untuk bulan mendatang.”
Kerangka Evaluasi
Kriteria Subjektif
-
Kebenaran Logis
- Menilai konsistensi internal
- Mengevaluasi kejelasan penalaran
-
Ketelitian
- Mengukur kelengkapan
- Mengevaluasi kedalaman relatif terhadap persyaratan
-
Tingkat Halusinasi
- Skor lebih tinggi menunjukkan tingkat halusinasi yang lebih rendah
- Divalidasi melalui umpan balik human-in-the-loop
-
Akurasi Faktual
- Memverifikasi klaim menggunakan pencarian internet
- Proses penilaian iteratif
-
Kualitas Sumber
- Mengevaluasi kredibilitas sumber
- Menilai relevansi informasi
Kriteria Objektif
-
Waktu Respons
- Mengukur waktu penyelesaian generasi
-
Jumlah Token
- Mengukur panjang respons
- Tidak secara langsung memengaruhi peringkat keseluruhan
Juri LLM
Model yang Dipilih
Tiga LLM mutakhir berperan sebagai juri:
- Claude 3.7 Sonnet
- GPT-4.1
- Gemini 2.5 Pro
Integrasi Pencarian
- Exa AI Web Search API untuk Claude 3.7 Sonnet
- Kemampuan pencarian bawaan untuk GPT-4.1 dan Gemini
Metodologi Penilaian
Pendekatan Perhitungan
- Menggabungkan skor mentah kuantitatif
- Pengelompokan kualitatif ke dalam peringkat 1-5
- Model hibrida menggunakan Z-score dan skor absolut
- Metode komputasi khusus kategori
- Rata-rata tertimbang dari beberapa juri
Temuan Utama
Kinerja Model
- Tidak ada model tunggal yang mendominasi di semua kriteria
- OpenAI dan Gemini memimpin dalam penelitian komprehensif
- xAI Grok 3 unggul dalam rasio kecepatan-terhadap-kedalaman
- Trade-off antara kualitas dan waktu respons
Pertimbangan Biaya
Harga berbasis langganan bervariasi secara signifikan:
- OpenAI: $20-200/month
- Anthropic: $100-200/month
- Gemini: $20/month
- Perplexity: Free-$20/month
- xAI: $30/month
- Manus AI: $2-10 per tugas
Peningkatan di Masa Depan
Keterbatasan Saat Ini
- Kesulitan dengan prompt yang ambigu
- Tantangan dengan data pribadi/terbatas
- Kemampuan pencarian yang terbatas
Peningkatan yang Direncanakan
-
Cakupan yang Diperluas
- Prompt dan respons tambahan
- Aspek evaluasi yang lebih beragam
-
Evaluasi yang Ditingkatkan
- Integrasi juri LLM yang lebih baru
- Alat pencarian web yang lebih canggih
-
Integrasi Penggunaan Browser
- Pemrosesan prompt otomatis
- Verifikasi kutipan
- Validasi halaman web
Kesimpulan
Kerangka Falcon menyediakan sistem evaluasi otomatis yang kuat untuk menilai kemampuan penelitian LLM. Pendekatan multi-juri dan kriteria komprehensifnya memungkinkan penilaian objektif terhadap model sumber terbuka dan eksklusif, mendukung tugas penelitian tingkat perusahaan dan alur kerja analisis lanjutan.