Research overview

Ikhtisar

Mengevaluasi kemampuan penelitian Model Bahasa Besar (LLM) memerlukan penilaian canggih terhadap sintesis informasi kompleks, penalaran logis, dan dasar faktual. Falcon: Deep Research Benchmark & Evaluation Framework mengatasi tantangan ini dengan menyediakan sistem evaluasi otomatis dan terstruktur untuk respons LLM terhadap prompt penelitian yang canggih.

Filosofi Desain

Prinsip Inti

Modularitas: Komponen sistem dipisahkan untuk meningkatkan pemeliharaan dan ekstensibilitas
Otomatisasi: Meminimalkan upaya manual melalui alur kerja yang dapat diskrip dan diulang
Transparansi: Kriteria evaluasi eksplisit dan skor mentah yang disimpan memungkinkan analisis terperinci
Objektivitas: Mengumpulkan beberapa penilaian juri untuk mengurangi bias individu
Standardisasi: Prompt dan format yang konsisten memastikan evaluasi yang sebanding
Konfigurasi: Pengaturan dikelola melalui variabel lingkungan untuk fleksibilitas
Pragmatisme: Memanfaatkan API dan pustaka yang tersedia untuk implementasi yang efisien

Komponen Kerangka

Akses Kode Sumber

Kode sumber Falcon lengkap tersedia di:

GitHub Repository: https://github.com/chima-org/falcon
Dokumentasi Desain Terperinci: report.md

Prompt & Respons Penelitian

Pemilihan Prompt

Kami mengkurasi 10 pertanyaan penelitian kompleks eksklusif di berbagai domain:

Pertanyaan penelitian akademis
Tugas analisis tingkat industri
Pengumpulan intelijen sumber terbuka
Analisis informasi dan berita terkini

Contoh Prompt

Analisis Konten Kreator: “Modelkan seluruh corong konversi yang dihasilkan oleh konten kreator dengan engagement tertinggi minggu ini di TikTok dan Instagram khusus untuk whiteclaws dan hard seltzers. Korelasikan lonjakan engagement dengan peningkatan penjualan yang dapat diatribusikan secara online dan di toko, identifikasi tingkatan kreator, format konten, dan pola posting yang memberikan ROI inkremental terbesar.”
Perkiraan Perilaku Konsumen: “Menggunakan data yang dikumpulkan dari berita terkini, perkirakan perilaku konsumen terkait kopi Dunkin dan kopi secara umum untuk bulan mendatang.”

Kerangka Evaluasi

Kriteria Subjektif

Kebenaran Logis
- Menilai konsistensi internal
- Mengevaluasi kejelasan penalaran
Ketelitian
- Mengukur kelengkapan
- Mengevaluasi kedalaman relatif terhadap persyaratan
Tingkat Halusinasi
- Skor lebih tinggi menunjukkan tingkat halusinasi yang lebih rendah
- Divalidasi melalui umpan balik human-in-the-loop
Akurasi Faktual
- Memverifikasi klaim menggunakan pencarian internet
- Proses penilaian iteratif
Kualitas Sumber
- Mengevaluasi kredibilitas sumber
- Menilai relevansi informasi

Kriteria Objektif

Waktu Respons
- Mengukur waktu penyelesaian generasi
Jumlah Token
- Mengukur panjang respons
- Tidak secara langsung memengaruhi peringkat keseluruhan

Juri LLM

Model yang Dipilih

Tiga LLM mutakhir berperan sebagai juri:

Claude 3.7 Sonnet
GPT-4.1
Gemini 2.5 Pro

Integrasi Pencarian

Exa AI Web Search API untuk Claude 3.7 Sonnet
Kemampuan pencarian bawaan untuk GPT-4.1 dan Gemini

Metodologi Penilaian

Pendekatan Perhitungan

Menggabungkan skor mentah kuantitatif
Pengelompokan kualitatif ke dalam peringkat 1-5
Model hibrida menggunakan Z-score dan skor absolut
Metode komputasi khusus kategori
Rata-rata tertimbang dari beberapa juri

Temuan Utama

Kinerja Model

Tidak ada model tunggal yang mendominasi di semua kriteria
OpenAI dan Gemini memimpin dalam penelitian komprehensif
xAI Grok 3 unggul dalam rasio kecepatan-terhadap-kedalaman
Trade-off antara kualitas dan waktu respons

Pertimbangan Biaya

Harga berbasis langganan bervariasi secara signifikan:

OpenAI: $20-200/month
Anthropic: $100-200/month
Gemini: $20/month
Perplexity: Free-$20/month
xAI: $30/month
Manus AI: $2-10 per tugas

Peningkatan di Masa Depan

Keterbatasan Saat Ini

Kesulitan dengan prompt yang ambigu
Tantangan dengan data pribadi/terbatas
Kemampuan pencarian yang terbatas

Peningkatan yang Direncanakan

Cakupan yang Diperluas
- Prompt dan respons tambahan
- Aspek evaluasi yang lebih beragam
Evaluasi yang Ditingkatkan
- Integrasi juri LLM yang lebih baru
- Alat pencarian web yang lebih canggih
Integrasi Penggunaan Browser
- Pemrosesan prompt otomatis
- Verifikasi kutipan
- Validasi halaman web

Kesimpulan

Kerangka Falcon menyediakan sistem evaluasi otomatis yang kuat untuk menilai kemampuan penelitian LLM. Pendekatan multi-juri dan kriteria komprehensifnya memungkinkan penilaian objektif terhadap model sumber terbuka dan eksklusif, mendukung tugas penelitian tingkat perusahaan dan alur kerja analisis lanjutan.

Umum

Pendahuluan

Rekayasa Prompt

Contoh Topik

Tingkat Pembelajaran

Penelitian

Research overview

Ikhtisar

Filosofi Desain

Prinsip Inti

Komponen Kerangka

Akses Kode Sumber

Prompt & Respons Penelitian

Pemilihan Prompt

Contoh Prompt

Kerangka Evaluasi

Kriteria Subjektif

Kriteria Objektif

Juri LLM

Model yang Dipilih

Integrasi Pencarian

Metodologi Penilaian

Pendekatan Perhitungan

Temuan Utama

Kinerja Model

Pertimbangan Biaya

Peningkatan di Masa Depan

Keterbatasan Saat Ini

Peningkatan yang Direncanakan

Kesimpulan

Umum

Pendahuluan

Rekayasa Prompt

Contoh Topik

Tingkat Pembelajaran

Penelitian

​Ikhtisar

​Filosofi Desain

​Prinsip Inti

​Komponen Kerangka

​Akses Kode Sumber

​Prompt & Respons Penelitian

​Pemilihan Prompt

​Contoh Prompt

​Kerangka Evaluasi

​Kriteria Subjektif

​Kriteria Objektif

​Juri LLM

​Model yang Dipilih

​Integrasi Pencarian

​Metodologi Penilaian

​Pendekatan Perhitungan

​Temuan Utama

​Kinerja Model

​Pertimbangan Biaya

​Peningkatan di Masa Depan

​Keterbatasan Saat Ini

​Peningkatan yang Direncanakan

​Kesimpulan

Ikhtisar

Filosofi Desain

Prinsip Inti

Komponen Kerangka

Akses Kode Sumber

Prompt & Respons Penelitian

Pemilihan Prompt

Contoh Prompt

Kerangka Evaluasi

Kriteria Subjektif

Kriteria Objektif

Juri LLM

Model yang Dipilih

Integrasi Pencarian

Metodologi Penilaian

Pendekatan Perhitungan

Temuan Utama

Kinerja Model

Pertimbangan Biaya

Peningkatan di Masa Depan

Keterbatasan Saat Ini

Peningkatan yang Direncanakan

Kesimpulan