Research overview
Genel Bakış
Büyük Dil Modellerinin (LLM’ler) araştırma yeteneklerini değerlendirmek, karmaşık bilgi sentezi, mantıksal akıl yürütme ve olgusal temellendirmenin sofistike bir değerlendirmesini gerektirir. Falcon: Derin Araştırma Kıyaslama ve Değerlendirme Çerçevesi, sofistike araştırma yönlendirmelerine LLM yanıtları için otomatik, yapılandırılmış bir değerlendirme sistemi sağlayarak bu zorluğu ele alır.
Tasarım Felsefesi
Temel İlkeler
- Modülerlik: Sistem bileşenleri, geliştirilmiş bakım ve genişletilebilirlik için ayrılmıştır
- Otomasyon: Komut dosyası haline getirilebilir ve tekrarlanabilir iş akışları sayesinde manuel çabayı en aza indirir
- Şeffaflık: Açık değerlendirme kriterleri ve kaydedilen ham puanlar ayrıntılı analiz sağlar
- Nesnellik: Bireysel önyargıyı azaltmak için birden fazla hakem değerlendirmesini bir araya getirir
- Standardizasyon: Tutarlı yönlendirmeler ve formatlar karşılaştırılabilir değerlendirmeler sağlar
- Yapılandırma: Esneklik için ayarlar ortam değişkenleri aracılığıyla yönetilir
- Pragmatizm: Verimli uygulama için mevcut API’leri ve kütüphaneleri kullanır
Çerçeve Bileşenleri
Kaynak Kodu Erişimi
Tam Falcon kaynak kodu şu adreste mevcuttur:
- GitHub Deposu: https://github.com/chima-org/falcon
- Ayrıntılı Tasarım Belgeleri: report.md
Araştırma Yönlendirmeleri ve Yanıtları
Yönlendirme Seçimi
Çeşitli alanlarda 10 özel karmaşık araştırma sorusu derledik:
- Akademik araştırma soruları
- Endüstri düzeyinde analiz görevleri
- Açık kaynak istihbarat toplama
- Güncel bilgi ve haber analizi
Örnek Promptlar
-
İçerik Üretici Analizi: “TikTok ve Instagram’da bu haftanın en yüksek etkileşimli içerik üreticilerinin özellikle whiteclaws ve sert seltzers için oluşturduğu tam dönüşüm hunisini modelleyin. Etkileşim artışlarını çevrimiçi ve mağaza içi satış artışlarıyla ilişkilendirin, en yüksek artımlı ROI’yi sağlayan içerik üretici kademelerini, içerik formatlarını ve paylaşım sıklıklarını belirleyin.”
-
Tüketici Davranışı Tahmini: “Son haberlerden toplanan verileri kullanarak, önümüzdeki ay için Dunkin’in kahvesi ve genel olarak kahve ile ilgili tüketici davranışlarını tahmin edin.”
Değerlendirme Çerçevesi
Öznel Kriterler
-
Mantıksal Doğruluk
- İç tutarlılığı değerlendirir
- Akıl yürütme netliğini değerlendirir
-
Kapsamlılık
- Tamlığı ölçer
- Gereksinimlere göre derinliği değerlendirir
-
Halüsinasyon Oranı
- Yüksek puanlar daha düşük halüsinasyon oranlarını gösterir
- İnsan-döngüde geri bildirim ile doğrulanır
-
Olgusal Doğruluk
- İnternet araması kullanarak iddiaları doğrular
- Yinelemeli puanlama süreci
-
Kaynak Kalitesi
- Kaynakların güvenilirliğini değerlendirir
- Bilgi ilgisini değerlendirir
Nesnel Kriterler
-
Yanıt Süresi
- Oluşturma tamamlanma süresini ölçer
-
Token Sayıları
- Yanıt uzunluğunu ölçer
- Genel derecelendirmeyi doğrudan etkilemez
LLM Hakemler
Seçilen Modeller
Üç son teknoloji LLM hakem olarak hizmet verir:
- Claude 3.7 Sonnet
- GPT-4.1
- Gemini 2.5 Pro
Arama Entegrasyonu
- Claude 3.7 Sonnet için Exa AI Web Arama API’si
- GPT-4.1 ve Gemini için yerleşik arama yetenekleri
Puanlama Metodolojisi
Hesaplama Yaklaşımı
- Nicel ham puanları birleştirir
- 1-5 derecelendirmelerine niteliksel gruplama
- Z-puanları ve mutlak puanları kullanan hibrit model
- Kategoriye özgü hesaplama yöntemleri
- Birden fazla hakemden ağırlıklı ortalamalar
Temel Bulgular
Model Performansı
- Hiçbir model tüm kriterlerde baskın değil
- OpenAI ve Gemini kapsamlı araştırmada öncülük ediyor
- xAI Grok 3 hız-derinlik oranında öne çıkıyor
- Kalite ve yanıt süresi arasında ödünleşimler
Maliyet Değerlendirmeleri
Abonelik tabanlı fiyatlandırma önemli ölçüde değişiyor:
- OpenAI: $20-200/month
- Anthropic: $100-200/month
- Gemini: $20/month
- Perplexity: Free-$20/month
- xAI: $30/month
- Manus AI: Görev başına $2-10
Gelecekteki İyileştirmeler
Mevcut Sınırlamalar
- Belirsiz promptlarla zorluk
- Özel/sınırlı verilerle zorluklar
- Sınırlı arama yetenekleri
Planlanan Geliştirmeler
-
Genişletilmiş Kapsam
- Ek promptlar ve yanıtlar
- Daha çeşitli değerlendirme yönleri
-
Geliştirilmiş Değerlendirme
- Daha yeni LLM hakemlerin entegrasyonu
- Gelişmiş web arama araçları
-
Tarayıcı Kullanım Entegrasyonu
- Otomatik prompt işleme
- Alıntı doğrulama
- Web sayfası doğrulama
Sonuç
Falcon çerçevesi, LLM araştırma yeteneklerini değerlendirmek için sağlam, otomatik bir değerlendirme sistemi sağlar. Çoklu hakem yaklaşımı ve kapsamlı kriterleri, hem açık kaynaklı hem de özel modellerin nesnel değerlendirmesini sağlayarak kurumsal düzeyde araştırma görevlerini ve gelişmiş analiz iş akışlarını destekler.