Research overview

Genel Bakış

Büyük Dil Modellerinin (LLM’ler) araştırma yeteneklerini değerlendirmek, karmaşık bilgi sentezi, mantıksal akıl yürütme ve olgusal temellendirmenin sofistike bir değerlendirmesini gerektirir. Falcon: Derin Araştırma Kıyaslama ve Değerlendirme Çerçevesi, sofistike araştırma yönlendirmelerine LLM yanıtları için otomatik, yapılandırılmış bir değerlendirme sistemi sağlayarak bu zorluğu ele alır.

Tasarım Felsefesi

Temel İlkeler

Modülerlik: Sistem bileşenleri, geliştirilmiş bakım ve genişletilebilirlik için ayrılmıştır
Otomasyon: Komut dosyası haline getirilebilir ve tekrarlanabilir iş akışları sayesinde manuel çabayı en aza indirir
Şeffaflık: Açık değerlendirme kriterleri ve kaydedilen ham puanlar ayrıntılı analiz sağlar
Nesnellik: Bireysel önyargıyı azaltmak için birden fazla hakem değerlendirmesini bir araya getirir
Standardizasyon: Tutarlı yönlendirmeler ve formatlar karşılaştırılabilir değerlendirmeler sağlar
Yapılandırma: Esneklik için ayarlar ortam değişkenleri aracılığıyla yönetilir
Pragmatizm: Verimli uygulama için mevcut API’leri ve kütüphaneleri kullanır

Çerçeve Bileşenleri

Kaynak Kodu Erişimi

Tam Falcon kaynak kodu şu adreste mevcuttur:

GitHub Deposu: https://github.com/chima-org/falcon
Ayrıntılı Tasarım Belgeleri: report.md

Araştırma Yönlendirmeleri ve Yanıtları

Yönlendirme Seçimi

Çeşitli alanlarda 10 özel karmaşık araştırma sorusu derledik:

Akademik araştırma soruları
Endüstri düzeyinde analiz görevleri
Açık kaynak istihbarat toplama
Güncel bilgi ve haber analizi

Örnek Promptlar

İçerik Üretici Analizi: “TikTok ve Instagram’da bu haftanın en yüksek etkileşimli içerik üreticilerinin özellikle whiteclaws ve sert seltzers için oluşturduğu tam dönüşüm hunisini modelleyin. Etkileşim artışlarını çevrimiçi ve mağaza içi satış artışlarıyla ilişkilendirin, en yüksek artımlı ROI’yi sağlayan içerik üretici kademelerini, içerik formatlarını ve paylaşım sıklıklarını belirleyin.”
Tüketici Davranışı Tahmini: “Son haberlerden toplanan verileri kullanarak, önümüzdeki ay için Dunkin’in kahvesi ve genel olarak kahve ile ilgili tüketici davranışlarını tahmin edin.”

Değerlendirme Çerçevesi

Öznel Kriterler

Mantıksal Doğruluk
- İç tutarlılığı değerlendirir
- Akıl yürütme netliğini değerlendirir
Kapsamlılık
- Tamlığı ölçer
- Gereksinimlere göre derinliği değerlendirir
Halüsinasyon Oranı
- Yüksek puanlar daha düşük halüsinasyon oranlarını gösterir
- İnsan-döngüde geri bildirim ile doğrulanır
Olgusal Doğruluk
- İnternet araması kullanarak iddiaları doğrular
- Yinelemeli puanlama süreci
Kaynak Kalitesi
- Kaynakların güvenilirliğini değerlendirir
- Bilgi ilgisini değerlendirir

Nesnel Kriterler

Yanıt Süresi
- Oluşturma tamamlanma süresini ölçer
Token Sayıları
- Yanıt uzunluğunu ölçer
- Genel derecelendirmeyi doğrudan etkilemez

LLM Hakemler

Seçilen Modeller

Üç son teknoloji LLM hakem olarak hizmet verir:

Claude 3.7 Sonnet
GPT-4.1
Gemini 2.5 Pro

Arama Entegrasyonu

Claude 3.7 Sonnet için Exa AI Web Arama API’si
GPT-4.1 ve Gemini için yerleşik arama yetenekleri

Puanlama Metodolojisi

Hesaplama Yaklaşımı

Nicel ham puanları birleştirir
1-5 derecelendirmelerine niteliksel gruplama
Z-puanları ve mutlak puanları kullanan hibrit model
Kategoriye özgü hesaplama yöntemleri
Birden fazla hakemden ağırlıklı ortalamalar

Temel Bulgular

Model Performansı

Hiçbir model tüm kriterlerde baskın değil
OpenAI ve Gemini kapsamlı araştırmada öncülük ediyor
xAI Grok 3 hız-derinlik oranında öne çıkıyor
Kalite ve yanıt süresi arasında ödünleşimler

Maliyet Değerlendirmeleri

Abonelik tabanlı fiyatlandırma önemli ölçüde değişiyor:

OpenAI: $20-200/month
Anthropic: $100-200/month
Gemini: $20/month
Perplexity: Free-$20/month
xAI: $30/month
Manus AI: Görev başına $2-10

Gelecekteki İyileştirmeler

Mevcut Sınırlamalar

Belirsiz promptlarla zorluk
Özel/sınırlı verilerle zorluklar
Sınırlı arama yetenekleri

Planlanan Geliştirmeler

Genişletilmiş Kapsam
- Ek promptlar ve yanıtlar
- Daha çeşitli değerlendirme yönleri
Geliştirilmiş Değerlendirme
- Daha yeni LLM hakemlerin entegrasyonu
- Gelişmiş web arama araçları
Tarayıcı Kullanım Entegrasyonu
- Otomatik prompt işleme
- Alıntı doğrulama
- Web sayfası doğrulama

Sonuç

Falcon çerçevesi, LLM araştırma yeteneklerini değerlendirmek için sağlam, otomatik bir değerlendirme sistemi sağlar. Çoklu hakem yaklaşımı ve kapsamlı kriterleri, hem açık kaynaklı hem de özel modellerin nesnel değerlendirmesini sağlayarak kurumsal düzeyde araştırma görevlerini ve gelişmiş analiz iş akışlarını destekler.

Genel

Giriş

Prompt Mühendisliği

Örnek Konular

Öğrenme Seviyeleri

Araştırma

Research overview

Genel Bakış

Tasarım Felsefesi

Temel İlkeler

Çerçeve Bileşenleri

Kaynak Kodu Erişimi

Araştırma Yönlendirmeleri ve Yanıtları

Yönlendirme Seçimi

Örnek Promptlar

Değerlendirme Çerçevesi

Öznel Kriterler

Nesnel Kriterler

LLM Hakemler

Seçilen Modeller

Arama Entegrasyonu

Puanlama Metodolojisi

Hesaplama Yaklaşımı

Temel Bulgular

Model Performansı

Maliyet Değerlendirmeleri

Gelecekteki İyileştirmeler

Mevcut Sınırlamalar

Planlanan Geliştirmeler

Sonuç

Genel

Giriş

Prompt Mühendisliği

Örnek Konular

Öğrenme Seviyeleri

Araştırma

​Genel Bakış

​Tasarım Felsefesi

​Temel İlkeler

​Çerçeve Bileşenleri

​Kaynak Kodu Erişimi

​Araştırma Yönlendirmeleri ve Yanıtları

​Yönlendirme Seçimi

​Örnek Promptlar

​Değerlendirme Çerçevesi

​Öznel Kriterler

​Nesnel Kriterler

​LLM Hakemler

​Seçilen Modeller

​Arama Entegrasyonu

​Puanlama Metodolojisi

​Hesaplama Yaklaşımı

​Temel Bulgular

​Model Performansı

​Maliyet Değerlendirmeleri

​Gelecekteki İyileştirmeler

​Mevcut Sınırlamalar

​Planlanan Geliştirmeler

​Sonuç

Genel Bakış

Tasarım Felsefesi

Temel İlkeler

Çerçeve Bileşenleri

Kaynak Kodu Erişimi

Araştırma Yönlendirmeleri ve Yanıtları

Yönlendirme Seçimi

Örnek Promptlar

Değerlendirme Çerçevesi

Öznel Kriterler

Nesnel Kriterler

LLM Hakemler

Seçilen Modeller

Arama Entegrasyonu

Puanlama Metodolojisi

Hesaplama Yaklaşımı

Temel Bulgular

Model Performansı

Maliyet Değerlendirmeleri

Gelecekteki İyileştirmeler

Mevcut Sınırlamalar

Planlanan Geliştirmeler

Sonuç