Research overview
نظرة عامة
تقييم قدرات البحث لنماذج اللغة الكبيرة (LLMs) يتطلب تقييمًا متطورًا لتوليف المعلومات المعقدة، والاستدلال المنطقي، والتأسيس الواقعي. يعالج Falcon: إطار المعايير والتقييم للبحث العميق هذا التحدي من خلال توفير نظام تقييم آلي ومنظم لاستجابات نماذج اللغة الكبيرة للإرشادات البحثية المتطورة.
فلسفة التصميم
المبادئ الأساسية
- النمطية: يتم فصل مكونات النظام لتعزيز قابلية الصيانة والتوسع
- الأتمتة: تقلل الجهد اليدوي من خلال سير عمل قابل للبرمجة وقابل للتكرار
- الشفافية: معايير التقييم الصريحة والنتائج الخام المحفوظة تمكن من التحليل المفصل
- الموضوعية: تجمع تقييمات متعددة من المحكمين لتقليل التحيز الفردي
- التوحيد القياسي: الإرشادات والتنسيقات المتسقة تضمن تقييمات قابلة للمقارنة
- التكوين: تتم إدارة الإعدادات عبر متغيرات البيئة للمرونة
- البراغماتية: تستخدم واجهات برمجة التطبيقات والمكتبات المتاحة للتنفيذ الفعال
مكونات الإطار
الوصول إلى الكود المصدري
الكود المصدري الكامل لـ Falcon متاح في:
- مستودع GitHub: https://github.com/chima-org/falcon
- وثائق التصميم المفصلة: report.md
إرشادات البحث والاستجابات
اختيار الإرشاد
قمنا بتجميع 10 أسئلة بحثية معقدة خاصة عبر مجالات متنوعة:
- أسئلة البحث الأكاديمي
- مهام تحليل على مستوى الصناعة
- جمع المعلومات الاستخباراتية مفتوحة المصدر
- تحليل المعلومات والأخبار الحديثة
أمثلة على الأوامر
-
تحليل محتوى المنشئين: “قم بنمذجة مسار التحويل الكامل الناتج عن محتوى المنشئين الأكثر تفاعلاً هذا الأسبوع على تيك توك وإنستغرام خصيصًا لمنتجات whiteclaws والمشروبات الكحولية الخفيفة. قم بربط ارتفاعات التفاعل بزيادات المبيعات القابلة للإسناد عبر الإنترنت وفي المتاجر، وحدد فئات المنشئين وأشكال المحتوى وتواتر النشر التي تحقق أعلى عائد استثمار إضافي.”
-
توقع سلوك المستهلك: “باستخدام البيانات المستقاة من الأخبار الحديثة، توقع سلوكيات المستهلكين فيما يتعلق بقهوة Dunkin والقهوة بشكل عام للشهر القادم.”
إطار التقييم
المعايير الذاتية
-
الصحة المنطقية
- تقييم الاتساق الداخلي
- تقييم وضوح المنطق
-
الشمولية
- قياس الاكتمال
- تقييم العمق بالنسبة للمتطلبات
-
معدل الهلوسة
- الدرجات الأعلى تشير إلى معدلات هلوسة أقل
- تم التحقق من خلال تعليقات الإنسان في الحلقة
-
الدقة الواقعية
- التحقق من الادعاءات باستخدام البحث على الإنترنت
- عملية تسجيل النقاط التكرارية
-
جودة المصدر
- تقييم مصداقية المصادر
- تقييم أهمية المعلومات
المعايير الموضوعية
-
وقت الاستجابة
- قياس وقت إكمال الإنشاء
-
عدد الرموز
- قياس طول الاستجابة
- لا تؤثر مباشرة على التقييم العام
محكمو نماذج اللغة الكبيرة
النماذج المختارة
ثلاثة نماذج لغوية كبيرة متطورة تعمل كمحكمين:
- Claude 3.7 Sonnet
- GPT-4.1
- Gemini 2.5 Pro
تكامل البحث
- واجهة برمجة تطبيقات البحث على الويب Exa AI لـ Claude 3.7 Sonnet
- قدرات البحث المدمجة لـ GPT-4.1 و Gemini
منهجية التسجيل
نهج الحساب
- يجمع بين الدرجات الكمية الخام
- التصنيف النوعي في تقييمات من 1-5
- نموذج هجين باستخدام درجات Z والدرجات المطلقة
- طرق حساب خاصة بكل فئة
- متوسطات مرجحة من محكمين متعددين
النتائج الرئيسية
أداء النموذج
- لا يوجد نموذج واحد يهيمن على جميع المعايير
- OpenAI و Gemini يتصدران في البحث الشامل
- xAI Grok 3 يتفوق في نسبة السرعة إلى العمق
- المفاضلات بين الجودة ووقت الاستجابة
اعتبارات التكلفة
تختلف أسعار الاشتراك بشكل كبير:
- OpenAI: $20-200/month
- Anthropic: $100-200/month
- Gemini: $20/month
- Perplexity: Free-$20/month
- xAI: $30/month
- Manus AI: 2-10 دولار لكل مهمة
التحسينات المستقبلية
القيود الحالية
- صعوبة مع الأوامر الغامضة
- تحديات مع البيانات الخاصة/المحدودة
- قدرات بحث محدودة
التحسينات المخططة
-
توسيع التغطية
- أوامر واستجابات إضافية
- جوانب تقييم أكثر تنوعًا
-
تقييم محسن
- دمج محكمي نماذج اللغة الكبيرة الأحدث
- أدوات بحث متقدمة على الويب
-
دمج استخدام المتصفح
- معالجة الأوامر الآلية
- التحقق من الاستشهادات
- التحقق من صفحات الويب
الخلاصة
يوفر إطار Falcon نظام تقييم آلي قوي لتقييم قدرات البحث في نماذج اللغة الكبيرة. يتيح نهجه متعدد المحكمين ومعاييره الشاملة تقييمًا موضوعيًا لكل من النماذج مفتوحة المصدر والملكية، مما يدعم مهام البحث على مستوى المؤسسات وسير عمل التحليل المتقدم.