Research overview

نظرة عامة

تقييم قدرات البحث لنماذج اللغة الكبيرة (LLMs) يتطلب تقييمًا متطورًا لتوليف المعلومات المعقدة، والاستدلال المنطقي، والتأسيس الواقعي. يعالج Falcon: إطار المعايير والتقييم للبحث العميق هذا التحدي من خلال توفير نظام تقييم آلي ومنظم لاستجابات نماذج اللغة الكبيرة للإرشادات البحثية المتطورة.

فلسفة التصميم

المبادئ الأساسية

النمطية: يتم فصل مكونات النظام لتعزيز قابلية الصيانة والتوسع
الأتمتة: تقلل الجهد اليدوي من خلال سير عمل قابل للبرمجة وقابل للتكرار
الشفافية: معايير التقييم الصريحة والنتائج الخام المحفوظة تمكن من التحليل المفصل
الموضوعية: تجمع تقييمات متعددة من المحكمين لتقليل التحيز الفردي
التوحيد القياسي: الإرشادات والتنسيقات المتسقة تضمن تقييمات قابلة للمقارنة
التكوين: تتم إدارة الإعدادات عبر متغيرات البيئة للمرونة
البراغماتية: تستخدم واجهات برمجة التطبيقات والمكتبات المتاحة للتنفيذ الفعال

مكونات الإطار

الوصول إلى الكود المصدري

الكود المصدري الكامل لـ Falcon متاح في:

مستودع GitHub: https://github.com/chima-org/falcon
وثائق التصميم المفصلة: report.md

إرشادات البحث والاستجابات

اختيار الإرشاد

قمنا بتجميع 10 أسئلة بحثية معقدة خاصة عبر مجالات متنوعة:

أسئلة البحث الأكاديمي
مهام تحليل على مستوى الصناعة
جمع المعلومات الاستخباراتية مفتوحة المصدر
تحليل المعلومات والأخبار الحديثة

أمثلة على الأوامر

تحليل محتوى المنشئين: “قم بنمذجة مسار التحويل الكامل الناتج عن محتوى المنشئين الأكثر تفاعلاً هذا الأسبوع على تيك توك وإنستغرام خصيصًا لمنتجات whiteclaws والمشروبات الكحولية الخفيفة. قم بربط ارتفاعات التفاعل بزيادات المبيعات القابلة للإسناد عبر الإنترنت وفي المتاجر، وحدد فئات المنشئين وأشكال المحتوى وتواتر النشر التي تحقق أعلى عائد استثمار إضافي.”
توقع سلوك المستهلك: “باستخدام البيانات المستقاة من الأخبار الحديثة، توقع سلوكيات المستهلكين فيما يتعلق بقهوة Dunkin والقهوة بشكل عام للشهر القادم.”

إطار التقييم

المعايير الذاتية

الصحة المنطقية
- تقييم الاتساق الداخلي
- تقييم وضوح المنطق
الشمولية
- قياس الاكتمال
- تقييم العمق بالنسبة للمتطلبات
معدل الهلوسة
- الدرجات الأعلى تشير إلى معدلات هلوسة أقل
- تم التحقق من خلال تعليقات الإنسان في الحلقة
الدقة الواقعية
- التحقق من الادعاءات باستخدام البحث على الإنترنت
- عملية تسجيل النقاط التكرارية
جودة المصدر
- تقييم مصداقية المصادر
- تقييم أهمية المعلومات

المعايير الموضوعية

وقت الاستجابة
- قياس وقت إكمال الإنشاء
عدد الرموز
- قياس طول الاستجابة
- لا تؤثر مباشرة على التقييم العام

محكمو نماذج اللغة الكبيرة

النماذج المختارة

ثلاثة نماذج لغوية كبيرة متطورة تعمل كمحكمين:

Claude 3.7 Sonnet
GPT-4.1
Gemini 2.5 Pro

تكامل البحث

واجهة برمجة تطبيقات البحث على الويب Exa AI لـ Claude 3.7 Sonnet
قدرات البحث المدمجة لـ GPT-4.1 و Gemini

منهجية التسجيل

نهج الحساب

يجمع بين الدرجات الكمية الخام
التصنيف النوعي في تقييمات من 1-5
نموذج هجين باستخدام درجات Z والدرجات المطلقة
طرق حساب خاصة بكل فئة
متوسطات مرجحة من محكمين متعددين

النتائج الرئيسية

أداء النموذج

لا يوجد نموذج واحد يهيمن على جميع المعايير
OpenAI و Gemini يتصدران في البحث الشامل
xAI Grok 3 يتفوق في نسبة السرعة إلى العمق
المفاضلات بين الجودة ووقت الاستجابة

اعتبارات التكلفة

تختلف أسعار الاشتراك بشكل كبير:

OpenAI: $20-200/month
Anthropic: $100-200/month
Gemini: $20/month
Perplexity: Free-$20/month
xAI: $30/month
Manus AI: 2-10 دولار لكل مهمة

التحسينات المستقبلية

القيود الحالية

صعوبة مع الأوامر الغامضة
تحديات مع البيانات الخاصة/المحدودة
قدرات بحث محدودة

التحسينات المخططة

توسيع التغطية
- أوامر واستجابات إضافية
- جوانب تقييم أكثر تنوعًا
تقييم محسن
- دمج محكمي نماذج اللغة الكبيرة الأحدث
- أدوات بحث متقدمة على الويب
دمج استخدام المتصفح
- معالجة الأوامر الآلية
- التحقق من الاستشهادات
- التحقق من صفحات الويب

الخلاصة

يوفر إطار Falcon نظام تقييم آلي قوي لتقييم قدرات البحث في نماذج اللغة الكبيرة. يتيح نهجه متعدد المحكمين ومعاييره الشاملة تقييمًا موضوعيًا لكل من النماذج مفتوحة المصدر والملكية، مما يدعم مهام البحث على مستوى المؤسسات وسير عمل التحليل المتقدم.

عام

مقدمة

هندسة الموجهات

مواضيع نموذجية

مستويات التعلم

البحث

Research overview

نظرة عامة

فلسفة التصميم

المبادئ الأساسية

مكونات الإطار

الوصول إلى الكود المصدري

إرشادات البحث والاستجابات

اختيار الإرشاد

أمثلة على الأوامر

إطار التقييم

المعايير الذاتية

المعايير الموضوعية

محكمو نماذج اللغة الكبيرة

النماذج المختارة

تكامل البحث

منهجية التسجيل

نهج الحساب

النتائج الرئيسية

أداء النموذج

اعتبارات التكلفة

التحسينات المستقبلية

القيود الحالية

التحسينات المخططة

الخلاصة

عام

مقدمة

هندسة الموجهات

مواضيع نموذجية

مستويات التعلم

البحث

​نظرة عامة

​فلسفة التصميم

​المبادئ الأساسية

​مكونات الإطار

​الوصول إلى الكود المصدري

​إرشادات البحث والاستجابات

​اختيار الإرشاد

​أمثلة على الأوامر

​إطار التقييم

​المعايير الذاتية

​المعايير الموضوعية

​محكمو نماذج اللغة الكبيرة

​النماذج المختارة

​تكامل البحث

​منهجية التسجيل

​نهج الحساب

​النتائج الرئيسية

​أداء النموذج

​اعتبارات التكلفة

​التحسينات المستقبلية

​القيود الحالية

​التحسينات المخططة

​الخلاصة

نظرة عامة

فلسفة التصميم

المبادئ الأساسية

مكونات الإطار

الوصول إلى الكود المصدري

إرشادات البحث والاستجابات

اختيار الإرشاد

أمثلة على الأوامر

إطار التقييم

المعايير الذاتية

المعايير الموضوعية

محكمو نماذج اللغة الكبيرة

النماذج المختارة

تكامل البحث

منهجية التسجيل

نهج الحساب

النتائج الرئيسية

أداء النموذج

اعتبارات التكلفة

التحسينات المستقبلية

القيود الحالية

التحسينات المخططة

الخلاصة