Research overview

अवलोकन

बड़े भाषा मॉडल (LLMs) की अनुसंधान क्षमताओं का मूल्यांकन करने के लिए जटिल सूचना संश्लेषण, तार्किक तर्क, और तथ्यात्मक आधार के परिष्कृत आकलन की आवश्यकता होती है। Falcon: Deep Research Benchmark & Evaluation Framework इस चुनौती का समाधान परिष्कृत अनुसंधान प्रॉम्प्ट्स के लिए LLM प्रतिक्रियाओं के लिए एक स्वचालित, संरचित मूल्यांकन प्रणाली प्रदान करके करता है।

डिज़ाइन दर्शन

मुख्य सिद्धांत

मॉड्यूलरिटी: बेहतर रखरखाव और विस्तारशीलता के लिए सिस्टम घटकों को अलग किया गया है
स्वचालन: स्क्रिप्टेबल और दोहराने योग्य वर्कफ़्लो के माध्यम से मैनुअल प्रयास को कम करता है
पारदर्शिता: स्पष्ट मूल्यांकन मानदंड और सहेजे गए कच्चे स्कोर विस्तृत विश्लेषण सक्षम करते हैं
निष्पक्षता: व्यक्तिगत पूर्वाग्रह को कम करने के लिए कई जज मूल्यांकनों को एकत्रित करता है
मानकीकरण: सुसंगत प्रॉम्प्ट्स और प्रारूप तुलनीय मूल्यांकन सुनिश्चित करते हैं
कॉन्फ़िगरेशन: लचीलेपन के लिए पर्यावरण चर के माध्यम से प्रबंधित सेटिंग्स
व्यावहारिकता: कुशल कार्यान्वयन के लिए उपलब्ध APIs और लाइब्रेरी का उपयोग करता है

फ्रेमवर्क घटक

सोर्स कोड एक्सेस

पूर्ण Falcon सोर्स कोड यहां उपलब्ध है:

GitHub Repository: https://github.com/chima-org/falcon
विस्तृत डिज़ाइन दस्तावेज़ीकरण: report.md

अनुसंधान प्रॉम्प्ट्स और प्रतिक्रियाएं

प्रॉम्प्ट चयन

हमने विभिन्न क्षेत्रों में 10 स्वामित्व वाले जटिल शोध प्रश्नों का संग्रह किया:

अकादमिक शोध प्रश्न
उद्योग-स्तरीय विश्लेषण कार्य
ओपन-सोर्स इंटेलिजेंस संग्रह
हालिया जानकारी और समाचार विश्लेषण

उदाहरण प्रॉम्प्ट्स

क्रिएटर कंटेंट विश्लेषण: “TikTok और Instagram पर इस सप्ताह के सबसे अधिक एंगेजमेंट वाले क्रिएटर कंटेंट द्वारा विशेष रूप से whiteclaws और हार्ड सेल्टज़र्स के लिए उत्पन्न पूर्ण कन्वर्ज़न फनल का मॉडल बनाएं। एंगेजमेंट स्पाइक्स को ऑनलाइन और स्टोर में बिक्री वृद्धि से जोड़ें, क्रिएटर टियर्स, कंटेंट फॉर्मेट्स और पोस्टिंग कैडेंस की पहचान करें जो सबसे अधिक वृद्धिशील ROI प्रदान करते हैं।”
उपभोक्ता व्यवहार पूर्वानुमान: “हाल के समाचारों से एकत्रित डेटा का उपयोग करके, आगामी महीने के लिए Dunkin की कॉफी और सामान्य रूप से कॉफी के संबंध में उपभोक्ता व्यवहारों का पूर्वानुमान लगाएं।“

मूल्यांकन फ्रेमवर्क

व्यक्तिपरक मानदंड

तार्किक सही होना
- आंतरिक संगति का आकलन करता है
- तर्क स्पष्टता का मूल्यांकन करता है
विस्तृतता
- पूर्णता को मापता है
- आवश्यकताओं के सापेक्ष गहराई का मूल्यांकन करता है
हैल्यूसिनेशन दर
- उच्च स्कोर कम हैल्यूसिनेशन दर को इंगित करते हैं
- ह्यूमन-इन-द-लूप फीडबैक के माध्यम से सत्यापित
तथ्यात्मक सटीकता
- इंटरनेट खोज का उपयोग करके दावों का सत्यापन करता है
- पुनरावर्ती स्कोरिंग प्रक्रिया
स्रोत गुणवत्ता
- स्रोतों की विश्वसनीयता का मूल्यांकन करता है
- जानकारी की प्रासंगिकता का आकलन करता है

वस्तुनिष्ठ मानदंड

प्रतिक्रिया समय
- जनरेशन पूर्णता समय को मापता है
टोकन काउंट
- प्रतिक्रिया की लंबाई को मापता है
- समग्र रेटिंग को सीधे प्रभावित नहीं करता

LLM जज

चयनित मॉडल

तीन अत्याधुनिक LLM जज के रूप में कार्य करते हैं:

Claude 3.7 Sonnet
GPT-4.1
Gemini 2.5 Pro

खोज एकीकरण

Claude 3.7 Sonnet के लिए Exa AI वेब खोज API
GPT-4.1 और Gemini के लिए अंतर्निहित खोज क्षमताएं

स्कोरिंग पद्धति

गणना दृष्टिकोण

मात्रात्मक कच्चे स्कोर को जोड़ता है
1-5 रेटिंग में गुणात्मक बकेटिंग
Z-स्कोर और पूर्ण स्कोर का उपयोग करके हाइब्रिड मॉडल
श्रेणी-विशिष्ट गणना विधियां
कई जजों से भारित औसत

प्रमुख निष्कर्ष

मॉडल प्रदर्शन

कोई एकल मॉडल सभी मानदंडों में प्रभुत्व नहीं रखता
OpenAI और Gemini व्यापक शोध में अग्रणी हैं
xAI Grok 3 गति-से-गहराई अनुपात में उत्कृष्ट है
गुणवत्ता और प्रतिक्रिया समय के बीच ट्रेड-ऑफ

लागत विचार

सदस्यता-आधारित मूल्य निर्धारण काफी भिन्न होता है:

OpenAI: $20-200/month
Anthropic: $100-200/month
Gemini: $20/month
Perplexity: Free-$20/month
xAI: $30/month
Manus AI: प्रति कार्य $2-10

भविष्य के सुधार

वर्तमान सीमाएं

अस्पष्ट प्रॉम्प्ट्स के साथ कठिनाई
निजी/सीमित डेटा के साथ चुनौतियां
सीमित खोज क्षमताएं

योजनाबद्ध सुधार

विस्तारित कवरेज
- अतिरिक्त प्रॉम्प्ट्स और प्रतिक्रियाएं
- अधिक विविध मूल्यांकन पहलू
उन्नत मूल्यांकन
- नए LLM जजों का एकीकरण
- उन्नत वेब खोज उपकरण
ब्राउज़र उपयोग एकीकरण
- स्वचालित प्रॉम्प्ट प्रोसेसिंग
- उद्धरण सत्यापन
- वेब पेज सत्यापन

निष्कर्ष

Falcon फ्रेमवर्क LLM शोध क्षमताओं के मूल्यांकन के लिए एक मजबूत, स्वचालित मूल्यांकन प्रणाली प्रदान करता है। इसका मल्टी-जज दृष्टिकोण और व्यापक मानदंड ओपन-सोर्स और स्वामित्व वाले मॉडल दोनों के वस्तुनिष्ठ मूल्यांकन को सक्षम बनाते हैं, जो उद्यम-स्तरीय शोध कार्यों और उन्नत विश्लेषण वर्कफ़्लो का समर्थन करते हैं।

सामान्य

परिचय

प्रॉम्प्ट इंजीनियरिंग

नमूना विषय

सीखने के स्तर

अनुसंधान

Research overview

अवलोकन

डिज़ाइन दर्शन

मुख्य सिद्धांत

फ्रेमवर्क घटक

सोर्स कोड एक्सेस

अनुसंधान प्रॉम्प्ट्स और प्रतिक्रियाएं

प्रॉम्प्ट चयन

उदाहरण प्रॉम्प्ट्स

मूल्यांकन फ्रेमवर्क

व्यक्तिपरक मानदंड

वस्तुनिष्ठ मानदंड

LLM जज

चयनित मॉडल

खोज एकीकरण

स्कोरिंग पद्धति

गणना दृष्टिकोण

प्रमुख निष्कर्ष

मॉडल प्रदर्शन

लागत विचार

भविष्य के सुधार

वर्तमान सीमाएं

योजनाबद्ध सुधार

निष्कर्ष

सामान्य

परिचय

प्रॉम्प्ट इंजीनियरिंग

नमूना विषय

सीखने के स्तर

अनुसंधान

​अवलोकन

​डिज़ाइन दर्शन

​मुख्य सिद्धांत

​फ्रेमवर्क घटक

​सोर्स कोड एक्सेस

​अनुसंधान प्रॉम्प्ट्स और प्रतिक्रियाएं

​प्रॉम्प्ट चयन

​उदाहरण प्रॉम्प्ट्स

​मूल्यांकन फ्रेमवर्क

​व्यक्तिपरक मानदंड

​वस्तुनिष्ठ मानदंड

​LLM जज

​चयनित मॉडल

​खोज एकीकरण

​स्कोरिंग पद्धति

​गणना दृष्टिकोण

​प्रमुख निष्कर्ष

​मॉडल प्रदर्शन

​लागत विचार

​भविष्य के सुधार

​वर्तमान सीमाएं

​योजनाबद्ध सुधार

​निष्कर्ष

अवलोकन

डिज़ाइन दर्शन

मुख्य सिद्धांत

फ्रेमवर्क घटक

सोर्स कोड एक्सेस

अनुसंधान प्रॉम्प्ट्स और प्रतिक्रियाएं

प्रॉम्प्ट चयन

उदाहरण प्रॉम्प्ट्स

मूल्यांकन फ्रेमवर्क

व्यक्तिपरक मानदंड

वस्तुनिष्ठ मानदंड

LLM जज

चयनित मॉडल

खोज एकीकरण

स्कोरिंग पद्धति

गणना दृष्टिकोण

प्रमुख निष्कर्ष

मॉडल प्रदर्शन

लागत विचार

भविष्य के सुधार

वर्तमान सीमाएं

योजनाबद्ध सुधार

निष्कर्ष