
नया! डीपसीक ओसीआर चीन की खामोश जीत है: कैसे एक ओपन-सोर्स एआई चिप्स में अमेरिकी प्रभुत्व को कमज़ोर कर रहा है - छवि: एक्सपर्ट.डिजिटल
महंगी AI का अंत? यह AI टेक्स्ट पढ़ने के बजाय, तस्वीरों को देखता है - और इसलिए 10 गुना ज़्यादा कुशल है।
कैसे एक सरल चाल कंप्यूटिंग लागत को 90% तक कम कर सकती है - चैटजीपीटी की अकिलीज़ हील: क्यों एक नई ओसीआर तकनीक एआई अर्थव्यवस्था के नियमों को फिर से लिख रही है
लंबे समय तक, कृत्रिम बुद्धिमत्ता की दुनिया एक साधारण नियम का पालन करती रही: जितना बड़ा उतना ही बेहतर। विशाल डेटा केंद्रों में अरबों डॉलर के निवेश से प्रेरित होकर, ओपनएआई, गूगल और एंथ्रोपिक जैसी तकनीकी दिग्गज कंपनियाँ लगातार व्यापक संदर्भ-विंडो वाले बड़े भाषा मॉडल विकसित करने की होड़ में लगी रहीं। लेकिन इन प्रभावशाली प्रदर्शनों के पीछे एक बुनियादी आर्थिक कमज़ोरी छिपी है: द्विघात स्केलिंग। किसी मॉडल द्वारा संसाधित किए जाने वाले पाठ की लंबाई को दोगुना करने से कंप्यूटिंग लागत में तेज़ी से वृद्धि होती है, जिससे अनगिनत आशाजनक अनुप्रयोग व्यावहारिक रूप से अलाभकारी हो जाते हैं।
ठीक इसी आर्थिक बाधा पर अब एक ऐसी तकनीक सामने आई है जो न केवल एक सुधार का प्रतिनिधित्व करती है, बल्कि स्थापित प्रतिमान का एक मौलिक विकल्प भी प्रस्तुत करती है: डीपसीक-ओसीआर। टेक्स्ट को टोकन की एक लंबी श्रृंखला में विभाजित करने के बजाय, यह प्रणाली एक बिल्कुल अलग दृष्टिकोण अपनाती है: यह टेक्स्ट को एक छवि में परिवर्तित करती है और जानकारी को दृश्य रूप से संसाधित करती है। यह दिखने में सरल तरकीब एक आर्थिक बाधा बन जाती है जो एआई बुनियादी ढांचे की नींव हिला देती है।
दृश्य संपीड़न के एक बुद्धिमान संयोजन के माध्यम से, जो महंगे कम्प्यूटेशनल चरणों को 10 से 20 गुना कम कर देता है, और एक अत्यधिक कुशल मिक्सचर-ऑफ-एक्सपर्ट्स (MoE) आर्किटेक्चर, डीपसीक ओसीआर पारंपरिक लागत जाल को दरकिनार कर देता है। परिणाम न केवल दक्षता में भारी वृद्धि है, जिससे दस्तावेज़ प्रसंस्करण 90% तक सस्ता हो जाता है, बल्कि दूरगामी परिणामों के साथ एक आदर्श बदलाव भी होता है। यह लेख विश्लेषण करता है कि कैसे यह नवाचार न केवल दस्तावेज़ प्रसंस्करण बाजार में क्रांति ला रहा है, बल्कि स्थापित एआई विक्रेताओं के व्यावसायिक मॉडल को भी चुनौती दे रहा है, हार्डवेयर श्रेष्ठता के रणनीतिक महत्व को फिर से परिभाषित कर रहा है, और अपने ओपन-सोर्स दृष्टिकोण के माध्यम से व्यापक पैमाने पर प्रौद्योगिकी का लोकतंत्रीकरण कर रहा है। हम एक नए युग की दहलीज पर हैं जिसमें कच्ची कंप्यूटिंग शक्ति के बजाय वास्तुशिल्प बुद्धिमत्ता,
के लिए उपयुक्त:
- एआई दिग्गजों को भूल जाइए: भविष्य छोटा, विकेंद्रीकृत और बहुत सस्ता क्यों है | $ 57 बिलियन का गलत अनुमान - सभी कंपनियों में से NVIDIA ने चेतावनी दी: AI उद्योग ने गलत घोड़े का समर्थन किया
डीपसीक ओसीआर क्यों कृत्रिम बुद्धिमत्ता के स्थापित बुनियादी ढांचे को मौलिक रूप से चुनौती देता है और कंप्यूटर विज्ञान अर्थशास्त्र के नए नियम लिखता है: संदर्भ-जागरूक प्रसंस्करण की क्लासिक सीमाएँ
बड़े भाषा मॉडलों के सामने व्यावसायिक रूप से आने के बाद से जो मुख्य समस्या आई है, वह उनकी बुद्धिमत्ता में नहीं, बल्कि उनकी गणितीय अक्षमता में है। ध्यान तंत्र डिज़ाइन, जो सभी आधुनिक ट्रांसफ़ॉर्मर आर्किटेक्चर का आधार बनता है, में एक बुनियादी कमज़ोरी है: प्रसंस्करण जटिलता इनपुट टोकन की संख्या के साथ द्विघात रूप से बढ़ती है। विशेष रूप से, इसका अर्थ है कि 4096 टोकन के संदर्भ वाले भाषा मॉडल को 1024 टोकन के संदर्भ वाले मॉडल की तुलना में सोलह गुना अधिक कंप्यूटिंग संसाधनों की आवश्यकता होती है। यह द्विघात स्केलिंग केवल एक तकनीकी विवरण नहीं है, बल्कि एक प्रत्यक्ष आर्थिक सीमा है जो व्यावहारिक रूप से व्यवहार्य और आर्थिक रूप से अस्थिर अनुप्रयोगों के बीच अंतर करती है।
लंबे समय तक, उद्योग ने इस सीमा का समाधान एक पारंपरिक स्केलिंग रणनीति के साथ किया: हार्डवेयर क्षमता का विस्तार करके बड़ी संदर्भ विंडो प्राप्त की गईं। उदाहरण के लिए, माइक्रोसॉफ्ट ने LongRoPE विकसित किया, जो संदर्भ विंडो को दो मिलियन से अधिक टोकन तक बढ़ाता है, जबकि गूगल का जेमिनी 1.5 दस लाख टोकन संसाधित कर सकता है। हालाँकि, व्यवहार इस दृष्टिकोण की भ्रामक प्रकृति को स्पष्ट रूप से प्रदर्शित करता है: जहाँ लंबे टेक्स्ट को संसाधित करने की तकनीकी क्षमता बढ़ी है, वहीं उत्पादन परिवेशों में इन तकनीकों को अपनाना स्थिर रहा है क्योंकि ऐसे परिदृश्यों के लिए लागत संरचना अभी भी लाभहीन बनी हुई है। डेटा केंद्रों और क्लाउड प्रदाताओं के लिए परिचालन वास्तविकता यह है कि संदर्भ लंबाई के हर दोगुने होने पर उन्हें लागत में घातीय वृद्धि का सामना करना पड़ता है।
उपर्युक्त द्विघात जटिलता के कारण यह आर्थिक दुविधा ज्यामितीय रूप से प्रगतिशील हो जाती है: 100,000 टोकन के पाठ को संसाधित करने वाले मॉडल को 10,000 टोकन संसाधित करने वाले मॉडल की तुलना में दस गुना नहीं, बल्कि सौ गुना अधिक कम्प्यूटेशनल प्रयास की आवश्यकता होती है। एक औद्योगिक वातावरण में, जहाँ प्रति GPU प्रति सेकंड टोकन में मापा जाने वाला थ्रूपुट, लाभप्रदता का एक प्रमुख मापदंड है, इसका अर्थ है कि वर्तमान टोकनीकरण प्रतिमान का उपयोग करके लंबे दस्तावेज़ों को आर्थिक रूप से संसाधित नहीं किया जा सकता है।
अधिकांश एलएलएम प्रदाताओं का व्यावसायिक मॉडल इन टोकनों से कमाई करने पर आधारित है। ओपनएआई, एंथ्रोपिक और अन्य स्थापित प्रदाता इनपुट और आउटपुट टोकन के आधार पर अपनी कीमतें तय करते हैं। एक सौ पृष्ठों वाला एक औसत व्यावसायिक दस्तावेज़ जल्दी ही पाँच से दस हज़ार टोकन में तब्दील हो सकता है। अगर कोई कंपनी रोज़ाना ऐसे सैकड़ों दस्तावेज़ों को संसाधित करती है, तो बिल जल्दी ही छह या सात अंकों की वार्षिक राशि तक पहुँच जाता है। आरएजी (रिट्रीवल ऑगमेंटेड जेनरेशन) संदर्भ में अधिकांश एंटरप्राइज़ एप्लिकेशन इन लागतों से सीमित रहे हैं और इसलिए या तो उन्हें लागू नहीं किया गया है या पारंपरिक ओसीआर या नियम-आधारित प्रणालियों जैसे अधिक लागत-प्रभावी विकल्पों पर स्विच कर दिया गया है।
के लिए उपयुक्त:
दृश्य संपीड़न की क्रियाविधि
डीपसीक-ओसीआर इस समस्या के लिए एक मौलिक रूप से भिन्न दृष्टिकोण प्रस्तुत करता है, जो मौजूदा टोकन प्रतिमान की सीमाओं के भीतर काम नहीं करता, बल्कि वस्तुतः उनसे बच निकलता है। यह प्रणाली एक सरल लेकिन अत्यंत प्रभावी सिद्धांत के अनुसार कार्य करती है: पाठ को अलग-अलग टोकन में विघटित करने के बजाय, पाठ को पहले एक छवि के रूप में प्रस्तुत किया जाता है और फिर एक दृश्य माध्यम के रूप में संसाधित किया जाता है। यह केवल एक तकनीकी परिवर्तन नहीं है, बल्कि इनपुट प्रक्रिया का एक वैचारिक पुनर्रचना है।
मूल योजना में कई क्रमिक प्रसंस्करण स्तर शामिल हैं। एक उच्च-रिज़ॉल्यूशन दस्तावेज़ पृष्ठ को पहले एक छवि में परिवर्तित किया जाता है, जिसमें लेआउट, ग्राफ़िक्स, तालिकाओं और मूल टाइपोग्राफी सहित सभी दृश्य जानकारी संरक्षित रहती है। इस चित्रात्मक रूप में, एक पृष्ठ, उदाहरण के लिए 1024×1024 पिक्सेल प्रारूप में, सैद्धांतिक रूप से एक हज़ार से बीस हज़ार टोकन के पाठ के बराबर हो सकता है, क्योंकि तालिकाओं, बहु-स्तंभ लेआउट और एक जटिल दृश्य संरचना वाले पृष्ठ में इतनी मात्रा में जानकारी हो सकती है।
सिस्टम का पहला प्रोसेसिंग घटक, डीपएनकोडर, पारंपरिक विज़ुअल ट्रांसफ़ॉर्मर डिज़ाइन का उपयोग नहीं करता, बल्कि एक हाइब्रिड आर्किटेक्चर का उपयोग करता है। सेगमेंट एनीथिंग मॉडल पर आधारित एक स्थानीय बोध मॉड्यूल, विंडो वाले ध्यान के साथ छवि को स्कैन करता है। इसका मतलब है कि सिस्टम पूरी छवि पर नहीं, बल्कि छोटे, अतिव्यापी क्षेत्रों पर काम करता है। यह रणनीति महत्वपूर्ण है क्योंकि यह पारंपरिक द्विघात जटिलता के जाल से बचती है। प्रत्येक पिक्सेल या विज़ुअल विशेषता द्वारा अन्य सभी पर ध्यान आकर्षित करने के बजाय, सिस्टम स्थानीयकृत विंडो, जैसे आठवें-आठवें या चौदहवें-चौदहवें पिक्सेल क्षेत्रों में काम करता है।
इसके बाद तकनीकी रूप से क्रांतिकारी चरण आता है: एक दो-परत कन्वोल्यूशनल डाउनसैंपलर विज़ुअल टोकन की संख्या को सोलह गुना कम कर देता है। इसका मतलब है कि स्थानीय मॉड्यूल के मूल 4,960 विज़ुअल पैच टोकन केवल 256 विज़ुअल टोकन में संपीड़ित हो जाते हैं। यह आश्चर्यजनक रूप से प्रभावी अनुपात का संपीड़न है, लेकिन वास्तव में महत्वपूर्ण बात यह है कि यह संपीड़न महंगे ग्लोबल अटेंशन मैकेनिज्म के लागू होने से पहले होता है। डाउनसैंपलर एक व्युत्क्रम बिंदु का प्रतिनिधित्व करता है जहाँ लागत-प्रभावी स्थानीय प्रसंस्करण एक अत्यंत सघन प्रतिनिधित्व में परिवर्तित हो जाता है, जिस पर अधिक महंगा, लेकिन अब व्यवहार्य, ग्लोबल अटेंशन लागू होता है।
इस संपीड़न के बाद, एक CLIP-आकार का मॉडल, जिसमें स्वयं तीन सौ मिलियन पैरामीटर होते हैं, केवल दो सौ छप्पन टोकन पर कार्य करता है। इसका अर्थ है कि वैश्विक ध्यान मैट्रिक्स को सोलह हज़ार चौरानवे के बजाय केवल चार हज़ार छह सौ पैंतीस युग्मित ध्यान संचालन करने की आवश्यकता है। यह अकेले इस प्रसंस्करण चरण में दो सौ पचास गुना की कमी है।
इस आर्किटेक्चरल विभाजन का परिणाम 10:1 से 20:1 तक एंड-टू-एंड कम्प्रेशन है, जो व्यावहारिक रूप से 97% सटीकता प्राप्त करता है, बशर्ते कम्प्रेशन 10:1 से ज़्यादा चरम पर न हो। 20:1 के अधिक चरम कम्प्रेशन के साथ भी, सटीकता केवल लगभग 60% तक ही गिरती है, जो एक ऐसा बिंदु है जो कई अनुप्रयोगों के लिए स्वीकार्य है, खासकर प्रशिक्षण डेटा के संदर्भ में।
विशेषज्ञों का मिश्रण अनुकूलन परत
डीपसीक ओसीआर का दूसरा महत्वपूर्ण पहलू इसकी डिकोडिंग वास्तुकला है। यह प्रणाली डीपसीक-3बी-एमओई का उपयोग करती है, जो कुल तीन अरब मापदंडों वाला एक मॉडल है, लेकिन प्रत्येक अनुमान में केवल 57 करोड़ सक्रिय पैरामीटर होते हैं। यह कोई मनमाना डिज़ाइन विकल्प नहीं था, बल्कि संदर्भ विंडो और लागत संबंधी मुद्दों का समाधान था।
विशेषज्ञों के मिश्रण मॉडल गतिशील विशेषज्ञ चयन के सिद्धांत पर काम करते हैं। प्रत्येक टोकन को सभी मॉडल मापदंडों के माध्यम से संसाधित करने के बजाय, प्रत्येक टोकन को विशेषज्ञों के एक छोटे उपसमूह में भेजा जाता है। इसका मतलब है कि प्रत्येक डिकोडिंग चरण में कुल मापदंडों का केवल एक अंश ही सक्रिय होता है। डीपसीक ओसीआर में, यह आमतौर पर कुल चौंसठ विशेषज्ञों में से छह होते हैं, साथ ही दो साझा विशेषज्ञ होते हैं जो सभी टोकन के लिए सक्रिय होते हैं। यह विरल सक्रियण अर्थशास्त्र में सबलाइनियर स्केलिंग नामक एक परिघटना को संभव बनाता है: कम्प्यूटेशनल लागत मॉडल के आकार के अनुपात में नहीं बढ़ती, बल्कि बहुत धीमी गति से बढ़ती है।
इस आर्किटेक्चर के आर्थिक निहितार्थ गहरे हैं। तीन अरब पैरामीटर वाला एक सघन ट्रांसफ़ॉर्मर मॉडल प्रत्येक टोकन के लिए सभी तीन अरब पैरामीटर सक्रिय करेगा। इसका अर्थ है विशाल मेमोरी बैंडविड्थ प्रतिबद्धता और कम्प्यूटेशनल लोड। हालाँकि, उन्हीं तीन अरब पैरामीटर वाला एक MoE मॉडल प्रति टोकन केवल 570 मिलियन सक्रिय करता है, जो कम्प्यूटेशन समय के संदर्भ में परिचालन लागत का लगभग पाँचवाँ हिस्सा है। इसका मतलब यह नहीं है कि गुणवत्ता प्रभावित होती है, क्योंकि मॉडल की क्षमता विशेषज्ञों की विविधता से कम नहीं होती, बल्कि चुनिंदा रूप से जुटाई जाती है।
औद्योगिक परिनियोजनों में, यह आर्किटेक्चर सेवा लागत संरचना में आमूलचूल परिवर्तन लाता है। MoE आर्किटेक्चर के साथ DeepSeek-V3 परिनियोजित करने वाला एक बड़ा डेटा केंद्र समान गुणवत्ता वाले सघन मॉडल की तुलना में समान हार्डवेयर अवसंरचना पर चार से पाँच गुना अधिक थ्रूपुट प्राप्त कर सकता है। इसका अर्थ है कि एकल A100 GPU पर, MoE आर्किटेक्चर के साथ ऑप्टिकल कम्प्रेशन, प्रतिदिन लगभग नब्बे अरब टोकन शुद्ध टेक्स्ट डेटा के प्रसंस्करण को सक्षम बनाता है। यह एक विशाल थ्रूपुट है जो पहले इस क्षेत्र में अप्राप्य था।
🎯🎯🎯 एक व्यापक सेवा पैकेज में Xpert.Digital की व्यापक, पाँच-गुना विशेषज्ञता का लाभ उठाएँ | BD, R&D, XR, PR और डिजिटल दृश्यता अनुकूलन
Xpert.Digital की व्यापक, पाँच गुना विशेषज्ञता का लाभ एक व्यापक सेवा पैकेज में उठाएँ | R&D, XR, PR और डिजिटल दृश्यता अनुकूलन - छवि: Xpert.Digital
एक्सपर्ट.डिजिटल को विभिन्न उद्योगों का गहन ज्ञान है। यह हमें ऐसी अनुकूलित रणनीतियाँ विकसित करने की अनुमति देता है जो आपके विशिष्ट बाज़ार खंड की आवश्यकताओं और चुनौतियों के अनुरूप होती हैं। बाजार के रुझानों का लगातार विश्लेषण करके और उद्योग के विकास का अनुसरण करके, हम दूरदर्शिता के साथ कार्य कर सकते हैं और नवीन समाधान पेश कर सकते हैं। अनुभव और ज्ञान के संयोजन के माध्यम से, हम अतिरिक्त मूल्य उत्पन्न करते हैं और अपने ग्राहकों को निर्णायक प्रतिस्पर्धी लाभ देते हैं।
इसके बारे में यहां अधिक जानकारी:
टोकन दक्षता विरोधाभास: सस्ता AI अभी भी खर्च क्यों बढ़ाता है?
दस्तावेज़ प्रसंस्करण बाजार का आर्थिक परिवर्तन
संपूर्ण दस्तावेज़ प्रसंस्करण बाज़ार के लिए इस तकनीकी सफलता के परिणाम महत्वपूर्ण हैं। पारंपरिक OCR बाज़ार, जिस पर लंबे समय से ABBYY, Tesseract जैसी कंपनियों और स्वामित्व समाधानों का प्रभुत्व रहा है, दस्तावेज़ जटिलता, सटीकता और थ्रूपुट के आधार पर ऐतिहासिक रूप से खंडित रहा है। मानकीकृत OCR समाधान आमतौर पर सुचारू डिजिटल दस्तावेज़ों के लिए 90 से 95 प्रतिशत के बीच सटीकता प्राप्त करते हैं, लेकिन हस्तलिखित टिप्पणियों या पुरानी जानकारी वाले स्कैन किए गए दस्तावेज़ों के लिए 50 प्रतिशत या उससे कम तक गिर जाते हैं।
डीपसीक ओसीआर इन सटीकता मानकों को नाटकीय रूप से पार कर जाता है, लेकिन यह एक ऐसी उपलब्धि भी हासिल करता है जो पारंपरिक ओसीआर नहीं कर सकता था: यह केवल टेक्स्ट को ही प्रोसेस नहीं करता, बल्कि लेआउट, टेबल संरचना, फ़ॉर्मेटिंग और यहाँ तक कि शब्दार्थ की समझ को भी सुरक्षित रखता है। इसका मतलब है कि एक वित्तीय रिपोर्ट को केवल टेक्स्ट स्ट्रिंग के रूप में नहीं निकाला जाता, बल्कि टेबल संरचना और सेल्स के बीच गणितीय संबंधों को भी बरकरार रखा जाता है। यह स्वचालित डेटा सत्यापन का द्वार खोलता है जो पारंपरिक ओसीआर प्रदान नहीं कर सकता था।
आर्थिक प्रभाव विशेष रूप से उच्च-मात्रा वाले अनुप्रयोगों में स्पष्ट दिखाई देता है। प्रतिदिन हज़ारों इनवॉइस संसाधित करने वाली एक कंपनी, जटिलता और स्वचालन के स्तर के आधार पर, पारंपरिक दस्तावेज़-आधारित डेटा निष्कर्षण के लिए प्रति दस्तावेज़ चालीस सेंट से दो डॉलर के बीच भुगतान करती है। डीपसीक ओसीआर के साथ, यह लागत प्रति दस्तावेज़ दस सेंट से भी कम हो सकती है क्योंकि ऑप्टिकल कम्प्रेशन पूरी अनुमान प्रक्रिया को इतना कुशल बना देता है। यह सत्तर से नब्बे प्रतिशत तक की लागत में कमी दर्शाता है।
इसका RAG सिस्टम (रिट्रीवल ऑगमेंटेड जेनरेशन) पर और भी ज़्यादा नाटकीय प्रभाव पड़ता है, जहाँ कंपनियाँ वास्तविक समय में बाहरी दस्तावेज़ों को पुनर्प्राप्त करती हैं और सटीक प्रतिक्रियाएँ उत्पन्न करने के लिए उन्हें भाषा मॉडल में फीड करती हैं। करोड़ों शब्दों के दस्तावेज़ डेटाबेस तक पहुँच रखने वाले ग्राहक सेवा एजेंट को संचालित करने वाली कंपनी को पारंपरिक रूप से इनमें से एक या अधिक शब्दों को टोकनाइज़ करना होगा और उन्हें प्रत्येक क्वेरी के साथ मॉडल को भेजना होगा। डीपसीक ओसीआर के साथ, इसी जानकारी को संपीड़ित विज़ुअल टोकन के रूप में पूर्व-संपीड़ित किया जा सकता है और प्रत्येक क्वेरी के साथ पुन: उपयोग किया जा सकता है। इससे हर अनुरोध के साथ होने वाली भारी अनावश्यक गणना समाप्त हो जाती है।
अध्ययन ठोस आँकड़े दर्शाते हैं: एक कंपनी जो कानूनी दस्तावेज़ों का स्वचालित विश्लेषण करना चाहती है, उसे पारंपरिक वर्ड प्रोसेसिंग का उपयोग करके प्रति विश्लेषण मामले में सौ डॉलर की लागत का सामना करना पड़ सकता है। विज़ुअल कम्प्रेशन के साथ, यह लागत बारह से पंद्रह डॉलर प्रति मामले तक कम हो जाती है। बड़ी कंपनियों के लिए, जो प्रतिदिन सैकड़ों मामलों का प्रसंस्करण करती हैं, इससे करोड़ों की वार्षिक बचत होती है।
के लिए उपयुक्त:
टोकन दक्षता विरोधाभास का विरोधाभास
डीपसीक ओसीआर जैसे विकासों से उत्पन्न एक दिलचस्प आर्थिक पहलू तथाकथित टोकन दक्षता विरोधाभास है। सतही तौर पर, बेहतर दक्षता के माध्यम से लागत में कमी से कुल खर्च कम होना चाहिए। हालाँकि, अनुभवजन्य वास्तविकता इसके विपरीत पैटर्न को उजागर करती है। हालाँकि पिछले तीन वर्षों में प्रति टोकन लागत में हज़ार गुना की गिरावट आई है, फिर भी कंपनियाँ अक्सर कुल बिलों में वृद्धि की रिपोर्ट करती हैं। यह एक ऐसी घटना के कारण है जिसे अर्थशास्त्री जेवन्स विरोधाभास कहते हैं: लागत में कमी से उपयोग में आनुपातिक कमी नहीं होती, बल्कि उपयोग में विस्फोट होता है, जिसके परिणामस्वरूप अंततः कुल लागत बढ़ जाती है।
डीपसीक ओसीआर के संदर्भ में, एक विपरीत घटना घट सकती है: जो कंपनियाँ पहले दस्तावेज़ प्रसंस्करण के लिए भाषा मॉडल का उपयोग कम करती थीं क्योंकि लागत बहुत ज़्यादा थी, अब वे इन अनुप्रयोगों को बढ़ाएँगी क्योंकि ये अचानक आर्थिक रूप से व्यवहार्य हो गए हैं। विरोधाभासी रूप से, इसका मतलब यह है कि हालाँकि प्रति अनुप्रयोग लागत कम हो जाती है, लेकिन कंपनी के भीतर एआई अनुमान पर कुल खर्च बढ़ सकता है क्योंकि पहले अनुपयोगी उपयोग के मामले अब व्यवहार्य होते जा रहे हैं।
यह कोई नकारात्मक विकास नहीं है, बल्कि कंपनियों की आर्थिक तर्कसंगतता को दर्शाता है: वे तकनीक में तब तक निवेश करती हैं जब तक सीमांत लाभ सीमांत लागत से अधिक होता है। जब तक लागत अत्यधिक रहेगी, तकनीक को अपनाया नहीं जाएगा। जब यह अधिक किफायती हो जाएगी, तो इसे बड़े पैमाने पर अपनाया जाएगा। तकनीक अपनाने का यही सामान्य तरीका है।
GPU अवसंरचना अर्थशास्त्र पर प्रभाव
एक और महत्वपूर्ण बिंदु इन प्रणालियों को तैनात करने के लिए आवश्यक GPU अवसंरचना से संबंधित है। ऑप्टिकल कम्प्रेशन और विशेषज्ञों के मिश्रण वाली वास्तुकला का अर्थ है कि प्रति इकाई थ्रूपुट की आवश्यक हार्डवेयर क्षमता नाटकीय रूप से कम हो जाती है। एक डेटा सेंटर, जिसे पहले एक निश्चित थ्रूपुट प्राप्त करने के लिए 40,000 H100 GPU की आवश्यकता होती थी, अब 10,000 या उससे कम डीपसीक OCR-आधारित अनुमान प्रणालियों के साथ इसे प्राप्त कर सकता है।
इसके भू-राजनीतिक और रणनीतिक निहितार्थ हैं जो विशुद्ध तकनीक से कहीं आगे तक फैले हुए हैं। उन्नत सेमीकंडक्टरों पर निर्यात प्रतिबंधों का सामना कर रहे चीन ने डीपसीक के माध्यम से एक ऐसा सिस्टम विकसित किया है जो उपलब्ध हार्डवेयर के साथ अधिक प्रभावी ढंग से काम करता है। इसका मतलब यह नहीं है कि हार्डवेयर की सीमाएँ अप्रासंगिक हो जाती हैं, लेकिन वे उन्हें कम दुर्बल ज़रूर बनाती हैं। 5,000 दो साल पुराने Nvidia A100 GPU वाला एक चीनी डेटा सेंटर, डीपसीक OCR और MoE आर्किटेक्चर के साथ, वह थ्रूपुट प्रदान कर सकता है जिसके लिए पहले 10,000 या 15,000 नए GPU की आवश्यकता होती थी।
इससे एआई अवसंरचना अर्थव्यवस्था में रणनीतिक संतुलन बदल रहा है। संयुक्त राज्य अमेरिका और उसके सहयोगी देशों ने नवीनतम और सबसे शक्तिशाली चिप्स तक पहुँच बनाकर लंबे समय से एआई विकास में अपना प्रभुत्व बनाए रखा है। ऑप्टिकल कम्प्रेशन जैसी नई दक्षता विधियाँ पुराने हार्डवेयर के अधिक कुशल उपयोग को सक्षम करके इस प्रभुत्व को कम कर देंगी।
एआई प्रदाताओं के व्यवसाय मॉडल में परिवर्तन
ओपनएआई, गूगल और एंथ्रोपिक जैसे स्थापित एलएलएम प्रदाताओं को अब एक ऐसी चुनौती का सामना करना पड़ रहा है जो उनके व्यावसायिक मॉडल को कमज़ोर कर रही है। उन्होंने बड़े, सघन मॉडलों को प्रशिक्षित और तैनात करने के लिए हार्डवेयर में भारी निवेश किया है। ये मॉडल मूल्यवान हैं और वास्तविक मूल्य प्रदान करते हैं। हालाँकि, डीपसीक ओसीआर जैसी प्रणालियाँ इन निवेशों की लाभप्रदता पर प्रश्नचिह्न लगा रही हैं। यदि कम पूँजी बजट वाली कोई कंपनी विभिन्न वास्तुशिल्प दृष्टिकोणों के माध्यम से अधिक कुशल मॉडल प्राप्त कर सकती है, तो बड़ी, अधिक पूँजी-प्रधान प्रणालियों का रणनीतिक लाभ कम हो जाता है।
ओपनएआई ने लंबे समय तक गति के ज़रिए इसकी भरपाई की: उनके पास पहले से बेहतर मॉडल थे। इससे उन्हें लगभग एकाधिकार वाला मुनाफ़ा मिला, जिससे उन्हें आगे निवेश करने का औचित्य सिद्ध हुआ। हालाँकि, जैसे-जैसे अन्य प्रदाता उनसे आगे निकल गए और कुछ आयामों में उनसे आगे निकल गए, स्थापित कंपनियों ने यह बढ़त खो दी। बाज़ार हिस्सेदारी और अधिक विखंडित हो गई, और प्रति टोकन औसत लाभ मार्जिन दबाव में आ गया।
शैक्षिक अवसंरचना और प्रौद्योगिकी का लोकतंत्रीकरण
डीपसीक-ओसीआर जैसी प्रणालियों का एक अक्सर अनदेखा पहलू तकनीक के लोकतंत्रीकरण में उनकी भूमिका है। इस प्रणाली को ओपन सोर्स के रूप में जारी किया गया था, जिसमें मॉडल वेट हगिंग फेस पर और प्रशिक्षण कोड गिटहब पर उपलब्ध थे। इसका मतलब है कि एक उच्च-स्तरीय जीपीयू वाला या क्लाउड कंप्यूटिंग तक पहुँच वाला कोई भी व्यक्ति इस प्रणाली का उपयोग, समझ और यहाँ तक कि उसे बेहतर ढंग से ट्यून भी कर सकता है।
अनस्लॉथ के साथ एक प्रयोग से पता चला कि फ़ारसी टेक्स्ट के लिए फाइन-ट्यून्ड डीपसीक ओसीआर ने एक ही जीपीयू पर केवल 60 प्रशिक्षण चरणों का उपयोग करके वर्ण त्रुटि दर में 88 प्रतिशत तक सुधार किया। यह इसलिए महत्वपूर्ण नहीं है क्योंकि फ़ारसी ओसीआर एक व्यापक बाजार की समस्या है, बल्कि इसलिए कि यह दर्शाता है कि एआई इन्फ्रास्ट्रक्चर नवाचार अब अरबों डॉलर वाली कंपनियों के स्वामित्व में नहीं है। शोधकर्ताओं का एक छोटा समूह या एक स्टार्टअप अपनी विशिष्ट आवश्यकताओं के अनुसार एक मॉडल तैयार कर सकता है।
इसके व्यापक आर्थिक परिणाम होंगे। जिन देशों के पास स्वामित्व वाली एआई विकास में अरबों डॉलर निवेश करने के लिए संसाधनों की कमी है, वे अब ओपन-सोर्स सिस्टम अपनाकर उन्हें अपनी ज़रूरतों के हिसाब से ढाल सकते हैं। इससे बड़ी और छोटी अर्थव्यवस्थाओं के बीच तकनीकी क्षमता का अंतर कम हो जाता है।
सीमांत लागत निहितार्थ और मूल्य निर्धारण रणनीति का भविष्य
शास्त्रीय अर्थशास्त्र में, दीर्घावधि में, खासकर जब प्रतिस्पर्धा मौजूद हो और नए बाज़ारों में प्रवेश संभव हो, कीमतें सीमांत लागतों की ओर बढ़ती हैं। एलएलएम उद्योग में यह पैटर्न पहले से ही दिखाई दे रहा है, हालाँकि इसमें देरी हो रही है। स्थापित मॉडलों में टोकन अनुमान की सीमांत लागत आमतौर पर प्रति दस लाख टोकन पर एक से दो दसवें हिस्से के बराबर होती है। हालाँकि, कीमतें आमतौर पर प्रति दस लाख टोकन पर दो से दस सेंट के बीच होती हैं, जो एक ऐसा दायरा है जो पर्याप्त लाभ मार्जिन दर्शाता है।
डीपसीक ओसीआर इस गतिशीलता को तेज़ कर सकता है। यदि ऑप्टिकल कम्प्रेशन के माध्यम से सीमांत लागत में नाटकीय रूप से कमी आती है, तो प्रतिस्पर्धियों को अपनी कीमतें समायोजित करने के लिए मजबूर होना पड़ेगा। इससे लाभ मार्जिन में तेज़ी से कमी आ सकती है, जिसके परिणामस्वरूप अंततः उपभोक्ता परिदृश्य में टोकन अनुमान एक अर्ध-मुक्त या कम कीमत वाली सेवा बन जाएगा, बिल्कुल क्लाउड स्टोरेज की तरह।
यह विकास स्थापित प्रदाताओं के लिए भयावह है, लेकिन नए या दक्षता-उन्मुख प्रदाताओं के लिए फायदेमंद है। इससे उद्योग में बड़े पैमाने पर एकीकरण या पुनर्स्थापन होगा। केवल पैमाने और मॉडल आकार पर निर्भर रहने वाली कंपनियों को संघर्ष करना पड़ेगा। दक्षता, विशिष्ट उपयोग के मामलों और ग्राहक एकीकरण पर केंद्रित कंपनियां लंबे समय में और मजबूत होकर उभरेंगी।
के लिए उपयुक्त:
- कंपनियों के लिए AI संप्रभुता: क्या यह यूरोप का AI फ़ायदा है? कैसे एक विवादास्पद क़ानून वैश्विक प्रतिस्पर्धा में एक अवसर बन रहा है?
आर्थिक स्तर पर एक आदर्श बदलाव
डीपसीक ओसीआर और अंतर्निहित ऑप्टिकल कम्प्रेशन नवाचार केवल एक तकनीकी सुधार से कहीं अधिक का प्रतिनिधित्व करते हैं। ये एआई उद्योग की सोच, निवेश और नवाचार में एक आदर्श बदलाव का प्रतीक हैं। शुद्ध स्केलिंग से बुद्धिमान डिज़ाइन की ओर बदलाव, MoE आर्किटेक्चर को अपनाना, और यह समझ कि विज़ुअल एन्कोडिंग टोकन एन्कोडिंग की तुलना में अधिक कुशल हो सकती है, ये सभी संकेत हैं कि उद्योग अपनी तकनीकी सीमाओं को परिपक्व मान रहा है।
आर्थिक रूप से, इसका अर्थ है लागत संरचनाओं का व्यापक आकार बदलना, स्थापित और नए खिलाड़ियों के बीच प्रतिस्पर्धात्मक स्थिति का पुनर्वितरण, और विभिन्न एआई अनुप्रयोगों की लाभप्रदता का एक मौलिक पुनर्गणना। जो कंपनियाँ इन बदलावों को समझती हैं और शीघ्रता से अनुकूलन करती हैं, उन्हें महत्वपूर्ण रणनीतिक लाभ प्राप्त होंगे। जो कंपनियाँ इस बदलाव को नज़रअंदाज़ करती हैं और स्थापित दृष्टिकोणों से चिपकी रहती हैं, वे प्रतिस्पर्धात्मकता खो देंगी।
आपका वैश्विक विपणन और व्यवसाय विकास भागीदार
☑️ हमारी व्यावसायिक भाषा अंग्रेजी या जर्मन है
☑️ नया: आपकी राष्ट्रीय भाषा में पत्राचार!
मुझे निजी सलाहकार के रूप में आपकी और मेरी टीम की सेवा करने में खुशी होगी।
संपर्क फ़ॉर्म भरकर मुझसे संपर्क कर सकते हैं +49 89 89 674 804 (म्यूनिख) पर कॉल कर सकते हैं । मेरा ईमेल पता है: वोल्फेंस्टीन ∂ xpert.digital
मैं हमारी संयुक्त परियोजना की प्रतीक्षा कर रहा हूं।
☑️ रणनीति, परामर्श, योजना और कार्यान्वयन में एसएमई का समर्थन
☑️ डिजिटल रणनीति और डिजिटलीकरण का निर्माण या पुनर्संरेखण
☑️ अंतर्राष्ट्रीय बिक्री प्रक्रियाओं का विस्तार और अनुकूलन
☑️ वैश्विक और डिजिटल B2B ट्रेडिंग प्लेटफॉर्म
☑️ पायनियर बिजनेस डेवलपमेंट/मार्केटिंग/पीआर/व्यापार मेले
व्यापार विकास, बिक्री और विपणन में हमारी वैश्विक उद्योग और आर्थिक विशेषज्ञता
व्यवसाय विकास, बिक्री और विपणन में हमारी वैश्विक उद्योग और व्यावसायिक विशेषज्ञता - छवि: Xpert.Digital
उद्योग फोकस: बी2बी, डिजिटलीकरण (एआई से एक्सआर तक), मैकेनिकल इंजीनियरिंग, लॉजिस्टिक्स, नवीकरणीय ऊर्जा और उद्योग
इसके बारे में यहां अधिक जानकारी:
अंतर्दृष्टि और विशेषज्ञता वाला एक विषय केंद्र:
- वैश्विक और क्षेत्रीय अर्थव्यवस्था, नवाचार और उद्योग-विशिष्ट रुझानों पर ज्ञान मंच
- हमारे फोकस क्षेत्रों से विश्लेषण, आवेगों और पृष्ठभूमि जानकारी का संग्रह
- व्यापार और प्रौद्योगिकी में वर्तमान विकास पर विशेषज्ञता और जानकारी के लिए एक स्थान
- उन कंपनियों के लिए विषय केंद्र जो बाज़ार, डिजिटलीकरण और उद्योग नवाचारों के बारे में जानना चाहती हैं

