OpenAI का सोरा डिफ्यूजन ट्रांसफार्मर (DIT) द्वारा संचालित है: यह क्या है?

OpenAI का सोरा डिफ्यूजन ट्रांसफार्मर (DIT) द्वारा संचालित है: यह क्या है?

फरवरी में, OpenAI ने अपने नवीनतम AI मॉडल, सोरा से दुनिया को चौंका दिया। सैम अल्टमैन के नेतृत्व वाली कंपनी की नवीनतम पेशकश प्राकृतिक भाषा में संकेतों का उपयोग कर सकती है और उच्च परिभाषा में मिनट-लंबे वीडियो तैयार कर सकती है। यह मॉडल, जो रनवे के जेन-2 और गूगल के ल्यूमियर के बाद आया, ने वीडियो निर्माण की कुछ लुभावनी क्षमताओं को प्रदर्शित किया जो भविष्य में संभावित रूप से फिल्म निर्माण की जगह ले सकता है।

वर्तमान में, दो प्रकार के मॉडल हैं जो एआई नवाचार को बढ़ावा दे रहे हैं – ट्रांसफार्मर और प्रसार मॉडल। ये अनिवार्य रूप से आर्किटेक्चर हैं जिन्होंने मशीन लर्निंग, एआई के एक सबसेट, अनुप्रयोगों के परिदृश्य को फिर से परिभाषित किया है। ट्रांसफॉर्मर-आधारित मॉडल ने मौलिक रूप से बदल दिया है कि कैसे मशीन लर्निंग मॉडल टेक्स्ट डेटा के साथ जुड़ते हैं, इसे वर्गीकृत करने और इसे उत्पन्न करने के संदर्भ में। दूसरी ओर, छवियों को उत्पन्न करने वाले एआई के लिए प्रसार मॉडल सबसे पसंदीदा बन गए हैं।

यह ध्यान देने की आवश्यकता है कि प्रसार मॉडल प्रसार की प्रक्रिया है जो अनिवार्य रूप से घने स्थान से कम घने क्षेत्र में कणों का प्रसार है। सोरा एक बड़ा भाषा मॉडल (एलएलएम) नहीं है, बल्कि एक प्रसार ट्रांसफार्मर मॉडल है। इस लेख में, हम समझेंगे कि प्रसार ट्रांसफार्मर मॉडल क्या है, और यह अन्य एआई मॉडल से कैसे भिन्न है।

डिफ्यूजन ट्रांसफार्मर (DIT) क्या है?

डिफ्यूजन ट्रांसफॉर्मर को डीआईटी के रूप में भी लिखा जाता है, जो मूल रूप से डिफ्यूजन मॉडल का एक वर्ग है जो ट्रांसफॉर्मर आर्किटेक्चर पर आधारित होता है।डिफ्यूजन ट्रांसफार्मर (DIT) को UC बर्कले में विलियम पीबल्स द्वारा विकसित किया गया है, जो वर्तमान में OpenAI में अनुसंधान वैज्ञानिक हैं, और 2023 में न्यूयॉर्क विश्वविद्यालय में Saining XE द्वारा विकसित किया गया है। DiT का उद्देश्य आमतौर पर उपयोग किए जाने वाले यू-नेट (एक) को स्विच करके प्रसार मॉडल के प्रदर्शन में सुधार करना है। पुनरावृत्त छवि निरूपण के लिए प्रसार मॉडल में नियोजित वास्तुकला) एक ट्रांसफार्मर के साथ रीढ़ की हड्डी।

यह सब वीडियो में कैसे अनुवादित होता है?

कोलोराडो बोल्डर विश्वविद्यालय के प्रोफेसर टॉम येह द्वारा , यहां हम वीडियो के लिए संकेत की प्रक्रिया को सरल बनाने का प्रयास करते हैं। आइए कल्पना करें कि आपके पास एक संकेत है, ‘सोरा आकाश है’। एक बार जब आप इसे दर्ज करते हैं, तो सोरा संबंधित वीडियो (इसके डेटासेट से) को छोटे भागों में विभाजित करता है जिन्हें पैच कहा जाता है, जैसे इसे छोटे पहेली टुकड़ों में तोड़ना होता है। बाद में, प्रत्येक पैच को सारांशित करने जैसे सरल संस्करण में बदल दिया जाता है, जिससे मॉडल को वीडियो को बेहतर ढंग से समझने में मदद मिलती है।

डिफ्यूजन ट्रांसफार्मर (DIT) के लाभ

DiT एक अव्यक्त प्रसार प्रक्रिया में ट्रांसफार्मर तैनात करता है, जहां शोर धीरे-धीरे लक्ष्य छवि में बदल जाता है। यह ट्रांसफार्मर नेटवर्क द्वारा निर्देशित प्रसार प्रक्रिया को उलट कर किया जाता है। प्रसार टाइमस्टेप्स की अवधारणा DiT का एक प्रमुख पहलू है। इसे सरल बनाने के लिए, आपके पास DiT नामक एक उपकरण है जो आपको चित्र बनाने में मदद करता है।

यह एक साधारण तस्वीर को थोड़ा-थोड़ा करके आपकी इच्छित चीज़ में बदलने के लिए ट्रांसफॉर्मर नामक चीज़ का उपयोग करके काम करता है। इसे एक धुंधली छवि को चरण दर चरण साफ़ करने के समान समझें। प्रसार टाइमस्टेप चौकियों की तरह कार्य करते हैं। प्रत्येक चेकपॉइंट पर, DiT यह देखता है कि चित्र कैसा दिखता है और निर्णय लेता है कि इसे कैसे बेहतर बनाया जाए। सरल शब्दों में, यह खाना पकाने के विभिन्न चरणों की तरह है – आप अलग-अलग समय पर अलग-अलग मसाले डालते हैं।

जब स्केलेबिलिटी की बात आती है, तो DiT प्रदर्शन से समझौता किए बिना बड़े इनपुट डेटा को संभाल सकता है। इसके लिए कुशल संसाधन उपयोग और नमूना गुणवत्ता बनाए रखने की आवश्यकता होगी। उदाहरण के लिए, प्राकृतिक भाषा कार्यों में, इनपुट आकार व्यापक रूप से भिन्न हो सकता है। एक स्केलेबल DiT को प्रदर्शन हानि के बिना इस भिन्नता को संभालना चाहिए। जैसे-जैसे डेटा की मात्रा बढ़ती है, डीआईटी की स्केल करने की क्षमता महत्वपूर्ण होगी।

Leave a Reply

Your email address will not be published. Required fields are marked *

10 best large dog breeds Bigg Boss OTT3 Star Sana Maqbul’s Top 9 Projects 7 benefits of peaches 10 Projects of Sonarika Bhadoria 10 Benefits of Eating Guava