फरवरी में, OpenAI ने अपने नवीनतम AI मॉडल, सोरा से दुनिया को चौंका दिया। सैम अल्टमैन के नेतृत्व वाली कंपनी की नवीनतम पेशकश प्राकृतिक भाषा में संकेतों का उपयोग कर सकती है और उच्च परिभाषा में मिनट-लंबे वीडियो तैयार कर सकती है। यह मॉडल, जो रनवे के जेन-2 और गूगल के ल्यूमियर के बाद आया, ने वीडियो निर्माण की कुछ लुभावनी क्षमताओं को प्रदर्शित किया जो भविष्य में संभावित रूप से फिल्म निर्माण की जगह ले सकता है।
वर्तमान में, दो प्रकार के मॉडल हैं जो एआई नवाचार को बढ़ावा दे रहे हैं – ट्रांसफार्मर और प्रसार मॉडल। ये अनिवार्य रूप से आर्किटेक्चर हैं जिन्होंने मशीन लर्निंग, एआई के एक सबसेट, अनुप्रयोगों के परिदृश्य को फिर से परिभाषित किया है। ट्रांसफॉर्मर-आधारित मॉडल ने मौलिक रूप से बदल दिया है कि कैसे मशीन लर्निंग मॉडल टेक्स्ट डेटा के साथ जुड़ते हैं, इसे वर्गीकृत करने और इसे उत्पन्न करने के संदर्भ में। दूसरी ओर, छवियों को उत्पन्न करने वाले एआई के लिए प्रसार मॉडल सबसे पसंदीदा बन गए हैं।
Table of Contents
यह ध्यान देने की आवश्यकता है कि प्रसार मॉडल प्रसार की प्रक्रिया है जो अनिवार्य रूप से घने स्थान से कम घने क्षेत्र में कणों का प्रसार है। सोरा एक बड़ा भाषा मॉडल (एलएलएम) नहीं है, बल्कि एक प्रसार ट्रांसफार्मर मॉडल है। इस लेख में, हम समझेंगे कि प्रसार ट्रांसफार्मर मॉडल क्या है, और यह अन्य एआई मॉडल से कैसे भिन्न है।
डिफ्यूजन ट्रांसफार्मर (DIT) क्या है?
डिफ्यूजन ट्रांसफॉर्मर को डीआईटी के रूप में भी लिखा जाता है, जो मूल रूप से डिफ्यूजन मॉडल का एक वर्ग है जो ट्रांसफॉर्मर आर्किटेक्चर पर आधारित होता है।डिफ्यूजन ट्रांसफार्मर (DIT) को UC बर्कले में विलियम पीबल्स द्वारा विकसित किया गया है, जो वर्तमान में OpenAI में अनुसंधान वैज्ञानिक हैं, और 2023 में न्यूयॉर्क विश्वविद्यालय में Saining XE द्वारा विकसित किया गया है। DiT का उद्देश्य आमतौर पर उपयोग किए जाने वाले यू-नेट (एक) को स्विच करके प्रसार मॉडल के प्रदर्शन में सुधार करना है। पुनरावृत्त छवि निरूपण के लिए प्रसार मॉडल में नियोजित वास्तुकला) एक ट्रांसफार्मर के साथ रीढ़ की हड्डी।
यह सब वीडियो में कैसे अनुवादित होता है?
कोलोराडो बोल्डर विश्वविद्यालय के प्रोफेसर टॉम येह द्वारा , यहां हम वीडियो के लिए संकेत की प्रक्रिया को सरल बनाने का प्रयास करते हैं। आइए कल्पना करें कि आपके पास एक संकेत है, ‘सोरा आकाश है’। एक बार जब आप इसे दर्ज करते हैं, तो सोरा संबंधित वीडियो (इसके डेटासेट से) को छोटे भागों में विभाजित करता है जिन्हें पैच कहा जाता है, जैसे इसे छोटे पहेली टुकड़ों में तोड़ना होता है। बाद में, प्रत्येक पैच को सारांशित करने जैसे सरल संस्करण में बदल दिया जाता है, जिससे मॉडल को वीडियो को बेहतर ढंग से समझने में मदद मिलती है।
डिफ्यूजन ट्रांसफार्मर (DIT) के लाभ
DiT एक अव्यक्त प्रसार प्रक्रिया में ट्रांसफार्मर तैनात करता है, जहां शोर धीरे-धीरे लक्ष्य छवि में बदल जाता है। यह ट्रांसफार्मर नेटवर्क द्वारा निर्देशित प्रसार प्रक्रिया को उलट कर किया जाता है। प्रसार टाइमस्टेप्स की अवधारणा DiT का एक प्रमुख पहलू है। इसे सरल बनाने के लिए, आपके पास DiT नामक एक उपकरण है जो आपको चित्र बनाने में मदद करता है।
यह एक साधारण तस्वीर को थोड़ा-थोड़ा करके आपकी इच्छित चीज़ में बदलने के लिए ट्रांसफॉर्मर नामक चीज़ का उपयोग करके काम करता है। इसे एक धुंधली छवि को चरण दर चरण साफ़ करने के समान समझें। प्रसार टाइमस्टेप चौकियों की तरह कार्य करते हैं। प्रत्येक चेकपॉइंट पर, DiT यह देखता है कि चित्र कैसा दिखता है और निर्णय लेता है कि इसे कैसे बेहतर बनाया जाए। सरल शब्दों में, यह खाना पकाने के विभिन्न चरणों की तरह है – आप अलग-अलग समय पर अलग-अलग मसाले डालते हैं।
जब स्केलेबिलिटी की बात आती है, तो DiT प्रदर्शन से समझौता किए बिना बड़े इनपुट डेटा को संभाल सकता है। इसके लिए कुशल संसाधन उपयोग और नमूना गुणवत्ता बनाए रखने की आवश्यकता होगी। उदाहरण के लिए, प्राकृतिक भाषा कार्यों में, इनपुट आकार व्यापक रूप से भिन्न हो सकता है। एक स्केलेबल DiT को प्रदर्शन हानि के बिना इस भिन्नता को संभालना चाहिए। जैसे-जैसे डेटा की मात्रा बढ़ती है, डीआईटी की स्केल करने की क्षमता महत्वपूर्ण होगी।