• ब्यानर

OpenAI पोइन्ट E: एकल GPU मा मिनेटमा जटिल वेभफर्महरूबाट 3D पोइन्ट क्लाउड सिर्जना गर्नुहोस्

नयाँ लेखमा पोइन्ट-ई: जटिल संकेतहरूबाट थ्रीडी पोइन्ट क्लाउडहरू उत्पन्न गर्ने प्रणालीमा, ओपनएआई अनुसन्धान टोलीले पोइन्ट ई परिचय गराउँछ, एउटा थ्रीडी पोइन्ट क्लाउड पाठ सशर्त संश्लेषण प्रणाली जसले जटिल पाठद्वारा संचालित विविध र जटिल 3D आकारहरू सिर्जना गर्न प्रसार मोडेलहरू प्रयोग गर्दछ। संकेतहरू।एकल GPU मा मिनेटमा।
आजको अत्याधुनिक छवि जेनेरेशन मोडेलहरूको अद्भुत प्रदर्शनले 3D पाठ वस्तुहरूको उत्पादनमा अनुसन्धानलाई उत्प्रेरित गरेको छ।यद्यपि, 2D मोडेलहरूको विपरीत, जसले मिनेट वा सेकेन्डमा आउटपुट उत्पन्न गर्न सक्छ, वस्तु उत्पादन मोडेलहरूलाई सामान्यतया एकल नमूना उत्पन्न गर्न धेरै घण्टाको GPU काम चाहिन्छ।
नयाँ लेखमा Point-E: जटिल संकेतहरूबाट 3D पोइन्ट क्लाउडहरू उत्पन्न गर्ने प्रणालीमा, OpenAI अनुसन्धान टोलीले Point·E प्रस्तुत गर्दछ, 3D पोइन्ट क्लाउडहरूको लागि पाठ्य सशर्त संश्लेषण प्रणाली।यो नयाँ दृष्टिकोणले एकल GPU मा एक वा दुई मिनेटमा जटिल पाठ संकेतहरूबाट विविध र जटिल 3D आकारहरू सिर्जना गर्न प्रचार मोडेल प्रयोग गर्दछ।
टोलीले पाठलाई थ्रीडीमा रूपान्तरण गर्ने चुनौतीमा केन्द्रित छ, जुन थ्रीडी सामग्री निर्माणलाई वास्तविक विश्वका अनुप्रयोगहरूका लागि भर्चुअल रियालिटी र गेमिङदेखि औद्योगिक डिजाइनसम्मको लोकतान्त्रिकीकरण गर्न महत्वपूर्ण छ।पाठलाई 3D मा रूपान्तरण गर्नको लागि अवस्थित विधिहरू दुई कोटीहरूमा पर्दछन्, जसमध्ये प्रत्येकका आफ्ना कमजोरीहरू छन्: 1) जनरेटिभ मोडेलहरू प्रभावकारी रूपमा नमूनाहरू उत्पन्न गर्न प्रयोग गर्न सकिन्छ, तर विविध र जटिल पाठ संकेतहरूको लागि प्रभावकारी रूपमा मापन गर्न सक्दैन;2) जटिल र विविध पाठ संकेतहरू ह्यान्डल गर्नको लागि पूर्व-प्रशिक्षित पाठ-छवि मोडेल, तर यो दृष्टिकोण कम्प्युटेशनली गहन छ र मोडेल सजिलैसँग स्थानीय मिनिमामा अड्किन सक्छ जुन अर्थपूर्ण वा सुसंगत 3D वस्तुहरूसँग मेल खाँदैन।
तसर्थ, टोलीले एक वैकल्पिक दृष्टिकोणको खोजी गर्‍यो जुन माथिका दुई दृष्टिकोणहरूको बलहरू संयोजन गर्ने लक्ष्य राख्छ, पाठ-छविको जोडीको ठूलो सेटमा प्रशिक्षित पाठ-देखि-छवि प्रसार मोडेल प्रयोग गरेर (यसलाई विविध र जटिल संकेतहरू ह्यान्डल गर्न अनुमति दिँदै) र। पाठ-छवि जोडीहरूको सानो सेटमा प्रशिक्षित 3D छवि प्रसार मोडेल।छवि-3D जोडी डेटासेट।पाठ-देखि-छवि मोडेलले एकल सिंथेटिक प्रतिनिधित्व सिर्जना गर्न पहिलो इनपुट छविको नमूना दिन्छ, र छवि-देखि-3D मोडेलले चयन गरिएको छविमा आधारित 3D बिन्दु क्लाउड सिर्जना गर्दछ।
कमाण्डको जेनेरेटिभ स्ट्याक सशर्त रूपमा पाठबाट छविहरू उत्पन्न गर्नका लागि हालसालै प्रस्तावित जेनेरेटिभ फ्रेमवर्कहरूमा आधारित छ (Sohl-Dickstein et al।, 2015; Song & Ermon, 2020b; Ho et al।, 2020)।तिनीहरूले 3 बिलियन ग्लाइड प्यारामिटरहरू (निकोल एट अल।, 2021) को साथ ग्लाइड मोडेल प्रयोग गर्छन्, रेन्डर गरिएको 3D मोडेलहरूमा फाइन-ट्यून गरिएको, तिनीहरूको टेक्स्ट-देखि-छवि रूपान्तरण मोडेलको रूपमा, र तिनीहरूको रूपमा RGB पोइन्ट क्लाउडहरू उत्पन्न गर्ने प्रसार मोडेलहरूको सेट। रूपान्तरण मोडेल।छविहरूमा छविहरू।3D मोडेलहरू।
अघिल्लो कार्यले पोइन्ट क्लाउडहरू प्रशोधन गर्न 3D आर्किटेक्चर प्रयोग गर्दा, अनुसन्धानकर्ताहरूले दक्षता सुधार गर्न सरल ट्रान्सड्यूसर-आधारित मोडेल (वासवानी एट अल।, 2017) प्रयोग गरे।तिनीहरूको फैलावट मोडेल आर्किटेक्चरमा, पोइन्ट क्लाउड छविहरू पहिले पूर्व-प्रशिक्षित ViT-L/14 CLIP मोडेलमा फिड गरिन्छ र त्यसपछि आउटपुट मेसहरूलाई मार्करको रूपमा कन्भर्टरमा फिड गरिन्छ।
तिनीहरूको अनुभवजन्य अध्ययनमा, टोलीले प्रस्तावित Point·E विधिलाई COCO वस्तु पत्ता लगाउने, विभाजन, र हस्ताक्षर डेटासेटहरूबाट प्राप्त सङ्केतहरूको सङ्केतहरूमा अन्य जेनेरेटिभ 3D मोडेलहरूसँग तुलना गर्‍यो।नतिजाहरूले पुष्टि गर्दछ कि Point·E जटिल पाठ संकेतहरूबाट विविध र जटिल 3D आकारहरू उत्पन्न गर्न र परिमाणको एक देखि दुई अर्डरहरू द्वारा अनुमानित समयलाई गति दिन सक्षम छ।टोलीले आशा गर्दछ कि उनीहरूको कामले 3D पाठ संश्लेषणमा थप अनुसन्धानलाई प्रेरित गर्नेछ।
परियोजनाको GitHub मा एक पूर्वप्रशिक्षित बिन्दु क्लाउड प्रचार मोडेल र मूल्याङ्कन कोड उपलब्ध छन्।Document Point-E: जटिल संकेतहरूबाट 3D पोइन्ट क्लाउडहरू सिर्जना गर्ने प्रणाली arXiv मा छ।
हामीलाई थाहा छ कि तपाईं कुनै पनि समाचार वा वैज्ञानिक खोज छुटाउन चाहनुहुन्न।साप्ताहिक AI अद्यावधिकहरू प्राप्त गर्न हाम्रो लोकप्रिय सिंक गरिएको ग्लोबल एआई साप्ताहिक न्यूजलेटरको सदस्यता लिनुहोस्।


पोस्ट समय: डिसेम्बर-28-2022