• بینر

OpenAI Point E: ایک GPU پر منٹوں میں پیچیدہ ویوفارمز سے 3D پوائنٹ کلاؤڈ بنائیں

ایک نئے مضمون میں Point-E: پیچیدہ سگنلز سے 3D پوائنٹ کلاؤڈز بنانے کا ایک نظام، OpenAI ریسرچ ٹیم نے Point E متعارف کرایا، ایک 3D پوائنٹ کلاؤڈ ٹیکسٹ کنڈیشنل سنتھیسز سسٹم جو متنوع اور پیچیدہ 3D شکلیں بنانے کے لیے ڈفیوژن ماڈلز کا استعمال کرتا ہے جو پیچیدہ متن سے چلتی ہے۔ اشارےایک ہی GPU پر منٹوں میں۔
آج کے جدید ترین امیج جنریشن ماڈلز کی حیرت انگیز کارکردگی نے 3D ٹیکسٹ اشیاء کی نسل میں تحقیق کو متحرک کیا ہے۔تاہم، 2D ماڈلز کے برعکس، جو منٹوں یا اس سے بھی سیکنڈوں میں آؤٹ پٹ پیدا کر سکتے ہیں، آبجیکٹ جنریٹیو ماڈلز کو عام طور پر ایک نمونہ تیار کرنے کے لیے GPU کے کئی گھنٹوں کے کام کی ضرورت ہوتی ہے۔
ایک نئے مضمون میں Point-E: پیچیدہ سگنلز سے 3D پوائنٹ کلاؤڈز بنانے کا ایک نظام، OpenAI ریسرچ ٹیم Point·E پیش کرتی ہے، جو 3D پوائنٹ کلاؤڈز کے لیے ایک متنی مشروط ترکیب کا نظام ہے۔یہ نیا نقطہ نظر ایک GPU پر صرف ایک یا دو منٹ میں پیچیدہ ٹیکسٹ سگنلز سے متنوع اور پیچیدہ 3D شکلیں بنانے کے لیے پروپیگیشن ماڈل کا استعمال کرتا ہے۔
ٹیم متن کو 3D میں تبدیل کرنے کے چیلنج پر مرکوز ہے، جو ورچوئل رئیلٹی اور گیمنگ سے لے کر صنعتی ڈیزائن تک حقیقی دنیا کی ایپلی کیشنز کے لیے 3D مواد کی تخلیق کو جمہوری بنانے کے لیے اہم ہے۔متن کو 3D میں تبدیل کرنے کے موجودہ طریقے دو زمروں میں آتے ہیں، جن میں سے ہر ایک کی اپنی خامیاں ہیں: 1) تخلیقی ماڈلز کو مؤثر طریقے سے نمونے بنانے کے لیے استعمال کیا جا سکتا ہے، لیکن متنوع اور پیچیدہ ٹیکسٹ سگنلز کے لیے مؤثر طریقے سے پیمانہ نہیں کیا جا سکتا؛2) پیچیدہ اور متنوع ٹیکسٹ اشاروں کو سنبھالنے کے لیے پہلے سے تربیت یافتہ ٹیکسٹ امیج ماڈل، لیکن یہ نقطہ نظر کمپیوٹیشنل طور پر گہرا ہے اور ماڈل آسانی سے مقامی منیما میں پھنس سکتا ہے جو بامعنی یا مربوط 3D اشیاء سے مطابقت نہیں رکھتے۔
لہذا، ٹیم نے ایک متبادل نقطہ نظر کی تلاش کی جس کا مقصد مندرجہ بالا دو طریقوں کی طاقتوں کو یکجا کرنا ہے، متن سے تصویر کے پھیلاؤ کے ماڈل کا استعمال کرتے ہوئے جو متن سے تصویری جوڑوں کے ایک بڑے سیٹ پر تربیت یافتہ ہے (اسے متنوع اور پیچیدہ سگنلز کو سنبھالنے کی اجازت دیتا ہے) اور ٹیکسٹ امیج کے جوڑوں کے چھوٹے سیٹ پر تربیت یافتہ 3D امیج ڈفیوژن ماڈل۔image-3D جوڑی ڈیٹاسیٹ۔ٹیکسٹ ٹو امیج ماڈل پہلے ان پٹ امیج کا نمونہ بناتا ہے تاکہ ایک سنگل مصنوعی نمائندگی بنائی جا سکے اور امیج ٹو 3D ماڈل منتخب تصویر کی بنیاد پر 3D پوائنٹ کلاؤڈ بناتا ہے۔
کمانڈ کا جنریٹو اسٹیک متن سے مشروط طور پر تصاویر بنانے کے لیے حال ہی میں تجویز کردہ جنریٹو فریم ورک پر مبنی ہے (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020)۔وہ 3 بلین GLIDE پیرامیٹرز کے ساتھ ایک GLIDE ماڈل استعمال کرتے ہیں (Nichol et al., 2021)، پیش کردہ 3D ماڈلز کو ان کے ٹیکسٹ ٹو امیج ٹرانسفارمیشن ماڈل کے طور پر، اور ڈفیوژن ماڈلز کا ایک سیٹ جو RGB پوائنٹ کلاؤڈز کو ان کے طور پر تیار کرتے ہیں۔ تبدیلی ماڈل.تصویر سے تصویر.3D ماڈلز۔
جبکہ پچھلے کام میں پوائنٹ کلاؤڈز کو پروسیس کرنے کے لیے 3D فن تعمیر کا استعمال کیا گیا، محققین نے کارکردگی کو بہتر بنانے کے لیے ایک سادہ ٹرانسڈیوسر پر مبنی ماڈل (Vaswani et al., 2017) کا استعمال کیا۔ان کے ڈفیوژن ماڈل آرکیٹیکچر میں، پوائنٹ کلاؤڈ امیجز کو پہلے پہلے سے تربیت یافتہ ViT-L/14 CLIP ماڈل میں فیڈ کیا جاتا ہے اور پھر آؤٹ پٹ میشز کو کنورٹر میں بطور مارکر فیڈ کیا جاتا ہے۔
اپنے تجرباتی مطالعہ میں، ٹیم نے مجوزہ Point·E طریقہ کا موازنہ COCO آبجیکٹ کا پتہ لگانے، سیگمنٹیشن، اور دستخطی ڈیٹاسیٹس سے اسکورنگ سگنلز پر دوسرے جنریٹو 3D ماڈلز سے کیا۔نتائج اس بات کی تصدیق کرتے ہیں کہ Point·E پیچیدہ ٹیکسٹ سگنلز سے متنوع اور پیچیدہ 3D شکلیں پیدا کرنے کے قابل ہے اور قیاس کے وقت کو ایک سے دو ترتیبوں تک تیز کرتا ہے۔ٹیم کو امید ہے کہ ان کا کام 3D متن کی ترکیب میں مزید تحقیق کو متاثر کرے گا۔
پروجیکٹ کے GitHub پر پہلے سے تربیت یافتہ پوائنٹ کلاؤڈ پروپیگیشن ماڈل اور تشخیصی کوڈ دستیاب ہے۔دستاویز پوائنٹ-ای: پیچیدہ سراگوں سے 3D پوائنٹ کلاؤڈز بنانے کا نظام arXiv پر ہے۔
ہم جانتے ہیں کہ آپ کسی خبر یا سائنسی دریافت سے محروم نہیں رہنا چاہتے۔ہفتہ وار AI اپ ڈیٹس حاصل کرنے کے لیے ہمارے مشہور Synced Global AI ہفتہ وار نیوز لیٹر کو سبسکرائب کریں۔


پوسٹ ٹائم: دسمبر-28-2022