چیٹ جی پی ٹی ’دیکھنے، سننے اور بولنے‘ کے قابل بن گیا

مصنوعی ذہانت پر تحقیق کرنے والے ادارے اوپن اے آئی کے مطابق ’چیٹ جی پی ٹی اب دیکھ ، سن اور بول سکتا ہے۔‘

اپریل 2023 میں فرانس میں لی گئی تصویر جس میں سکرین پر چیٹ جی بی ٹی کا لوگو نظر آ رہا ہے (اے ایف پی)

مصنوعی ذہانت پر تحقیق کرنے والے ادارے اوپن اے آئی کے مطابق کمپیوٹر پروگرام چیٹ جی پی ٹی میں ایک نیا اپ گریڈ شامل کیا گیا جس نے مصنوعی ذہانت کے اس مقبول پروگرام کو ’دیکھنے، سننے اور بولنے‘ کے قابل بنا دیا ہے۔

کمپنی نے پیر کو ایک بلاگ پوسٹ میں کہا ہے کہ اوپن اے آئی کے مصنوعی ذہانت چیٹ بوٹ کے لیے دستیاب اپ ڈیٹ صارفین کو اے آئی چیٹ بوٹ کے ساتھ صوتی گفتگو کرنے اور تصاویر کا استعمال کرتے ہوئے اس کے ساتھ بات چیت کرنے کا موقع فراہم کرے گی۔

کمپنی نے ایکس (سابقہ ٹوئٹر) پر ایک پوسٹ میں یہ بھی کہا: ’چیٹ جی پی ٹی اب دیکھ ، سن اور بول سکتا ہے۔‘

یہ فیچرز اگلے دو ہفتے میں متعارف کروائے جائیں گے جن کی بدولت صارفین مصنوعی ذہانت کے اسسٹنٹ کے ساتھ بول کر ساتھ بات چیت کر سکیں گے۔

کمپنی کے مطابق نئے فیچرز کے ساتھ چیٹ جی پی ٹی کو ’آپ کے اہل خانہ کے لیے سوتے وقت کہانی کی درخواست کرنے یا رات کے کھانے کی میز پر ہونے والی بحث کو سمیٹنے‘ کے لیے استعمال کیا جا سکتا ہے۔ اس طرح چیٹ جی پی ٹی ایمازون کے الیکسا یا ایپل کے سیری اے آئی اسسٹنٹس کی پیش کردہ خدمات کے قریب آ جائے گا۔

یہ فیچر کیسے کام کرتا ہے اس کی مثال دیتے ہوئے اوپن اے آئی نے ایک ڈیمو شیئر کیا ہے جس میں ایک صارف چیٹ جی پی ٹی سے ’لیری نامی سپر ڈوپر سن فلاور خار پشت‘ کے بارے میں کہانی سنانے کے لیے کہتا ہے۔

چیٹ بوٹ ایک انسان جیسی آواز کے ساتھ سوال کا جواب دیتا ہے اور ’اس کا گھر کیسا تھا؟‘ اور ’اس کا بہترین دوست کون ہے؟‘ جیسے سوالات کا بھی جواب دیتا ہے۔

مزید پڑھ

اس سیکشن میں متعلقہ حوالہ پوائنٹس شامل ہیں (Related Nodes field)

اوپن اے آئی کا کہنا ہے کہ آواز کی صلاحیت کو ایک نئے ٹیکسٹ ٹو سپیچ ماڈل کی معاونت حاصل ہے جو صرف متن اور چند سیکنڈ پر مشتمل نمونے کی تقریر سے انسانوں کی طرح کی آڈیو تیار کرتا ہے۔

کمپنی کے مطابق: ’ہم نے ہر آواز تخلیق کرنے کے لیے پیشہ ور صدا کاروں کے ساتھ مل کر کام کیا۔ ہم آپ کے بولے گئے الفاظ کو متن کی شکل دینے کے لیے اپنے اوپن سورس سپیچ ریکیگنیشن سسٹم وسپر کا بھی استعمال کرتے ہیں۔‘

اے آئی فرم کا ماننا ہے کہ نئی صوتی ٹیکنالوجی محض چند سیکنڈ کی حقیقی تقریر سے حقیقی محسوس ہونے والی مصنوعی آوازیں تیار کرنے کی صلاحیت رکھتی ہے اور بہت سی تخلیقی ایپلی کیشنز کے دروازے کھول سکتی ہے۔

تاہم کمپنی نے یہ بھی متنبہ کیا کہ نئی صلاحیتیں نئے خطرات کا سبب بھی بن سکتی ہیں۔ ’جیسے بدخواہ عناصر کا عوامی شخصیات کا روپ دھارنا یا دھوکہ دہی کا امکان۔‘

اے آئی چیٹ بوٹ میں ایک اور بڑی اپ ڈیٹ صارفین کو تصویر اپ لوڈ کرنے اور چیٹ جی پی ٹی سے اس کے بارے میں پوچھنے کا موقع فراہم کرتی ہے۔

اوپن اے آئی نے وضاحت کی کہ ’آپ کی گرِل کے کام نہ کرنے کے مسئلے کا حل، کھانے بنانے کی تیاری کے لیے آپ کے فریج میں موجود سامان کا جائزہ یا کام سے متعلق اعداد و شمار کے پیچیدہ گراف کا تجزیہ۔‘

کمپنی کے مطابق یہ نیا فیچر صارفین کو چیٹ جی پی ٹی موبائل ایپ میں ڈرائنگ ٹول کا استعمال کرتے ہوئے تصویر کے ایک مخصوص حصے پر توجہ مرکوز کرنے کی سہولت بھی دیتا ہے۔

چیٹ بوٹ کے ذریعے اس طرح کی ملٹی ماڈل شناخت کی پیش گوئی کچھ عرصہ قبل کی گئی اور تصاویر کو شناخت کرنے کا یہ نیا فیچر ملٹی ماڈل جی پی ٹی 3.5 اور جی پی ٹی فور کی مدد سے کام کرتا ہے۔

یہ ماڈل مختلف قسم کی تصاویر کو سمجھنے کے لیے زبان کی اپنی تفہیم کی صلاحیت کا استعمال کرسکتے ہیں۔ ان مختلف تصاویر میں فوٹوگرافس، کمپیوٹر سکرین شاٹس اور دستاویزات شامل ہیں۔

اوپن اے آئی کا کہنا ہے کہ چیٹ جی پی ٹی کی پلس اور انٹرپرائز سروسز کے صارفین کے لیے ایپ میں اگلے دو ہفتے کے اندر نئے فیچرز متعارف کروا دیے جائیں گے۔

اے آئی فرم نے کہا کہ ’اس کے بعد ہم جلد ہی ڈولپرز سمیت صارفین کے دیگر گروپس کے لیے یہ صلاحیتیں متعارف کروانے کے لیے پرجوش ہیں۔‘

© The Independent

whatsapp channel.jpeg

زیادہ پڑھی جانے والی ٹیکنالوجی