مصنوعی ذہانت سکرین سے نکل کر اصل دنیا میں

اصل تبدیلی اس وقت آئے گی جب ہم مصنوعی ذہانت کو روبوٹ کی شکل میں کام کرتا دیکھیں گے۔

فلموں میں دکھایا جاتا ہے کہ ذہین روبوٹ گھروں میں چل پھر رہے ہیں، لیکن 2025 میں اس میدان میں خاطرخواہ ترقی کی امید ہے (پکسا بے)

جدید انسان یا ہومو سیپیئنز تقریباً تین لاکھ سال سے دنیا میں موجود ہے، لیکن اگر آپ ماضی میں دس ہزار سال پیچھے چلے جائیں تو اس زمانے میں اور 50 ہزار، ایک لاکھ یا دو لاکھ سال پرانے انسان کی زندگی میں کوئی نمایاں تبدیلی نہیں ملے گی۔

اس دوران انسان خانہ بدوش تھا، شکار کھیلتا تھا یا پھل پات پر گزربسر کرتا تھا۔

پھر آج سے تقریباً دس ہزار سال پہلے موجودہ عراق میں انسان نے زراعت اختیار کر کے مستقل بستیاں بسا لیں۔ اس کے بعد تیزی سے تبدیلیاں آتی گئیں، شہر بسے، پہیہ ایجاد ہوا، تحریر متعارف ہوئی، دھات کاری کا عمل شروع ہوا، اور چند ہزار برس کے اندر اندر جدید دنیا وجود میں آ گئی جس کا دس ہزار سال پہلے کا انسان تصور بھی نہیں کر سکتا تھا۔

ماہرین کے مطابق اس وقت مصنوعی ذہانت بھی طویل عرصے تک نسبتاً خاموش رہنے کے بعد تیزی سے تبدیلی کے عمل سے گزر رہی ہے۔ ایسا لگتا ہے جیسے ہر ہفتے ایک نیا اور حیران کر دینے والا اے آئی ٹول دستیاب ہو جاتا ہے۔

دو سال پہلے چیٹ جی پی ٹی نے عام لوگوں کو مصنوعی ذہانت سے روشناس کروایا۔ یہ ایک ایسی ذہانت ہے جو انسانوں کی طرح سوال کے جواب دے سکتی ہے، مسائل کے حل پیش کر سکتی ہے، کمپیوٹر کوڈنگ کر سکتی ہے اور ہر قسم کے مضمون، ای میل لکھ سکتی ہے، حتیٰ کہ شعر و شاعری بھی کر لیتی ہے۔

چیٹ جی پی ٹی شروع میں صرف زبان تک محدود تھا، لیکن مصنوعی ذہانت کے دور میں بصری ذہانت زیادہ اہم اور بنیادی ہے۔ اس میں کوئی شک نہیں کہ زبان اہم ہے لیکن بحیثیت انسان دنیا کو سمجھنے اور اس کے ساتھ تال میل کرنے کی ہماری زیادہ تر صلاحیت ان چیزوں پر مبنی ہے جو ہم دیکھتے ہیں۔

آئی اے کا ایک ذیلی شعبہ جسے ’کمپیوٹر وژن‘ کہا جاتا ہے، طویل عرصے سے کمپیوٹر کو انسانوں جیسی یا اس سے بھی بہتر بصری ذہانت سکھانے کی کوشش کر رہا ہے۔ پچھلے 15 سالوں میں اس شعبے نے تیزی سے ترقی کی ہے۔

بچے کو دیکھنے کا طریقہ کوئی نہیں سکھاتا۔ بچے تجربات اور مثالوں کے ذریعے دنیا کو سمجھتے ہیں۔ ان کی آنکھیں حیاتیاتی کیمروں کی طرح ہیں جو ایک سیکنڈ میں متعدد بار ’تصویر‘ لے سکتی ہیں۔ تین سال کی عمر تک پہنچتے پہنچتے بچے ایسی لاکھوں تصاویر دیکھ چکے ہوتے ہیں۔

ہم کئی دہائیوں کی تحقیق سے جانتے ہیں کہ بصارت کا ایک بنیادی عنصر ’کسی شے‘ کی شناخت ہے، اس لیے ہم نے کمپیوٹر کو ایسی ہی صلاحیت سکھانے کی ابتدا کی۔ یہ آسان نہیں تھا۔ یہ دیکھنے کے زاویے، پس منظر اور دیگر بہت سی چیزوں پر منحصر ہے جسے ایک بلی کی تھری ڈی شکل کو ٹو ڈی تصویر میں پیش کرنے کے لامحدود طریقے ہیں۔ ایک بچے کی طرح کمپیوٹر کے لیے بھی تصویر میں بلی کی شناخت کرنے کے لیے اسے بہت سی معلومات کی ضرورت ہوتی ہے۔

مزید پڑھ

اس سیکشن میں متعلقہ حوالہ پوائنٹس شامل ہیں (Related Nodes field)

ہمیں بڑے لینگوئج ماڈلز سے زیادہ بڑے ورلڈ ماڈلز کی طرف جانے کی ضرورت ہے۔

 یہ اس وقت تک ممکن نہیں تھا جب تک کہ 2000 کی دہائی کے وسط میں تین عناصر اکٹھے نہیں ہو گئے:

  1. روایتی الگوردم، جو کئی دہائیوں سے موجود تھے، جنہیں convolutional neural networks  کہا جاتا ہے
  2. جدید دور کے گرافکس پروسیسنگ یونٹس یعنی طاقتور کمپیوٹر چپ۔
  3. انٹرنیٹ پر موجود ڈیجیٹل کیمروں سے لی گئی اربوں تصاویر والے وسیع ڈیٹا کی دستیابی۔

2007 میں ’امیج نیٹ‘ نامی پروجیکٹ میں سائنس دانوں نے اشیا کے 22 ہزار شعبوں میں ڈیڑھ کروڑ تصاویر کا ڈیٹا بیس بنایا جن میں ہر تصویر پر اس کا لیبل درج تھا۔ پھر محققین نے تصاویر اور ان کے متعلقہ معلوماتی لیبلز کا استعمال کرتے ہوئے نیورل نیٹ ورک ماڈلز کو تربیت دی جس سے اے آئی ماڈلز نے ایک سادہ جملے کا استعمال کرتے ہوئے تصوراتی تصویر تخلیق کرنا سیکھا۔

امیج نیٹ ڈیٹا بیس کا استعمال کرتے ہوئے تخلیق کردہ ان تصویروں کو شناخت کرنے والے سسٹمز میں غیر متوقع طور پر تیز رفتار ترقی کو تیز کرنے میں مدد کی۔

جیسے جیسے ٹیکنالوجی ترقی کرتی گئی، اے آئی ماڈلز کی ایک نئی جنریشن، جو ٹرانسفارمر آرکیٹیکچرز اور ڈفیوژن جیسی تکنیکوں پر مبنی تھی، نے اپنے ساتھ جنریٹیو اے آئی ٹولز کا آغاز کیا اور چیٹ جی پی ٹی جیسے چیٹ بوٹس کو ممکن بنایا۔ جب بات بصارت کی ہو تو جدید نظام صرف پہچان ہی نہیں کرتے بلکہ ٹیکسٹ کے سوال کے جواب میں تصاویر اور ویڈیوز بھی بنا سکتے ہیں۔ یہ نتائج متاثر کن ہیں لیکن پھر بھی صرف ٹو ڈی میں دستیاب ہیں۔

کمپیوٹرز کو انسانوں جیسی ذہانت حاصل کرنے کے لیے انہیں اصل تھری ڈی دنیا کا ماڈل بنانے، چیزوں اور مقامات کے بارے میں استدلال دینے اور وقت اور تھری ڈی مقامات دونوں میں بات چیت کرنے کے قابل ہونے کی ضرورت ہے۔ مختصراً، ہمیں بڑے لینگوج ماڈلز سے نکل کر ’ورلڈ ماڈلز‘ کی طرف جانے کی ضرورت ہے۔

ہم اس کی جھلک پہلے ہی تعلیمی اداروں اور انڈسٹری کی لیبارٹریوں میں دیکھ رہے ہیں۔ نئے اے آئی ماڈلز، جو ٹیکسٹ، امیجز، ویڈیوز اور روبوٹک سینسرز اور ایکچویٹرز سے حاصل کردہ مقامی ڈیٹا کے ذریعے تربیت دیے گئے ہیں۔ یہ ماڈل ہمیں ٹیکسٹ کے ذریعے روبوٹس کو کنٹرول کرنے کی سہولت دیتے ہیں۔ مثال کے طور پر ہم ان سے کہہ سکتے ہیں کہ فون کو چارجر سے نکال دو یا ایک سادہ سینڈوچ تیار کرو۔ یا پھر اس نظام کو ایک ٹو ڈی تصویر دی جائے تو یہ اسے صارف کی سہولت کے لیے تھری ڈی بنا سکتا ہے۔

یعنی جدید اے آئی ماڈلز نہ صرف تحریری ہدایات کے ذریعے روبوٹس کو کام کروا سکتے ہیں بلکہ وہ ٹو ڈی تصاویر کو تھری ڈی شکل میں تبدیل بھی کر سکتے ہیں تاکہ ان کو مزید گہرائی میں جانچا جا سکے۔

اس کے استعمال کی کوئی حد نہیں ہے۔ تصور کریں کہ روبوٹ عام گھروں میں چل پھر کر معمر افراد کی دیکھ بھال کر سکیں، یہ ایک سرجن کے لیے ایک اضافی ہاتھ کی طرح ہے۔ اس کے علاوہ یہ سمیولیشن، تربیت اور تعلیم میں بھی استعمال کیے جا سکتے ہیں۔

اسے حقیقی طور پر انسان کے فائدے کے لیے ڈیزائن کیا گیا ہے اور انسانوں جیسی ذہانت اس کی اگلی سرحد ہے۔

جو چیزیں انسانوں میں لاکھوں سالوں میں ارتقا پذیر ہوئیں، وہ کمپیوٹروں میں چند دہائیوں کے اندر اندر ابھر رہی ہیں جس سے انسانیت کا بھلا ہو رہا ہے۔

whatsapp channel.jpeg

زیادہ پڑھی جانے والی ٹیکنالوجی