
اگر ابزارهای تولید تصویر به شکلی طراحی شدهاند که از آموزشهایی که دیدهاند تقلید کنند، پس این خلاقیت از کجا نشات میگیرد؟
زمانی ما انسانها در انتظار ماشینهای خودران بودیم، اما در عوض سیستمهایی از هوش مصنوعی ظهور کردند که میتوانند انسان را در شطرنج شکست دهند و حجم زیادی از اطلاعات را تحلیل کنند که برای انسان کاری بسیار دشوار است. اما در کمال تعجب بسیاری از کارهایی که انسان آنها را به آسانی انجام میدهد، برای رباتها بسیار دشوار است. اگرچه روز به روز الگوریتمها به هوش انسانی نزدیک و نزدیکتر میشوند؛ اما یکی دیگر از اتفاقاتی که دانشمندان را به تعجب وا داشته، توانایی هوش مصنوعی در نوعی از خلاقیت است.
امروزه ابزارهای تولید تصویری طراحی شدهاند که میتوانند نمونههای بسیار دقیقی از تصاویری که با آنها آموزش دیدهاند طراحی کنند، درحالی که در نظر انسان آن تصاویر کاملا خلاقانه و جدید هستند. آنها عناصر مختلفی از تصاویری که آموزش دیدهاند را باهم ترکیب میکنند و تصاویری معنادار طراحی میکنند.
این ابزارها برای تولید تصاویر جدید، ابتدا تصاویری که آموزش دیدهاند را طبق مدل diffusion تحت فرایندی به نام denoising، تصاویر را به پیکسلهایی بسیار ریز تبدیل میکنند و سپس با استفاده از الگوریتمها میتوانند دوباره آنها را کنار هم بچینند و تصاویری با معنا طراحی کنند.
اما پرسشی که دانشمندان را سالها درگیر کرده این است که اگر این مدلها فقط تصاویر را بازسازی میکنند پس خلاقیت آنها از کجا میآید؟ درواقع مثل این است که از نقاشی خرد شده تصویری کاملا جدید طراحی کنید!
در حال حاضر فرضیهای بسیار جالب توسط دو فیزیکدان مطرح شده: «این نقصهای فنی در فرایند denoising است که باعث خلاقیت در ابزارهای تولید تصاویر میشود.» این دو فیزیکدان در مقالهای که در کنفرانس machine learning-2025 ارائه خواهند داد یک مدل ریاضی از ابزارهای تولید تصویر آموزش دیده توسعه دادهاند که نشان دهند درواقع آن چیزی که با عنوان خلاقیت از این ابزارها مشاهده میکنیم فرایندی اجتنابناپذیر است، به این معنی که نتیجهی ساختار خود این سیستمهاست.
لوکا آمبروجیونی، دانشمند علوم کامپیوتر در دانشگاه رادبود هلند، میگوید: «نقطه قوت این مقاله در این است که پیشبینیهایی بسیار دقیق از پدیدهای بسیار پیچیده انجام میدهد.»
سیستم از پایین به بالا
میسن کمب، دانشجوی کارشناسی ارشد فیزیک کاربردی در دانشگاه استنفورد، نویسندهی اصلی این مقاله، مدتی است که به morphogenesis علاقهمند بوده، فرایندی که در آن سیستمهای زنده به طور خودکار سازمان مییابند.
الگویی به نام Turing pattern وجود دارد که با استفاده از آن میتوان رشد جنین در انسان و دیگر حیوانات را به خوبی درک کرد. الگوی Turing بیان میکند که چطور سلولهای متمایزی به صورت گروهی خود را سازماندهی میکنند که اندام و اعضای متفاوتی شکل گیرند. نکته بسیار جالب در این پدیده این است که هیچ ناظری وجود ندارد که بر این سلولها نظارت کند که طبق نقشه نهایی بدن عمل کنند.
درواقع سلولها هیچ برنامهی انفرادی از پیش تعیین شدهای ندارند که طبق آن عمل کنند، آنها تنها از سیگنالهایی که از سلولهای اطراف خود دریافت میکنند عمل میکنند. این سیستم مذکور از پایین به بالا به خوبی عمل میکند، اما در مواردی خطا میکند و مشکلاتی از قبیل انگشتان اضافه ایجاد میکند.
زمانی که اولین تصاویر تولید شده توسط هوش مصنوعی منتشر شد، نقصهای زیادی داشت که شبیه به نقاشیهای سورئالیستی به نظر میرسید، این اتفاق پدیده morphogenesis را به یاد میسن کمب انداخت: «این اتفاق شکست یک سیستم پایین به بالا را نشان میداد.»
پژوهشگران متوجه شدند که سیستم در طراحی این تصاویر میانبر میزند و در هر لحظه تنها به گروهی از پیکسلها توجه میکند که به آن locality میگویند، وهمچنین نقص بعدی این بود که سیستم به قانونی پایبند بود که هر تغییری در تصویر ورودی ایجاد میشد و پیکسلی جابهجا میشد، سیستم به طور خود به خودی همان تغییر را در تصویر تولید شده ایجاد میکرد، این ویژگی translational equivariance نام دارد که منجر به ایجاد تصاویر واقع گرایانه میشود.
درواقع به خاطر همین ویژگیها سیستم توجهی به این ندارد که هر پیکسل در تصویر نهایی چه جایگاهی خواهد داشت و تنها به جایگاه هر پیکسل در لحظه تولید توجه میکند و سپس با استفاده از مدلی ریاضی به نام score function هر پیکسل را در جای خود قرار میدهد. محققین مدتها بود که این ویژگیها که منجر به تولید تصاویر ناقص میشد را با خلاقیت سیستم مرتبط نمیدانستند، اما در نهایت با یک پدیده دیگر مواجه شدند!
ساخت به صورت locally
در سال ۲۰۲۲ که کمب کار تحصیلات تکمیلی خود را در آزمایشگاه سوریا گانگولی، فیزیکدان دانشگاه استنفورد شروع کرد، شرکت OpenAI با انتشار ChatGPT باعث ایجاد تحولی شد که این روزها آن را با عنوان هوش مصنوعی مولد میشناسند. همزمان با اینکه بسیاری از توسعهدهندگان به دنبال طراحی مدلهایی قدرتمندتر بودند افرادی هم بودند که همچنان بر درک سازوکار این سیستم اصرار میورزیدند.
کمب و گانگولی این فرضیه را مطرح کردند که locality و equivariance، منجر به خلاقیت میشوند. فرضیه آنها احتمال طراحی سیستمی را بیان میکرد که اگر تنها بر اساس locality و equivariance ساخته شده باشد، باید رفتاری مشابه با مدلهای diffusion داشته باشند. این آزمایش قسمت اصلی مقاله آنها بود.
آنها سیستم خود را Equivariance Local Score یا ELS مینامند. اما این سیستم یک مدل آموزشدیده نیست، درواقع مجموعهای از معادلات است که ترکیب تصاویری که تحت فرایند denoising قرار گرفتهاند را فقط با استفاده از دو ویژگی locality و equivariance پیشبینی میکند. سپس مجموعهای از تصاویر را که به نویز تبدیل شده بودند را از طریق ماشین ELS و چند مدل قدرتمند دیگر عبور دادند.
نتایج بسیار حیرتآور بودند، در همه موارد ماشین ELS توانست تصاویر را با دقت میانگین ۹۰درصد بازیابی کند. به گفته گانگولی این نتیجه در machine learning بیسابقه بود.
کمب میگوید: «به محض اینکه locality اعمال میشود، خلاقیت به طور خودکار به وجود میآید.» او متوجه شد همان سیستمی که ابزارهای تولید تصویر را محدود میکنند و آنها را مجبور به تمرکز روی نواحی خاصی میکنند دلیل خلاقیت در این مولدهای تصویر هستند. اما متخصصین معتقداند که اگرچه مقالهی کمب و گانگولی سازوکار خلاقیت را تا حدود خوبی نشان میدهد، اما هنوز جنبههای زیادی از خلاقیت در هوش مصنوعی ناشناخته باقی مانده. برای مثال، مدلهای زبانی بزرگ و دیگر سیستمهای هوش مصنوعی از خود خلاقیت نشان میدهند و این در حالی است که این سیستمها از ویژگیهای locality و equivariance استفاده نمیکنند.
ساخت خلاقیت
با این اکتشاف دانشمندان نشان دادند که خلاقیت را میتوان محصول جانبی فرایند denoising در نظر گرفت و آن را فرمولبندی کرد و با دقت خوبی پیشبینی کرد. در واقع این آزمایش شبیه به آن است که عصبشناسان گروهی از دانشمندان را در دستگاه MRI قرار دهند و سازوکار پشت خلاقیت آنها را کشف کنند.
بن هوور، پژوهشگر machine learning که روی مدلهای مولد تصاویر مطالعه میکند، در این باره میگوید: «خلاقیت انسان و هوش مصنوعی شاید آنقدرها هم متفاوت نباشد، ما چیزها را با توجه به تجربیات، دیدهها و شنیدهها یا خواستههایمان کنار هم میگذاریم و تصمیم میگیریم.»
با توجه به این مقاله، خلاقیت انسان و هوش مصنوعی ممکن است دلیل آگاهی ناقص ما از جهان پیرامونمان باشد. ما تلاش میکنیم کمبود دانش مان را پر کنیم و گاهی چیزهایی به وجود میآوریم که جدید و ارزشمند هستند و شاید این همان چیزی است که ما آن را خلاقیت مینامیم.
مترجم: نیلوفر کریمی
منبع