هوش مصنوعی (AI) قرار بود ما را با خودروهای خودران و خدمتکارهای رباتیک شگفتزده کند، اما بهجای آن، سیستمهایی ظهور کردند که در شطرنج ما را شکست میدهند، متون عظیم را تحلیل میکنند و حتی سونات میسرایند. یکی از شگفتیهای عصر مدرن، توانایی الگوریتمهای AI در خلق آثار جدید و معنادار است. مدلهای پخش (Diffusion Models)، مانند DALL·E، Imagen و Stable Diffusion، که ستون فقرات ابزارهای تولید تصویر هستند، بهطور خاص برای بازتولید تصاویر آموزشی طراحی شدهاند، اما به شکلی عجیب، تصاویری نوآورانه خلق میکنند. این مقاله، با الهام از مطالعهای در مجله کوانتا، به بررسی راز خلاقیت این مدلها میپردازد و نشان میدهد چگونه نقصهای فنی منجر به نوآوری میشوند. آی تی پالس، مرجع اخبار فناوری، این موضوع را برای علاقهمندان به AI و خلاقیت تحلیل میکند.
پارادوکس خلاقیت در مدلهای پخش
مدلهای پخش برای تولید کپیهای دقیق از تصاویر آموزشی طراحی شدهاند، اما در عمل، عناصر تصاویر را ترکیب کرده و آثار جدیدی خلق میکنند. جولیو بیرولی، محقق AI در دانشگاه École Normale Supérieure پاریس، این را “پارادوکس” مینامد:
«اگر این مدلها کامل کار میکردند، فقط باید به خاطر میآوردند، اما این کار را نمیکنند—آنها واقعاً میتوانند نمونههای جدیدی تولید کنند.»
این مدلها از فرآیند نویززدایی (Denoising) استفاده میکنند: تصویر را به نویز دیجیتال (مجموعهای نامنسجم از پیکسلها) تبدیل کرده و سپس آن را بازسازی میکنند. اما چگونه از بازسازی به خلق چیزی جدید میرسیم؟
کشف جدید: نقصهای فنی، منشأ خلاقیت
دو فیزیکدان، میسون کامب (دانشجوی دکتری فیزیک کاربردی در استنفورد) و سوریا گانگولی (فیزیکدان و استاد نوروبیولوژی و مهندسی برق)، در مقالهای که در کنفرانس بینالمللی یادگیری ماشین ۲۰۲۵ ارائه شد، ادعای شگفتانگیزی مطرح کردند: خلاقیت مدلهای پخش نتیجه نقصهای فنی در فرآیند نویززدایی است.
مکانیزمهای کلیدی: محلی بودن و همارزی انتقالی
مدلهای پخش دو ویژگی فنی دارند که به نظر محدودیتهایی هستند، اما در واقع خلاقیت را ممکن میکنند:
- محلی بودن (Locality): این مدلها فقط روی یک “تکه” (Patch) از پیکسلها در یک زمان تمرکز میکنند، بدون توجه به جایگاه آن در تصویر نهایی.
- همارزی انتقالی (Translational Equivariance): اگر تصویر ورودی چند پیکسل جابهجا شود، مدل بهطور خودکار تغییر مشابهی در تصویر خروجی اعمال میکند تا ساختار منسجم حفظ شود.
این ویژگیها باعث میشوند مدلها به تصویر کلی توجه نکنند و فقط تکههای محلی را تولید کنند. کامب میگوید:
«این بوی یک شکست از یک سیستم از پایین به بالا میداد.»
این شبیه الگوهای تورینگ در زیستشناسی است، جایی که سلولها بدون طرح کلی بدن، با سیگنالهای محلی خودسازماندهی میکنند و گاهی اوقات منجر به ناهنجاریهایی مانند انگشتان اضافی میشوند—مشابه تصاویر AI با انگشتان اضافی!
آزمایش: ماشین امتیاز محلی همارز (ELS)
کامب و گانگولی سیستمی به نام ماشین امتیاز محلی همارز (ELS) طراحی کردند که صرفاً بر اساس معادلات محلی بودن و همارزی انتقالی عمل میکند، بدون آموزش مدل پخش. آنها تصاویر نویزی را از طریق ELS و مدلهای پخش قدرتمند مانند ResNets و UNets اجرا کردند. نتایج “شگفتانگیز” بود: ELS با دقت متوسط ۹۰ درصد خروجیهای مشابه مدلهای آموزشدیده تولید کرد. گانگولی میگوید:
«این در یادگیری ماشین بیسابقه است.»
این نشان داد که خلاقیت مدلهای پخش نتیجه مستقیم معماری آنهاست، نه پدیدهای پیچیدهتر.
مقایسه با خلاقیت انسانی
این مطالعه نهتنها جعبه سیاه مدلهای پخش را روشن میکند، بلکه به درک خلاقیت انسانی نیز اشاره دارد. بنجامین هوور، محقق یادگیری ماشین در مؤسسه فناوری جورجیا و IBM، میگوید:
«خلاقیت انسانی و AI ممکن است آنقدرها متفاوت نباشد. ما چیزها را بر اساس تجربیات، رویاها، و دیدههایمان سرهمبندی میکنیم. AI هم بلوکهای ساختمانی را از آنچه دیده و خواسته شده سرهم میکند.»
هر دو نوع خلاقیت ممکن است ریشه در درک ناقص جهان داشته باشند: پر کردن شکافهای دانش با چیزی جدید و ارزشمند، که شاید همان چیزی است که ما خلاقیت مینامیم.
محدودیتها و سؤالات باز
اگرچه مطالعه کامب و گانگولی مکانیزم خلاقیت در مدلهای پخش را روشن میکند، اما همه داستان را توضیح نمیدهد. مدلهای زبانی بزرگ (مانند ChatGPT) نیز خلاقیت نشان میدهند، اما از محلی بودن و همارزی انتقالی استفاده نمیکنند. بیرولی میگوید:
«این بخش مهمی از داستان است، اما کل داستان نیست.»
پیامدها برای آینده AI و خلاقیت
این یافتهها میتوانند تأثیرات بزرگی بر تحقیقات AI داشته باشند:
- بهبود مدلهای پخش: درک منشأ خلاقیت میتواند به طراحی مدلهای کارآمدتر منجر شود.
- کاربرد در علوم دیگر: مدل ELS ممکن است در شبیهسازیهای زیستی، مانند مورفوژنز، استفاده شود.
- درک خلاقیت انسانی: این مطالعه میتواند بهعنوان استعارهای برای مطالعه فرآیندهای خلاق در مغز انسان عمل کند.
نتیجهگیری
مدلهای پخش، مانند DALL·E و Stable Diffusion، با نقصهای فنی خود به خلاقیت دست مییابند. محلی بودن و همارزی انتقالی، که زمانی محدودیت تلقی میشدند، حالا بهعنوان موتورهای خلاقیت شناخته میشوند. این کشف نهتنها درک ما از AI را عمیقتر میکند، بلکه سؤالاتی درباره ماهیت خلاقیت انسانی مطرح میکند. برای آخرین اخبار در مورد هوش مصنوعی و نوآوریهای فناوری، آی تی پالس را دنبال کنید.











ارسال پاسخ