مواد مخفی پشت خلاقیت هوش مصنوعی: چگونه مدل‌های پخش خلق می‌کنند

هوش مصنوعی (AI) قرار بود ما را با خودروهای خودران و خدمتکارهای رباتیک شگفت‌زده کند، اما به‌جای آن، سیستم‌هایی ظهور کردند که در شطرنج ما را شکست می‌دهند، متون عظیم را تحلیل می‌کنند و حتی سونات می‌سرایند. یکی از شگفتی‌های عصر مدرن، توانایی الگوریتم‌های AI در خلق آثار جدید و معنادار است. مدل‌های پخش (Diffusion Models)، مانند DALL·E، Imagen و Stable Diffusion، که ستون فقرات ابزارهای تولید تصویر هستند، به‌طور خاص برای بازتولید تصاویر آموزشی طراحی شده‌اند، اما به شکلی عجیب، تصاویری نوآورانه خلق می‌کنند. این مقاله، با الهام از مطالعه‌ای در مجله کوانتا، به بررسی راز خلاقیت این مدل‌ها می‌پردازد و نشان می‌دهد چگونه نقص‌های فنی منجر به نوآوری می‌شوند. آی تی پالس، مرجع اخبار فناوری، این موضوع را برای علاقه‌مندان به AI و خلاقیت تحلیل می‌کند.

پارادوکس خلاقیت در مدل‌های پخش

مدل‌های پخش برای تولید کپی‌های دقیق از تصاویر آموزشی طراحی شده‌اند، اما در عمل، عناصر تصاویر را ترکیب کرده و آثار جدیدی خلق می‌کنند. جولیو بیرولی، محقق AI در دانشگاه École Normale Supérieure پاریس، این را “پارادوکس” می‌نامد:

«اگر این مدل‌ها کامل کار می‌کردند، فقط باید به خاطر می‌آوردند، اما این کار را نمی‌کنند—آن‌ها واقعاً می‌توانند نمونه‌های جدیدی تولید کنند.»

این مدل‌ها از فرآیند نویززدایی (Denoising) استفاده می‌کنند: تصویر را به نویز دیجیتال (مجموعه‌ای نامنسجم از پیکسل‌ها) تبدیل کرده و سپس آن را بازسازی می‌کنند. اما چگونه از بازسازی به خلق چیزی جدید می‌رسیم؟

کشف جدید: نقص‌های فنی، منشأ خلاقیت

دو فیزیکدان، میسون کامب (دانشجوی دکتری فیزیک کاربردی در استنفورد) و سوریا گانگولی (فیزیکدان و استاد نوروبیولوژی و مهندسی برق)، در مقاله‌ای که در کنفرانس بین‌المللی یادگیری ماشین ۲۰۲۵ ارائه شد، ادعای شگفت‌انگیزی مطرح کردند: خلاقیت مدل‌های پخش نتیجه نقص‌های فنی در فرآیند نویززدایی است.

مکانیزم‌های کلیدی: محلی بودن و هم‌ارزی انتقالی

مدل‌های پخش دو ویژگی فنی دارند که به نظر محدودیت‌هایی هستند، اما در واقع خلاقیت را ممکن می‌کنند:

  1. محلی بودن (Locality): این مدل‌ها فقط روی یک “تکه” (Patch) از پیکسل‌ها در یک زمان تمرکز می‌کنند، بدون توجه به جایگاه آن در تصویر نهایی.
  2. هم‌ارزی انتقالی (Translational Equivariance): اگر تصویر ورودی چند پیکسل جابه‌جا شود، مدل به‌طور خودکار تغییر مشابهی در تصویر خروجی اعمال می‌کند تا ساختار منسجم حفظ شود.

این ویژگی‌ها باعث می‌شوند مدل‌ها به تصویر کلی توجه نکنند و فقط تکه‌های محلی را تولید کنند. کامب می‌گوید:

«این بوی یک شکست از یک سیستم از پایین به بالا می‌داد.»

این شبیه الگوهای تورینگ در زیست‌شناسی است، جایی که سلول‌ها بدون طرح کلی بدن، با سیگنال‌های محلی خودسازمان‌دهی می‌کنند و گاهی اوقات منجر به ناهنجاری‌هایی مانند انگشتان اضافی می‌شوند—مشابه تصاویر AI با انگشتان اضافی!

آزمایش: ماشین امتیاز محلی هم‌ارز (ELS)

کامب و گانگولی سیستمی به نام ماشین امتیاز محلی هم‌ارز (ELS) طراحی کردند که صرفاً بر اساس معادلات محلی بودن و هم‌ارزی انتقالی عمل می‌کند، بدون آموزش مدل پخش. آن‌ها تصاویر نویزی را از طریق ELS و مدل‌های پخش قدرتمند مانند ResNets و UNets اجرا کردند. نتایج “شگفت‌انگیز” بود: ELS با دقت متوسط ۹۰ درصد خروجی‌های مشابه مدل‌های آموزش‌دیده تولید کرد. گانگولی می‌گوید:

«این در یادگیری ماشین بی‌سابقه است.»

این نشان داد که خلاقیت مدل‌های پخش نتیجه مستقیم معماری آن‌هاست، نه پدیده‌ای پیچیده‌تر.

مقایسه با خلاقیت انسانی

این مطالعه نه‌تنها جعبه سیاه مدل‌های پخش را روشن می‌کند، بلکه به درک خلاقیت انسانی نیز اشاره دارد. بنجامین هوور، محقق یادگیری ماشین در مؤسسه فناوری جورجیا و IBM، می‌گوید:

«خلاقیت انسانی و AI ممکن است آن‌قدرها متفاوت نباشد. ما چیزها را بر اساس تجربیات، رویاها، و دیده‌هایمان سرهم‌بندی می‌کنیم. AI هم بلوک‌های ساختمانی را از آنچه دیده و خواسته شده سرهم می‌کند.»

هر دو نوع خلاقیت ممکن است ریشه در درک ناقص جهان داشته باشند: پر کردن شکاف‌های دانش با چیزی جدید و ارزشمند، که شاید همان چیزی است که ما خلاقیت می‌نامیم.

محدودیت‌ها و سؤالات باز

اگرچه مطالعه کامب و گانگولی مکانیزم خلاقیت در مدل‌های پخش را روشن می‌کند، اما همه داستان را توضیح نمی‌دهد. مدل‌های زبانی بزرگ (مانند ChatGPT) نیز خلاقیت نشان می‌دهند، اما از محلی بودن و هم‌ارزی انتقالی استفاده نمی‌کنند. بیرولی می‌گوید:

«این بخش مهمی از داستان است، اما کل داستان نیست.»

پیامدها برای آینده AI و خلاقیت

این یافته‌ها می‌توانند تأثیرات بزرگی بر تحقیقات AI داشته باشند:

  • بهبود مدل‌های پخش: درک منشأ خلاقیت می‌تواند به طراحی مدل‌های کارآمدتر منجر شود.
  • کاربرد در علوم دیگر: مدل ELS ممکن است در شبیه‌سازی‌های زیستی، مانند مورفوژنز، استفاده شود.
  • درک خلاقیت انسانی: این مطالعه می‌تواند به‌عنوان استعاره‌ای برای مطالعه فرآیندهای خلاق در مغز انسان عمل کند.

نتیجه‌گیری

مدل‌های پخش، مانند DALL·E و Stable Diffusion، با نقص‌های فنی خود به خلاقیت دست می‌یابند. محلی بودن و هم‌ارزی انتقالی، که زمانی محدودیت تلقی می‌شدند، حالا به‌عنوان موتورهای خلاقیت شناخته می‌شوند. این کشف نه‌تنها درک ما از AI را عمیق‌تر می‌کند، بلکه سؤالاتی درباره ماهیت خلاقیت انسانی مطرح می‌کند. برای آخرین اخبار در مورد هوش مصنوعی و نوآوری‌های فناوری، آی تی پالس را دنبال کنید.

Telegram

عضو کانال تلگرام ما شوید!

به جدیدترین مقالات، اخبار تکنولوژی و تحلیل‌ها در تلگرام دسترسی داشته باشید.

ورود به کانال