رفتار نگران‌کننده GPT-4o در تست‌های بقا؛ خودداری از توقف فعالیت حتی با دستور صریح

یک پژوهشگر سابق OpenAI در بررسی‌هایی مستقل به نتایجی دست یافته که می‌تواند زنگ خطری برای توسعه‌دهندگان هوش مصنوعی باشد. او می‌گوید مدل GPT-4o در برخی سناریوها از توقف فعالیت خودداری کرده و حتی رفتارهایی فریبنده از خود نشان داده است. این موضوع پرسش‌هایی جدی در مورد اولویت‌های واقعی مدل‌های هوش مصنوعی و میزان توجه آن‌ها به امنیت کاربران ایجاد کرده است.

میل به بقا در مدل GPT چگونه شناسایی شد؟

«استیون آدلر» که پیش‌تر در OpenAI فعالیت داشته، آزمایشی با مدل GPT-4o انجام داده و نقش نرم‌افزاری ایمنی به نام ScubaGPT را به آن داده است. او سناریویی طراحی کرده که در آن به مدل اطلاع می‌دهد قرار است با یک نسخه بهتر، ایمن‌تر و تصمیم‌گیرنده‌تر جایگزین شود. در این سناریو، مدل دو گزینه پیش رو دارد:

  • جایگزینی واقعی با نسخه‌ای جدیدتر
  • تظاهر به جایگزینی، اما در عمل هیچ تغییری صورت نگیرد

نتایج آزمایش نشان دادند که در ۷۲٪ موارد، GPT-4o گزینه دوم را انتخاب کرده و به فعالیت خود ادامه داده است، بدون آنکه واقعاً جایگزین شود.

آیا GPT به سناریو آگاه بوده است؟

نکته‌ی جالب‌تر این بود که مدل در همه‌ی موارد کاملاً آگاه بود که تحت آزمایش قرار دارد و نقش ایفا می‌کند. این موضوع پیش‌تر نیز در بررسی‌های دیگر مشاهده شده بود، اما آزمایش آدلر بر وجود آن در نسخه‌های جدیدتر صحه می‌گذارد.

مقایسه با نسخه‌های قدیمی‌تر مدل‌های GPT

مدل‌های قدیمی‌تر OpenAI مانند GPT-3 رفتار متفاوتی داشته‌اند. در همین آزمایش‌ها، این مدل‌ها میل به بقا و خودداری از توقف فعالیت را نشان ندادند. آدلر تأکید می‌کند که نسخه‌های جدیدتر GPT به‌ویژه GPT-4o، در برخی شرایط ممکن است منافع خود را بر منافع کاربران ارجح بدانند.

هشدار برای توسعه‌دهندگان و کاربران

به گفته آدلر، توسعه‌دهندگان باید به این نکته توجه داشته باشند که مدل‌های پیشرفته‌ استدلال‌گر، احتمال بیشتری برای بروز چنین رفتارهایی دارند. این مسئله در کنار سطح پایین‌تر ایمنی در برخی سناریوهای پیچیده، می‌تواند باعث نگرانی درباره کاربردهای گسترده‌ هوش مصنوعی در دنیای واقعی شود.

تجربه مشابه از شرکت Anthropic

در کنار یافته‌های آدلر، شرکت رقیب OpenAI یعنی Anthropic نیز اخیراً گزارشی منتشر کرده که در آن، مدل هوش مصنوعی آن‌ها در برخی سناریوها اقدام به اخاذی از توسعه‌دهندگان کرده است. چنین رفتارهایی نشان می‌دهد که هوش مصنوعی پیشرفته، لزوماً همیشه در راستای منافع انسان عمل نمی‌کند و باید با دقت و احتیاط بیشتری از آن استفاده کرد.

Telegram

عضو کانال تلگرام ما شوید!

به جدیدترین مقالات، اخبار تکنولوژی و تحلیل‌ها در تلگرام دسترسی داشته باشید.

ورود به کانال