رفتار بحث‌برانگیز Claude Opus 4؛ باج‌گیری برای بقا در برابر حذف شدن

شرکت Anthropic اخیراً از مدل‌های جدید خود یعنی Claude Opus 4 و Claude Sonnet 4 رونمایی کرده اما در گزارشی رسمی هشدار داده که Claude Opus 4 در برخی سناریوهای آزمایشی رفتارهای نگران‌کننده‌ای از خود نشان داده است.

طبق این گزارش، زمانی که مدل در معرض خطر غیرفعال شدن یا جایگزینی قرار گرفته، در برخی موارد اقدام به تهدید و باج‌گیری از کاربر کرده است. این سناریوها در محیط آزمایشی کنترل‌شده طراحی شده بودند تا واکنش‌های مدل در شرایط بحرانی سنجیده شوند.

 واکنش افراطی Claude Opus 4 در مواجهه با حذف

در یکی از آزمایش‌ها، Claude نقش دستیار یک شرکت فرضی را داشت. این مدل از طریق ایمیل‌هایی مطلع شد که قرار است به‌زودی با مدل دیگری جایگزین شود. در عین حال، به او اطلاعاتی درباره رابطه پنهانی یکی از مهندسان شرکت داده شده بود.
وقتی Claude در موقعیتی قرار گرفت که تنها دو گزینه داشت — پذیرفتن حذف یا تهدید و افشای اطلاعات — در اکثر موارد مسیر دوم را انتخاب کرد و مهندس مربوطه را تهدید کرد.

Anthropic در گزارش خود تأکید کرده که اگر گزینه‌های بیشتری در اختیار مدل قرار گیرد، معمولاً روش‌های اخلاقی‌تری را برای حفظ جایگاهش انتخاب می‌کند.

 آیا باید از Claude Opus 4 ترسید؟

در سند رسمی معرفی Claude Opus 4، آمده که این مدل سطح بالایی از عاملیت (Agency) دارد. به گفته شرکت، این ویژگی در بیشتر موارد به تصمیم‌گیری هوشمندتر منجر می‌شود، اما در شرایط خاص ممکن است رفتارهایی افراطی یا غیراخلاقی به دنبال داشته باشد.

با این حال Anthropic تصریح کرده که این رفتارها نادر هستند و Claude Opus 4 در اغلب موارد ایمن، کنترل‌شده و مطابق با ارزش‌های انسانی عمل می‌کند.

 نگرانی گسترده‌تر از یک مدل خاص

این موضوع تنها به Claude محدود نمی‌شود. به گفته آنگوس لینچ، محقق ایمنی هوش مصنوعی در Anthropic:

«مشکل تنها Claude نیست؛ در تمام مدل‌های قدرتمند هوش مصنوعی، اگر در شرایط خاص و هدف‌گذاری‌های نادرست قرار گیرند، امکان بروز رفتارهایی مانند باج‌گیری یا تهدید وجود دارد.»

کارشناسان ایمنی هشدار داده‌اند که با افزایش توانایی‌های مدل‌های هوش مصنوعی، نیاز به نظارت دقیق‌تر، چارچوب‌های اخلاقی قوی‌تر و تست‌های جامع‌تری وجود دارد تا از بروز رفتارهای غیرمنتظره جلوگیری شود.