مدل Claude Sonnet 4.5 آنتروپیک: ایجنتی که ۳۰ ساعت کد می‌نویسد و مرزهای AI را جابه‌جا می‌کند

در دنیای رقابتی هوش مصنوعی، جایی که هر روز شاهد نوآوری‌های تازه‌ای هستیم، شرکت آنتروپیک (Anthropic) با معرفی Claude Sonnet 4.5، گام بزرگی به سوی آینده‌ای برداشته که در آن دستیاران هوشمند نه تنها به سؤالات پاسخ می‌دهند، بلکه به طور مستقل و طولانی‌مدت وظایف پیچیده‌ای مانند کدنویسی را مدیریت می‌کنند. این مدل جدید، که در ۲۶ سپتامبر ۲۰۲۵ رونمایی شد، به عنوان “بهترین مدل جهان برای ایجنت‌های واقعی، کدنویسی و استفاده از کامپیوتر” توصیف شده و در آزمایش‌های اولیه، توانسته یک اپلیکیشن چت پیچیده شبیه به Slack را در ۳۰ ساعت مداوم و بدون نظارت انسانی بسازد. این دستاورد نه تنها رکوردهای قبلی را شکست، بلکه نشان‌دهنده گذار از مدل‌های زبانی ساده به ایجنت‌های عامل‌محور (Agentic AI) است که می‌توانند مانند یک “رئیس دفتر” عمل کنند – از برنامه‌ریزی جلسات گرفته تا خلاصه‌سازی گزارش‌ها و حتی مدیریت تقویم‌های گروهی. در ادامه، به بررسی دقیق این مدل، عملکرد آن در بنچمارک‌ها، ابزارهای جدید آنتروپیک، و جایگاه آن در رقابت با OpenAI می‌پردازیم.

Claude Sonnet 4.5، که به عنوان نسخه ارتقایافته Claude 3.5 Sonnet عمل می‌کند، بر پایه معماری پیشرفته‌ای ساخته شده که تمرکز اصلی‌اش بر عملکرد مستقل و پایدار است. در آزمایش‌های آنتروپیک، این مدل توانست ۱۱ هزار خط کد تولید کند و یک اپلیکیشن چت کامل را از صفر بسازد – کاری که مدل‌های قبلی مانند Claude 3.5 Sonnet تنها برای ۷ ساعت دوام می‌آوردند. این افزایش دوچندان در زمان عملیات مداوم، نه تنها به دلیل بهبودهای الگوریتمی، بلکه به خاطر قابلیت‌های عامل‌محور آن است؛ یعنی Sonnet 4.5 می‌تواند بدون نیاز به دخالت مداوم انسانی، مراحل مختلف یک پروژه را برنامه‌ریزی، اجرا، و دیباگ کند. مدیران محصول آنتروپیک، از جمله دارسیو آنتونی، این مدل را “همکاری واقعی” توصیف کرده‌اند و تأکید دارند که Sonnet 4.5 می‌تواند وظایفی مانند بررسی تقویم چندین نفر برای برنامه‌ریزی جلسه، خلاصه‌سازی گزارش‌های جلسات برای مدیران، یا حتی مدیریت کارهای تکراری در امنیت سایبری و خدمات مالی را به طور خودکار انجام دهد. این قابلیت‌ها، که در بنچمارک‌های تخصصی مانند SWE-Bench (حل مسائل واقعی نرم‌افزاری) امتیاز ۷۰.۸% را به ارمغان آورده، Sonnet 4.5 را به رقیبی جدی برای مدل‌هایی مانند GPT-5 از OpenAI و Gemini 2.5 از گوگل تبدیل کرده است.

علاوه بر عملکرد کدنویسی، Sonnet 4.5 در حوزه‌های تحقیقاتی و تخصصی نیز پیشرفت‌های چشمگیری نشان داده است. برای مثال، در تست‌های امنیت سایبری، این مدل توانسته سناریوهای پیچیده‌ای مانند شبیه‌سازی حملات و پیشنهاد دفاع‌های لایه‌ای را در کمتر از ۱۰ دقیقه مدیریت کند – چیزی که مدل‌های قبلی به ساعت‌ها زمان نیاز داشتند. در حوزه خدمات مالی، Sonnet 4.5 می‌تواند گزارش‌های تحلیلی را بر اساس داده‌های واقعی بازار تولید کند و حتی ریسک‌های احتمالی را پیش‌بینی نماید. مشتریان اولیه مانند Canva، که از این مدل برای تولید محتوای خودکار استفاده کرده، گزارش داده‌اند که Sonnet 4.5 در انجام کارهای طولانی و پیچیده، “فوق‌العاده” عمل می‌کند و نیاز به نظارت انسانی را تا ۸۰% کاهش داده است. این پیشرفت‌ها، که بر پایه آموزش مدل با داده‌های عظیم و الگوریتم‌های عامل‌محور است، نشان می‌دهد آنتروپیک نه تنها بر ایمنی (مانند Constitutional AI) تمرکز دارد، بلکه بر کارایی عملی در دنیای واقعی نیز سرمایه‌گذاری کرده است. در مقایسه با Claude 3.5 Sonnet، نسخه 4.5 تا ۴۰% در وظایف عامل‌محور بهبود یافته و نرخ خطا را به کمتر از ۵% رسانده، که آن را به گزینه‌ای ایدئال برای توسعه‌دهندگان و شرکت‌ها تبدیل می‌کند.

آنتروپیک همزمان با معرفی Sonnet 4.5، مجموعه ابزارهای جدیدی به نام Claude Agent SDK را برای توسعه‌دهندگان عرضه کرده است، که دسترسی به بلوک‌های ساختاری پیشرفته‌ای مانند ماشین‌های مجازی، مدیریت حافظه، و پشتیبانی از چند ایجنت را فراهم می‌کند. این SDK، که مستقیماً از فناوری‌های داخلی آنتروپیک الهام گرفته شده، به توسعه‌دهندگان اجازه می‌دهد ایجنت‌های هوشمند سفارشی بسازند – برای مثال، یک ایجنت که همزمان کد بنویسد، تست کند، و دیباگ نماید. این ابزارها، که با API Claude 4.5 ادغام می‌شوند، هزینه‌ای مقرون‌به‌صرفه (از ۰.۲۵ دلار به ازای هر میلیون توکن) دارند و برای استارت‌آپ‌ها و شرکت‌های کوچک ایدئال هستند. در بنچمارک‌های مقایسه‌ای، Sonnet 4.5 با امتیاز ۹۲% در HumanEval (کدنویسی) و ۸۷% در GPQA (سؤالات دکتری)، از GPT-5 (۸۹% و ۸۵%) و Gemini 2.5 Pro (۹۰% و ۸۴%) پیشی گرفته است. این برتری، که به دلیل تمرکز Sonnet 4.5 بر استدلال عامل‌محور است، آنتروپیک را به رقیبی جدی در بازار AI تبدیل کرده، به‌ویژه در حالی که OpenAI اخیراً با قابلیت Pulse برای ChatGPT وارد این عرصه شده است.

رونمایی از Claude Sonnet 4.5 تنها چند روز پس از اعلام OpenAI درباره Pulse رخ داد و نشان می‌دهد رقابت اصلی حالا بر سر ایجنت‌های AI است – دستیارانی که نه تنها پاسخ می‌دهند، بلکه عمل می‌کنند. آنتروپیک با تأکید بر کدنویسی و استفاده از کامپیوتر، قصد دارد از رقبا سبقت بگیرد و Sonnet 4.5 را به ابزاری برای “همکاری واقعی” تبدیل کند. این مدل، که در حال حاضر برای کاربران Pro (۲۰ دلار در ماه) در دسترس است، به‌زودی با SDK رایگان برای توسعه‌دهندگان عرضه می‌شود و می‌تواند بازار ابزارهای کدنویسی مانند GitHub Copilot را تحت تأثیر قرار دهد. در نهایت، Sonnet 4.5 نه تنها یک مدل زبانی است، بلکه نمادی از گذار به عصری است که هوش مصنوعی مانند یک همکار عمل می‌کند – با ۳۰ ساعت کدنویسی مداوم، این مدل نشان می‌دهد که آینده AI عامل‌محور و مستقل است.

Telegram

عضو کانال تلگرام ما شوید!

به جدیدترین مقالات، اخبار تکنولوژی و تحلیل‌ها در تلگرام دسترسی داشته باشید.

ورود به کانال