در دنیای رقابتی هوش مصنوعی، جایی که هر روز شاهد نوآوریهای تازهای هستیم، شرکت آنتروپیک (Anthropic) با معرفی Claude Sonnet 4.5، گام بزرگی به سوی آیندهای برداشته که در آن دستیاران هوشمند نه تنها به سؤالات پاسخ میدهند، بلکه به طور مستقل و طولانیمدت وظایف پیچیدهای مانند کدنویسی را مدیریت میکنند. این مدل جدید، که در ۲۶ سپتامبر ۲۰۲۵ رونمایی شد، به عنوان “بهترین مدل جهان برای ایجنتهای واقعی، کدنویسی و استفاده از کامپیوتر” توصیف شده و در آزمایشهای اولیه، توانسته یک اپلیکیشن چت پیچیده شبیه به Slack را در ۳۰ ساعت مداوم و بدون نظارت انسانی بسازد. این دستاورد نه تنها رکوردهای قبلی را شکست، بلکه نشاندهنده گذار از مدلهای زبانی ساده به ایجنتهای عاملمحور (Agentic AI) است که میتوانند مانند یک “رئیس دفتر” عمل کنند – از برنامهریزی جلسات گرفته تا خلاصهسازی گزارشها و حتی مدیریت تقویمهای گروهی. در ادامه، به بررسی دقیق این مدل، عملکرد آن در بنچمارکها، ابزارهای جدید آنتروپیک، و جایگاه آن در رقابت با OpenAI میپردازیم.
Claude Sonnet 4.5، که به عنوان نسخه ارتقایافته Claude 3.5 Sonnet عمل میکند، بر پایه معماری پیشرفتهای ساخته شده که تمرکز اصلیاش بر عملکرد مستقل و پایدار است. در آزمایشهای آنتروپیک، این مدل توانست ۱۱ هزار خط کد تولید کند و یک اپلیکیشن چت کامل را از صفر بسازد – کاری که مدلهای قبلی مانند Claude 3.5 Sonnet تنها برای ۷ ساعت دوام میآوردند. این افزایش دوچندان در زمان عملیات مداوم، نه تنها به دلیل بهبودهای الگوریتمی، بلکه به خاطر قابلیتهای عاملمحور آن است؛ یعنی Sonnet 4.5 میتواند بدون نیاز به دخالت مداوم انسانی، مراحل مختلف یک پروژه را برنامهریزی، اجرا، و دیباگ کند. مدیران محصول آنتروپیک، از جمله دارسیو آنتونی، این مدل را “همکاری واقعی” توصیف کردهاند و تأکید دارند که Sonnet 4.5 میتواند وظایفی مانند بررسی تقویم چندین نفر برای برنامهریزی جلسه، خلاصهسازی گزارشهای جلسات برای مدیران، یا حتی مدیریت کارهای تکراری در امنیت سایبری و خدمات مالی را به طور خودکار انجام دهد. این قابلیتها، که در بنچمارکهای تخصصی مانند SWE-Bench (حل مسائل واقعی نرمافزاری) امتیاز ۷۰.۸% را به ارمغان آورده، Sonnet 4.5 را به رقیبی جدی برای مدلهایی مانند GPT-5 از OpenAI و Gemini 2.5 از گوگل تبدیل کرده است.

علاوه بر عملکرد کدنویسی، Sonnet 4.5 در حوزههای تحقیقاتی و تخصصی نیز پیشرفتهای چشمگیری نشان داده است. برای مثال، در تستهای امنیت سایبری، این مدل توانسته سناریوهای پیچیدهای مانند شبیهسازی حملات و پیشنهاد دفاعهای لایهای را در کمتر از ۱۰ دقیقه مدیریت کند – چیزی که مدلهای قبلی به ساعتها زمان نیاز داشتند. در حوزه خدمات مالی، Sonnet 4.5 میتواند گزارشهای تحلیلی را بر اساس دادههای واقعی بازار تولید کند و حتی ریسکهای احتمالی را پیشبینی نماید. مشتریان اولیه مانند Canva، که از این مدل برای تولید محتوای خودکار استفاده کرده، گزارش دادهاند که Sonnet 4.5 در انجام کارهای طولانی و پیچیده، “فوقالعاده” عمل میکند و نیاز به نظارت انسانی را تا ۸۰% کاهش داده است. این پیشرفتها، که بر پایه آموزش مدل با دادههای عظیم و الگوریتمهای عاملمحور است، نشان میدهد آنتروپیک نه تنها بر ایمنی (مانند Constitutional AI) تمرکز دارد، بلکه بر کارایی عملی در دنیای واقعی نیز سرمایهگذاری کرده است. در مقایسه با Claude 3.5 Sonnet، نسخه 4.5 تا ۴۰% در وظایف عاملمحور بهبود یافته و نرخ خطا را به کمتر از ۵% رسانده، که آن را به گزینهای ایدئال برای توسعهدهندگان و شرکتها تبدیل میکند.
آنتروپیک همزمان با معرفی Sonnet 4.5، مجموعه ابزارهای جدیدی به نام Claude Agent SDK را برای توسعهدهندگان عرضه کرده است، که دسترسی به بلوکهای ساختاری پیشرفتهای مانند ماشینهای مجازی، مدیریت حافظه، و پشتیبانی از چند ایجنت را فراهم میکند. این SDK، که مستقیماً از فناوریهای داخلی آنتروپیک الهام گرفته شده، به توسعهدهندگان اجازه میدهد ایجنتهای هوشمند سفارشی بسازند – برای مثال، یک ایجنت که همزمان کد بنویسد، تست کند، و دیباگ نماید. این ابزارها، که با API Claude 4.5 ادغام میشوند، هزینهای مقرونبهصرفه (از ۰.۲۵ دلار به ازای هر میلیون توکن) دارند و برای استارتآپها و شرکتهای کوچک ایدئال هستند. در بنچمارکهای مقایسهای، Sonnet 4.5 با امتیاز ۹۲% در HumanEval (کدنویسی) و ۸۷% در GPQA (سؤالات دکتری)، از GPT-5 (۸۹% و ۸۵%) و Gemini 2.5 Pro (۹۰% و ۸۴%) پیشی گرفته است. این برتری، که به دلیل تمرکز Sonnet 4.5 بر استدلال عاملمحور است، آنتروپیک را به رقیبی جدی در بازار AI تبدیل کرده، بهویژه در حالی که OpenAI اخیراً با قابلیت Pulse برای ChatGPT وارد این عرصه شده است.

رونمایی از Claude Sonnet 4.5 تنها چند روز پس از اعلام OpenAI درباره Pulse رخ داد و نشان میدهد رقابت اصلی حالا بر سر ایجنتهای AI است – دستیارانی که نه تنها پاسخ میدهند، بلکه عمل میکنند. آنتروپیک با تأکید بر کدنویسی و استفاده از کامپیوتر، قصد دارد از رقبا سبقت بگیرد و Sonnet 4.5 را به ابزاری برای “همکاری واقعی” تبدیل کند. این مدل، که در حال حاضر برای کاربران Pro (۲۰ دلار در ماه) در دسترس است، بهزودی با SDK رایگان برای توسعهدهندگان عرضه میشود و میتواند بازار ابزارهای کدنویسی مانند GitHub Copilot را تحت تأثیر قرار دهد. در نهایت، Sonnet 4.5 نه تنها یک مدل زبانی است، بلکه نمادی از گذار به عصری است که هوش مصنوعی مانند یک همکار عمل میکند – با ۳۰ ساعت کدنویسی مداوم، این مدل نشان میدهد که آینده AI عاملمحور و مستقل است.











ارسال پاسخ