عملکرد برتر جمینای در بنچمارکهای کدنویسی؛ جلوتر از Grok، Claude و DeepSeek
گوگل بهتازگی نسخه جدیدی از مدل زبان بزرگ خود یعنی Gemini 2.5 Pro را با عنوان Preview 06-05 Thinking بهصورت پیشنمایش منتشر کرده است. این مدل که بر پایه نسخه قبلی Gemini 2.5 Pro توسعه یافته، اکنون با بهبودهای چشمگیر در زمینه کدنویسی، استدلال و خلاقیت همراه است و بهگفته گوگل، از بسیاری از رقبا پیشی گرفته است.
دستاوردهای Gemini 2.5 Pro در بنچمارکها
براساس اطلاعات رسمی منتشرشده در وبلاگ گوگل، این نسخه جدید توانسته در دو بنچمارک مهم حوزه کدنویسی، یعنی LMArena و WebDevArena، بهترتیب 24 و 35 امتیاز بهبود نسبت به نسخه قبلی داشته باشد. در حال حاضر، جمینای 2.5 پرو جدید صدرنشین رتبهبندی این پلتفرمها است.
مقایسه با رقبا:
- پیشی گرفتن از o4-mini از OpenAI
- عملکرد بهتر از Claude 4 Opus متعلق به Anthropic
- عبور از Grok 3 Beta متعلق به xAI
- برتری نسبت به DeepSeek R1
جمینای جدید؛ خلاقتر، دقیقتر، ساختاریافتهتر
مدل جدید جمینای نهتنها در بنچمارکها بهتر عمل کرده، بلکه بهگفته گوگل، پاسخهای دقیقتر، ساختارمندتر و با درک عمیقتر از دستور کاربر ارائه میدهد. گوگل اعلام کرده که در طراحی این نسخه به بازخوردهای کاربران درباره نسخه قبلی توجه ویژهای داشته است.
«دمیس هسابیس»، مدیرعامل DeepMind نیز در رویداد Google I/O اشاره کرده بود که نسخه بهبودیافته Gemini 2.5 Pro، بهترین مدل کدنویسی گوگل تاکنون بوده است. اکنون نسخه Preview 06-05 حتی از آن نسخه نیز عملکرد بهتری دارد.
دسترسی و قیمتگذاری جمینای 2.5 پرو
نسخه جدید جمینای 2.5 پرو از طریق Google AI Studio و Vertex AI در دسترس توسعهدهندگان و کاربران حرفهای قرار گرفته است. گوگل وعده داده نسخه پایدار آن را در هفتههای آینده عرضه عمومی خواهد کرد.
قیمت:
- 1.25 دلار بهازای هر میلیون توکن ورودی (بدون کش)
- 10 دلار بهازای میلیون توکن خروجی
این قیمتگذاری رقابتی، نشاندهنده تلاش گوگل برای حفظ موقعیت در بازار مدلهای زبانی مولد و مقابله با پیشنهادات OpenAI و سایر رقبا است.
نتیجهگیری: آیا جمینای 2.5 پرو میتواند جایگاه اول کدنویسی را تصاحب کند؟
با توجه به بهبودهای گسترده در قدرت استدلال، ساختاردهی پاسخها و عملکرد در بنچمارکهای تخصصی، بهنظر میرسد گوگل با نسخه Preview 06-05 جمینای، یکی از جدیترین مدلهای کدنویسی حال حاضر را عرضه کرده است. اگر نسخه پایدار نیز به همین اندازه موفق باشد، شاید برای اولین بار شاهد چالشی جدی برای GitHub Copilot و سایر ابزارهای توسعه مبتنی بر هوش مصنوعی باشیم.
ارسال پاسخ