دوشنبه، شرکت Anthropic Opus 4.5، آخرین نسخه از مدل پرچمدار خود را اعلام کرد. این آخرین مدلی است که از سری مدلهای 4.5 شرکت منتشر میشود؛ پس از عرضه Sonnet 4.5 در ماه سپتامبر و Haiku 4.5 در ماه اکتبر.
همانطور که انتظار میرفت، نسخه جدید Opus عملکرد پیشرفتهای در مجموعهای از معیارهای ارزیابی دارد؛ از جمله معیارهای کدنویسی (SWE-Bench و Terminal-bench)، استفاده از ابزارها (tau2-bench و MCP Atlas) و حل مسایل عمومی (ARC-AGI 2، GPQA Diamond).
قابلتوجه است که Opus 4.5 اولین مدلی است که در بنچمارک معتبر SWE-Bench (تأیید شده) بالای 80٪ نمره کسب کرده است.
شرکت Anthropic همچنین بر تواناییهای استفاده از کامپیوتر و کار با صفحاتگسترده توسط Opus تأکید کرد و برای نشان دادن عملکرد مدل در این زمینهها، مجموعهای از محصولات همزمان را راهاندازی کرد. بههمراه Opus 4.5، Anthropic محصول «Claude برای کروم» و «Claude برای اکسل»—که پیش از این در مرحلهٔ آزمایشی بودند—را بهصورت گستردهتر در دسترس قرار میدهد. افزونهٔ کروم برای تمام کاربران Max در دسترس خواهد شد؛ در حالی که مدل مخصوص اکسل برای کاربران Max، تیم و سازمانهای بزرگ (Enterprise) فراهم خواهد شد.
Opus 4.5 همچنین شامل بهبودهای حافظه برای عملیات با زمینه طولانی است؛ که این امر نیازمند تغییرات اساسی در نحوه مدیریت حافظهٔ مدل بوده است.
Dianne Na Penn، سرپرست مدیریت محصول پژوهشی در Anthropic، به TechCrunch گفت: «بهبودهایی در کیفیت زمینه طولانی عمومی در حین آموزش Opus 4.5 اعمال کردهایم، اما پنجرههای زمینه بهتنهایی کافی نخواهند بود. دانستن جزئیات درست برای بهخاطره سپردن، بهمقدار داشتن پنجرهٔ زمینهٔ طولانی، اهمیت بسیار دارد.»
این تغییرات همچنین امکان ویژگی «چت بیپایان» را که کاربران پرداختی Claude منتظر آن بودند، فراهم کرد. این قابلیت باعث میشود که گفتوگوها هنگام پر شدن پنجرهٔ زمینه، بدون وقفه ادامه یابند؛ در عوض، مدل حافظهٔ زمینه را فشردهسازی میکند بدون اینکه کاربر را از این موضوع مطلع کند.
بسیاری از این بهروزرسانیها با نگرشی به موارد استفادهٔ عاملمحور انجام شدهاند؛ بهویژه سناریوهایی که در آن Opus بهعنوان عامل اصلی، گروهی از زیرعاملهای مبتنی بر Haiku را هدایت میکند. مدیریت این وظایف نیازمند کنترل قوی بر حافظهٔ کاری است؛ جایی که بهبودهای حافظهای که پن توصیف کرده، بهخوبی ارزش خود را نشان میدهند.
پن میگوید: «در این مرحله، اصولی همچون حافظه واقعاً اهمیت مییابند، زیرا Claude باید قادر باشد تا کدهای بزرگ و مستندات گسترده را مرور کند و همچنین بدانند چه زمانی باید بهعقبگرد رفته و موضوعی را دوباره بررسی کند.»
Opus 4.5 با رقابت شدیدی از سوی مدلهای پیشرو که بهتازگی عرضه شدهاند، مواجه خواهد شد؛ بهویژه GPT 5.1 شرکت OpenAI (منتشر شده در 12 نوامبر) و Gemini 3 شرکت گوگل (منتشر شده در 18 نوامبر).
موضوعات: هوش مصنوعی، Anthropic، Claude، پنجرههای زمینه، اکسل، TC
دیدگاهتان را بنویسید