مدل Devstral 2 با ۷۲٪ در بنچمارک صنعتی امتیاز میگیرد و به رقبای اختصاصی نزدیک میشود.

در روز سهشنبه، استارتاپ فرانسوی هوش مصنوعی میسترال AI مدل Devstral 2 را منتشر کرد؛ یک مدل کدنویسی وزنهای باز با ۱۲۳ میلیارد پارامتر که برای کار بهعنوان بخشی از یک عامل خودکار مهندسی نرمافزار طراحی شده است. این مدل با کسب امتیاز ۷۲٫۲٪ در بنچمارک SWE‑bench Verified، که سعی دارد توانایی سیستمهای هوش مصنوعی در حل مشکلات واقعی GitHub را ارزیابی کند، بهعنوان یکی از مدلهای وزنهای باز برتر شناخته میشود.
جالبتر از همه، میسترال نه تنها یک مدل هوش مصنوعی عرضه کرد، بلکه برنامه توسعهای جدیدی به نام Mistral Vibe منتشر کرد. این ابزار یک رابط خط فرمان (CLI) است که شبیه به Claude Code، OpenAI Codex و Gemini CLI میباشد و به توسعهدهندگان اجازه میدهد بهصورت مستقیم در ترمینال خود با مدلهای Devstral تعامل داشته باشند. این ابزار میتواند ساختارهای فایل و وضعیت Git را اسکن کند تا زمینه (کانتکست) را در تمام پروژه حفظ کند، تغییرات را در چندین فایل اعمال کند و دستورات شل را بهصورت خودکار اجرا نماید. میسترال این CLI را تحت مجوز Apache 2.0 منتشر کرد.
همواره مناسب است که نتایج بنچمارکهای هوش مصنوعی را با احتیاط در نظر گرفت، اما از کارکنان شرکتهای بزرگ هوش مصنوعی شنیدهایم که به عملکرد مدلها در بنچمارک SWE‑bench Verified بهدقت زیادی توجه میکنند؛ این بنچمارک ۵۰۰ مسئله واقعی مهندسی نرمافزار را که از مشکلات GitHub در مخازن محبوب پایتون استخراج شدهاند، به مدلهای هوش مصنوعی ارائه میدهد. هوش مصنوعی باید توصیف مسأله را بخواند، به کدبیس دسترسی پیدا کند و یک پچ کارآمد تولید کند که تستهای واحد را پاس کند. در حالی که برخی پژوهشگران هوش مصنوعی اشاره کردهاند که حدود ۹۰٪ از وظایف این بنچمارک شامل رفع اشکال نسبتاً سادهای است که مهندسان باتجربه میتوانند آن را در کمتر از یک ساعت تکمیل کنند، این یکی از معدود روشهای استاندارد برای مقایسه مدلهای کدنویسی است.
در کنار مدل بزرگتر کدنویسی هوش مصنوعی، میسترال همچنین Devstral Small 2 را منتشر کرد؛ نسخهای با ۲۴ میلیارد پارامتر که در همان بنچمارک ۶۸٪ امتیاز میگیرد و میتواند بهصورت محلی روی سختافزارهای مصرفکننده مانند لپتاپ بدون نیاز به اتصال اینترنت اجرا شود. هر دو مدل از پنجره زمینه ۲۵۶٬۰۰۰ توکنی پشتیبانی میکنند که به آنها امکان پردازش کدبیسهای متوسط‑حجم را میدهد (اگرچه اینکه حجم را بزرگ یا کوچک در نظر بگیرید، بسته به پیچیدگی کلی پروژه متغیر است). شرکت Devstral 2 را تحت مجوز MIT اصلاحشده و Devstral Small 2 را تحت مجوز Apache 2.0 با آزادیپذیری بیشتر منتشر کرد.
در حال حاضر Devstral 2 بهصورت رایگان از طریق API میسترال قابل استفاده است. پس از پایان دوره رایگان، قیمتگذاری بهصورت ۰٫۴۰ دلار برای هر یک میلیون توکن ورودی و ۲٫۰۰ دلار برای هر یک میلیون توکن خروجی خواهد بود. Devstral Small 2 هزینهٔ ۰٫۱۰ دلار برای هر یک میلیون توکن ورودی و ۰٫۳۰ دلار برای هر یک میلیون توکن خروجی دارد. میسترال میگوید این مدل «۷ برابر بهصرفهتر از Claude Sonnet در کارهای دنیای واقعی» است. Sonnet 4.5 شرکت Anthropic از طریق API با هزینهٔ ۳ دلار برای هر یک میلیون توکن ورودی و ۱۵ دلار برای هر یک میلیون توکن خروجی قیمتگذاری میشود؛ هزینهها با توجه به تعداد کل توکنهای استفادهشده متغیر میباشد.
ارتباط Vibe‑Coding
نام «Mistral Vibe» به «vibe coding» ارجاع دارد؛ اصطلاحی که پژوهشگر هوش مصنوعی آندره کارپاتی در فوریهٔ ۲۰۲۵ برای توصیف سبکی از برنامهنویسی ابداع کرد که در آن توسعهدهندگان خواستههای خود را به زبان طبیعی بیان میکنند و کد تولیدشده توسط هوش مصنوعی را بدون بازبینی دقیق میپذیرند. همانطور که کارپاتی میگوید، میتوانید «بهتمامی به ویبها تسلیم شوید، رشد نمایی را در آغوش بگیرید و فراموش کنید که کد حتی وجود دارد». فرهنگلغتنامهٔ کالینز این واژه را «کلمهٔ سال ۲۰۲۵» نامید.
رویکرد کدنویسی ویب هم شور و هیجان و هم نگرانی را بهوجود آورده است. در مصاحبهای با Ars Technica در ماه مارس، توسعهدهنده سیمون ویلوین گفت: «من واقعاً از کدنویسی ویب لذت میبرم. این یک روش سرگرمکننده برای آزمایش یک ایده و اثبات کارآیی آن است». اما او هشدار داد: «کدنویسی ویب بهسوی یک کدبیس تولیدی بهوضوح خطرناک است. بیشتر کاری که ما بهعنوان مهندسان نرمافزار انجام میدهیم شامل توسعهٔ سیستمهای موجود است، جایی که کیفیت و قابلیت درک کد پایهای بسیار مهم است».
میسترال شرط میبندد که Devstral 2 قادر باشد تمامیت پروژهها را حفظ کند، خطاها را شناسایی کرده و با تصحیح مجدد سعی کند؛ و این توانمندیهای ادعایی مدل آن را برای کارهای جدیتر نسبت به نمونههای ساده و ابزارهای داخلی مناسب سازد. شرکت میگوید این مدل میتواند وابستگیهای فریمورک را پیگیری کرده و وظایفی همچون رفع اشکال و بهروزرسانی سیستمهای قدیمی را در مقیاس مخازن انجام دهد. هنوز تجربهای از آن نداریم، اما بهزودی ممکن است تست مقایسهای Ars Technica بین چندین ابزار کدنویسی هوش مصنوعی را مشاهده کنید.
دیدگاهتان را بنویسید