یک مدل جدید کدنویسی هوش مصنوعی وزن‌های باز، به گزینه‌های اختصاصی نزدیک می‌شود

مدل Devstral 2 با ۷۲٪ در بنچمارک صنعتی امتیاز می‌گیرد و به رقبای اختصاصی نزدیک می‌شود.

لوگوی میسترال بر روی پس‌زمینه‌ای قرمز و زرد.
لوگوی میسترال. اعتبار: میسترال / بنج ادواردز

در روز سه‌شنبه، استارتاپ فرانسوی هوش مصنوعی میسترال AI مدل Devstral 2 را منتشر کرد؛ یک مدل کدنویسی وزن‌های باز با ۱۲۳ میلیارد پارامتر که برای کار به‌عنوان بخشی از یک عامل خودکار مهندسی نرم‌افزار طراحی شده است. این مدل با کسب امتیاز ۷۲٫۲٪ در بنچمارک SWE‑bench Verified، که سعی دارد توانایی سیستم‌های هوش مصنوعی در حل مشکلات واقعی GitHub را ارزیابی کند، به‌عنوان یکی از مدل‌های وزن‌های باز برتر شناخته می‌شود.

جالب‌تر از همه، میسترال نه تنها یک مدل هوش مصنوعی عرضه کرد، بلکه برنامه توسعه‌ای جدیدی به نام Mistral Vibe منتشر کرد. این ابزار یک رابط خط فرمان (CLI) است که شبیه به Claude Code، OpenAI Codex و Gemini CLI می‌باشد و به توسعه‌دهندگان اجازه می‌دهد به‌صورت مستقیم در ترمینال خود با مدل‌های Devstral تعامل داشته باشند. این ابزار می‌تواند ساختارهای فایل و وضعیت Git را اسکن کند تا زمینه (کانتکست) را در تمام پروژه حفظ کند، تغییرات را در چندین فایل اعمال کند و دستورات شل را به‌صورت خودکار اجرا نماید. میسترال این CLI را تحت مجوز Apache 2.0 منتشر کرد.

همواره مناسب است که نتایج بنچمارک‌های هوش مصنوعی را با احتیاط در نظر گرفت، اما از کارکنان شرکت‌های بزرگ هوش مصنوعی شنیده‌ایم که به عملکرد مدل‌ها در بنچمارک SWE‑bench Verified به‌دقت زیادی توجه می‌کنند؛ این بنچمارک ۵۰۰ مسئله واقعی مهندسی نرم‌افزار را که از مشکلات GitHub در مخازن محبوب پایتون استخراج شده‌اند، به مدل‌های هوش مصنوعی ارائه می‌دهد. هوش مصنوعی باید توصیف مسأله را بخواند، به کدبیس دسترسی پیدا کند و یک پچ کارآمد تولید کند که تست‌های واحد را پاس کند. در حالی که برخی پژوهشگران هوش مصنوعی اشاره کرده‌اند که حدود ۹۰٪ از وظایف این بنچمارک شامل رفع اشکال نسبتاً ساده‌ای است که مهندسان باتجربه می‌توانند آن را در کمتر از یک ساعت تکمیل کنند، این یکی از معدود روش‌های استاندارد برای مقایسه مدل‌های کدنویسی است.

در کنار مدل بزرگ‌تر کدنویسی هوش مصنوعی، میسترال همچنین Devstral Small 2 را منتشر کرد؛ نسخه‌ای با ۲۴ میلیارد پارامتر که در همان بنچمارک ۶۸٪ امتیاز می‌گیرد و می‌تواند به‌صورت محلی روی سخت‌افزارهای مصرف‌کننده مانند لپ‌تاپ بدون نیاز به اتصال اینترنت اجرا شود. هر دو مدل از پنجره زمینه ۲۵۶٬۰۰۰ توکنی پشتیبانی می‌کنند که به آن‌ها امکان پردازش کدبیس‌های متوسط‑حجم را می‌دهد (اگرچه اینکه حجم را بزرگ یا کوچک در نظر بگیرید، بسته به پیچیدگی کلی پروژه متغیر است). شرکت Devstral 2 را تحت مجوز MIT اصلاح‌شده و Devstral Small 2 را تحت مجوز Apache 2.0 با آزادی‌پذیری بیشتر منتشر کرد.

در حال حاضر Devstral 2 به‌صورت رایگان از طریق API میسترال قابل استفاده است. پس از پایان دوره رایگان، قیمت‌گذاری به‌صورت ۰٫۴۰ دلار برای هر یک میلیون توکن ورودی و ۲٫۰۰ دلار برای هر یک میلیون توکن خروجی خواهد بود. Devstral Small 2 هزینهٔ ۰٫۱۰ دلار برای هر یک میلیون توکن ورودی و ۰٫۳۰ دلار برای هر یک میلیون توکن خروجی دارد. میسترال می‌گوید این مدل «۷ برابر به‌صرفه‌تر از Claude Sonnet در کارهای دنیای واقعی» است. Sonnet 4.5 شرکت Anthropic از طریق API با هزینهٔ ۳ دلار برای هر یک میلیون توکن ورودی و ۱۵ دلار برای هر یک میلیون توکن خروجی قیمت‌گذاری می‌شود؛ هزینه‌ها با توجه به تعداد کل توکن‌های استفاده‌شده متغیر می‌باشد.

ارتباط Vibe‑Coding

نام «Mistral Vibe» به «vibe coding» ارجاع دارد؛ اصطلاحی که پژوهشگر هوش مصنوعی آندره کارپاتی در فوریهٔ ۲۰۲۵ برای توصیف سبکی از برنامه‌نویسی ابداع کرد که در آن توسعه‌دهندگان خواسته‌های خود را به زبان طبیعی بیان می‌کنند و کد تولیدشده توسط هوش مصنوعی را بدون بازبینی دقیق می‌پذیرند. همان‌طور که کارپاتی می‌گوید، می‌توانید «به‌تمامی به ویب‌ها تسلیم شوید، رشد نمایی را در آغوش بگیرید و فراموش کنید که کد حتی وجود دارد». فرهنگ‌لغت‌نامهٔ کالینز این واژه را «کلمهٔ سال ۲۰۲۵» نامید.

رویکرد کدنویسی ویب هم شور و هیجان و هم نگرانی را به‌وجود آورده است. در مصاحبه‌ای با Ars Technica در ماه مارس، توسعه‌دهنده سیمون ویلوین گفت: «من واقعاً از کدنویسی ویب لذت می‌برم. این یک روش سرگرم‌کننده برای آزمایش یک ایده و اثبات کارآیی آن است». اما او هشدار داد: «کدنویسی ویب به‌سوی یک کدبیس تولیدی به‌وضوح خطرناک است. بیشتر کاری که ما به‌عنوان مهندسان نرم‌افزار انجام می‌دهیم شامل توسعهٔ سیستم‌های موجود است، جایی که کیفیت و قابلیت درک کد پایه‌ای بسیار مهم است».

میسترال شرط می‌بندد که Devstral 2 قادر باشد تمامیت پروژه‌ها را حفظ کند، خطاها را شناسایی کرده و با تصحیح مجدد سعی کند؛ و این توانمندی‌های ادعایی مدل آن را برای کارهای جدی‌تر نسبت به نمونه‌های ساده و ابزارهای داخلی مناسب سازد. شرکت می‌گوید این مدل می‌تواند وابستگی‌های فریم‌ورک را پیگیری کرده و وظایفی همچون رفع اشکال و به‌روزرسانی سیستم‌های قدیمی را در مقیاس مخازن انجام دهد. هنوز تجربه‌ای از آن نداریم، اما به‌زودی ممکن است تست مقایسه‌ای Ars Technica بین چندین ابزار کدنویسی هوش مصنوعی را مشاهده کنید.

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *