ما معماری Titans و چارچوب MIRAS را معرفی میکنیم؛ اینها به مدلهای هوش مصنوعی اجازه میدهند سرعت کار را بهطور چشمگیری افزایش داده و زمینههای وسیع را با بهروزرسانی حافظهٔ اصلی در حین اجرای فعال، مدیریت کنند.
معماری ترنسفرمر با معرفی مکانیزم توجه، که به مدلها اجازه میدهد به ورودیهای قبلی نگاه کنند و دادههای مرتبط را اولویتبندی کنند، انقلابی در مدلسازی دنبالهها به وجود آورد. اما هزینهٔ محاسباتی با افزایش طول دنباله بهشدت متقارن میشود و این محدودیتی برای مقیاسپذیری مدلهای مبتنی بر ترنسفرمر در زمینههای بسیار طولانی ایجاد میکند؛ مانند درک کامل سند یا تجزیه و تحلیل ژنومیک.
جامعهٔ تحقیقاتی راهحلهای مختلفی را بررسی کرد، از جمله شبکههای عصبی بازگشتی خطی کارآمد (RNN) و مدلهای فضای حالت (SSM) همچون Mamba‑2. این مدلها با فشردهسازی زمینه به یک اندازهٔ ثابت، امکان مقیاسپذیری خطی سریع را فراهم میکنند. اما این فشردهسازی ثابت قادر به درک کامل اطلاعات غنی در دنبالههای بسیار طولانی نیست.
در دو مقالهٔ جدید، Titans و MIRAS، ما معماری و طرح نظری را معرفی میکنیم که سرعت RNNها را با دقت ترنسفرمرها ترکیب میکند. Titans معماری خاص (ابزار) است و MIRAS چارچوب نظری (طرح کلی) برای عمومیسازی این رویکردها. این دو با هم مفهوم حافظهٔ یادگیری در زمان آزمون را پیش میبرند؛ یعنی توانایی مدل هوش مصنوعی برای حفظ حافظهٔ طولانیمدت با بهکارگیری معیارهای «شگفتی» قدرتمندتر (یعنی اطلاعات غیرمنتظره) در حین اجرای مدل، بدون نیاز به آموزش آفلاین اختصاصی.
چارچوب MIRAS، همانطور که Titans نشان میدهد، تغییر معناداری به سمت سازگاری زمان واقعی ایجاد میکند. بهجای فشردهسازی اطلاعات در یک وضعیت ثابت، این معماری بهصورت فعال پارامترهای خود را هنگام ورود دادهها یاد میگیرد و بهروزرسانی میکند. این مکانیزم حیاتی به مدل اجازه میدهد تا جزئیات جدید و خاص را بهسرعت در دانش اصلی خود بگنجاند.
Titans: یادگیری زمینهٔ جدید بهصورت آنی
یک سیستم یادگیری مؤثر نیاز به ماژولهای حافظهٔ متمایز اما در همپیوند دارد که مشابه جداسازی حافظهٔ کوتاهمدت و بلندمدت در مغز انسان هستند.
در حالی که مکانیزمهای توجه برای حافظهٔ کوتاهمدت دقیق بسیار مؤثرند، Titans ماژول حافظهٔ طولانیمدت عصبی نوینی را معرفی میکند؛ این ماژول، برخلاف حافظهٔ برداری یا ماتریسی ثابتاندازه در RNNهای سنتی، بهعنوان یک شبکهٔ عصبی عمیق (بهویژه یک پرسپترون چندلایه) عمل میکند. این حافظهٔ عصبی توان بیان بهمراتب بالاتری دارد و به مدل امکان میدهد حجم بالایی از اطلاعات را بدون از دست دادن زمینهٔ مهم خلاصه کند. مدل تنها یادداشتبرداری نمیکند؛ بلکه کل داستان را میفهمد و ترکیب میسازد.
بهطور اساسی، Titans تنها بهصورت منفعل دادهها را ذخیره نمیکند؛ بلکه بهصورت فعال «چگونگی» شناسایی و نگهداری روابط مهم و تمهای مفهومی که توکنها را در سراسر ورودی به هم میپیوندد، یاد میگیرد. یکی از جنبههای کلیدی این توانایی، آنچه ما «معیار شگفتی» مینامیم، است. در روانشناسی انسانی، میدانیم که رویدادهای روتین و پیشبینیشده را بهسرعت و بهراحتی فراموش میکنیم، اما مواردی که الگو را میشکنند—رویدادهای غیرمنتظره، شگفتانگیز یا بسیار عاطفی— را به یاد میمانیم.

نمای کلی معماری Titans (MAC). این معماری از حافظهٔ طولانیمدت برای فشردهسازی دادههای گذشته استفاده میکند و سپس خلاصهٔ آن را به زمینه اضافه کرده و به مکانیزم توجه میفرستد. توجه میتواند تصمیم بگیرد که آیا نیاز به متمرکز شدن بر خلاصهٔ گذشته دارد یا خیر.
در چارچوب Titans، «معیار شگفتی» به این معناست که مدل اختلاف بزرگ بین آنچه در حال حاضر به یاد دارد و آنچه ورودی جدید به آن میگوید را تشخیص میدهد.
- شگفتی کم: اگر واژهٔ جدید «گربه» باشد و وضعیت حافظهٔ مدل قبلاً واژهٔ حیوانی را انتظار داشته باشد، گرادیان (شگفتی) کم است. بنابراین میتواند بهطور ایمن از بهخاطرسپارگی واژهٔ «گربه» در حافظهٔ طولانیمدت ثابت صرفنظر کند.
- شگفتی زیاد: اگر وضعیت حافظهٔ مدل در حال خلاصهسازی یک گزارش مالی جدی باشد و ورودی جدید یک تصویر از پوست موز باشد (رویداد غیرمنتظره)، گرادیان (شگفتی) بسیار زیاد خواهد شد. این نشان میدهد که ورودی جدید مهم یا ناهنجار است و باید برای ذخیرهسازی دائمی در ماژول حافظهٔ طولانیمدت در اولویت قرار گیرد.
مدل از این سیگنال خطای داخلی (گرادیان) بهعنوان معادل ریاضی عبارت «این غیرمنتظره و مهم است!» استفاده میکند. این امکان را به معماری Titans میدهد که حافظهٔ طولانیمدت خود را بهصورت گزینشگرانه تنها با اطلاعات نوینترین و مخربترین از نظر زمینه بهروز کند، در حالی که کل فرآیند را سریع و کارآمد نگه میدارد.
Titan این مکانیزم را با ترکیب دو عنصر حیاتی بهبود میبخشد:
- شتاب: مدل هم «شگفتی لحظهای» (ورودی جاری) و هم «شگفتی گذشته» (جریان اخیر زمینه) را در نظر میگیرد. این کار تضمین میکند که اطلاعات مرتبط پسین نیز ضبط شود، حتی اگر توکنهای آن بهطور جداگانه شگفتیآور نباشند.
- فراموشی (کاهش وزن): برای مدیریت ظرفیت محدود حافظه در مواجهه با دنبالههای بسیار طولانی، Titans از مکانیزم کاهش وزن تطبیقی استفاده میکند. این مکانیزم بهعنوان یک دروازهٔ فراموشی عمل میکند و به مدل اجازه میدهد اطلاعاتی که دیگر نیازی به آنها نیست را حذف کند.
MIRAS: نگاهی یکپارچه به مدلسازی توالی
هر پیشرفت مهمی در مدلسازی توالی — از ترنسفرمرهای مدرن تا RNNهای خطی و فوقالعاده سریع جدید — در اصل یک چیز مشابه زیرساخت دارد: ماژول حافظهٔ انجمنی بسیار پیچیده.
بر این اساس، ویژگی منحصر بهفرد و عملی MIRAS، رویکردش به مدلسازی هوش مصنوعی است. بهجای مشاهدهٔ معماریهای متنوع، آن را بهعنوان روشهای مختلفی برای حل یک مسألهٔ یکسان میبیند: ترکیب کارآمد اطلاعات جدید با حافظههای قبلی بدون اینکه مفاهیم اساسی فراموش شوند.
MIRAS یک مدل توالی را از طریق چهار انتخاب طراحی اصلی تعریف میکند:
- معماری حافظه: ساختاری که اطلاعات را ذخیره میکند (مثلاً بردار، ماتریس، یا یک پرسپترون چندلایهٔ عمیق، همانند Titans).
- سوگیری توجهی: هدف یادگیری داخلی که مدل برای بهینهسازی آن تلاش میکند و تعیین میکند چه چیزی در اولویت است.
- دروازهٔ نگهداری: تنظیمکنندهٔ حافظه. MIRAS مکانیزمهای «فراموشی» را بهعنوان شکلهای خاصی از منظمسازی (regularization) بازتعریف میکند که یادگیری جدید را با نگهداری دانش گذشته تعادل میبخشد.
- الگوریتم حافظه: الگوریتم بهینهسازی که برای بهروزرسانی حافظه استفاده میشود.
نمای کلی چارچوب MIRAS. در چارچوب MIRAS، هدف ما یادگیری حافظهٔ انجمنی است که بین کلیدها و مقادیر نگاشت میکند. برای هر توکن، ماژول حافظه بهصورت داخلی سوگیری توجهی داخلی خود را بهینه میکند در حالی که از دروازهٔ نگهداری استفاده میکند تا اطمینان حاصل شود که از حالت گذشته خود انحراف نمیکند. فرآیند بهینهسازی از طریق بهینهساز مبتنی بر گرادیان انجام میشود.
فراتر رفتن از پارادایم خطای میانگین مربعات
تقریباً تمام مدلهای موفق توالی موجود بر خطای میانگین مربعات (MSE) یا شباهت نقطهضرب برای هر دو سوگیری و نگهداری وابستهاند. این وابستگی میتواند مدلها را نسبت به نقاط دور (outliers) حساس کرده و توان بیان آنها را محدود کند.
MIRAS این محدودیت را با ارائه چارچوبی مولد برای کاوش فضای طراحی غنیتر، با بهرهگیری از ادبیات بهینهسازی و آمار، پشت سر میگذارد. این امکان را میدهد که معماریهای جدیدی با اهداف غیر‑اقلیدسی و منظمسازیهای خاص ایجاد شوند.
با استفاده از MIRAS، ما سه مدل خاص بدون توجه (attention‑free) ساختیم:
- YAAD: ما این گونهٔ MIRAS را طوری طراحی کردیم که نسبت به خطاهای بزرگ یا «نقاط دور» (مانند یک اشتباه تایپی در یک سند بزرگ) حساسیت کمتری داشته باشد. این مدل از یک جریمهٔ ریاضی ملایمتر (از دست دادن هُبر) برای خطاها استفاده میکند، بنابراین به مشکلات تکبار واکنش بیش از حد نشان نمیدهد. این ویژگی باعث میشود مدل هنگام مواجهه با دادههای نامنظم یا ناسازگار، مقاومتر باشد.
- MONETA: این مدل به بررسی استفاده از جریمههای ریاضی پیچیدهتر و سختگیرانهتر (که به «نُرمهای کلی» میگویند) میپردازد. این پژوهش بررسی میکند که آیا بهکارگیری این قواعد منظمتر برای هر دو جنبهٔ توجه مدل و فراموشی، میتواند به سیستم حافظهٔ طولانیمدت قدرتمندتر و پایدارتری منجر شود یا نه.
- MEMORA: این مدل بر دستیابی به بالاترین پایداری حافظه تمرکز دارد، با این کار که حافظهٔ خود را بهمانند یک نقشهٔ احتمالی دقیق اجباری میکند. با استفاده از این قید، اطمینان مییابد که هر بار که وضعیت حافظه بهروزرسانی میشود، تغییرات تحت کنترل و متعادل هستند. این امر یک فرآیند پاک و پایدار برای ترکیب اطلاعات جدید تضمین میکند. تقریباً تمامی مدلهای توالی موفق موجود بر خطای میانگین مربعات (MSE) یا شباهت نقطهضرب برای سوگیری و نگهداری تکیه میکنند؛ این وابستگی میتواند مدلها را نسبت به نقاط دور حساس کرده و توان بیان آنها را محدود سازد.
آزمایشها و نتایج
ما Titans و گونههای MIRAS (YAAD، MONETA، MEMORA) را بهطور دقیق در مقایسه با معماریهای پیشرو، شامل Transformer++، Mamba‑2 و Gated DeltaNet، بررسی کردیم. همچنین با آزمایش Titans بر روی مدلسازی ژنتیکی (DNA) و پیشبینی سریهای زمانی، توانمندی این معماری برای تعمیم مؤثر فراتر از متن را ثابت کردیم.
در هر دو مجموعه دادهٔ مدلسازی زبانی استاندارد (C4، WikiText) و وظایف استدلال صفر‑شات (HellaSwag، PIQA)، مدلهای ما بهطور مستمر دقت بالاتر و پرپلکسیتی (معیاری برای میزان تعجب یک LLM هنگام مشاهدهٔ متن) نشان دادند.
قدرت حافظهٔ عمیق
مطالعات ابلاسیون به وضوح نشان میدهند که عمق معماری حافظه نقش حیاتی دارد. زمانی که ماژولهای حافظهٔ طولانیمدت با همان اندازه ولی عمق متفاوت مقایسه میشوند، ماژولهای دارای حافظهٔ عمیقتر بهطور مستمر پرپلکسیتی کمتری در مدلسازی زبان بهدست میآورند. علاوه بر این، این ماژولها ویژگیهای مقیاسپذیری بهتری نشان میدهند و عملکرد خود را حتی با افزایش چشمگیر طول دنباله حفظ میدارند.

تأثیر عمق حافظه بر پرپلکسیتی در مقیاسهای پارامتر ۳۶۰M و ۷۶۰M.
مدلسازی زبان و کارآیی
در وظایف مدلسازی زبان و استدلال عام، معماری Titans بر مدلهای بازگشتی خطی پیشرفته (مانند Mamba‑2 و Gated DeltaNet) و پایههای Transformer++ هماندازه برتری دارد. گونههای نوین MIRAS (MONETA، YAAD، MEMORA) نیز نسبت به این پایهها عملکرد بهبود یافتهای نشان میدهند که مزیت بررسی مکانیزمهای بهینهسازی مقاوم و غیر‑MSE را تأیید میکند. بهعلاوه، این مدلها آموزش کارآمد، قابلیت موازیسازی و سرعت استنتاج خطی سریع را حفظ میکنند.
بازیابی زمینهٔ طولانیمتن افراطی
برجستهترین مزیت این معماریهای جدید، توانایی آنها در پردازش زمینههای بسیار طولانی است. این نکته در بنچمارک BABILong که نیاز به استدلال در میان حقایق توزیعشده در اسناد بسیار طولانی دارد، بهوضوح نشان داده میشود. در این وضعیت چالشبرانگیز، Titans بر تمام پایهها، از جمله مدلهای بسیار بزرگ همچون GPT‑4، برتری پیدا میکند، در حالی که پارامترهای کمتری دارد. همچنین Titans توان مقیاسپذیری مؤثر به اندازه پنجرهٔ زمینهای بزرگتر از ۲ میلیون توکن را نشان میدهد.

عملکرد Titans در استدلال زمینهٔ بسیار طولانی.
نتیجهگیری
معرفی Titans و چارچوب MIRAS گامی بزرگ در پیشرفت مدلسازی توالی است. با بهکارگیری شبکههای عصبی عمیق بهعنوان ماژولهای حافظه که در حین ورود دادهها بهخاطر میسپارند، این رویکردها محدودیتهای وضعیتهای بازگشتی ثابتاندازه را پشت سر میگذارند. علاوه بر این، MIRAS وحدت نظری قدرتمندی فراهم میکند که ارتباط بهینهسازی آنلاین، حافظهٔ انجمنی و طراحی معماری را آشکار میسازد. با فراتر رفتن از پارادایم اقلیدسی استاندارد، این تحقیق مسیر نسل جدیدی از مدلهای توالی را گشوده که ترکیبی از کارآیی RNNها و توان بیان مورد نیاز برای عصر هوش مصنوعی با زمینههای طولانی است.
دیدگاهتان را بنویسید