Titans + MIRAS: کمک به هوش مصنوعی برای داشتن حافظهٔ بلندمدت

ما معماری Titans و چارچوب MIRAS را معرفی می‌کنیم؛ این‌ها به مدل‌های هوش مصنوعی اجازه می‌دهند سرعت کار را به‌طور چشمگیری افزایش داده و زمینه‌های وسیع را با به‌روزرسانی حافظهٔ اصلی در حین اجرای فعال، مدیریت کنند.

معماری ترنسفرمر با معرفی مکانیزم توجه، که به مدل‌ها اجازه می‌دهد به ورودی‌های قبلی نگاه کنند و داده‌های مرتبط را اولویت‌بندی کنند، انقلابی در مدل‌سازی دنباله‌ها به وجود آورد. اما هزینهٔ محاسباتی با افزایش طول دنباله به‌شدت متقارن می‌شود و این محدودیتی برای مقیاس‌پذیری مدل‌های مبتنی بر ترنسفرمر در زمینه‌های بسیار طولانی ایجاد می‌کند؛ مانند درک کامل سند یا تجزیه و تحلیل ژنومیک.

جامعهٔ تحقیقاتی راه‌حل‌های مختلفی را بررسی کرد، از جمله شبکه‌های عصبی بازگشتی خطی کارآمد (RNN) و مدل‌های فضای حالت (SSM) همچون Mamba‑2. این مدل‌ها با فشرده‌سازی زمینه به یک اندازهٔ ثابت، امکان مقیاس‌پذیری خطی سریع را فراهم می‌کنند. اما این فشرده‌سازی ثابت قادر به درک کامل اطلاعات غنی در دنباله‌های بسیار طولانی نیست.

در دو مقالهٔ جدید، Titans و MIRAS، ما معماری و طرح نظری را معرفی می‌کنیم که سرعت RNNها را با دقت ترنسفرمرها ترکیب می‌کند. Titans معماری خاص (ابزار) است و MIRAS چارچوب نظری (طرح کلی) برای عمومی‌سازی این رویکردها. این دو با هم مفهوم حافظهٔ یادگیری در زمان آزمون را پیش می‌برند؛ یعنی توانایی مدل هوش مصنوعی برای حفظ حافظهٔ طولانی‌مدت با به‌کارگیری معیارهای «شگفتی» قدرتمندتر (یعنی اطلاعات غیرمنتظره) در حین اجرای مدل، بدون نیاز به آموزش آفلاین اختصاصی.

چارچوب MIRAS، همان‌طور که Titans نشان می‌دهد، تغییر معناداری به سمت سازگاری زمان واقعی ایجاد می‌کند. به‌جای فشرده‌سازی اطلاعات در یک وضعیت ثابت، این معماری به‌صورت فعال پارامترهای خود را هنگام ورود داده‌ها یاد می‌گیرد و به‌روزرسانی می‌کند. این مکانیزم حیاتی به مدل اجازه می‌دهد تا جزئیات جدید و خاص را به‌سرعت در دانش اصلی خود بگنجاند.

Titans: یادگیری زمینهٔ جدید به‌صورت آنی

یک سیستم یادگیری مؤثر نیاز به ماژول‌های حافظهٔ متمایز اما در هم‌پیوند دارد که مشابه جداسازی حافظهٔ کوتاه‌مدت و بلندمدت در مغز انسان هستند.

در حالی که مکانیزم‌های توجه برای حافظهٔ کوتاه‌مدت دقیق بسیار مؤثرند، Titans ماژول حافظهٔ طولانی‌مدت عصبی نوینی را معرفی می‌کند؛ این ماژول، برخلاف حافظهٔ برداری یا ماتریسی ثابت‌اندازه در RNNهای سنتی، به‌عنوان یک شبکهٔ عصبی عمیق (به‌ویژه یک پرسپترون چندلایه) عمل می‌کند. این حافظهٔ عصبی توان بیان به‌مراتب بالاتری دارد و به مدل امکان می‌دهد حجم بالایی از اطلاعات را بدون از دست دادن زمینهٔ مهم خلاصه کند. مدل تنها یادداشت‌برداری نمی‌کند؛ بلکه کل داستان را می‌فهمد و ترکیب می‌سازد.

به‌طور اساسی، Titans تنها به‌صورت منفعل داده‌ها را ذخیره نمی‌کند؛ بلکه به‌صورت فعال «چگونگی» شناسایی و نگهداری روابط مهم و تم‌های مفهومی که توکن‌ها را در سراسر ورودی به هم می‌پیوندد، یاد می‌گیرد. یکی از جنبه‌های کلیدی این توانایی، آنچه ما «معیار شگفتی» می‌نامیم، است. در روان‌شناسی انسانی، می‌دانیم که رویدادهای روتین و پیش‌بینی‌شده را به‌سرعت و به‌راحتی فراموش می‌کنیم، اما مواردی که الگو را می‌شکنند—رویدادهای غیرمنتظره، شگفت‌انگیز یا بسیار عاطفی— را به یاد می‌مانیم.

نموداری که معماری عصبی را با سه لایه نشان می‌دهد: حافظهٔ زمینه‌ای (یادگیری)، هسته (یادگیری درون‌متنی) و حافظهٔ پایدار (وزن‌های ثابت).

نمای کلی معماری Titans (MAC). این معماری از حافظهٔ طولانی‌مدت برای فشرده‌سازی داده‌های گذشته استفاده می‌کند و سپس خلاصهٔ آن را به زمینه اضافه کرده و به مکانیزم توجه می‌فرستد. توجه می‌تواند تصمیم بگیرد که آیا نیاز به متمرکز شدن بر خلاصهٔ گذشته دارد یا خیر.

در چارچوب Titans، «معیار شگفتی» به این معناست که مدل اختلاف بزرگ بین آنچه در حال حاضر به یاد دارد و آنچه ورودی جدید به آن می‌گوید را تشخیص می‌دهد.

  • شگفتی کم: اگر واژهٔ جدید «گربه» باشد و وضعیت حافظهٔ مدل قبلاً واژهٔ حیوانی را انتظار داشته باشد، گرادیان (شگفتی) کم است. بنابراین می‌تواند به‌طور ایمن از به‌خاطرسپارگی واژهٔ «گربه» در حافظهٔ طولانی‌مدت ثابت صرف‌نظر کند.
  • شگفتی زیاد: اگر وضعیت حافظهٔ مدل در حال خلاصه‌سازی یک گزارش مالی جدی باشد و ورودی جدید یک تصویر از پوست موز باشد (رویداد غیرمنتظره)، گرادیان (شگفتی) بسیار زیاد خواهد شد. این نشان می‌دهد که ورودی جدید مهم یا ناهنجار است و باید برای ذخیره‌سازی دائمی در ماژول حافظهٔ طولانی‌مدت در اولویت قرار گیرد.

مدل از این سیگنال خطای داخلی (گرادیان) به‌عنوان معادل ریاضی عبارت «این غیرمنتظره و مهم است!» استفاده می‌کند. این امکان را به معماری Titans می‌دهد که حافظهٔ طولانی‌مدت خود را به‌صورت گزینش‌گرانه تنها با اطلاعات نوین‌ترین و مخرب‌ترین از نظر زمینه به‌روز کند، در حالی که کل فرآیند را سریع و کارآمد نگه می‌دارد.

Titan این مکانیزم را با ترکیب دو عنصر حیاتی بهبود می‌بخشد:

  1. شتاب: مدل هم «شگفتی لحظه‌ای» (ورودی جاری) و هم «شگفتی گذشته» (جریان اخیر زمینه) را در نظر می‌گیرد. این کار تضمین می‌کند که اطلاعات مرتبط پسین نیز ضبط شود، حتی اگر توکن‌های آن به‌طور جداگانه شگفتی‌آور نباشند.
  2. فراموشی (کاهش وزن): برای مدیریت ظرفیت محدود حافظه در مواجهه با دنباله‌های بسیار طولانی، Titans از مکانیزم کاهش وزن تطبیقی استفاده می‌کند. این مکانیزم به‌عنوان یک دروازهٔ فراموشی عمل می‌کند و به مدل اجازه می‌دهد اطلاعاتی که دیگر نیازی به آن‌ها نیست را حذف کند.

MIRAS: نگاهی یکپارچه به مدل‌سازی توالی

هر پیشرفت مهمی در مدل‌سازی توالی — از ترنسفرمرهای مدرن تا RNNهای خطی و فوق‌العاده سریع جدید — در اصل یک چیز مشابه زیرساخت دارد: ماژول حافظهٔ انجمنی بسیار پیچیده.

بر این اساس، ویژگی منحصر به‌فرد و عملی MIRAS، رویکردش به مدل‌سازی هوش مصنوعی است. به‌جای مشاهدهٔ معماری‌های متنوع، آن را به‌عنوان روش‌های مختلفی برای حل یک مسألهٔ یکسان می‌بیند: ترکیب کارآمد اطلاعات جدید با حافظه‌های قبلی بدون اینکه مفاهیم اساسی فراموش شوند.

MIRAS یک مدل توالی را از طریق چهار انتخاب طراحی اصلی تعریف می‌کند:

  • معماری حافظه: ساختاری که اطلاعات را ذخیره می‌کند (مثلاً بردار، ماتریس، یا یک پرسپترون چندلایهٔ عمیق، همانند Titans).
  • سوگیری توجهی: هدف یادگیری داخلی که مدل برای بهینه‌سازی آن تلاش می‌کند و تعیین می‌کند چه چیزی در اولویت است.
  • دروازهٔ نگهداری: تنظیم‌کنندهٔ حافظه. MIRAS مکانیزم‌های «فراموشی» را به‌عنوان شکل‌های خاصی از منظم‌سازی (regularization) بازتعریف می‌کند که یادگیری جدید را با نگهداری دانش گذشته تعادل می‌بخشد.
  • الگوریتم حافظه: الگوریتم بهینه‌سازی که برای به‌روزرسانی حافظه استفاده می‌شود.

نمای کلی چارچوب MIRAS. در چارچوب MIRAS، هدف ما یادگیری حافظهٔ انجمنی است که بین کلیدها و مقادیر نگاشت می‌کند. برای هر توکن، ماژول حافظه به‌صورت داخلی سوگیری توجهی داخلی خود را بهینه می‌کند در حالی که از دروازهٔ نگهداری استفاده می‌کند تا اطمینان حاصل شود که از حالت گذشته‌ خود انحراف نمی‌کند. فرآیند بهینه‌سازی از طریق بهینه‌ساز مبتنی بر گرادیان انجام می‌شود.

فراتر رفتن از پارادایم خطای میانگین مربعات

تقریباً تمام مدل‌های موفق توالی موجود بر خطای میانگین مربعات (MSE) یا شباهت نقطه‌ضرب برای هر دو سوگیری و نگهداری وابسته‌اند. این وابستگی می‌تواند مدل‌ها را نسبت به نقاط دور (outliers) حساس کرده و توان بیان آن‌ها را محدود کند.

MIRAS این محدودیت را با ارائه چارچوبی مولد برای کاوش فضای طراحی غنی‌تر، با بهره‌گیری از ادبیات بهینه‌سازی و آمار، پشت سر می‌گذارد. این امکان را می‌دهد که معماری‌های جدیدی با اهداف غیر‑اقلیدسی و منظم‌سازی‌های خاص ایجاد شوند.

با استفاده از MIRAS، ما سه مدل خاص بدون توجه (attention‑free) ساختیم:

  • YAAD: ما این گونهٔ MIRAS را طوری طراحی کردیم که نسبت به خطاهای بزرگ یا «نقاط دور» (مانند یک اشتباه تایپی در یک سند بزرگ) حساسیت کمتری داشته باشد. این مدل از یک جریمهٔ ریاضی ملایم‌تر (از دست دادن هُبر) برای خطاها استفاده می‌کند، بنابراین به مشکلات تک‌بار واکنش بیش از حد نشان نمی‌دهد. این ویژگی باعث می‌شود مدل هنگام مواجهه با داده‌های نامنظم یا ناسازگار، مقاوم‌تر باشد.
  • MONETA: این مدل به بررسی استفاده از جریمه‌های ریاضی پیچیده‌تر و سخت‌گیرانه‌تر (که به «نُرم‌های کلی» می‌گویند) می‌پردازد. این پژوهش بررسی می‌کند که آیا به‌کارگیری این قواعد منظم‌تر برای هر دو جنبهٔ توجه مدل و فراموشی، می‌تواند به سیستم حافظهٔ طولانی‌مدت قدرتمندتر و پایدارتری منجر شود یا نه.
  • MEMORA: این مدل بر دستیابی به بالاترین پایداری حافظه تمرکز دارد، با این کار که حافظهٔ خود را به‌مانند یک نقشهٔ احتمالی دقیق اجباری می‌کند. با استفاده از این قید، اطمینان می‌یابد که هر بار که وضعیت حافظه به‌روزرسانی می‌شود، تغییرات تحت کنترل و متعادل هستند. این امر یک فرآیند پاک و پایدار برای ترکیب اطلاعات جدید تضمین می‌کند. تقریباً تمامی مدل‌های توالی موفق موجود بر خطای میانگین مربعات (MSE) یا شباهت نقطه‌ضرب برای سوگیری و نگهداری تکیه می‌کنند؛ این وابستگی می‌تواند مدل‌ها را نسبت به نقاط دور حساس کرده و توان بیان آن‌ها را محدود سازد.

آزمایش‌ها و نتایج

ما Titans و گونه‌های MIRAS (YAAD، MONETA، MEMORA) را به‌طور دقیق در مقایسه با معماری‌های پیشرو، شامل Transformer++، Mamba‑2 و Gated DeltaNet، بررسی کردیم. همچنین با آزمایش Titans بر روی مدل‌سازی ژنتیکی (DNA) و پیش‌بینی سری‌های زمانی، توانمندی این معماری برای تعمیم مؤثر فراتر از متن را ثابت کردیم.

در هر دو مجموعه دادهٔ مدل‌سازی زبانی استاندارد (C4، WikiText) و وظایف استدلال صفر‑شات (HellaSwag، PIQA)، مدل‌های ما به‌طور مستمر دقت بالاتر و پرپلکسیتی (معیاری برای میزان تعجب یک LLM هنگام مشاهدهٔ متن) نشان دادند.

قدرت حافظهٔ عمیق

مطالعات ابلاسیون به وضوح نشان می‌دهند که عمق معماری حافظه نقش حیاتی دارد. زمانی که ماژول‌های حافظهٔ طولانی‌مدت با همان اندازه ولی عمق متفاوت مقایسه می‌شوند، ماژول‌های دارای حافظهٔ عمیق‌تر به‌طور مستمر پرپلکسیتی کمتری در مدل‌سازی زبان به‌دست می‌آورند. علاوه بر این، این ماژول‌ها ویژگی‌های مقیاس‌پذیری بهتری نشان می‌دهند و عملکرد خود را حتی با افزایش چشمگیر طول دنباله حفظ می‌دارند.

دو نمودار خطی نشان می‌دهد که مدل‌های LMM و MM با افزایش طول دنباله، پرپلکسیتی پایین‌تری نسبت به Mamba در مقیاس‌های ۳۶۰M و ۷۶۰M پارامتر حفظ می‌کنند.

تأثیر عمق حافظه بر پرپلکسیتی در مقیاس‌های پارامتر ۳۶۰M و ۷۶۰M.

مدل‌سازی زبان و کارآیی

در وظایف مدل‌سازی زبان و استدلال عام، معماری Titans بر مدل‌های بازگشتی خطی پیشرفته (مانند Mamba‑2 و Gated DeltaNet) و پایه‌های Transformer++ هم‌اندازه برتری دارد. گونه‌های نوین MIRAS (MONETA، YAAD، MEMORA) نیز نسبت به این پایه‌ها عملکرد بهبود یافته‌ای نشان می‌دهند که مزیت بررسی مکانیزم‌های بهینه‌سازی مقاوم و غیر‑MSE را تأیید می‌کند. به‌علاوه، این مدل‌ها آموزش کارآمد، قابلیت موازی‌سازی و سرعت استنتاج خطی سریع را حفظ می‌کنند.

بازیابی زمینهٔ طولانی‌متن افراطی

برجسته‌ترین مزیت این معماری‌های جدید، توانایی آن‌ها در پردازش زمینه‌های بسیار طولانی است. این نکته در بنچمارک BABILong که نیاز به استدلال در میان حقایق توزیع‌شده در اسناد بسیار طولانی دارد، به‌وضوح نشان داده می‌شود. در این وضعیت چالش‌برانگیز، Titans بر تمام پایه‌ها، از جمله مدل‌های بسیار بزرگ همچون GPT‑4، برتری پیدا می‌کند، در حالی که پارامترهای کمتری دارد. همچنین Titans توان مقیاس‌پذیری مؤثر به اندازه پنجرهٔ زمینه‌ای بزرگ‌تر از ۲ میلیون توکن را نشان می‌دهد.

نمودار خطی نشان می‌دهد که Titans (MAC)-FT با افزایش طول دنباله، دقت بهبود یافته‌تری نسبت به GPT‑4، Mamba‑FT و سایر مدل‌ها حفظ می‌کند.

عملکرد Titans در استدلال زمینهٔ بسیار طولانی.

نتیجه‌گیری

معرفی Titans و چارچوب MIRAS گامی بزرگ در پیشرفت مدل‌سازی توالی است. با به‌کارگیری شبکه‌های عصبی عمیق به‌عنوان ماژول‌های حافظه که در حین ورود داده‌ها به‌خاطر می‌سپارند، این رویکردها محدودیت‌های وضعیت‌های بازگشتی ثابت‌اندازه را پشت سر می‌گذارند. علاوه بر این، MIRAS وحدت نظری قدرتمندی فراهم می‌کند که ارتباط بهینه‌سازی آنلاین، حافظهٔ انجمنی و طراحی معماری را آشکار می‌سازد. با فراتر رفتن از پارادایم اقلیدسی استاندارد، این تحقیق مسیر نسل جدیدی از مدل‌های توالی را گشوده که ترکیبی از کارآیی RNNها و توان بیان مورد نیاز برای عصر هوش مصنوعی با زمینه‌های طولانی است.

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *