معیارهای اعتبار در عصر مدل‌های زبانی بزرگ: تحلیل همبستگی قابلیت دیده‌شدن

معیارهای اعتبار، معیارهای سئو هستند که اعتبار و قدرت یک وب‌سایت را ارزیابی می‌کند. قدرت دامنه (DP)، رتبه دامنه (DR) و اعتبار دامنه (DA) عملکرد را با استفاده از پیوندهای بازگشتی، سیگنال‌های اعتماد و تأثیر ترافیک سنجش می‌کنند. معیارهای اعتبار مهم هستند، زیرا تعیین می‌کنند موتورهای جستجو ارزش دامنه را چگونه تفسیر کرده و قابلیت دیده‌شدن آن را تخصیص می‌دهند.

متخصصان سئو معمولاً این تصور را دارند که دامنه‌های با اعتبار بالا در هر محیط جستجو برتری دارند. دیگران استدلال می‌کنند که کشف مبتنی بر هوش مصنوعی با پاداش‌دهی به زمینه و ارتباط معنایی، قابلیت دیده‌شدن را بازآفرینی می‌کند. قسمت مفقود شواهدی است که نشان می‌دهد معیارهای اعتبار در داخل مدل‌های زبانی بزرگ (LLMs) چگونه رفتار می‌کنند.

این مطالعه رابطه بین DP، DR، DA و امتیاز قابلیت دیده‌شدن LLM را بر روی ۲۱,۷۶۷ دامنه بررسی می‌کند. این تجزیه‌وتحلیل می‌سنجد که نمرات اعتبار چگونه با فراوانی ارجاع و قابلیت دیده‌شدن در پاسخ‌های تولید شده توسط LLM همسو هستند. نتایج نشان می‌دهند که معیارهای اعتبار سئو همبستگی‌های ضعیف یا منفی با قابلیت دیده‌شدن LLM دارند، که نشان می‌دهد مدل‌های زبانی بزرگ نمایش محتوا را بر پایهٔ مرتبط بودن زمینه‌ای توزیع می‌کنند، نه بر پایهٔ تسلط.

روش‌شناسی – چگونه اعتبار را در مقابل قابلیت دیده‌شدن اندازه‌گیری کردیم؟

این آزمایش بررسی می‌کند که آیا دامنه‌های با اعتبار بالا در پاسخ‌های مدل‌های زبانی بزرگ (LLM) مزیت قابلیت دیده‌شدن را حفظ می‌کنند یا خیر. این آزمایش روشن می‌کند که معیارهای سنتی اعتبار سئو چگونه به کشف مبتنی بر هوش مصنوعی منتقل می‌شوند. 

اهمیت این آزمایش در این است که مشخص می‌کند آیا اعتبار مبتنی بر پیوندهای بازگشتی همچنان شکل‌دهندهٔ قابلیت دیده‌شدن در اکوسیستم جدید LLM است یا خیر. 

داده‌ها شامل ۳ مؤلفهٔ اصلی زیر می‌شوند.

  • داده‌های اعتبار سطح دامنه برای DP، DR و DA که از ارائه‌دهندگان معتبر معیارهای سئو جمع‌آوری شده‌اند.
  • امتیازهای قابلیت دیده‌شدن LLM که از ChatGPT، Gemini و Perplexity بین ۲۵ آگوست تا ۲۴ اکتبر ۲۰۲۵ جمع‌آوری شده‌اند.
  • لاگ‌های پاسخ چندمدلی شامل ارجاع‌های دامنه، درصدهای قابلیت دیده‌شدن و فرکانس‌های هم‌ذکر که نشان می‌دهد هر دامنه چندبار و با چه شدت در خروجی‌های مدل ظاهر شده است.

مراحل پیش‌پردازش به شرح زیر هستند.

  • ادغام معیارهای دامنه (DP، DR، DA) با مجموعه دادهٔ قابلیت دیده‌شدن LLM بر مبنای نام دامنه.
  • حذف سطرهایی که visibility_score = 0 است تا ارجاع‌های معنادار برای تحلیل همبستگی جدا شوند.
  • شامل کردن تمام سطرها برای تجزیه و تحلیل فرکانس هم‌ذکر و مطالعه‌های موردی گوگل و یوتیوب.
  • استانداردسازی شناسه‌ها، زمان‌مهرها و نام فیلدها برای یک‌دست‌سازی.
  • حذف دامنه‌های نامعتبر یا غیرمعتبر.

مراحل تحلیلی به شرح زیر هستند.

  • محاسبهٔ همبستگی‌های پیرسون میان DP، DR، DA و شاخص‌های قابلیت دیده‌شدن مانند متوسط امتیاز قابلیت دیده‌شدن و نرخ برد (visibility score = 100).
  • تصویرسازی روابط با نمودارهای پراکندگی و نمودارهای جعبه‌ای در میان ۳ مدل LLM.
  • تقسیم نتایج بر اساس سطح رقابت، که توسط تعداد دامنه‌های هم‌ذکر در هر پاسخ LLM تعریف می‌شود.
  • اعمال فیلتر مبتنی بر IQR برای حذف نقاط پرت آماری و تضمین نتایج پایدار.

مجموعه داده شامل ۲۱,۷۶۷ دامنهٔ یکتا با معیارهای اعتبار موجود و داده‌های تأییدشدهٔ قابلیت دیده‌شدن است. این طرح هدف دارد بررسی کند که آیا معیارهای اعتبار سئو (DP، DR، DA) پیش‌بینی‌کنندهٔ برجستگی دامنه در پاسخ‌های تولید شده توسط LLM هستند یا اینکه سیگنال‌های جدید مبتنی بر زمینه، قابلیت دیده‌شدن را در جستجوی هوش مصنوعی تعریف می‌کنند.

نتیجهٔ نهایی چیست؟

تحلیل نشان می‌دهد که DP، DR و DA پیش‌بین‌های ضعیفی برای قابلیت دیده‌شدن LLM هستند. نمرات بالای اعتبار تضمین‌کنندهٔ نمایش در نتایج تولید شده توسط هوش مصنوعی نیستند. در مجموع سه معیار، همبستگی‌ها بین –۰.۰۸ تا –۰.۲۱ متغیر است که تأیید می‌کند سیگنال‌های سنتی اعتبار تأثیر محدودی بر فراوانی ظاهر شدن دامنه‌ها در پاسخ‌های LLM دارند. 

دامنه‌های با اعتبار کمتر اغلب قابلیت دیده‌شدن برابر یا بالاتری کسب می‌کنند، که نشان می‌دهد مدل‌های زبانی بزرگ نمایش محتوا را بر پایهٔ مرتبط بودن زمینه‌ای توزیع می‌کنند، نه بر پایهٔ وزن پیوندهای بازگشتی. معیار نرخ برد این الگو را تقویت می‌کند، زیرا موقعیت‌های بالای قابل مشاهده به دامنه‌هایی که با نیت موضوع همخوانی دارند، ترجیح می‌دهد نه به آن‌هایی که بالاترین معیارهای اعتبار را دارند.

مدل‌های زبانی بزرگ اعتبار و مرتبط بودن را به‌عنوان عوامل جداگانه در نظر می‌گیرند و چشم‌اندازی متوازن‌تر از قابلیت دیده‌شدن ایجاد می‌کنند؛ به‌طوری که دامنه‌های کوچکتر در کنار سایت‌های با اعتبار بالا عملکرد می‌کنند وقتی محتوای آن‌ها با نیت پرسش مطابقت داشته باشد. نتایج تأیید می‌کند که ساختارهای مبتنی بر اعتبار همچنان در محیط‌های جستجوی هوش مصنوعی از قدرت خود می‌غیرند. الگوهای قابلیت دیده‌شدن در تمام مدل‌ها ثابت می‌مانند؛ همان‌طور که اعتبار کاهش می‌یابد، هم‌سویی زمینه‌ای افزایش می‌یابد و نمایش محتوا به‌صورت برابر‌تری توزیع می‌شود.

تیم‌های سئو باید قابلیت دیده‌شدن LLM را به‌عنوان زیرساخت جدیدی برای ارزیابی عملکرد در نظر بگیرند. برندهایی که به‌دقت زمینه‌ای و شفافیت موجودیت‌ها بهینه‌سازی می‌کنند، کشف قوی‌تری، دامنهٔ دسترسی وسیع‌تری و حضور پایدارتر در نتایج تولیدی هوش مصنوعی به‌دست می‌آورند.

چگونه معیارهای اعتبار با قابلیت دیده‌شدن LLM همبستگی دارند؟

من، منیک بهان، به‌همراه تیم تحقیقاتی Search Atlas، همبستگی‌های بین معیارهای اعتبار و قابلیت دیده‌شدن LLM را بر روی ۲۱,۷۶۷ دامنه بررسی کردیم. جزئیات نشان‌دهندهٔ نحوهٔ ارتباط DP، DR و DA با قابلیت دیده‌شدن در ادامه آورده شده است.

قدرت دامنه

قدرت دامنه عملکرد تأییدشده را با استفاده از داده‌های زندهٔ Google Search Console اندازه‌گیری می‌کند. DP توان واقعی جستجو را با ترکیب دامنهٔ رتبه‌بندی و پوشش کلیدواژه‌ها بازتاب می‌دهد. قدرت دامنه مهم است زیرا نمایانگر قابلیت دیده‌شدن قابل اندازه‌گیری از داده‌های تأییدشدهٔ گوگل است نه برآوردی پیوندهای بازگشتی.

نتایج کلیدی در زیر نشان داده شده‌اند.

  • همبستگی OpenAI. r = –0.12
  • همبستگی Perplexity. r = –0.18
  • همبستگی Gemini. r = –0.09
  • جهت روند. شیب منفی ملایم در تمام مدل‌ها

دامنه‌های با DP بالا گاهی عملکرد کمتری دارند، در حالی که دامنه‌های میانی دیداری ثابت‌تری در پاسخ‌های LLM حفظ می‌کنند. این روند نشان می‌دهد که اعتبار بدست آمده از جستجو تضمین‌کنندهٔ فراوانی ارجاع در AI نیست. دقت زمینه‌ای و ارتباط موضوعی بیش از قدرت رتبه‌بندی تاریخی وزن دارد و تأیید می‌کند که مدل‌های زبانی بزرگ اعتبار را به‌طور متفاوتی نسبت به موتورهای جستجوی سنتی ارزیابی می‌کنند.

امتیاز دامنه

امتیاز دامنه میزان و کیفیت پیوندهای بازگشتی را برای برآورد کلی اعتبار دامنه اندازه می‌گیرد. DR نمایانگر نمایهٔ پیوندهای یک سایت و تأثیر آن در گراف وب است. DR مهم است زیرا مدت‌ها به‌عنوان پیش‌بینی‌کنندهٔ اصلی قدرت سئو محسوب می‌شده است.

نتایج کلیدی در زیر نمایش داده شده‌اند.

  • همبستگی OpenAI. r ≈ 0.00 (بی‌طرف)
  • همبستگی Perplexity. r = –0.17
  • همبستگی Gemini. r = –0.14
  • جهت روند. شیب منفی ضعیف در بیشتر مدل‌ها

دامنه‌های با DR بالا در طیف قابلیت دیده‌شدن به‌صورت گسترده‌ای متفاوت‌اند و مزیت ثابتی در خروجی‌های تولیدی نشان نمی‌دهند. داده‌ها تأیید می‌کند که اعتبار مبتنی بر وزن پیوندهای بازگشتی پیش‌بینی‌کنندهٔ برجستگی در پاسخ‌های مدل‌های زبانی بزرگ نیست. قابلیت دیده‌شدن LLM بر کیفیت اطلاعات و هم‌سویی زمینه‌ای وابسته است نه بر تعداد پیوندهای بازگشتی یا حجم دامنه‌های ارجاعی.

اعتبار دامنه

اعتبار دامنه معیارهای پیوندها و اعتماد تخمینی را در یک مقیاس 0 تا 100 جمع می‌کند. DA الگوهای لینک‌سازی خارجی و اعتبار تاریخی را خلاصه می‌کند. اعتبار دامنه مهم است زیرا یکی از شناخته‌شده‌ترین معیارهای اعتبار در تحلیل عملکرد سئو به شمار می‌آید.

نتایج کلیدی در زیر نمایش داده شده‌اند.

  • همبستگی OpenAI. r = –0.10
  • همبستگی Perplexity. r = –0.21
  • همبستگی Gemini. r = –0.13
  • جهت روند. همبستگی منفی ضعیف تا متوسط، ثابت

دامنه‌های با DA بالاتر از 80 بیش‌ترین نوسان را نشان می‌دهند و در قابلیت دیده‌شدن یا نرخ برد مزیت پایداری ندارند. پرتفوی‌های گستردهٔ پیوندهای بازگشتی نتوانند حضور ثابت در ارجاع‌های LLM را تضمین کنند.

آیا فرکانس هم‌ذکر بر قابلیت دیده‌شدن تأثیر می‌گذارد؟

فرکانس هم‌ذکر میزان تعداد دامنه‌هایی را که در یک پاسخ LLM به‌صورت مشترک ظاهر می‌شوند، می‌سنجد. این تجزیه‌وتحلیل ۳۶۸,۹۷۲ دامنهٔ یکتا را با امتیازهای قابلیت دیده‌شدن بین 50 تا 100 در بر می‌گیرد تا بفهمد رقابت داخل پاسخ‌های LLM چگونه بر قابلیت دیده‌شدن تأثیر می‌گذارد. جزئیات نشان‌ دهندهٔ ارتباط فرکانس هم‌ذکر با نمایش محتوا در ادامه آورده شده است.

فرکانس هم‌ذکر

فرکانس هم‌ذکر نشان‌دهندهٔ شدت رقابت در هر پاسخ است و تعیین می‌کند که توجه چگونه بین منابع ارجاع‌شده توزیع می‌شود. فرکانس هم‌ذکر مهم است زیرا روشن می‌کند آیا کاهش رقابت موجب بهبود برجستگی دامنه در مدل‌ها می‌شود یا خیر.

نتایج کلیدی در زیر نمایش داده شده‌اند.

  • تعداد کمتر هم‌ذکرهای همزمان با قابلیت دیده‌شدن میانی بالاتر مرتبط است.
  • افزایش رقابت، قابلیت دیده‌شدن را در تمام مدل‌ها کاهش می‌دهد.
  • پاسخ‌های تک‌دامنه بالاترین نرخ برد را به‌دست می‌آورند.
  • قابلیت دیده‌شدن به‌صورت پیوسته از 2 تا 10 هم‌ذکر کاهش می‌یابد.
  • پس از بیش از ده دامنه، تنوع ارجاع‌های LLM باعث گستردگی بیش‌تر واریانس قابلیت دیده‌شدن می‌شود.

هر متغیر به‌صورت متفاوتی مؤثر است. رقابت کم، قابلیت دیده‌شدن را تقویت می‌کند چون LLM وزن بیشتری به پاسخ‌های تک یا محدود دامنه می‌دهد. سطوح میانی، تنوعی ایجاد می‌کنند که بین تنوع و مرتبط‌بودن تعادل می‌یابد. رقابت بالا، نمایش را به‌صورت مساوی توزیع می‌کند و نشان می‌دهد که برجستگی به دقت زمینه‌ای بستگی دارد نه به وزن پیوندهای بازگشتی.

شدت رقابت به‌عنوان قوی‌ترین پیش‌بینی‌کنندهٔ نمایش در محیط‌های LLM ظاهر می‌شود. دامنه‌ها بالاترین قابلیت دیده‌شدن خود را زمانی به‌دست می‌آورند که به‌تنهایی یا همراه با تعداد کمی از رقبای خود ارجاع شوند، که تأیید می‌کند چگالی پاسخ، نه معیارهای اعتبار، تعیین‌کنندهٔ برجستگی در نتایج جستجوی تولید شده توسط هوش مصنوعی است.

مطالعات موردی: گوگل و یوتیوب

من، منیک بهان، به‌همراه تیم تحقیقاتی Search Atlas، گوگل و یوتیوب را تحلیل کردیم تا بفهمیم چگونه شدت رقابت بر قابلیت دیده‌شدن در پاسخ‌های مدل‌های زبانی بزرگ تأثیر می‌گذارد. این تحلیل از تمام پاسخ‌هایی که دامنه‌های google.com و youtube.com در آن‌ها ظاهر شده‌اند استفاده کرد و امتیازهای قابلیت دیده‌شدن بین 50 تا 100 را در بر می‌گیرد. 

جزئیات نشان‌ دهندهٔ عملکرد این دامنه‌ها در سطوح مختلف هم‌ذکر در ادامه آورده شده است.

گوگل

گوگل در زمانی که تنها دامنه ارجاع‌شده در یک پاسخ LLM باشد، قابلیت دیده‌شدن تقریباً کامل (~100٪) را حفظ می‌کند. قابلیت دیده‌شدن در سطوح رقابت کم (2 تا 5 دامنه) بالا می‌ماند اما به‌تدریج با افزایش تراکم دامنه‌ها کاهش می‌یابد.

نتایج کلیدی در زیر نمایش داده شده‌اند.

  • قابلیت دیده‌شدن تک‌دامنه. ~امتیاز میانی 100٪
  • 2 تا 5 هم‌ذکر. قابلیت دیده‌شدن ثابت
  • 6 تا 10 هم‌ذکر. کاهش قابلیت دیده‌شدن
  • 11+ هم‌ذکر. نوسان گسترده‌تر اما ادامه ارجاع

تحلیل در سطح پرسش نشان می‌دهد که گوگل در درخواست‌های فنی و مخصوص محصول (Google Sheets API، Google Search Console setup) قابلیت دیده‌شدن 100٪ دارد اما در موضوعات گسترده یا رقابتی (بهترین ابزارهای هوش مصنوعی، برترین پلتفرم‌های جستجو) به 0٪ قابلیت دیده‌شدن می‌رسد. 

این نتایج نشان می‌دهد که گوگل همچنان سیگنال‌های اعتبار قوی را دارد اما وقتی LLMها برای حفظ بی‌طرفی منابع را متنوع می‌کنند، فضا را به‌اشتراک می‌گذارد.

یوتیوب

یوتیوب نیز روند مشابهی را نشان می‌دهد اما تحت رقابت بالا مقاومت بیشتری دارد. وقتی به‌تنهایی ارجاع شود، قابلیت دیده‌شدن 100٪ را به‌دست می‌آورد و در سطوح رقابت کم تا متوسط، نمایش بالایی را حفظ می‌کند.

نتایج کلیدی در زیر نمایش داده شده‌اند.

  • قابلیت دیده‌شدن تک‌دامنه. امتیاز میانی 100٪
  • 2 تا 5 هم‌ذکر. پایداری بالا (میانگین 90 تا 95٪)
  • 6 تا 10 هم‌ذکر. کاهش متوسط (میانگین ~80٪)
  • 11+ هم‌ذکر. قابلیت دیده‌شدن میانی حدود 80٪ باقی می‌ماند

پرسش‌هایی که قابلیت دیده‌شدن 100٪ را به‌دست می‌آورند معمولاً به آموزش‌ها یا محتوای ویدیویی مرتبط هستند (YouTube Shorts monetization، چگونه یک ویدئو بارگذاری کنیم)؛ در حالی که 0٪ قابلیت دیده‌شدن در پرسش‌های متنی‌محور که سایت‌های مرجع تسلط دارند، مشاهده می‌شود.

هر دو دامنه در سطوح رقابت کم‌ترین نمایش را به‌دست می‌آورند و حتی در سطوح رقابت بالا نیز حضور دارند؛ این تحلیل نشان می‌دهد که قابلیت دیده‌شدن LLM بیشتر به مرتبط بودن زمینه‌ای وابسته است تا به اعتبار مطلق.

کدام عوامل بهترین پیش‌بینی‌کنندهٔ قابلیت دیده‌شدن LLM هستند؟

سه پیش‌بینی‌کنندهٔ اصلی برای درک عوامل مؤثر بر نمایش در پاسخ‌های مدل‌های زبانی بزرگ تجزیه و تحلیل شدند. این متغیرها اعتبار، رقابت و برجستگی را می‌سنجند و نشان می‌دهند چگونه LLMها قابلیت دیده‌شدن را بین دامنه‌های مختلف توزیع می‌کنند.

نتایج کلیدی در زیر نمایش داده شده‌اند.

  • معیارهای اعتبار (DP، DR، DA). همبستگی منفی ضعیف با قابلیت دیده‌شدن در تمام مدل‌ها.
  • فرکانس هم‌ذکر. همبستگی منفی قوی، که تأیید می‌کند شدت رقابت بالاترین تأثیر را دارد.
  • نرخ برد (Visibility = 100). همبستگی مثبت متوسط، نشان می‌دهد که حضور مستمر در صدر به‌صورت جزئی الگوهای قابلیت دیده‌شدن را تقویت می‌کند.

هر عامل به‌صورت متفاوتی مؤثر است. معیارهای اعتبار بازتاب‌دهندهٔ ساختار سنتی سئو هستند اما در محیط‌های تولیدی پیش‌بینی‌کنندهٔ عملکرد نیستند. فرکانس هم‌ذکر چگالی رقابتی است که ثابت‌ترین نشانگر نتایج قابلیت دیده‌شدن می‌باشد. نرخ برد نشانگر تکرار ارجاع است اما پیش‌بینی‌پذیری کمتری نسبت به دینامیک‌های رقابتی دارد.

زمینهٔ رقابتی و هم‌سویی موضوعی به‌عنوان قوی‌ترین پیش‌بینی‌کننده‌های قابلیت دیده‌شدن نمایان می‌شوند. نتایج تأیید می‌کند که مدل‌های زبانی بزرگ بر مرتبط بودن زمینه‌ای و تنوع بیش از اعتبار تأکید می‌کنند، و کشف را بر پایهٔ کیفیت اطلاعات نه بر پایهٔ شهرت ناشی از پیوندهای بازگشتی بازنگری می‌کند.

تیم‌های سئو و هوش مصنوعی باید با این یافته‌ها چه کار کنند؟

تحلیل تأیید می‌کند که DP، DR، DA روابط ضعیف یا منفی با قابلیت دیده‌شدن در داخل مدل‌های زبانی بزرگ دارند. معیارهای سنتی اعتبار همچنان برای جستجوی گوگل مهم هستند، اما در نتایج تولید‌شده توسط هوش مصنوعی پیش‌بینی‌کنندهٔ قوی نیستند.

۱. قابلیت دیده‌شدن LLM را به‌عنوان لایهٔ جدید عملکرد در نظر بگیرید

امتیاز LLM Visibility Score را در کنار معیارهای سنتی مانند قدرت دامنه و داده‌های ترافیک بررسی کنید. اعتبار همچنان بر رتبه‌بندی‌های ارگانیک تأثیر دارد، اما قابلیت دیده‌شدن در LLMها لایه‌ای جداگانه از نمایش برند است که تحت منطق متفاوتی عمل می‌کند.

۲. برای مرتبط بودن زمینه‌ای بهینه‌سازی کنید

قابلیت دیده‌شدن را با بهبود تطبیق موضوع، وضوح معنایی، و ساختار زمینه‌ای در محتوا افزایش دهید. LLMها بر مرتبط بودن و دقت اطلاعاتی نسبت به مقدار پیوندهای بازگشتی اولویت می‌دهند. صفحاتی که درخواست‌ها را به‌طور جامع پاسخ می‌دهند و به‌دقت با نیت پرسش همخوانی دارند، بیشتر ارجاع می‌شوند.

۳. اولویت‌های ساخت لینک را بازنگری کنید

سرمایه‌گذاری‌های ساخت لینک را مجدداً ارزیابی کنید. به‌جای تمرکز بر افزایش اعتبار، بر اتصالات زمینه‌ای و مفهومی تمرکز کنید. یافته‌ها نشان می‌دهند که مجرد داشتن DR یا DA بالا به تنهایی احتمال ارجاع در مدل‌های هوش مصنوعی را ارتقا نمی‌دهد.

۴. خوشه‌های محتوای متمرکز بر موجودیت‌ها بسازید

خوشه‌های محتوایی ایجاد کنید که روابط موجودیتی بین مفاهیم، برندها و موضوعات را تعریف می‌کنند. ساختار داخلی منسجم، نشانه‌گذاری اسکیما و عمق موضوعی، نحوهٔ تفسیر LLMها از تخصص موضوعی را بهبود می‌بخشد و مرتبط بودن را در پاسخ‌های تولیدشده تعیین می‌کند.

۵. معیارهای مقایسه‌ای را در پلتفرم‌های مختلف تهیه کنید

روندهای قابلیت دیده‌شدن را در بین ChatGPT، Gemini و Perplexity مقایسه کنید. تفاوت‌های بین‌مدلی به تیم‌ها امکان می‌دهد تا جایی که ساختار محتوا و نمایندگی موضوعی بهترین عملکرد را دارد، شناسایی کنند. پیگیری این سیگنال‌ها نشان می‌دهد مدل‌ها چگونه در ارزیابی اعتماد و مرتبط بودن متفاوت عمل می‌کنند.

محدودیت‌های این مطالعه چیست؟

هر مجموعه داده دارای محدودیت‌های حوزه و زمان‌بندی است. محدودیت‌های این تحلیل در زیر فهرست شده‌اند.

  • داده‌های قابلیت دیده‌شدن فقط از ۳ مدل زبانی بزرگ (OpenAI، Perplexity، و Gemini) در یک بازهٔ دو ماهه جمع‌آوری شد.
  • این مطالعه حس یا لحن متنی ارجاع‌های دامنه در پاسخ‌های مدل را ارزیابی نکرد.
  • معیار نرخ برد فقط حضورهای با قابلیت دیده‌شدن کامل (امتیاز = 100) را ثبت کرد و ارجاع‌های جزئی یا وزن‌دار را نادیده گرفت.
  • مقایسه بین‌مدلی شامل Claude و SearchGPT نمی‌شود؛ که این امر تعمیم‌پذیری نتایج را در فضای گسترده‌تری از مدل‌های LLM محدود می‌کند.

با وجود این محدودیت‌ها، یافته‌ها در تمام سیستم‌های تحلیل‌شده ثابت باقی می‌مانند. همبستگی‌ها بین اعتبار و قابلیت دیده‌شدن به‌صورت منفی ضعیف باقی می‌مانند، که تأیید می‌کند نمایش در LLM بیشتر به مرتبط بودن زمینه‌ای وابسته است تا به معیارهای سنتی اعتبار.

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *