OpenAI پس از حذف مجموعه دادههای کتابهای دزدیبرداری با خطر افزایش جریمهها مواجه است.


ممکن است OpenAI به زودی مجبور به توضیح دلیل حذف دو مجموعه دادهٔ جنجالی شود که از کتابهای دزدیبرداری تشکیل شدهاند، و اهمیت این موضوع بیش از این نمیتواند باشد.
در مرکز یک دعوی جمعی از سوی نویسندگانی که مدعیاند ChatGPT بهطور غیرقانونی بر روی آثارشان آموزش دیده است، تصمیم OpenAI برای حذف این مجموعههای داده میتواند عامل تعیینکنندهای باشد که به نفع نویسندگان منجر شود.
بدون تردید، OpenAI مجموعههای دادهای به نام «Books 1» و «Books 2» را پیش از انتشار ChatGPT در سال ۲۰۲۲ حذف کرد. این مجموعهها که در سال ۲۰۲۱ توسط کارمندان پیشین OpenAI ساخته شدهاند، از طریق جمعآوری اطلاعات وب باز و استخراج عمدهای از دادهها از یک کتابخانهٔ سایه به نام Library Genesis (LibGen) ساخته شدند.
طبق توضیح OpenAI، این مجموعهها همان سال از کار افتادهاند که باعث تصمیم داخلی برای حذفشان شد.
اما نویسندگان گمان میدارند که داستان فراتر از این است. آنها اشاره کردند که OpenAI بهنظر میرسد ادعای خود مبنی بر اینکه «عدم استفاده» از مجموعهها دلیل حذف آن بوده را پسزدن کرده، سپس بعداً ادعا کرد که تمام دلایل حذف، از جمله «عدم استفاده»، باید تحت حریم محرمانگی وکیل‑مشتری محافظت شود.
از دید نویسندگان، بهنظر میرسید OpenAI بهسرعت پسنشینی میکند پس از اینکه دادگاه درخواستهای کشف اطلاعات نویسندگان برای بررسی پیامهای داخلی OpenAI دربارهٔ «عدم استفاده» شرکت را تأیید کرد.
در واقع، تغییر موضع OpenAI فقط باعث شد نویسندگان بیشتر مشتاق شوند ببینند OpenAI دربارهٔ «عدم استفاده» چه گفت و حالا ممکن است تمام دلایل حذف این مجموعهها را کشف کنند.
هفته گذشته، قاضی دادگاه ایالات متحده، اوانا وُنگ، از OpenAI دستور داد تا تمام مکاتبات با وکلای داخلی دربارهٔ حذف این مجموعهها را به اشتراک بگذارد، همچنین «تمام ارجاعات داخلی به LibGen که OpenAI بر پایه محرمانگی وکیل‑مشتری مخفی یا حذف کرده است».
به گفتهٔ وُنگ، OpenAI خطا کرد و استدلال کرد که «عدم استفاده» یک «دلیل» برای حذف مجموعهها نیست، در حالی که همزمان ادعا میکرد که باید بهعنوان یک «دلیل» محرمانه در نظر گرفته شود.
به هر حال، قاضی حکم داد که OpenAI نمیتواند با حذف چند کلمه از پروندههای قبلی که بیش از یک سال در پرونده حضور داشتهاند، کشف اطلاعات دربارهٔ «عدم استفاده» را مسدود کند.
«OpenAI دربارهٔ اینکه آیا «عدم استفاده» به عنوان «دلیل» حذف کتابهای ۱ و ۲ محرمانه است یا نه، بهطور پیوسته دچار تغییر موضع شده است»، وُنگ نوشت. «OpenAI نمیتواند یک «دلیل» (که نشان میدهد محرمانه نیست) را اعلام کند و سپس ادعا کند که همان «دلیل» برای جلوگیری از کشف اطلاعات محرمانه است».
همچنین، ادعای OpenAI مبنی بر اینکه تمام دلایل حذف این مجموعهها محرمانه هستند «بهحدی غیرقابل باور است»، او در پایان گفت و از OpenAI خواست تا تا تاریخ ۸ دسامبر، مجموعهای گسترده از پیامهای داخلی احتمالی که میتواند فاشکننده باشد، ارائه دهد. OpenAI همچنین باید وکلای داخلی خود را برای ارائه شهادت تا ۱۹ دسامبر در دسترس داشته باشد.
OpenAI ادعا میکند که هرگز موضع خود را عوض یا چیزی را پسنمیگیرد. صرفاً از عبارات مبهم استفاده کرده که باعث سردرگمی شد که آیا هر یک از دلایل حذف مجموعهها محرمانه نیستند. اما وُنگ این ادعا را نپذیرفت و نتیجهگیری کرد که «حتی اگر «دلیل»ی مانند «عدم استفاده» میتوانست محرمانه باشد، OpenAI با تغییر مداوم مبادلات خود، حق محرمانگی را از خود سلب کرده است».
در پاسخ به درخواست اظهار نظر، OpenAI به Ars اطلاع داد: «ما با این حکم مخالفیم و قصد داریم تجدیدنظر کنیم».
«flip‑flop» OpenAI ممکن است سبب از دست رفتن پیروزیاش شود
تا کنون، OpenAI از افشای دلایل خود خودداری کرده است و ادعا میکند تمام دلایل حذف این مجموعهها محرمانهاند. وکلای داخلی در تصمیم به حذف مشارکت داشتند و حتی به یک کانال Slack که در ابتدا «excise‑libgen» نامیده میشد، کپی شدند.
اما وُنگ این پیامهای Slack را مرور کرد و دریافت که «اکثریت قریب به همه این مکاتبات محرمانه نبودند زیرا واضحاً فاقد هر گونه درخواست مشاورهٔ حقوقی بودند و مشاوران یکبار هم نظرتان ندادند».
در یک دستهٔ خاص از پیامهای غیرمحرمانه، یکی از وکلای OpenAI، جیسون کووون، تنها یک بار نظر داد، همانطور که قاضی اشاره کرد، تا نام کانال را به «project‑clear» تغییر دهد. وُنگ به OpenAI یادآوری کرد که «تمامی محتوای این کانال Slack و تمام پیامهای موجود در آن بهدلیل اینکه تحت دستور یک وکیل ایجاد شده یا بهدلیل اینکه یک وکیل در مکاتبات کپی شده است، محرمانه نیست».
قاضی برای پیچاندن حکم استفاده منصفانه، OpenAI را سرزنش کرد
وُنگ همچنین این را متناقض یافت که OpenAI در حالی که در پروندهٔ اخیر ادعا میکردیکه با حسن نیت عمل کرده، بهطور «ماهرانه» دفاع مثبت حسن نیت خود و کلمات کلیدی مانند «بیگناه»، «بهطور معقول معتقد»، و «حسن نیت» را حذف کرده است. این تغییرات تنها درخواستهای کشف اطلاعات برای بررسی نظریهٔ عمدی بودن نویسندگان را تقویت کرد، وُنگ نوشت و اشاره کرد که پیامهای داخلی مورد نظر، اکنون برای بررسی دادگاه حیاتی میشوند.
«هیئتدوران از حق دانستن مبنای ادعای حسن نیت OpenAI برخوردار است»، وُنگ نوشت.
بهنظر میرسید قاضی بهخصوص از اینکه OpenAI بهظاهر تصمیم Anthropic را بهنفع خود پیچانده تا در برابر درخواست نویسندگان برای کسب اطلاعات بیشتر درباره حذف مجموعهها دفاع کند، نارضایتی شدیدی داشته باشد.
در یک پاورقی، وُنگ OpenAI را بهخاطر «بهطوری عجیبی» استناد به تصمیم Anthropic که «بهصورت شدیدی» تصمیم قاضی ویلیام الساپ را تحریف کرده بود، متهم کرد؛ چرا که ادعا میکرد او به این نتیجه رسیده بود که «بارگیری نسخههای دزدیبرداری کتابها قانونی است تا زمانی که پس از آن برای آموزش یک مدل زبانی بزرگ (LLM) استفاده شود».
در عوض، الساپ نوشت که او تردید دارد «هیچ تخلفکننده متهمی بتواند بار زندهگیاش را برآورده کند و توضیح دهد چرا بارگیری نسخههای منبع از سایتهای دزدیبرداری که میتوانست بهصورت قانونی خریداری یا بهدست آورد، بهطور منطقی برای استفاده منصفانهٔ بعدی ضروری بوده است».
اگر بخواهیم بهدقت بگوییم، وُنگ نوشت که تصمیم OpenAI برای دزدیدن دادههای کتاب و سپس حذف آنها «بهطور قطع در دستهٔ فعالیتهای ممنوع شده توسط» الساپ قرار میگیرد. برای تأکید، او اقتباسی از دستور الساپ را بیان کرد که میگوید: «این نوع دزدیبرداری از نسخههای در دسترس، ذاتاً و بهطور غیرقابل جبران نقض حق تکثیر است، حتی اگر نسخههای دزدیبرداری بلافاصله برای استفاده تحولآفرین بهکار برده شوند و فوراً نابود شوند».
بهنظرتن گزارش Hollywood Reporter، برای نویسندگان دسترسی به مکاتبات محرمانهٔ OpenAI میتواند ترازو را به نفع آنها متمایل کند. برخی نویسندگان بر این باورند که کلید پیروزی میتواند شهادت دیریو آمودی، مدیرعامل Anthropic، باشد که متهم به ایجاد مجموعههای دادهٔ جنجالی در زمان حضورش در OpenAI شده است. بر اساس اسناد دادگاهی، نویسندگان بر این باورند که آمودی همچنین اطلاعاتی دربارهٔ نابودسازی این مجموعهها در اختیار دارد.
OpenAI سعی کرد در برابر درخواست نویسندگان برای استیضاح آمودی مخالفت کند، اما در مارس قاضی به نفع نویسندگان حکمی صادر کرد که آمودی را ملزم به پاسخ دادن به مهمترین پرسشهای آنها دربارهٔ مشارکتش کرد.
اینکه آیا شهادت آمودی یک انفجار اطلاعاتی خواهد بود یا نه، هنوز مشخص نیست، اما بهوضوح معلوم است که OpenAI ممکن است در مقابله با ادعاهای نقض عمدی دچار مشکل شود. وُنگ اشاره کرد که در شرایطی «تضاد اساسی» وجود دارد «جایی که یک طرف دفاع با حسن نیت مبتنی بر مشاورهٔ وکیل میپذیرد اما سپس با ادعای محرمانگی وکیل‑مشاور، تحقیقات دربارهٔ ذهنیت خود را مسدود میکند»، که نشان میدهد OpenAI دفاع خود را بهطور قابلتوجهی تضعیف کرده است.
نتیجهٔ این منازعه دربارهٔ حذفها میتواند بر محاسبهٔ OpenAI دربارهٔ اینکه آیا نهایتاً باید دعوا را حلوفصل کند یا نه، تأثیر بگذارد. پیش از توافق Anthropic — بزرگترین توافق جمعی حقوقی گزارششده در تاریخ — نویسندگان دعوی به شواهدی اشاره کردند که نشان میدهد Anthropic بهدلیل دلایل قانونی «در مورد آموزش بر مبنای کتابهای دزدیبرداری دیگر چنین مشتاقی نداشت». بهنظر میرسد این نوع شواهد «دقیقی» باشد که نویسندگان امید دارند از پیامهای Slack مخفی شدهٔ OpenAI بیرون بیاید.
دیدگاهتان را بنویسید