OpenAI در تلاش شدید برای اجتناب از توضیح دلیل حذف مجموعه‌ داده‌های کتاب‌های دزدی‌برداری

OpenAI پس از حذف مجموعه‌ داده‌های کتاب‌های دزدی‌برداری با خطر افزایش جریمه‌ها مواجه است.

اعتبار: wenmei Zhou | DigitalVision Vectors
اعتبار: wenmei Zhou | DigitalVision Vectors

ممکن است OpenAI به زودی مجبور به توضیح دلیل حذف دو مجموعه‌ دادهٔ جنجالی شود که از کتاب‌های دزدی‌برداری تشکیل شده‌اند، و اهمیت این موضوع بیش از این نمی‌تواند باشد.

در مرکز یک دعوی جمعی از سوی نویسندگانی که مدعی‌اند ChatGPT به‌طور غیرقانونی بر روی آثارشان آموزش دیده است، تصمیم OpenAI برای حذف این مجموعه‌های داده می‌تواند عامل تعیین‌کننده‌ای باشد که به نفع نویسندگان منجر شود.

بدون تردید، OpenAI مجموعه‌های داده‌ای به نام «Books 1» و «Books 2» را پیش از انتشار ChatGPT در سال ۲۰۲۲ حذف کرد. این مجموعه‌ها که در سال ۲۰۲۱ توسط کارمندان پیشین OpenAI ساخته شده‌اند، از طریق جمع‌آوری اطلاعات وب باز و استخراج عمده‌ای از داده‌ها از یک کتابخانهٔ سایه به نام Library Genesis (LibGen) ساخته شدند.

طبق توضیح OpenAI، این مجموعه‌ها همان سال از کار افتاده‌اند که باعث تصمیم داخلی برای حذفشان شد.

اما نویسندگان گمان می‌دارند که داستان فراتر از این است. آن‌ها اشاره کردند که OpenAI به‌نظر می‌رسد ادعای خود مبنی بر اینکه «عدم استفاده» از مجموعه‌ها دلیل حذف آن بوده را پس‌زدن کرده، سپس بعداً ادعا کرد که تمام دلایل حذف، از جمله «عدم استفاده»، باید تحت حریم محرمانگی وکیل‑مشتری محافظت شود.

از دید نویسندگان، به‌نظر می‌رسید OpenAI به‌سرعت پس‌نشینی می‌کند پس از اینکه دادگاه درخواست‌های کشف اطلاعات نویسندگان برای بررسی پیام‌های داخلی OpenAI دربارهٔ «عدم استفاده» شرکت را تأیید کرد.

در واقع، تغییر موضع OpenAI فقط باعث شد نویسندگان بیشتر مشتاق شوند ببینند OpenAI دربارهٔ «عدم استفاده» چه گفت و حالا ممکن است تمام دلایل حذف این مجموعه‌ها را کشف کنند.

هفته گذشته، قاضی دادگاه ایالات متحده، اوانا وُنگ، از OpenAI دستور داد تا تمام مکاتبات با وکلای داخلی دربارهٔ حذف این مجموعه‌ها را به اشتراک بگذارد، همچنین «تمام ارجاعات داخلی به LibGen که OpenAI بر پایه محرمانگی وکیل‑مشتری مخفی یا حذف کرده است».

به گفتهٔ وُنگ، OpenAI خطا کرد و استدلال کرد که «عدم استفاده» یک «دلیل» برای حذف مجموعه‌ها نیست، در حالی که همزمان ادعا می‌کرد که باید به‌عنوان یک «دلیل» محرمانه در نظر گرفته شود.

به هر حال، قاضی حکم داد که OpenAI نمی‌تواند با حذف چند کلمه از پرونده‌های قبلی که بیش از یک سال در پرونده حضور داشته‌اند، کشف اطلاعات دربارهٔ «عدم استفاده» را مسدود کند.

«OpenAI دربارهٔ این‌که آیا «عدم استفاده» به عنوان «دلیل» حذف کتاب‌های ۱ و ۲ محرمانه است یا نه، به‌طور پیوسته دچار تغییر موضع شده است»، وُنگ نوشت. «OpenAI نمی‌تواند یک «دلیل» (که نشان می‌دهد محرمانه نیست) را اعلام کند و سپس ادعا کند که همان «دلیل» برای جلوگیری از کشف اطلاعات محرمانه است».

همچنین، ادعای OpenAI مبنی بر اینکه تمام دلایل حذف این مجموعه‌ها محرمانه هستند «به‌حدی غیرقابل باور است»، او در پایان گفت و از OpenAI خواست تا تا تاریخ ۸ دسامبر، مجموعه‌ای گسترده از پیام‌های داخلی احتمالی که می‌تواند فاش‌کننده باشد، ارائه دهد. OpenAI همچنین باید وکلای داخلی خود را برای ارائه شهادت تا ۱۹ دسامبر در دسترس داشته باشد.

OpenAI ادعا می‌کند که هرگز موضع خود را عوض یا چیزی را پس‌نمی‌گیرد. صرفاً از عبارات مبهم استفاده کرده که باعث سردرگمی شد که آیا هر یک از دلایل حذف مجموعه‌ها محرمانه نیستند. اما وُنگ این ادعا را نپذیرفت و نتیجه‌گیری کرد که «حتی اگر «دلیل»ی مانند «عدم استفاده» می‌توانست محرمانه باشد، OpenAI با تغییر مداوم مبادلات خود، حق محرمانگی را از خود سلب کرده است».

در پاسخ به درخواست اظهار نظر، OpenAI به Ars اطلاع داد: «ما با این حکم مخالفیم و قصد داریم تجدیدنظر کنیم».

«flip‑flop» OpenAI ممکن است سبب از دست رفتن پیروزی‌اش شود

تا کنون، OpenAI از افشای دلایل خود خودداری کرده است و ادعا می‌کند تمام دلایل حذف این مجموعه‌ها محرمانه‌اند. وکلای داخلی در تصمیم به حذف مشارکت داشتند و حتی به یک کانال Slack که در ابتدا «excise‑libgen» نامیده می‌شد، کپی شدند.

اما وُنگ این پیام‌های Slack را مرور کرد و دریافت که «اکثریت قریب به همه این مکاتبات محرمانه نبودند زیرا واضحاً فاقد هر گونه درخواست مشاورهٔ حقوقی بودند و مشاوران یک‌بار هم نظرتان ندادند».

در یک دستهٔ خاص از پیام‌های غیرمحرمانه، یکی از وکلای OpenAI، جیسون کووون، تنها یک بار نظر داد، همان‌طور که قاضی اشاره کرد، تا نام کانال را به «project‑clear» تغییر دهد. وُنگ به OpenAI یادآوری کرد که «تمامی محتوای این کانال Slack و تمام پیام‌های موجود در آن به‌دلیل اینکه تحت دستور یک وکیل ایجاد شده یا به‌دلیل این‌که یک وکیل در مکاتبات کپی شده است، محرمانه نیست».

قاضی برای پیچاندن حکم استفاده منصفانه، OpenAI را سرزنش کرد

وُنگ همچنین این را متناقض یافت که OpenAI در حالی که در پروندهٔ اخیر ادعا می‌کردی‌که با حسن نیت عمل کرده، به‌طور «ماهرانه» دفاع مثبت حسن نیت خود و کلمات کلیدی مانند «بی‌گناه»، «به‌طور معقول معتقد»، و «حسن نیت» را حذف کرده است. این تغییرات تنها درخواست‌های کشف اطلاعات برای بررسی نظریهٔ عمدی‌ بودن نویسندگان را تقویت کرد، وُنگ نوشت و اشاره کرد که پیام‌های داخلی مورد نظر، اکنون برای بررسی دادگاه حیاتی می‌شوند.

«هیئت‌دوران از حق دانستن مبنای ادعای حسن نیت OpenAI برخوردار است»، وُنگ نوشت.

به‌نظر می‌رسید قاضی به‌خصوص از این‌که OpenAI به‌ظاهر تصمیم Anthropic را به‌نفع خود پیچانده تا در برابر درخواست نویسندگان برای کسب اطلاعات بیشتر درباره حذف مجموعه‌ها دفاع کند، نارضایتی شدیدی داشته باشد.

در یک پاورقی، وُنگ OpenAI را به‌خاطر «به‌طوری عجیبی» استناد به تصمیم Anthropic که «به‌صورت شدیدی» تصمیم قاضی ویلیام الساپ را تحریف کرده بود، متهم کرد؛ چرا که ادعا می‌کرد او به این نتیجه رسیده بود که «بارگیری نسخه‌های دزدی‌برداری کتاب‌ها قانونی است تا زمانی که پس از آن برای آموزش یک مدل زبانی بزرگ (LLM) استفاده شود».

در عوض، الساپ نوشت که او تردید دارد «هیچ تخلف‌کننده متهمی بتواند بار زنده‌گی‌اش را برآورده کند و توضیح دهد چرا بارگیری نسخه‌های منبع از سایت‌های دزدی‌برداری که می‌توانست به‌صورت قانونی خریداری یا به‌دست آورد، به‌طور منطقی برای استفاده منصفانهٔ بعدی ضروری بوده است».

اگر بخواهیم به‌دقت بگوییم، وُنگ نوشت که تصمیم OpenAI برای دزدیدن داده‌های کتاب و سپس حذف آن‌ها «به‌طور قطع در دستهٔ فعالیت‌های ممنوع شده توسط» الساپ قرار می‌گیرد. برای تأکید، او اقتباسی از دستور الساپ را بیان کرد که می‌گوید: «این نوع دزدی‌برداری از نسخه‌های در دسترس، ذاتاً و به‌طور غیرقابل جبران نقض حق تکثیر است، حتی اگر نسخه‌های دزدی‌برداری بلافاصله برای استفاده تحول‌آفرین به‌کار برده شوند و فوراً نابود شوند».

به‌نظرتن گزارش Hollywood Reporter، برای نویسندگان دسترسی به مکاتبات محرمانهٔ OpenAI می‌تواند ترازو را به نفع آن‌ها متمایل کند. برخی نویسندگان بر این باورند که کلید پیروزی می‌تواند شهادت دیریو آمودی، مدیرعامل Anthropic، باشد که متهم به ایجاد مجموعه‌های دادهٔ جنجالی در زمان حضورش در OpenAI شده است. بر اساس اسناد دادگاهی، نویسندگان بر این باورند که آمودی همچنین اطلاعاتی دربارهٔ نابودسازی این مجموعه‌ها در اختیار دارد.

OpenAI سعی کرد در برابر درخواست نویسندگان برای استیضاح آمودی مخالفت کند، اما در مارس قاضی به نفع نویسندگان حکمی صادر کرد که آمودی را ملزم به پاسخ دادن به مهم‌ترین پرسش‌های آن‌ها دربارهٔ مشارکتش کرد.

اینکه آیا شهادت آمودی یک انفجار اطلاعاتی خواهد بود یا نه، هنوز مشخص نیست، اما به‌وضوح معلوم است که OpenAI ممکن است در مقابله با ادعاهای نقض عمدی دچار مشکل شود. وُنگ اشاره کرد که در شرایطی «تضاد اساسی» وجود دارد «جایی که یک طرف دفاع با حسن نیت مبتنی بر مشاورهٔ وکیل می‌پذیرد اما سپس با ادعای محرمانگی وکیل‑مشاور، تحقیقات دربارهٔ ذهنیت خود را مسدود می‌کند»، که نشان می‌دهد OpenAI دفاع خود را به‌طور قابل‌توجهی تضعیف کرده است.

نتیجهٔ این منازعه دربارهٔ حذف‌ها می‌تواند بر محاسبهٔ OpenAI دربارهٔ این‌که آیا نهایتاً باید دعوا را حل‌وفصل کند یا نه، تأثیر بگذارد. پیش از توافق Anthropic — بزرگ‌ترین توافق جمعی حقوقی گزارش‌شده در تاریخ — نویسندگان دعوی به شواهدی اشاره کردند که نشان می‌دهد Anthropic به‌دلیل دلایل قانونی «در مورد آموزش بر مبنای کتاب‌های دزدی‌برداری دیگر چنین مشتاقی نداشت». به‌نظر می‌رسد این نوع شواهد «دقیقی» باشد که نویسندگان امید دارند از پیام‌های Slack مخفی شدهٔ OpenAI بیرون بیاید.

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *