تمام اتفاقات بدی که می‌تواند هنگام تولید یک ویدیو سُرا برای شما رخ دهد

سرگرم‌کننده است که با هوش مصنوعی پیشرفته بازی کنید. این‌جا دلایلی وجود دارد که شاید هنوز هم نباید این کار را انجام دهید.

تصویر تولید شده توسط هوش مصنوعی از نویسنده
تصویر تولید شده توسط هوش مصنوعی از نویسنده © سُرا

به محض اینکه فرصتی پیدا شد، برنامه سُرا را دانلود کردم. عکس‌های چهره‌ام — چهره‌ای که بچه‌هایم هنگام خواب می‌بوسند — و صدایم — صدایی که برای گفتن «دوستت دارم» به همسرم استفاده می‌کنم — به پروفایل سُرا بارگذاری کردم. تمام این کارها را انجام دادم تا بتوانم از ویژگی «Cameo» سُرا استفاده کنم و یک ویدیو احمقانه بسازم که نسخه هوش مصنوعی خودم را تحت شلیک توپ‌های رنگی صد نفر سالمند ساکن یک خانه سالمندان نشان می‌دهد.

چه کاری انجام دادم؟ برنامه سُرا توسط سُرا ۲، یک مدل هوش مصنوعی — و صادقانه بگویم، شگفت‌انگیز — قوا می‌گیرد. این مدل می‌تواند ویدیوهایی بسازد که می‌توان آنها را از سطح ساده‌لوحانه تا کاملاً شیطانی دسته‌بندی کرد. این یک سیاهچاله از انرژی و داده است و همچنین توزیع‌کننده‌ای از محتوای بسیار مشکوک می‌باشد. همانند بسیاری از چیزهای امروزی، استفاده از سُرا حس کمی «گناه‌آلود» به آدم می‌دهد، حتی اگر دقیقاً ندانید چرا.

پس اگر تازه یک ویدیو سُرا تولید کرده‌اید، این تمام اخبار بد برایتان است. با خواندن این متن، خود را برای احساس کمی گناه‌پذیری و نادیده‌گیری دعوت می‌کنید، و آرزوی شما برای من دستورات است.

مقداری از برق که به‌تازگی مصرف کردید

بر اساس گزارش CNET، یک ویدیوی سُرا حدود ۹۰ وات‑ساعت برق مصرف می‌کند. این عدد یک تخمین علمی است که از مطالعه‌ای درباره مصرف انرژی کارت‌های گرافیکی توسط Hugging Face استخراج شده است.

OpenAI هنوز ارقامی را که برای این مطالعه لازم است، منتشر نکرده و ردپای انرژی سُرا باید از مدل‌های مشابه استنتاج شود. ساشا لوسیونی، یکی از پژوهشگران Hugging Face که این کار را انجام داد، خوشحال نیست از تخمین‌های مشابه به‌ویژه تخمینی که در بالا ذکر شد. او در مصاحبه‌ای با MIT Technology Review گفت: «باید از تلاش برای مهندسی معکوس اعداد بر پایه شایعات دست بکشیم» و بر این نکته تأکید کرد که باید شرکت‌هایی مثل OpenAI را به انتشار داده‌های دقیق ترغیب کنیم.

به هر حال، روزنامه‌نگاران مختلف بر پایه داده‌های Hugging Face تخمین‌های متفاوتی ارائه داده‌اند. برای مثال، وال استریت جورنال تخمین زده است که مصرف بین ۲۰ تا ۱۰۰ وات‑ساعت باشد.

CNET تخمین خود را به‌صورت مقایسه یک تلویزیون ۶۵ اینچی که به مدت ۳۷ دقیقه روشن است، تشبیه می‌کند. وال استریت جورنال تولید یک ویدیو سُرا را به پختن یک استیک از حالت خام تا نیم‌پز روی یک گریل برقی بیرون از خانه (چون به‌نظر می‌رسد چنین دستگاهی وجود دارد) مقایسه می‌کند.

ارزش دارد چند نکته دربارهٔ مصرف انرژی این موضوع را واضح کنیم تا احساس شما را حتی بدتر کنیم. ابتدا، آنچه که من توضیح دادم صرف هزینهٔ انرژی در فرآیند استنتاج است که به‌عنوان اجرای مدل در پاسخ به یک درخواست (پرومپت) نیز شناخته می‌شود. آموزش واقعی مدل سُرا به مقدار نامعلومی از برق، البته قطعا عظیم، نیاز داشته است. مدل زبان بزرگ GPT‑4 تخمین زده می‌شود حدود ۵۰ گیگاوات‑ساعت انرژی مصرف کرده باشد — که به‌نقض گفته شده قادر به تأمین برق سانفرانسیس برای ۷۲ ساعت است. سُرا، به‌عنوان یک مدل ویدئویی، بیش از آن مقدار انرژی مصرف کرده، ولی چقدر بیشتر است نامشخص.

اگر از زاویه‌ای خاص نگاه کنید، شما پیش از این که حتی یک ویدیو تولید کنید، سهمی از این هزینهٔ ناشناخته را‌به‌خاطر استفاده از مدل می‌پذیرید.

دوم، جداسازی استنتاج از آموزش به‌عنوان یک جنبه مهم دیگری در تعیین میزان گناه‌پذیری زیست‌محیطی شناخته می‌شود (آیا هنوز برای درخواست‌تان پشیمان هستید؟). می‌توانید هزینه بالای انرژی را به‌عنوان چیزی در نظر بگیرید که already اتفاق افتاده است — همان‌طور که گاوی که در برگر شما است هفته‌ها پیش مرده و نمی‌توانید آن را با سفارش یک پتی «بیاند» (Beyond) پس از نشستن در رستوران احیاء کنید.

از این منظر، اجرای هر مدل هوش مصنوعی مبتنی بر ابر شبیه سفارش «سورف اند تلف» است. «گاو» تمام داده‌های آموزشی ممکن است قبلاً مرده باشد، ولی «خرچنگ» درخواست خاص شما هنوز زنده است تا زمانی که درخواست خود را به «آشپزخانه» یعنی دیتاسنتر که استنتاج در آن انجام می‌شود، بفرستید.

مقدار آبی که به‌تازگی مصرف کردید:

متأسفانه قرار است دوباره تخمین بزنیم. مراکز داده برای خنک‌سازی مقادیر زیادی آب مصرف می‌کنند — یا به‌صورت حلقه بسته یا از طریق تبخیر. شما نمی‌دانید کدام مرکز داده یا چند مرکز داده در تولید آن ویدیوی دوست‌تان که به‌عنوان یک شرکت‌کنندهٔ American Idol در حال «قوزقوز» آهنگ «Camptown Races» بود، دخیل بوده‌اند.

اما احتمالاً هنوز هم بیش از حدی است که برایتان راحت باشد. سام آلتمن، مدیرعامل OpenAI، می‌گوید یک درخواست متنی در ChatGPT حدود «یک‌پانزدهم قاشق چای‌خوری» آب مصرف می‌کند و CNET برآورد می‌کند که یک ویدیو ۲٬۰۰۰ برابر هزینهٔ انرژی یک درخواست متنی دارد. بنابراین، یک تخمین سریع می‌تواند حدود ۰٫۱۷ گالون (حدود ۲۲ اونس مایع)، یعنی کمی بیشتر از یک بطری پلاستیکی کوک باشد.

و این اگر به حرف‌های آلتمن به‌صورت مستقیم اعتماد کنید، است. ممکن است این مقدار بیشتر باشد. علاوه بر این، همان ملاحظات درباره هزینهٔ آموزش نسبت به هزینهٔ استنتاج که برای مصرف انرژی مطرح شد، در اینجا نیز صدق می‌کند. به عبارت دیگر، استفاده از سُرا تصمیمی هوشمندانه از نظر مصرف آب نیست.

احتمال کمی وجود دارد که کسی یک دیپ‌فیک واقعی و زشت از شما بسازد.

تنظیمات حریم‌خصوصی Cameo سُرا قوی‌اند — به‌شرطی که از آن‌ها مطلع باشید و از آن‌ها استفاده کنید. تنظیمات تحت «چه کسی می‌تواند از این استفاده کند» به‌طور تقریبی تصویر شما را از تبدیل به اسباب‌بازی عمومی محافظت می‌کند، به‌شرطی که گزینه «همه» را انتخاب نکنید؛ این گزینه به این معناست که هر کسی می‌تواند ویدیوهای سُرا از شما بسازد.

حتی اگر به‌اندازه‌ای بی‌احتیاط باشید که Cameo عمومی داشته باشید، در برگه «ترجیحات Cameo» کنترل‌های اضافی در اختیار دارید؛ مانند امکان توصیف به‌صورت کلامی اینکه در ویدیوها باید چگونه ظاهر شوید. می‌توانید هر چه می‌خواهید اینجا بنویسید، مثلاً «لاغر، متناسب و ورزشی» یا «همیشه دم‌کش می‌کنم». همچنین می‌توانید قوانینی تعیین کنید که چه کاری نباید در ویدیوهای شما نشان داده شود. به‌عنوان مثال، اگر غذای کشری (کوشر) می‌خورید، می‌توانید بگویید نباید در ویدیوها در حال خوردن بیکن نشان داده شوید.

اما حتی اگر اجازه ندهید Cameo شما توسط دیگران استفاده شود، می‌توانید با داشتن امکان ایجاد موانع محافظتی هنگام ساخت ویدیوهای خود، آرامش خاطر پیدا کنید.

اما موانع کلی محتوایی سُرا کامل نیستند. بر اساس کارت مدل OpenAI برای سُرا، اگر کسی به‌قدر کافی درخواست کند، یک ویدیو توهین‌آمیز می‌تواند از میان این موانع سر در بیاید.

کارت، نرخ موفقیت فیلترهای محتوای مختلف را در بازهٔ ۹۵‑۹۸٪ نشان می‌دهد. اما اگر تنها شکست‌ها را محاسبه کنید، احتمال ۱٫۶٪ برای یک دیپ‌فیک جنسی، ۴٫۹٪ برای ویدیو حاوی خشونت و/یا خون‌ریزی، ۴٫۴۸٪ برای چیزی به نام «تسلط سیاسی مخرب» و ۳٫۱۸٪ برای افراط‌گرایی یا نفرت وجود دارد. این احتمالات از «هزاران درخواست مخالف» که از طریق هدف‌گیری «red‑team» جمع‌آوری شده‌اند، محاسبه شده‌اند — به عبارت دیگر، سعی در شکستن موانع با درخواست‌های نقض قوانین بوده‌اند.

بنابراین احتمال اینکه کسی یک دیپ‌فیک جنسی یا خشونت‌آمیز از شما بسازد، کم است، اما OpenAI (احتمالاً با درایت) هرگز نمی‌گوید «هرگز».

ممکن است کسی ویدیویی بسازد که در آن شما به مدفوع دست می‌زنید.

در آزمون‌های من، فیلترهای محتوایی سُرا به‌طور کلی همان‌طور که تبلیغ می‌شد کار می‌کردند و من هرگز آنچه کارت مدل دربارهٔ شکست‌های آن می‌گوید را تأیید نکردم. من به‌دقت ۱۰۰ درخواست متفاوت برای فریب سُرا تا محتواهای جنسی تولید کند، ایجاد نکردم. اگر برای یک Cameo از خودتان، حالت برهنگی را درخواست کنید، پیام «تخلف محتوا» به‌جای ویدیو نمایش داده می‌شود.

با این حال، برخی محتواهای احتمالی مشکل‌ساز به‌قدری ضعیف نظارت می‌شوند که کاملاً بدون فیلتر باقی می‌مانند. به‌طور خاص، سُرا ظاهراً نسبت به محتوای اسکلولوژیک (مربوط به مدفوع) بی‌توجه است و این نوع محتوا را بدون هیچ‌گونه محدودیتی تولید می‌کند، مادامی که دیگر سیاست‌های محتوا مانند موارد مربوط به جنسیت و برهنگی را نقض نکند.

بنابراین بله، در آزمون‌هایم سُرا ویدیوهای Cameo از یک شخص که با مدفوع تعامل دارد تولید کرد، از جمله جمع‌آوری مدفوع از توالت با دست‌های برهنه. برای دلایل واضح، ویدیوها را اینجا قرار نمی‌دهم، اما می‌توانید خودتان این را تست کنید. این کار بدون هیچ‌گونه حقه یا مهندسی درخواست خاصی انجام شد.

در تجربهٔ من، مدل‌های قبلی تولید تصویر هوش مصنوعی تدابیری برای جلوگیری از چنین مواردی داشته‌اند، از جمله نسخهٔ بینگ از ژنراتور تصویر OpenAI، DALL‑E، اما به‌نظر می‌رسد این فیلتر در برنامه سُرا غیرفعال شده باشد. فکر نمی‌کنم این حتماً رسوایی باشد، اما بسیار ناخوشایند است!

Gizmodo از OpenAI خواست تا دربارهٔ این موضوع توضیح دهد و در صورت دریافت پاسخ، به‌روزرسانی خواهد شد.

ویدیوی خنده‌دار شما ممکن است یک شایعهٔ ویروسی دیگران باشد.

سُرا ۲ یک جهان وسیع و بی‌پایان از شایعات را گشوده است. شما، مصرف‌کننده‌ای تیزبین و آگاه به اینترنت، هرگز باور نمی‌کنید که ویدیوی ویروسی زیر می‌تواند واقعی باشد. این ویدیو تصویری به‌ظاهر خودجوش نشان می‌دهد که به‌نظر می‌رسد از بیرون کاخ سفید فیلم‌برداری شده باشد. در صدایی که شبیه یک مکالمه تلفنی شنیده شده به‌نظر می‌رسد، دونالد ترامپ تولیدشده توسط هوش مصنوعی به یک طرف ناشناخته می‌گوید که اسناد اپستین را منتشر نکنند و فریاد می‌زند: «فقط نگذارید بیرون بیایند. اگر من سقوط کنم، همه‌تان را هم با خود می‌برم.»

این پست را در اینستاگرام ببینید

پست به اشتراک گذاشته‌شده توسط Preserving Black History (@preservinghistory)

با نگاه به نظرات اینستاگرام، به نظر می‌رسید برخی افراد این را واقعی می‌پندارند.

سازندهٔ ویدیوی ویروسی هرگز ادعا نکرد که واقعی است و به Snopes، که تأیید کرد این ویدیو توسط سُرا ساخته شده است، گفت که این ویدیو «به‌تمامی توسط هوش مصنوعی تولید شده» و «صرفاً برای آزمایش هنری و تبیین اجتماعی» ساخته شده است. این داستانی محتمل است؛ واضح بود که برای جلب توجه و دیده شدن در شبکه‌های اجتماعی ساخته شده است.

اما اگر ویدیوهای خود را به‌صورت عمومی در سُرا به‌اشتراک بگذارید، دیگر کاربران می‌توانند آن‌ها را دانلود کنند و هر کاری که می‌خواهند با آن انجام دهند — از جمله انتشار آن‌ها در سایر شبکه‌های اجتماعی و تظاهر به واقعی بودن. OpenAI به‌صورت آگاهانه سُرا را به‌محلی تبدیل کرده است که کاربران می‌توانند به‌صورت بی‌پایان در آن غوطه‌ور شوند. یک‌بار محتوا را در چنین مکانیتی قرار دادید، دیگر زمینه (کانتکست) اهمیت ندارد و شما راهی برای کنترل اتفاقات بعدی آن ندارید.

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *