ابزار جدید تولید تصویر ChatGPT از OpenAI، جعل عکس‌ها را آسان می‌کند

GPT Image 1.5 جدید امکان ویرایش تصویری گفتگویی دقیق‌تری را فراهم می‌کند؛ چه برای بهتر باشد چه برای بدتر.

یک تصویر تولید شده توسط GPT Image 1.5 با دستوری کلاسیک: «یک بربر عضلانی با سلاح‌ها در کنار یک تلویزیون CRT، سینمایی، 8K، نور استودیویی». — منبع: OpenAI / ChatGPT

در بیش‌ترین دوره‌ی تقریباً دو قرن تاریخ عکاسی، ویرایش یک عکس به‌صورتی قانع‌کننده نیاز به تاریک‌خانه، مهارت در فتوشاپ یا حداقل دست ثابت برای قیچی و چسب داشت. روز سه‌شنبه، OpenAI ابزاری را منتشر کرد که این روند را به نوشتن یک جمله خلاصه می‌کند.

این اولین شرکتی نیست که این کار را انجام دهد. در حالی‌که OpenAI از زمان GPT‑4o در سال ۲۰۲۴ یک مدل ویرایشی تصویر گفتگویی را در دست داشت، گوگل در ماه مارس پیش از OpenAI با یک نمونه اولیه عمومی وارد بازار شد و سپس آن را به مدلی پرطرفدار تحت نام مدل تصویر Nano Banana (و Nano Banana Pro) بهبود داد. واکنش پرشور جامعه هوش مصنوعی به مدل ویرایش تصویر گوگل، توجه OpenAI را جلب کرد.

GPT Image 1.5 جدید از OpenAI یک مدل ترکیب تصویر مبتنی بر هوش مصنوعی است که به گزارش‌ها می‌تواند تصاویر را تا چهار برابر سریع‌تر از نسخهٔ قبلی تولید کند و هزینهٔ استفاده از آن از طریق API حدود ۲۰٪ کمتر باشد. این مدل روز سه‌شنبه برای تمام کاربران ChatGPT منتشر شد و گامی دیگر به سوی تبدیل ویرایش تصویر فوتورئالیستیک به یک فرایند ساده و بدون نیاز به مهارت‌های ویژهٔ بصری است.

«ملکه کهکشانی جهان» اضافه شده به عکسی از یک اتاق با مبل با استفاده از GPT Image 1.5 در ChatGPT.
منبع: OpenAI / ChatGPT

GPT Image 1.5 قابل توجه است زیرا یک مدل تصویر «چندرسانه‌ای بومی» است؛ به این معنا که تولید تصویر در همان شبکه عصبی که درخواست‌های متنی را پردازش می‌کند، انجام می‌شود. (در مقابل، DALL‑E 3، تولیدکنندهٔ تصویر پیشین OpenAI که قبلاً در ChatGPT تعبیه شده بود، از تکنیکی به نام «پراکندگی» برای تولید تصویر استفاده می‌کرد.)

این نوع جدید از مدل که در مارس به‌صورت جامع‌تر بررسی کردیم، تصاویر و متن را به‌عنوان همان نوع داده می‌داند: بخش‌های داده‌ای که «توکن» نامیده می‌شوند و باید پیش‌بینی شوند، الگوهایی که باید تکمیل شوند. اگر عکسی از پدرتان بارگذاری کنید و بنویسید «او را در یک عروسی با کت و شلوار بگذار»، مدل کلمات شما و پیکسل‌های تصویر را در یک فضای یکپارچه پردازش می‌کند و سپس پیکسل‌های جدید را همان‌گونه که کلمهٔ بعدی جمله را تولید می‌کند، خروجی می‌دهد.

با به‌کارگیری این تکنیک، GPT Image 1.5 می‌تواند واقعیت بصری را نسبت به مدل‌های پیشین هوش مصنوعی به‌راحتی تغییر دهد؛ می‌تواند حالت یا موقعیت شخصی را تغییر دهد یا صحنه‌ای را از زاویه‌ای کمی متفاوت رندر کند، هرچند موفقیت‌ها متغیر است. همچنین می‌تواند اشیاء را حذف کند، سبک‌های بصری را تغییر دهد، پوشاک را تنظیم کند و نواحی خاصی را دقیق‌سازی نماید در حالی که شباهت چهره را در ویرایش‌های متوالی حفظ می‌کند. می‌توانید با این مدل هوش مصنوعی دربارهٔ یک عکسی گفتگو کنید، همان‌طور که در ChatGPT یک پیش‌نویس ایمیل را بازنگری می‌کنید.

فیدجی سیمو، مدیر ارشد برنامه‌های OpenAI، در یک پست وبلاگی نوشت که رابط چت ChatGPT هرگز برای کارهای بصری طراحی نشده بود. «ایجاد و ویرایش تصاویر کار متفاوتی است و شایستگی فضای مخصوصی برای بصری‌سازی را دارد»، سیمو افزود. به همین منظور، OpenAI فضای اختصاصی برای خلق تصویر را در نوار کناری ChatGPT معرفی کرد که شامل فیلترهای پیش‌فرض و دستورات محبوب است.

Harrelson Hall، ساختمان دایره‌ای مشهور در پردیس NCSU (اکنون تخریب شده)، همیشه به‌نظر می‌رسید می‌تواند پرواز کند. با GPT Image 1.5، این امکان وجود دارد.
منبع: Benj Edwards / ChatGPT

به‌نظر می‌رسد زمان‌بندی این انتشار مستقیماً پاسخی به پیشرفت‌های فنی گوگل در حوزه هوش مصنوعی باشد، از جمله رشد چشمگیر تعداد کاربران چت‌بات. به‌ویژه، مدل تصویر Nano Banana (و Nano Banana Pro) گوگل پس از انتشار در ماه اوت، به‌دلیل توانایی واضح‌تر رندر متن و حفظ ثبات چهره‌ها در ویرایش‌ها، در شبکه‌های اجتماعی محبوب شد.

مدل ترکیب تصویر مبتنی بر توکن پیشین OpenAI می‌توانست برخی ویرایش‌های هدفمند را بر پایه دستورات گفتگویی انجام دهد، اما اغلب جزئیات چهره و عناصر دیگری که کاربران می‌خواستند حفظ شوند، تغییر می‌داد. به‌نظر می‌رسد GPT Image 1.5 برای همسان‌سازی با ویژگی‌های ویرایشی که گوگل قبلاً عرضه کرده طراحی شده است. اما اگر شما ترجیح می‌دهید از ژنراتور تصویر قدیمی ChatGPT استفاده کنید، OpenAI اعلام کرده است که نسخهٔ قبلی به‌عنوان یک GPT سفارشی (فعلاً) در دسترس خواهد ماند برای کاربرانی که آن را می‌پسندند.

مانع‌ها به‌تدریج کاهش می‌یابند

GPT Image 1.5 کامل نیست. در آزمون مختصر ما، این مدل همیشه دستورات درخواست‌شده را به‌خوبی دنبال نکرد. اما وقتی کار می‌کند، نتایج نسبت به مدل چندرسانه‌ای قبلی OpenAI قانع‌کننده‌تر و جزئیات بیشتری دارند. برای مقایسهٔ دقیق‌تر، مشاور نرم‌افزاری شون پدیسینی سایتی آموزشی به نام «GenAI Image Editing Showdown» تهیه کرده است که تست A/B مدل‌های مختلف تصویر هوش مصنوعی را انجام می‌دهد.

اگرچه در چند سال اخیر بارها دربارهٔ این موضوع نوشته‌ایم، شاید لازم باشد تکرار کنیم که موانع ویرایش و دستکاری واقعی عکس‌ها به‌تدریج در حال کاهش هستند. این نوع ویرایش تصویر هوش مصنوعی، بی‌نقص، واقعی و بدون زحمت، می‌تواند (به‌صورت بازی کلامی) بازنگری فرهنگی نسبت به معنای تصاویر بصری در جامعه ایجاد کند. همچنین برای کسانی که در دوران رسانه‌ای پیشین بزرگ شده‌اند، مشاهدهٔ خود در وضعیت‌هایی که هرگز رخ نداده‌اند، می‌تواند کمی ترسناک باشد.

عکسی از بنج اداردز که گیتار در دست دارد، و با GPT Image 1.5 ویرایش شده تا مردی خندان به آن افزوده شود.
منبع: Benj Edwards / OpenAI

در طول تاریخ عکاسی، ایجاد تقلبی باورپذیر نیاز به مهارت، زمان و منابع داشت. این موانع جعل را به‌گونه‌ای محدود می‌کرد که می‌توانستیم بسیاری از عکاسی‌ها را به‌عنوان نماینده‌ای معقول از حقیقت در نظر بگیریم، اگرچه ممکن بود (و اغلب) دستکاری شوند. این دوران با پیشرفت هوش مصنوعی به پایان رسیده است، اما GPT Image 1.5 به‌نظر می‌رسد موانع باقی‌مانده را نیز از بین می‌برد.

توانایی حفظ شباهت چهره در طول ویرایش‌ها، برای ویرایش‌های قانونی عکس به‌وضوح مفید است و به‌قدر واضح ممکن است باعث سوءاستفاده شود. ژنراتورهای تصویر پیش از این برای ایجاد تصاویر صمیمی بدون رضایت و تقلید از افراد واقعی به‌کار رفته‌اند.

نمای نزدیک «ملکه کهکشانی جهان» و بربری که یک تلویزیون CRT در دست دارد، به عکسی از یک اتاق با مبل اضافه شده با استفاده از GPT Image 1.5 در ChatGPT.

با در نظر گرفتن این خطرات، ژنراتورهای تصویر OpenAI همواره فیلترهایی دارند که معمولاً خروجی‌های جنسی یا خشونت‌آمیز را مسدود می‌کند. اما همچنان امکان ایجاد تصاویر آزاردهنده از افراد بدون رضایتشان وجود دارد (اگرچه خلاف شرایط استفاده OpenAI است) در حالی که از این موضوعات اجتناب می‌کند. شرکت می‌گوید تصاویر تولیدشده شامل فرادادهٔ C2PA هستند که آن‌ها را به‌عنوان تولید هوش مصنوعی شناسایی می‌کند، هرچند این داده‌ها می‌توانند با ذخیره‌سازی مجدد فایل حذف شوند.

در ارتباط با تقلب‌ها، رندر متن همواره ضعف طولانی‌مدتی در ژنراتورهای تصویر داشته که به‌تدریج بهبود یافته است. با درخواست از برخی مدل‌های ترکیب تصویر قدیمی برای تولید تابلو یا پوستر شامل کلمات خاص، نتایج اغلب به‌صورت متنی خراب یا غلط‌املایی بازمی‌گردند.

OpenAI اعلام کرده است که GPT Image 1.5 می‌تواند متن‌های فشرده‌تر و کوچک‌تر را پردازش کند. در پست وبلاگی شرکت، نمونه‌ای نشان داده شده که مدل تصویری یک روزنامه با مقاله‌ای چندپاراگرافی تولید کرد؛ شامل عناوین، خط نویسنده، جداول معیار و متن بدنه که در سطح پاراگراف همچنان خوانا باقی می‌ماند. این‌که آیا این قابلیت در درخواست‌های متنوع نیز ثابت می‌ماند، نیاز به آزمون‌های گسترده‌تری دارد.

نمونه‌ای از مدل جدید GPT Image 1.5 که متن پیچیده و فشرده را بر روی یک روزنامه شبیه‌سازی‌شده رندر می‌کند.
منبع: OpenAI

اگرچه روزنامه در این مثال در حال حاضر به‌نظر می‌رسد تقلبی است، این گامی دیگر به سوی احتمال فرسایش درک عمومی از سوابق تاریخی پیش از اینترنت است که با واقعی‌تر شدن ترکیب تصویر همراه است.

OpenAI در پست وبلاگی خود اذعان کرد که مدل جدید هنوز مشکلاتی دارد، از جمله پشتیبانی محدود از برخی سبک‌های نقاشی و خطاهایی هنگام تولید تصاویری که به دقت علمی نیاز دارند. اما آن‌ها بر این باورند که با گذشت زمان بهبود می‌یابد. «ما معتقدیم هنوز در ابتدای توانمندی‌های تولید تصویر هستیم»، شرکت نوشت. و اگر سه سال پیشرفت در ترکیب تصویر نشانه‌ای باشد، احتمالاً این ادعا صحیح است.

ابزار جدید تولید تصویر ChatGPT از OpenAI، جعل عکس‌ها را آسان می‌کند

مانع‌ها به‌تدریج کاهش می‌یابند

دیدگاه‌ها

دیدگاهتان را بنویسید لغو پاسخ

نوشته‌های بیشتر

چگونه از هوش مصنوعی استفاده نکنیم

جستجوی هوش مصنوعی در حال رشد است، اما اصول سئو همچنان اکثر ترافیک را هدایت می‌کند

گوگل اکنون به کاربران اجازه می‌دهد آدرس ایمیل @gmail.com خود را تغییر دهند

مدیر روباتیک NVIDIA: Tesla FSD v14 اولین هوش مصنوعی است که «تست تورینگ فیزیکی» را پشت سر گذاشت