GPT Image 1.5 جدید امکان ویرایش تصویری گفتگویی دقیقتری را فراهم میکند؛ چه برای بهتر باشد چه برای بدتر.

در بیشترین دورهی تقریباً دو قرن تاریخ عکاسی، ویرایش یک عکس بهصورتی قانعکننده نیاز به تاریکخانه، مهارت در فتوشاپ یا حداقل دست ثابت برای قیچی و چسب داشت. روز سهشنبه، OpenAI ابزاری را منتشر کرد که این روند را به نوشتن یک جمله خلاصه میکند.
این اولین شرکتی نیست که این کار را انجام دهد. در حالیکه OpenAI از زمان GPT‑4o در سال ۲۰۲۴ یک مدل ویرایشی تصویر گفتگویی را در دست داشت، گوگل در ماه مارس پیش از OpenAI با یک نمونه اولیه عمومی وارد بازار شد و سپس آن را به مدلی پرطرفدار تحت نام مدل تصویر Nano Banana (و Nano Banana Pro) بهبود داد. واکنش پرشور جامعه هوش مصنوعی به مدل ویرایش تصویر گوگل، توجه OpenAI را جلب کرد.
GPT Image 1.5 جدید از OpenAI یک مدل ترکیب تصویر مبتنی بر هوش مصنوعی است که به گزارشها میتواند تصاویر را تا چهار برابر سریعتر از نسخهٔ قبلی تولید کند و هزینهٔ استفاده از آن از طریق API حدود ۲۰٪ کمتر باشد. این مدل روز سهشنبه برای تمام کاربران ChatGPT منتشر شد و گامی دیگر به سوی تبدیل ویرایش تصویر فوتورئالیستیک به یک فرایند ساده و بدون نیاز به مهارتهای ویژهٔ بصری است.

منبع: OpenAI / ChatGPT
GPT Image 1.5 قابل توجه است زیرا یک مدل تصویر «چندرسانهای بومی» است؛ به این معنا که تولید تصویر در همان شبکه عصبی که درخواستهای متنی را پردازش میکند، انجام میشود. (در مقابل، DALL‑E 3، تولیدکنندهٔ تصویر پیشین OpenAI که قبلاً در ChatGPT تعبیه شده بود، از تکنیکی به نام «پراکندگی» برای تولید تصویر استفاده میکرد.)
این نوع جدید از مدل که در مارس بهصورت جامعتر بررسی کردیم، تصاویر و متن را بهعنوان همان نوع داده میداند: بخشهای دادهای که «توکن» نامیده میشوند و باید پیشبینی شوند، الگوهایی که باید تکمیل شوند. اگر عکسی از پدرتان بارگذاری کنید و بنویسید «او را در یک عروسی با کت و شلوار بگذار»، مدل کلمات شما و پیکسلهای تصویر را در یک فضای یکپارچه پردازش میکند و سپس پیکسلهای جدید را همانگونه که کلمهٔ بعدی جمله را تولید میکند، خروجی میدهد.
با بهکارگیری این تکنیک، GPT Image 1.5 میتواند واقعیت بصری را نسبت به مدلهای پیشین هوش مصنوعی بهراحتی تغییر دهد؛ میتواند حالت یا موقعیت شخصی را تغییر دهد یا صحنهای را از زاویهای کمی متفاوت رندر کند، هرچند موفقیتها متغیر است. همچنین میتواند اشیاء را حذف کند، سبکهای بصری را تغییر دهد، پوشاک را تنظیم کند و نواحی خاصی را دقیقسازی نماید در حالی که شباهت چهره را در ویرایشهای متوالی حفظ میکند. میتوانید با این مدل هوش مصنوعی دربارهٔ یک عکسی گفتگو کنید، همانطور که در ChatGPT یک پیشنویس ایمیل را بازنگری میکنید.
فیدجی سیمو، مدیر ارشد برنامههای OpenAI، در یک پست وبلاگی نوشت که رابط چت ChatGPT هرگز برای کارهای بصری طراحی نشده بود. «ایجاد و ویرایش تصاویر کار متفاوتی است و شایستگی فضای مخصوصی برای بصریسازی را دارد»، سیمو افزود. به همین منظور، OpenAI فضای اختصاصی برای خلق تصویر را در نوار کناری ChatGPT معرفی کرد که شامل فیلترهای پیشفرض و دستورات محبوب است.

منبع: Benj Edwards / ChatGPT
بهنظر میرسد زمانبندی این انتشار مستقیماً پاسخی به پیشرفتهای فنی گوگل در حوزه هوش مصنوعی باشد، از جمله رشد چشمگیر تعداد کاربران چتبات. بهویژه، مدل تصویر Nano Banana (و Nano Banana Pro) گوگل پس از انتشار در ماه اوت، بهدلیل توانایی واضحتر رندر متن و حفظ ثبات چهرهها در ویرایشها، در شبکههای اجتماعی محبوب شد.
مدل ترکیب تصویر مبتنی بر توکن پیشین OpenAI میتوانست برخی ویرایشهای هدفمند را بر پایه دستورات گفتگویی انجام دهد، اما اغلب جزئیات چهره و عناصر دیگری که کاربران میخواستند حفظ شوند، تغییر میداد. بهنظر میرسد GPT Image 1.5 برای همسانسازی با ویژگیهای ویرایشی که گوگل قبلاً عرضه کرده طراحی شده است. اما اگر شما ترجیح میدهید از ژنراتور تصویر قدیمی ChatGPT استفاده کنید، OpenAI اعلام کرده است که نسخهٔ قبلی بهعنوان یک GPT سفارشی (فعلاً) در دسترس خواهد ماند برای کاربرانی که آن را میپسندند.
مانعها بهتدریج کاهش مییابند
GPT Image 1.5 کامل نیست. در آزمون مختصر ما، این مدل همیشه دستورات درخواستشده را بهخوبی دنبال نکرد. اما وقتی کار میکند، نتایج نسبت به مدل چندرسانهای قبلی OpenAI قانعکنندهتر و جزئیات بیشتری دارند. برای مقایسهٔ دقیقتر، مشاور نرمافزاری شون پدیسینی سایتی آموزشی به نام «GenAI Image Editing Showdown» تهیه کرده است که تست A/B مدلهای مختلف تصویر هوش مصنوعی را انجام میدهد.
اگرچه در چند سال اخیر بارها دربارهٔ این موضوع نوشتهایم، شاید لازم باشد تکرار کنیم که موانع ویرایش و دستکاری واقعی عکسها بهتدریج در حال کاهش هستند. این نوع ویرایش تصویر هوش مصنوعی، بینقص، واقعی و بدون زحمت، میتواند (بهصورت بازی کلامی) بازنگری فرهنگی نسبت به معنای تصاویر بصری در جامعه ایجاد کند. همچنین برای کسانی که در دوران رسانهای پیشین بزرگ شدهاند، مشاهدهٔ خود در وضعیتهایی که هرگز رخ ندادهاند، میتواند کمی ترسناک باشد.

منبع: Benj Edwards / OpenAI
در طول تاریخ عکاسی، ایجاد تقلبی باورپذیر نیاز به مهارت، زمان و منابع داشت. این موانع جعل را بهگونهای محدود میکرد که میتوانستیم بسیاری از عکاسیها را بهعنوان نمایندهای معقول از حقیقت در نظر بگیریم، اگرچه ممکن بود (و اغلب) دستکاری شوند. این دوران با پیشرفت هوش مصنوعی به پایان رسیده است، اما GPT Image 1.5 بهنظر میرسد موانع باقیمانده را نیز از بین میبرد.
توانایی حفظ شباهت چهره در طول ویرایشها، برای ویرایشهای قانونی عکس بهوضوح مفید است و بهقدر واضح ممکن است باعث سوءاستفاده شود. ژنراتورهای تصویر پیش از این برای ایجاد تصاویر صمیمی بدون رضایت و تقلید از افراد واقعی بهکار رفتهاند.

با در نظر گرفتن این خطرات، ژنراتورهای تصویر OpenAI همواره فیلترهایی دارند که معمولاً خروجیهای جنسی یا خشونتآمیز را مسدود میکند. اما همچنان امکان ایجاد تصاویر آزاردهنده از افراد بدون رضایتشان وجود دارد (اگرچه خلاف شرایط استفاده OpenAI است) در حالی که از این موضوعات اجتناب میکند. شرکت میگوید تصاویر تولیدشده شامل فرادادهٔ C2PA هستند که آنها را بهعنوان تولید هوش مصنوعی شناسایی میکند، هرچند این دادهها میتوانند با ذخیرهسازی مجدد فایل حذف شوند.
در ارتباط با تقلبها، رندر متن همواره ضعف طولانیمدتی در ژنراتورهای تصویر داشته که بهتدریج بهبود یافته است. با درخواست از برخی مدلهای ترکیب تصویر قدیمی برای تولید تابلو یا پوستر شامل کلمات خاص، نتایج اغلب بهصورت متنی خراب یا غلطاملایی بازمیگردند.
OpenAI اعلام کرده است که GPT Image 1.5 میتواند متنهای فشردهتر و کوچکتر را پردازش کند. در پست وبلاگی شرکت، نمونهای نشان داده شده که مدل تصویری یک روزنامه با مقالهای چندپاراگرافی تولید کرد؛ شامل عناوین، خط نویسنده، جداول معیار و متن بدنه که در سطح پاراگراف همچنان خوانا باقی میماند. اینکه آیا این قابلیت در درخواستهای متنوع نیز ثابت میماند، نیاز به آزمونهای گستردهتری دارد.

منبع: OpenAI
اگرچه روزنامه در این مثال در حال حاضر بهنظر میرسد تقلبی است، این گامی دیگر به سوی احتمال فرسایش درک عمومی از سوابق تاریخی پیش از اینترنت است که با واقعیتر شدن ترکیب تصویر همراه است.
OpenAI در پست وبلاگی خود اذعان کرد که مدل جدید هنوز مشکلاتی دارد، از جمله پشتیبانی محدود از برخی سبکهای نقاشی و خطاهایی هنگام تولید تصاویری که به دقت علمی نیاز دارند. اما آنها بر این باورند که با گذشت زمان بهبود مییابد. «ما معتقدیم هنوز در ابتدای توانمندیهای تولید تصویر هستیم»، شرکت نوشت. و اگر سه سال پیشرفت در ترکیب تصویر نشانهای باشد، احتمالاً این ادعا صحیح است.
دیدگاهتان را بنویسید