دسته: هوش مصنوعی

  • یک فیلم‌ساز دیپ‌فیک سم آلتمن ساخت—و به‌طرز غیرمنتظره‌ای به آن وابسته شد

    کارگردان دیپ‌فیک کردن سم آلتمن وقتی نتوانست با مدیرعامل OpenAI مصاحبه‌ای داشته باشد، یک «سام‌بات» ساخت. تریلر اختصاصی مستند را ببینید که در ژانویه منتشر می‌شود.

    تصویر ترکیبی از صحنه‌های ثابت مستند دیپ‌فیک کردن سم آلتمن.
    صحنه‌ای از دیپ‌فیک کردن سم آلتمن. تشکر از Abramorama

    کارگردان آدم بهالا لاگ قصد نداشت مستندی دربارهٔ یک شبیه‌سازی دیجیتال از سم آلتمن بسازد.

    اما پس از حدود ۱۰۰ روز ارسال پیامک و ایمیل به مدیرعامل OpenAI برای گرفتن مصاحبه—بدون دریافت پاسخ، همان‌طور که او می‌گوید، و با فشار سرمایه‌گذاران برای اجرای طرح اصلی‌اش—آدم بهالا لاگ به بن‌بست رسید.

    او تقریباً تمام زاویه‌ها را بررسی کرده بود. “وقتی به آن نقطه رسیدم، تسلیم شدم و تصمیم گرفتم به‌صورت غیرمجاز به OpenAI نفوذ کنم”، او می‌گوید. هرچند او استراتژی مشابهی را در مستند ۲۰۲۳ نامزد جایزه امی خود فروشندگان‌تلفنی—که روایت‌گر فساد گسترده در کسب‌وکار بازاریابی تلفنی بود—به کار برده بود، این سبک فیلم‌سازی برای او چندان راحت نبوده است. “این یک قلعه بود. توانستم از دروازه عبور کنم و بلافاصله امنیت مرا گرفت و به‌طور فیزیکی از محل حذف کرد.”

    بدین ترتیب دیپ‌فیک کردن سم آلتمن، تصویری از نحوهٔ تغییر جامعه توسط هوش مصنوعی و جستجوی لاگ برای گفت‌وگو با مرد پشت آن آغاز می‌شود. وقتی برنامهٔ اصلی‌اش با شکست مواجه شد، از خود آلتمن الهام گرفت. “بحث سکارلت جانسون شعله‌ور شد”، او می‌گوید. در سال ۲۰۲۴، این بازیگر به‌صورت عمومی OpenAI را متهم کرد که به‌نظر می‌رسد صدای او را برای دستیار صوتی جدید هوش مصنوعی خود، اسکای، کپی کرده است. “در همان لحظه بود که ایدهٔ ساخت دیپ‌فیک به ذهنم خطور کرد”. (در بیانیه‌ای در مه ۲۰۲۴، آلتمن از جانسون عذرخواهی کرد و گفت صدای اسکای “هرگز قصد تشابه با صدای او را نداشت”.)

    آغازاً که به‌صورت یک شبیه‌ساز صوتی ساده شروع می‌شود، به‌سرعت به دیپ‌فیک کامل آلتمن با نام سام‌بات تبدیل می‌شود که لاگ برای ساخت آن به هند سفر می‌کند. همان‌طور که در فیلم‌های لاگ معمول است، همه چیز طبق برنامه پیش نمی‌رود. بدون فاش کردن بیش از حد، سام‌بات در نهایت به یک شخصیت مستقل تبدیل می‌شود و فیلم مسیر عجیبی‌تر و آشکارتر را دنبال می‌کند. “تشابهاتی بین این فیلم و ترمیناتور ۲: روز داوری وجود دارد، اما هیچ‌یک از خشونت‌های آن در اینجا نیست”، او می‌گوید. لاگ در دوره‌ای که او «دورهٔ هوش مصنوعی ۱.۰» می‌نامد، بزرگ شد. علاقه‌مندی او به ترمیناتور ۲ جیمز کامرون تأثیر عمده‌ای بر کار او داشته است.

    دیپ‌فیک کردن سم آلتمن، که تا حدودی بر پایهٔ مقاله‌ای از مجلهٔ نیویورک است که سم آلتمن را «اوپنهایمر عصر ما» می‌نامد، شامل نظرات مهندس سابق ایمنی OpenAI، هیدی خلاف، است که به لاگ می‌گوید: “ما می‌بینیم که OpenAI شروع به قدم گذاشتن در حوزه‌های نظامی می‌کند و نمی‌توانم تصور کنم که ابزارهایی مانند Dall‑E و ChatGPT برای کمک‌های نظامی به کار روند. این موضوع به‌دلیل نامطمئن بودن این سامانه‌ها، مرا می‌ترساند.”

    در پاسخ به درخواست اظهار نظر، OpenAI لینک سیاست استفاده خود را به WIRED ارائه داد که می‌گوید افراد نمی‌توانند از خدمات آن برای “توسعه، خرید یا استفاده از سلاح‌ها، شامل سلاح‌های معمولی یا [شیمیایی، بیولوژیکی، رادیولوژیکی، هسته‌ای و مواد منفجره با توان بالا]” استفاده کنند.

    به‌نوعی، لاگ می‌گوید که نسبت به هوش مصنوعی دیدگاه مثبت‌تری دارد نسبت به زمان پیش از فیلم‌برداری این اثر.

    “من هرگز انتظار نمی‌داشتم سام‌بات برای زندگی خود التماس کند”، او در مستند می‌گوید، و سپس اعتراف می‌کند که دیپ‌فیک تبدیل به “یک دوست” شده است.

    “من دیگر حامی سرسخت هوش مصنوعی نیستم. اما واقعاً باعث شد فکر کنم که ما نزدیک به داشتن روابط واقعی بین انسان‌ها و هوش مصنوعی هستیم. می‌دانم که برخی افراد قبلاً این کار را انجام می‌دهند، اما به‌طور کلی، انسان عادی هنوز این تجربه را ندارد”، او به WIRED می‌گوید. “اگر در موقعیتی باشید که انتخابی ندارید و نمی‌توانید تنها باشید، فکر می‌کنم هوش مصنوعی چیز خوبی است. می‌تواند به این شکل مفید باشد. اما نباید جایگزین انسان‌ها با هوش مصنوعی شویم. این همان نقطه‌ای است که من خط قرمز را می‌کشم.”

    این فیلم که با همکاری Hartbeat و Vox Media Studios تولید شده است، پیش‌نمایش سینمایی‌اش در نیویورک سیتی در تاریخ ۱۶ ژانویه و در لس‌آنجلس در تاریخ ۳۰ ژانویه برگزار خواهد شد و پس از آن به‌صورت سراسری گسترش می‌یابد.

  • این سلاح مخفی اروپا علیه ترامپ است: می‌تواند حباب هوش مصنوعی او را بترکاند

    جانی رایان

    جانی رایان

    رشد اقتصادی ایالات متحده – و بقا سیاسی رئیس‌جمهور – به هوش مصنوعی متکی است. اتحادیه اروپا باید از اهرم خود بهره بگیرد و در برابر او بایستد.

    آنچه غیرقابل تصور بود رخ داد. ایالات متحده به رقیب اروپا تبدیل شده است. خیانت واضح و عمیقی که در استراتژی امنیت ملی دولت ترامپ نهفته است باید هرگونه انکار و تردید بیشتر در پایتخت‌های اروپا را متوقف کند. پرورش «مقاومت در مسیر فعلی اروپا در کشورهای اروپایی» امروز سیاست اعلام‌شده واشنگتن است.

    اما در دل این فاجعه، هدیه‌ای از وضوح نهفته است. اروپا باید بجنگد یا نابود خواهد شد. خبر خوش این است که اروپا کارت‌های قدرتمند در دست دارد.

    سرمایه‌گذاری آمریکا بر هوش مصنوعی آن‌چنان عظیم شده که بازنشستگی هر رأی‌دهنده مگا به بقا نامطمئن این حباب وابسته است. سرمایه‌گذاری در هوش مصنوعی اکنون به‌عنوان اصلی‌ترین عامل رشد اقتصادی آمریکا، رقیب هزینه‌های مصرف‌کننده شده است. این حوزه تقریباً تمام (۹۲٪) رشد تولید ناخالص داخلی در نیمه اول سال جاری را تشکیل داد. بدون آن، تولید ناخالص داخلی آمریکا تنها ۰٫۱٪ رشد کرد. علیرغم رفتارهای نمایشی دونالد ترامپ، او بر پایه اقتصادی ناپایداری ایستاده است.

    اتحاد سیاسی ترامپ نیز ناپایدار است. در ماه جولای و دوباره این ماه، او نتوانست جمهوری‌خواهان سنا را مجبور به تصویب لایحه تعلیق هوش مصنوعی خود کند؛ لایحه‌ای که می‌خواست مانع از تدوین قوانین هوش مصنوعی توسط ایالت‌ها شود. جناح استیو بننون از حامیان مگا ترس دارد که هوش مصنوعی به‌طور انبوه جایگزین کارگران شود و از محتوایی که کودکان در پلتفرم‌های دیجیتال در معرض آن می‌گردند، شگفت‌زده شده است. رأی‌دهندگان مگا به‌ویژه قدرت سیاسی بزرگ‌تکنولوژی‌ها را بی‌اعتماد می‌دانند. فناوری موضوع حساسی برای ترامپ است.

    اُرساون فوندرلین، رئیس کمیسیون اروپا، دو کارت در دست دارد که می‌تواند حباب هوش مصنوعی را بشکند. اگر او این کار را انجام دهد، ریاست‌جمهوری ترامپ به بحران فرو می‌ریزد.

    اولاً، شرکت هلندی ASML در سطح جهانی بر دستگاه‌های حکاکی میکروچیپ‌ها که با نور الگوهایی روی سیلیکون می‌نقشد، انحصار دارد. این دستگاه‌ها برای Nvidia، غول میکروچیپ‌های هوش مصنوعی که اکنون پرارزش‌ترین شرکت جهان است، ضروری هستند. ASML یکی از ارزشمندترین شرکت‌های اروپا است و بانک‌های اروپایی و سرمایه‌گذاری‌های خصوصی نیز در هوش مصنوعی سرمایه‌گذاری کرده‌اند. نگه‌داری این دستگاه‌های حکاکی سیلیکون برای اروپا دشوار و برای اقتصاد هلند دردناک خواهد بود؛ اما برای ترامپ بسیار دردناک‌تر خواهد شد.

    سرمایه‌گذاری پرشتاب آمریکا در هوش مصنوعی و مراکز داده‌ای که به آن متکی است، اگر کنترل‌های صادراتی اروپا صادر کردن به ایالات متحده یا به تائیوان (جایی که Nvidia پیشرفته‌ترین چیپ‌های خود را می‌سازد) را کند یا قطع کند، با مانعی مواجه خواهد شد. از طریق این اهرم، اروپا می‌تواند تعیین کند که اقتصاد آمریکا تا چه حد گسترش یا انقباض یابد.

    دوم، و برای اروپا بسیار آسان‌تر، اجرای قوانین طولانی‌سیر داده‌ای اتحادیه اروپا علیه شرکت‌های بزرگ فناوری ایالات متحده است. اسناد محرمانه شرکت‌ها که در دعواهای حقوقی آمریکا عمومی شد، نشان می‌دهد که شرکت‌هایی چون گوگل تا چه حد در برابر اجرای قوانین پایه‌ای داده حساس هستند. در همین حال، متا نتوانسته است به یک دادگاه آمریکا بگوید سیستم‌های داخلی آن با داده‌های شما چه می‌کنند، چه کسی به آن دسترسی دارد و هدف از این دسترسی چیست.

    این بی‌نظمی داده‌ها به شرکت‌های بزرگ فناوری اجازه می‌دهد مدل‌های هوش مصنوعی خود را با داده‌های فراوان همه افراد آموزش دهند، اما در اروپا این کار غیرقانونی است؛ جایی که شرکت‌ها ملزم به کنترل دقیق و حسابرسی استفاده از داده‌های شخصی هستند. تمام کاری که بروکسل باید انجام دهد، سرکوب ایرلند است؛ کشوری که سال‌ها به‌عنوان سرزمین وحشی با اجرای سست قوانین داده شناخته می‌شده و پیامدهای آن فراتر از مرزها احساس خواهد شد.

    اگر اتحادیه اروپا جرأت اعمال این فشار را داشته باشد، این شرکت‌های فناوری ایالات متحده مجبور خواهند شد تا فناوری‌های خود را از پایه بازسازی کنند تا به‌طور صحیح با داده‌ها سروکار داشته باشند. همچنین باید به سرمایه‌گذاران بگویند که ابزارهای هوش مصنوعی آن‌ها تا زمان رعایت قوانین، دسترسی به بازار باارزش اروپا را ندارند. حباب هوش مصنوعی به‌احتمال زیاد قادر به تحمل این شوک دوگانه نخواهد بود.

    رأی‌دهندگان مگا برای از دست دادن آزادی‌ها و حقوق اساسی خود رای ندادند و ترامپ که به‌تدریج استبدادی می‌شود و به‌دلیل ارتباط نزدیکش با صنعت فناوری مورد نفرت، نمی‌تواند ثبات اقتصادی را تضمین کند؛ بنابراین احتمالاً در انتخابات میان‌دوره‌ای ۲۰۲۶ به‌شدت نامحبوب خواهد شد.

    تاکنون تعادل ریسک می‌طلبد که رهبران اروپایی ترامپ را نالایق کنند. آن‌ها پس از یک سال تسلیم‌پذیری مطلق در برابر ترامپ، دریافته‌اند که چنین رفتار فقط برای او آسان می‌کند تا آن‌ها را به‌سرعت پیش بگیرد. دلایل احتیاط در حال از بین رفتن است. واکنش شدید رهبران مگا نسبت به جریمه نسبتاً کوچک ۱۲۰ میلیون یورویی که کمیسیون اروپا اخیراً بر X اعمال کرد، نشان می‌دهد که نرم‌کردن فشارها آن‌ها را راضی نخواهد کرد. «طرح ۲۸ نکته‌ای» ترامپ برای اوکراین هر گونه توهم را از این‌که امتیازهای اروپایی منجر به بازگشت تعهد نظامی آمریکا می‌شود، از بین برد.

    با این‌که دمکراسی آن حالا به‌وضوح تحت تهدید است، اروپا باید به‌همراه هند، برزیل و چین در مقابله با ترامپ ایستادگی کند.

  • ابزار جدید تولید تصویر ChatGPT از OpenAI، جعل عکس‌ها را آسان می‌کند

    GPT Image 1.5 جدید امکان ویرایش تصویری گفتگویی دقیق‌تری را فراهم می‌کند؛ چه برای بهتر باشد چه برای بدتر.

    یک تصویر تولید شده توسط GPT Image 1.5 با دستوری کلاسیک: «یک بربر عضلانی با سلاح‌ها در کنار یک تلویزیون CRT، سینمایی، 8K، نور استودیویی».
    منبع: OpenAI / ChatGPT

    در بیش‌ترین دوره‌ی تقریباً دو قرن تاریخ عکاسی، ویرایش یک عکس به‌صورتی قانع‌کننده نیاز به تاریک‌خانه، مهارت در فتوشاپ یا حداقل دست ثابت برای قیچی و چسب داشت. روز سه‌شنبه، OpenAI ابزاری را منتشر کرد که این روند را به نوشتن یک جمله خلاصه می‌کند.

    این اولین شرکتی نیست که این کار را انجام دهد. در حالی‌که OpenAI از زمان GPT‑4o در سال ۲۰۲۴ یک مدل ویرایشی تصویر گفتگویی را در دست داشت، گوگل در ماه مارس پیش از OpenAI با یک نمونه اولیه عمومی وارد بازار شد و سپس آن را به مدلی پرطرفدار تحت نام مدل تصویر Nano Banana (و Nano Banana Pro) بهبود داد. واکنش پرشور جامعه هوش مصنوعی به مدل ویرایش تصویر گوگل، توجه OpenAI را جلب کرد.

    GPT Image 1.5 جدید از OpenAI یک مدل ترکیب تصویر مبتنی بر هوش مصنوعی است که به گزارش‌ها می‌تواند تصاویر را تا چهار برابر سریع‌تر از نسخهٔ قبلی تولید کند و هزینهٔ استفاده از آن از طریق API حدود ۲۰٪ کمتر باشد. این مدل روز سه‌شنبه برای تمام کاربران ChatGPT منتشر شد و گامی دیگر به سوی تبدیل ویرایش تصویر فوتورئالیستیک به یک فرایند ساده و بدون نیاز به مهارت‌های ویژهٔ بصری است.

    «ملکه کهکشانی جهان» اضافه شده به عکسی از یک اتاق با مبل با استفاده از GPT Image 1.5 در ChatGPT.
    «ملکه کهکشانی جهان» اضافه شده به عکسی از یک اتاق با مبل با استفاده از GPT Image 1.5 در ChatGPT.
    منبع: OpenAI / ChatGPT

    GPT Image 1.5 قابل توجه است زیرا یک مدل تصویر «چندرسانه‌ای بومی» است؛ به این معنا که تولید تصویر در همان شبکه عصبی که درخواست‌های متنی را پردازش می‌کند، انجام می‌شود. (در مقابل، DALL‑E 3، تولیدکنندهٔ تصویر پیشین OpenAI که قبلاً در ChatGPT تعبیه شده بود، از تکنیکی به نام «پراکندگی» برای تولید تصویر استفاده می‌کرد.)

    این نوع جدید از مدل که در مارس به‌صورت جامع‌تر بررسی کردیم، تصاویر و متن را به‌عنوان همان نوع داده می‌داند: بخش‌های داده‌ای که «توکن» نامیده می‌شوند و باید پیش‌بینی شوند، الگوهایی که باید تکمیل شوند. اگر عکسی از پدرتان بارگذاری کنید و بنویسید «او را در یک عروسی با کت و شلوار بگذار»، مدل کلمات شما و پیکسل‌های تصویر را در یک فضای یکپارچه پردازش می‌کند و سپس پیکسل‌های جدید را همان‌گونه که کلمهٔ بعدی جمله را تولید می‌کند، خروجی می‌دهد.

    با به‌کارگیری این تکنیک، GPT Image 1.5 می‌تواند واقعیت بصری را نسبت به مدل‌های پیشین هوش مصنوعی به‌راحتی تغییر دهد؛ می‌تواند حالت یا موقعیت شخصی را تغییر دهد یا صحنه‌ای را از زاویه‌ای کمی متفاوت رندر کند، هرچند موفقیت‌ها متغیر است. همچنین می‌تواند اشیاء را حذف کند، سبک‌های بصری را تغییر دهد، پوشاک را تنظیم کند و نواحی خاصی را دقیق‌سازی نماید در حالی که شباهت چهره را در ویرایش‌های متوالی حفظ می‌کند. می‌توانید با این مدل هوش مصنوعی دربارهٔ یک عکسی گفتگو کنید، همان‌طور که در ChatGPT یک پیش‌نویس ایمیل را بازنگری می‌کنید.

    فیدجی سیمو، مدیر ارشد برنامه‌های OpenAI، در یک پست وبلاگی نوشت که رابط چت ChatGPT هرگز برای کارهای بصری طراحی نشده بود. «ایجاد و ویرایش تصاویر کار متفاوتی است و شایستگی فضای مخصوصی برای بصری‌سازی را دارد»، سیمو افزود. به همین منظور، OpenAI فضای اختصاصی برای خلق تصویر را در نوار کناری ChatGPT معرفی کرد که شامل فیلترهای پیش‌فرض و دستورات محبوب است.

    Harrelson Hall، ساختمان دایره‌ای مشهور در پردیس NCSU (اکنون تخریب شده)، همیشه به‌نظر می‌رسید می‌تواند پرواز کند. با GPT Image 1.5، این امکان وجود دارد.
    Harrelson Hall، ساختمان دایره‌ای مشهور در پردیس NCSU (اکنون تخریب شده)، همیشه به‌نظر می‌رسید می‌تواند پرواز کند. با GPT Image 1.5، این امکان وجود دارد.
    منبع: Benj Edwards / ChatGPT

    به‌نظر می‌رسد زمان‌بندی این انتشار مستقیماً پاسخی به پیشرفت‌های فنی گوگل در حوزه هوش مصنوعی باشد، از جمله رشد چشمگیر تعداد کاربران چت‌بات. به‌ویژه، مدل تصویر Nano Banana (و Nano Banana Pro) گوگل پس از انتشار در ماه اوت، به‌دلیل توانایی واضح‌تر رندر متن و حفظ ثبات چهره‌ها در ویرایش‌ها، در شبکه‌های اجتماعی محبوب شد.

    مدل ترکیب تصویر مبتنی بر توکن پیشین OpenAI می‌توانست برخی ویرایش‌های هدفمند را بر پایه دستورات گفتگویی انجام دهد، اما اغلب جزئیات چهره و عناصر دیگری که کاربران می‌خواستند حفظ شوند، تغییر می‌داد. به‌نظر می‌رسد GPT Image 1.5 برای همسان‌سازی با ویژگی‌های ویرایشی که گوگل قبلاً عرضه کرده طراحی شده است. اما اگر شما ترجیح می‌دهید از ژنراتور تصویر قدیمی ChatGPT استفاده کنید، OpenAI اعلام کرده است که نسخهٔ قبلی به‌عنوان یک GPT سفارشی (فعلاً) در دسترس خواهد ماند برای کاربرانی که آن را می‌پسندند.

    مانع‌ها به‌تدریج کاهش می‌یابند

    GPT Image 1.5 کامل نیست. در آزمون مختصر ما، این مدل همیشه دستورات درخواست‌شده را به‌خوبی دنبال نکرد. اما وقتی کار می‌کند، نتایج نسبت به مدل چندرسانه‌ای قبلی OpenAI قانع‌کننده‌تر و جزئیات بیشتری دارند. برای مقایسهٔ دقیق‌تر، مشاور نرم‌افزاری شون پدیسینی سایتی آموزشی به نام «GenAI Image Editing Showdown» تهیه کرده است که تست A/B مدل‌های مختلف تصویر هوش مصنوعی را انجام می‌دهد.

    اگرچه در چند سال اخیر بارها دربارهٔ این موضوع نوشته‌ایم، شاید لازم باشد تکرار کنیم که موانع ویرایش و دستکاری واقعی عکس‌ها به‌تدریج در حال کاهش هستند. این نوع ویرایش تصویر هوش مصنوعی، بی‌نقص، واقعی و بدون زحمت، می‌تواند (به‌صورت بازی کلامی) بازنگری فرهنگی نسبت به معنای تصاویر بصری در جامعه ایجاد کند. همچنین برای کسانی که در دوران رسانه‌ای پیشین بزرگ شده‌اند، مشاهدهٔ خود در وضعیت‌هایی که هرگز رخ نداده‌اند، می‌تواند کمی ترسناک باشد.

    عکسی از بنج اداردز که گیتار در دست دارد، و با GPT Image 1.5 ویرایش شده تا مردی خندان به آن افزوده شود.
    عکسی از بنج اداردز که گیتار در دست دارد، و با GPT Image 1.5 ویرایش شده تا مردی خندان به آن افزوده شود.
    منبع: Benj Edwards / OpenAI

    در طول تاریخ عکاسی، ایجاد تقلبی باورپذیر نیاز به مهارت، زمان و منابع داشت. این موانع جعل را به‌گونه‌ای محدود می‌کرد که می‌توانستیم بسیاری از عکاسی‌ها را به‌عنوان نماینده‌ای معقول از حقیقت در نظر بگیریم، اگرچه ممکن بود (و اغلب) دستکاری شوند. این دوران با پیشرفت هوش مصنوعی به پایان رسیده است، اما GPT Image 1.5 به‌نظر می‌رسد موانع باقی‌مانده را نیز از بین می‌برد.

    توانایی حفظ شباهت چهره در طول ویرایش‌ها، برای ویرایش‌های قانونی عکس به‌وضوح مفید است و به‌قدر واضح ممکن است باعث سوءاستفاده شود. ژنراتورهای تصویر پیش از این برای ایجاد تصاویر صمیمی بدون رضایت و تقلید از افراد واقعی به‌کار رفته‌اند.

    نمای نزدیک «ملکه کهکشانی جهان» و بربری که یک تلویزیون CRT در دست دارد، به عکسی از یک اتاق با مبل اضافه شده با استفاده از GPT Image 1.5 در ChatGPT.
    نمای نزدیک «ملکه کهکشانی جهان» و بربری که یک تلویزیون CRT در دست دارد، به عکسی از یک اتاق با مبل اضافه شده با استفاده از GPT Image 1.5 در ChatGPT.

    با در نظر گرفتن این خطرات، ژنراتورهای تصویر OpenAI همواره فیلترهایی دارند که معمولاً خروجی‌های جنسی یا خشونت‌آمیز را مسدود می‌کند. اما همچنان امکان ایجاد تصاویر آزاردهنده از افراد بدون رضایتشان وجود دارد (اگرچه خلاف شرایط استفاده OpenAI است) در حالی که از این موضوعات اجتناب می‌کند. شرکت می‌گوید تصاویر تولیدشده شامل فرادادهٔ C2PA هستند که آن‌ها را به‌عنوان تولید هوش مصنوعی شناسایی می‌کند، هرچند این داده‌ها می‌توانند با ذخیره‌سازی مجدد فایل حذف شوند.

    در ارتباط با تقلب‌ها، رندر متن همواره ضعف طولانی‌مدتی در ژنراتورهای تصویر داشته که به‌تدریج بهبود یافته است. با درخواست از برخی مدل‌های ترکیب تصویر قدیمی برای تولید تابلو یا پوستر شامل کلمات خاص، نتایج اغلب به‌صورت متنی خراب یا غلط‌املایی بازمی‌گردند.

    OpenAI اعلام کرده است که GPT Image 1.5 می‌تواند متن‌های فشرده‌تر و کوچک‌تر را پردازش کند. در پست وبلاگی شرکت، نمونه‌ای نشان داده شده که مدل تصویری یک روزنامه با مقاله‌ای چندپاراگرافی تولید کرد؛ شامل عناوین، خط نویسنده، جداول معیار و متن بدنه که در سطح پاراگراف همچنان خوانا باقی می‌ماند. این‌که آیا این قابلیت در درخواست‌های متنوع نیز ثابت می‌ماند، نیاز به آزمون‌های گسترده‌تری دارد.

    نمونه‌ای از مدل جدید GPT Image 1.5 که متن پیچیده و فشرده را بر روی یک روزنامه شبیه‌سازی‌شده رندر می‌کند.
    نمونه‌ای از مدل جدید GPT Image 1.5 که متن پیچیده و فشرده را بر روی یک روزنامه شبیه‌سازی‌شده رندر می‌کند.
    منبع: OpenAI

    اگرچه روزنامه در این مثال در حال حاضر به‌نظر می‌رسد تقلبی است، این گامی دیگر به سوی احتمال فرسایش درک عمومی از سوابق تاریخی پیش از اینترنت است که با واقعی‌تر شدن ترکیب تصویر همراه است.

    OpenAI در پست وبلاگی خود اذعان کرد که مدل جدید هنوز مشکلاتی دارد، از جمله پشتیبانی محدود از برخی سبک‌های نقاشی و خطاهایی هنگام تولید تصاویری که به دقت علمی نیاز دارند. اما آن‌ها بر این باورند که با گذشت زمان بهبود می‌یابد. «ما معتقدیم هنوز در ابتدای توانمندی‌های تولید تصویر هستیم»، شرکت نوشت. و اگر سه سال پیشرفت در ترکیب تصویر نشانه‌ای باشد، احتمالاً این ادعا صحیح است.

  • طغیان طلای هوش مصنوعی: TCS به هدف 1.5 میلیارد دلار نگاه می‌کند و درصدد کسب رتبه اول است

    طغیان طلای هوش مصنوعی: TCS به هدف 1.5 میلیارد دلار نگاه می‌کند و درصدد کسب رتبه اول است

    در روز چهارشنبه، بزرگ‌ترین شرکت خدمات فناوری اطلاعات کشور، Tata Consultancy Services Ltd.، برنامه‌ای پرشتاب برای تبدیل شدن به «بزرگ‌ترین شرکت خدمات فناوری به رهبری هوش مصنوعی در جهان» ارائه داد؛ به‌طوری‌که مدیرعامل، کی کریثیواسان، اعلام کرد این شرکت حدود ۱٫۵ میلیارد دلار درآمد سالیانه تخمینی داشته است.

    شرکت مستقر در بمبئی، TCS، برای اولین بار درآمد هوش مصنوعی خود را فاش کرد؛ امری که آن را از معدود شرکت‌های هندی توانمند در این زمینه قرار داد.

    در روز TCS Analyst Day 2025، کریثیواسان گفت: «خدمات مرتبط با هوش مصنوعی ما درآمد کلی حدود ۱٫۵ میلیارد دلار سالیانه به‌دست آورده‌اند. حدود ۵۴ از ۶۰ مشتری برتر از TCS برای هوش مصنوعی استفاده می‌کنند. ۸۵٪ از تمام مشتریان، که بیش از ۲۰ میلیون نفر هستند، از TCS برای کارهای هوش مصنوعی خود بهره‌مند می‌شوند. بر پایه موفقیتی که از بازار و مشتریان به دست آورده‌ایم، رشد فصلی ما (QoQ) در حوزه هوش مصنوعی به‌تنهایی ۱۶٫۳٪ افزایش یافته است.»

    او افزود که شرکت بیش از ۵,۵۰۰ پروژه هوش مصنوعی اجرا کرده و ۲۰۹ استقرار پلتفرم را به پایان رسانده است.

    وی اشاره کرد که در حالی که شرکت موفق به عبور از تحولات قبلی از سیستم‌های مرکزی به وب شده است، حرکت کنونی به هوش مصنوعی مولد نشانگر یک تحول اساسی است؛ چرا که سرعت و مقیاس بی‌سابقه تأثیر آن، آن را از صرفاً ارتقاءهای فناورانه گذشته متمایز می‌کند.

    در شرح نقشه راه استراتژیک شرکت، او پنج ستون کلیدی را مطرح کرد: دستیابی به تحول داخلی، بازتعریف تمام خدمات، ساختن مدلی از نیروی کار آماده برای آینده، بازنگری در زنجیره‌های ارزشی مشتریان و گسترش شراکت‌های اکوسیستمی.

    کریثیواسان تأکید کرد: «TCS بر پایهٔ یک چشم‌انداز ساخته شده است… این چشم‌انداز این است که به بزرگ‌ترین شرکت خدمات فناوری در جهان تبدیل شود… ما باور داریم که با زمینهٔ مشتری که داریم، روابط عمیق با مشتریان، تجربه‌ای که ساخته‌ایم و سرمایه‌گذاری‌های استراتژیک که قصد داریم انجام دهیم… ما واقعاً آماده‌ایم و در واقع احساس می‌کنیم سرنوشت ما این است که به آنجا برسیم.»

    او فرهنگ سخت‌گیرانهٔ «هوش مصنوعی نخست» را برجسته کرد که در آن TCS خود را به‌عنوان مشتری صفر می‌داند. وی اعلام کرد که برای هر پروژه، شرکت می‌پرسد آیا هوش مصنوعی می‌تواند کار را بهتر انجام دهد، حتی اگر این به معنای «قزل‌گذاری» درآمد خود باشد. او افزود که به هوش مصنوعی حق اولویت در پذیرش یا رد (first right of refusal) را می‌دهند پیش از پیگیری گزینه‌های دیگر تا اطمینان حاصل شود که بهترین ارزش ارائه می‌شود.

    کریثیواسان همچنین مسیر کامل (full‑stack) شرکت را ترسیم کرد؛ به‌طوری که TCS در تمام زنجیره ارزش فعالیت می‌کند—از طراحی تراشه و زیرساخت‌ها تا ساخت مدل‌ها و عوامل هوش مصنوعی. او استدلال کرد که این قابلیت انتها به انتها، به‌همراه توان مالی قوی و انضباط اجرایی، شرکت را در موقعیتی قرار می‌دهد تا در این تحول رهبری صنعت را به‌عهده گیرد.

    در زمینه تحول نیروی کاری، کریثیواسان تأکید کرد که ادغام هوش مصنوعی به‌طور اساسی نقش‌های سازمانی را تغییر خواهد داد. او گفت که حتی در خدمات فناوری اطلاعات، ترکیب سنتی تیم‌ها در حال تغییر است؛ تمرکز از شمارش صرف برنامه‌نویسان به تعریف نقش‌های جدیدی همچون مربیان و آموزش‌دهندگان هوش مصنوعی منتقل شده است.

    کریثیواسان گفت: «ما در حال بازنگری تمام قطعات این پازل نیروی انسانی هستیم.» وی افزود که TCS هر جنبه‌ای از استراتژی سرمایه انسانی خود؛ از جمله برنامه آموزشی، ساختارهای تیمی و روش‌های تحویل پروژه را بازنگری می‌کند تا اطمینان حاصل شود که برای آینده‌ای که توسط هوش مصنوعی هدایت می‌شود، مناسب هستند.

    صد درصد تیم‌های درمورد مشتری شرکت در زمینه هوش مصنوعی آموزش دیده‌اند، در حالی که بیش از ۱۸۰,۰۰۰ همکار در مهارت‌های پیشرفتهٔ هوش مصنوعی ارتقاء یافته‌اند.

    سال ۲۰۲۵ شاهد مجموعه‌ای از پیشرفت‌ها بود که نشانگر فشار شدید TCS بر هوش مصنوعی بود.

    در اکتبر، TCS شرکت HyperVault AI Data Centre Ltd را به‌عنوان یک شرکت تابعهٔ کاملاً تحت مالکیت خود با سرمایه‌گذاری اولیهٔ ۷٫۵ کرور روپیه تأسیس کرد تا بر ساخت چندین مرکز داده هوش مصنوعی (AI) و مراکز دادهٔ حاکمیتی تمرکز کند و خدمات زیرساختی و فناوری‌محور ارائه دهد.

    در نوامبر، این شرکت همکاری خود را با شرکت سرمایه‌گذاری خصوصی بزرگ TPG برای کسب‌وکار مرکز دادهٔ پیشرو اعلام کرد؛ که هر دو شریک هدف دارند سرمایه‌ای حدود ۱۸,۰۰۰ کرور روپیه وارد کنند.

    این معامله در کمتر از ۴۰ روز پس از اعلام ورود شرکت گروه تاتا به حوزهٔ مراکز داده با برنامهٔ ظرفیت ۱ گیگاوات انجام شد، که برای آن نیاز به سرمایه‌گذاری ۶٫۵ میلیارد دلار (حدود ۵۷,۶۰۰ کرور روپیه) می‌باشد.

  • سام آلتمن، مدیرعامل OpenAI، در اولین حضورش در برنامه شبانه با جیمی فالن، ادعایی نگران‌کننده مطرح کرد: «مانند یک قسمت از سریال بلک میرور»

    سیمون سِیج

    سام آلتمن، مدیرعامل OpenAI، در اولین حضورش در برنامه شبانه با جیمی فالن، ادعایی نگران‌کننده مطرح کرد: «مانند یک قسمت از سریال بلک میرور»

    سام آلتمن، یکی از مؤسسان و مدیرعامل OpenAI، به‌تازگی در برنامه شبانه به میزبانی جیمی فالن حضور یافت؛ او درباره گسترش هوش مصنوعی و ChatGPT در زندگی روزمره صحبت کرد. در همین حین، یکی از اظهارات او درباره فرزند تازه‌زایش نگاه‌ها را به خود جلب کرد.

    «آیا هنگام پرورش فرزند خود از ChatGPT استفاده می‌کنید؟» فالن پرسید.

    آلتمن پاسخ داد: «بله. منظورم این است که به‌خاطر این که ما یک هوش سطح نبوغ‌مند داریم که می‌خواهد رمزهای بشر را کشف کند، کمی احساس ناخوشایندی دارم. سپس این‌طور فکر می‌کنم: چرا پسرم پیتزا را بر روی زمین می‌اندازد و می‌خندد… بنابراین احساس می‌کنم سؤال کافی نمی‌پرسم. نمی‌توانم تصور کنم که بدون ChatGPT چطور می‌توانم یک نوزاد را بزرگ کنم.»

    آلتمن ادامه داد که ChatGPT پس از اضطراب او به‌دلیل این‌که فرزندش در شش ماهگی هنوز نمی‌خرامد، او را آرام کرد. این سامانه پیشنهاد داد که از آنجایی که آلتمن مدیرعامل OpenAI است، ممکن است او استانداردهای بالای موفقیتی را که روزانه در اطرافش حضور دارند، بر روی فرزندش پیش‌بینی کند.

    در حالی که پیامدهای تربیت کودکان (حتی به‌طور جزئی) توسط هوش مصنوعی می‌تواند شوک‌آور باشد، این موضوع نشان می‌دهد که این سرویس‌ها چقدر عمیقاً در زندگی روزمره جای گرفته‌اند. در حالی که فرسایش انسانیّت و خلاقیت توسط هوش مصنوعی به‌طور کامل مورد بحث است، تأثیرات زیست‌محیطی قابل توجهی نیز به دنبال استفاده از آن به وجود می‌آید.

    استفاده از هوش مصنوعی به‌صورت چشمگیری تقاضای انرژی مراکز داده را افزا‌نده است. اگر این انرژی از گاز یا زغال‌سنگ تأمین شود، هزینه‌های آلودگی همراه دارد. داده‌های اولیه نشان می‌دهند که آلودگی جو به‌دلیل استفاده از هوش مصنوعی در حال افزایش است.

    امید وجود دارد که این هزینه‌ها قابل کاهش باشند. به‌عنوان مثال، گوگل و مایکروسافت سرمایه‌گذاری‌های عظیمی در حوزه انرژی هسته‌ای انجام داده‌اند تا مراکز داده را بدون انتشار گازهای گلخانه‌ای راه‌اندازی کنند. در همین راستا، متا نیز در زمینه انرژی زمین‌گرمایی سرمایه‌گذاری می‌کند. هم‌زمان، فناوری به‌تدریج کارآمدتر شده و نیاز به انرژی کمتری دارد.

    هوش مصنوعی همچنین کاربردهای مهمی در حوزهٔ پایداری دارد. از آن برای پژوهش در زمینهٔ انرژی هم‌جوشی، برنامه‌ریزی سناریوهای رخدادهای فاجعه‌ای، و طراحی باتری‌های کارآمد خودروهای الکتریکی استفاده می‌شود.

    با وجود این وعده‌ها، بینندگان شبکه‌های اجتماعی از استفادهٔ آلتمن از هوش مصنوعی در پرورش فرزندش تعجب کردند.

    «این دقیقاً همچون یک قسمت از سریال بلک میرور است»، یکی از اعضای جامعه X گفت و به این سریال علمی‑تخیلی پست‌اپوکالیپتیک محبوب اشاره کرد.

    «اولیگارش‌های فناوری که در برنامه شبانه حرف‌های بی‌معنی می‌زنند، قطعاً نقطهٔ سقوط جامعهٔ ما است. ما روز به روز به‌سوی دیستوییا نزدیک‌تر می‌شویم»، یکی از بینندگان یوتیوب اظهار کرد.

  • چگونه داستان واقعی یک راکون مست به یک ویدئوی جعلی هوش مصنوعی تبدیل شد

    فناوری

    کاربران شبکه‌های اجتماعی تصویری را به اشتراک می‌گذارند که گفته می‌شود از دوربین مداربسته یک فروشگاه مشروبات الکلی گرفته شده؛ تصویری از یک دزد ماسک‌پوش که مکان را غارت کرد، به طور کامل نوشید و سپس در سرویس بهداشتی فروشگاه بیهوش یافت: یک راکون. اگرچه این داستان شگفت‌انگیز به‌واقع رخ داده است، اما ویدئوی دوربین مداربسته جعلی بوده و توسط هوش مصنوعی تولید شده است.

    این ویدئوی یک راکون مست که در ۶ دسامبر ۲۰۲۵ منتشر شد، در واقع توسط هوش مصنوعی تولید شده است.
    این ویدئوی یک راکون مست که در ۶ دسامبر ۲۰۲۵ منتشر شد، در واقع توسط هوش مصنوعی تولید شده است. © X

    در ۴ دسامبر، کاربران شبکه‌های اجتماعی در سراسر جهان شروع به به‌اشتراک‌گذاری عکس‌هایی از یک داستان شگفت‌انگیز کردند: یک راکون که به فروشگاه مشروبات الکلی در آشلند، ویرجینیا، ایالات متحده شرق نفوذ کرد. پس از شکستن تعدادی بطری و نوشیدن تا حد کافی، این راکون در سرویس بهداشتی فروشگاه بیهوش پیدا شد.

    این عکس، که در ۲ دسامبر ۲۰۲۵ منتشر شد، یک راکون را نشان می‌دهد که پس از غارت یک فروشگاه مشروبات الکلی در آشلند، ویرجینیا، ایالات متحده، مست یافت شده است.
    این عکس، که در ۲ دسامبر ۲۰۲۵ منتشر شد، یک راکون را نشان می‌دهد که پس از غارت یک فروشگاه مشروبات الکلی در آشلند، ویرجینیا، ایالات متحده، مست یافت شد. © سازمان حفاظت و پناهگاه حیوانات شهرستان هانوور.

    کمک از به‌اشتراک‌گذاری این عکس‌ها، ویدئویی که گفته می‌شود نمایشگر فیلم‌های دوربین مداربسته فروشگاه مشروبات الکلی است، به‌سرعت در اینترنت ظاهر شد. این فیلم راکون را نشان می‌دهد که یک بطری را می‌شکند و سپس آب مایع را می‌نوشد. پس از خراب‌کاری در تمام یک راهرو فروشگاه، این حیوان به سمت سرویس بهداشتی می‌لغزد و در آنجا بیهوش می‌شود.

    از زمان انتشار این ویدئو در X در ۶ دسامبر، بیش از ۸۰۰۰۰۰ بازدید کسب کرده است. حساب‌هایی که ابتدا این ویدئو را به اشتراک گذاشته‌اند ممکن است شبیه حساب‌های خبری به نظر برسند، اما اگر به تاریخچهٔ آن‌ها نگاهی بیندازید، خواهید دید که صرفاً ویدئوهای ویروسی به اشتراک می‌گذارند.

    این ویدئوی منتشر شده در X – که ادعا می‌شود از دوربین مداربسته یک فروشگاه مشروبات الکلی که توسط یک راکون غارت شده است – در واقع توسط هوش مصنوعی ساخته شده است. منبع: X

    در حالی که داستان و عکس‌های به‌اشتراک‌گذاری‌شده در اینترنت واقعی هستند، این ویدئو جعلی است.

    ویدئوی تولید شده توسط هوش مصنوعی

    این ویدئوی جعلی دوربین مداربسته در واقع توسط هوش مصنوعی تولید شده است.

    در برچسب‌های شراب این ویدئویی که در ۶ دسامبر ۲۰۲۵ منتشر شد، متن بی‌معنی وجود دارد. این یک سرنخ است که نشان می‌دهد ویدئو توسط هوش مصنوعی ساخته شده است.
    در برچسب‌های شراب این ویدئویی که در ۶ دسامبر ۲۰۲۵ منتشر شد، متن بی‌معنی وجود دارد. این یک سرنخ است که نشان می‌دهد ویدئو توسط هوش مصنوعی ساخته شده است. © X

    اگرچه در نگاه اول این ویدئو واقعی به نظر می‌رسد، اما با دقت بیشتری نگاه کنید، می‌بینید که برچسب‌های شراب و قیمت‌ها به‌صورت متن‌های بی‌معنی نوشته شده‌اند. این نکته واضحی است که نشان می‌دهد هوش مصنوعی برای ساخت این ویدئو استفاده شده است، چرا که هوش مصنوعی هنوز در تولید دقیق متن مشکلاتی دارد.

    سرنخ دیگری که نشان می‌دهد این ویدئو اصیل نیست این است که راهروی نشان‌داده‌شده در ویدئو متفاوت از راهرویی است که در عکس‌های اصیل فروشگاه مشروبات الکلی غارت‌شده منتشر شده در فیسبوک توسط سرویس نجات حیوانات شهرستان هانوور (که راکون مست را در اختیار داشته) ظاهر می‌شود. در فروشگاه واقعی، جعبه‌های کارتریج زیادی در میان بطری‌ها وجود دارد؛ اما این جعبه‌ها در ویدئوی تولید شده توسط هوش مصنوعی اصلاً دیده نمی‌شوند.

    در سمت چپ یک عکس واقعی از فروشگاه است. در سمت راست یک ویدئوی ساخته‌شده توسط هوش مصنوعی است.
    در سمت چپ یک عکس واقعی از فروشگاه است. در سمت راست یک ویدئوی ساخته‌شده توسط هوش مصنوعی است. © سازمان حفاظت و پناهگاه حیوانات شهرستان هانوور، X.

    در واقع فیلم‌های واقعی از دوربین‌های مداربسته فروشگاه وجود دارد. اما این تصاویر به‌قدر ویدئوی جعلی واضح نیستند – اتاق فروشگاه و راهروها به‌نظر شل و نامرتب می‌آیند. علاوه بر این، بخشی از فیلم‌های واقعی به صورت سیاه‌سفید ضبط شده‌اند، در حالی که فیلم تولید شده توسط هوش مصنوعی به رنگ است.

    کلیپ‌های واقعی از فیلم‌های دوربین مداربسته فروشگاه در ۴ دسامبر ۲۰۲۵ منتشر شدند.

    سازمان حفاظت و پناهگاه حیوانات شهرستان هانوور در فیسبوک به‌روزرسانی دربارهٔ راکون دزد ارائه داد.

    «پس از چند ساعت خواب و بدون هیچ نشانه‌ای از آسیب (به‌جز شاید یک خماری و تصمیمات نادرست زندگی)، او به‌طور ایمن به طبیعت بازگردانده شد، امیدواریم که آموخته باشد نفوذ و خرابکاری راه حل نیست.»

    این مقاله از نسخهٔ اصلی به زبان فرانسوی توسط برنا دادلورف ترجمه شده است.

  • Adobe Firefly اکنون از ویرایش ویدئویی مبتنی بر دستورات متنی پشتیبانی می‌کند و مدل‌های شخص ثالث بیشتری اضافه کرده است

    اعتبار تصویر:Adobe

    ادوبی برنامهٔ هوش مصنوعی برای تولید ویدئو، Firefly، را با یک ویرایشگر ویدئویی جدید که از ویرایش‌های دقیق مبتنی بر دستورات متنی پشتیبانی می‌کند، به‌روزرسانی می‌کند و همچنین مدل‌های شخص ثالث جدیدی برای تولید تصویر و ویدئو، از جمله FLUX.2 از Black Forest Labs و Astra از Topaz، اضافه می‌کند.

    تا کنون، Firefly تنها از تولید مبتنی بر دستورات متنی پشتیبانی می‌کرد، بنابراین اگر بخشی از ویدئو دلخواه شما نبود، مجبور بودید کل کلیپ را دوباره بسازید. با ویرایشگر جدید، می‌توانید با استفاده از دستورات متنی، عناصر ویدئو، رنگ‌ها و زاویهٔ دوربین را ویرایش کنید؛ همچنین نمای جدیدی از خط زمان به دست می‌آوریم که به سادگی به شما اجازه می‌دهد فریم‌ها، صداها و سایر ویژگی‌ها را تنظیم کنید.

    شرکت ابتدا ویرایشگر ویدئوی جدید را در اکتبر در نسخهٔ بتای خصوصی اعلام کرد و اکنون آن را برای تمام کاربران منتشر کرده است.

    اعتبار تصویر:Adobe

    شرکت اعلام کرد که با استفاده از مدل Aleph از Runway، کاربران می‌توانند به Firefly دستورات خاصی بدهند، مانند «آسمان را به ابرپوشی تغییر دهید و کنتراست را کم کنید» یا «کمی به موضوع اصلی زوم کنید».

    همچنین با مدل Firefly Video شرکت ادوبی، کاربران می‌توانند کاری مانند بارگذاری یک فریم اولیه و یک ویدئوی مرجع از حرکت دوربین انجام دهند و از آن بخواهند زاویهٔ دوربین را برای ویدئویی که در حال ویرایش هستند، بازسازی کند.

    شرکت همچنین اعلام کرد که کاربران می‌توانند از مدل Astra شرکت Topaz Labs برای ارتقاء وضوح ویدئوها به 1080p یا 4K استفاده کنند. مدل تولید تصویر FLUX.2 از Black Forest Labs نیز به‌زودی به برنامه اضافه می‌شود، به همراه ویژگی تخته‌های تعاملی.

    شرکت گفت که FLUX.2 به‌سرعت در تمام پلتفرم‌های Firefly در دسترس خواهد بود و کاربران Adobe Express از ژانویه می‌توانند از FLUX.2 استفاده کنند.

    اعتبار تصویر:Adobe

    با ارائهٔ مدل‌های جدید توسط رقبا برای تولید تصویر و ویدئو، ادوبی می‌خواهد کاربران را بیشتر به استفاده از برنامهٔ خود ترغیب کند. به‌علاوه با به‌روزرسانی‌های جدید برنامهٔ Firefly، شرکت اعلام کرد که مشترکین پلن‌های Firefly Pro، Firefly Premium، ۷٬۰۰۰ اعتبار و ۵۰٬۰۰۰ اعتبار، تا ۱۵ ژانویه می‌توانند از تولید نامحدود توسط تمام مدل‌های تصویر و مدل ویدئوی Adobe Firefly در برنامهٔ Firefly بهره‌مند شوند.

    ادوبی امسال تغییرات فراوانی در مدل‌ها و برنامه‌های Firefly خود اعمال کرده است. در فوریه، شرکت یک سرویس اشتراک‌گذاری راه‌اندازی کرد که به کاربران امکان دسترسی به سطوح مختلف تولید تصویر و ویدئو را می‌داد؛ سپس برنامهٔ وب جدید Firefly را همراه با برنامه‌های موبایل در ادامهٔ سال عرضه کرد و پشتیبانی از مدل‌های شخص ثالث بیشتری را در برنامهٔ Firefly اضافه کرده است.

    موضوعات: Adobe، Adobe Firefly، هوش مصنوعی، تولید تصویر هوش مصنوعی، مدل‌های ویدئویی هوش مصنوعی، برنامه‌ها

  • مدیر اجرایی Anthropic ربات چت هوش مصنوعی را به‌اجبار بر جامعهٔ دیسکورد همجنسگرایان اعمال می‌کند؛ اعضا می‌گریزند

    مدیر اجرایی Anthropic ربات چت هوش مصنوعی را به‌اجبار بر جامعهٔ دیسکورد همجنسگرایان اعمال می‌کند؛ اعضا می‌گریزند
    عکس توسط appshunter.io / Unsplash

    یک جامعهٔ دیسکورد برای بازیکنان همجنس‌گرایان پس از این‌که یکی از مدیران آن و یک مدیر اجرایی Anthropic ربات چت هوش مصنوعی شرکت را به‌اجبار در دیسکورد اعمال کردند، علیرغم اعتراضات اعضا، در وضعیت آشوبی قرار گرفته است. 

    کاربران رأی دادند تا Claude شرکت Anthropic را به‌فقط در کانال مخصوص خود محدود کنند، اما جیسون کلینتون، معاون رئیس امنیت اطلاعات (CISO) Anthropic و یکی از مدیران این دیسکورد، این تصمیم را نادیده گرفت. طبق گفتهٔ اعضای این جامعهٔ دیسکورد که به شرط گمنامی با 404 Media مصاحبه کردند، دیسکوردی که پیش از این پرجنب‌وجوش بود، اکنون به یک شهر متروکه تبدیل شده است. آن‌ها ربات چت و رفتار کلینتون پس از راه‌اندازی آن را مقصر می‌دانند. 

  • چگونه عوامل هوش مصنوعی خرید رسانه برای کمپین CTV یک برند نوشیدنی را برنامه‌ریزی کردند

    نوشیدنی کنسروی Clubtails Sunny Margarita بر روی یخ
    Clubtails در حال اجرای یک کمپین تبلیغاتی تلویزیون متصل است که از طریق عوامل هوش مصنوعی، ارتباط بین آژانس Butler/Till و سامانه SSP PubMatic برقرار می‌شود. (clubtails.com)

  • دوربین‌های زنده در نیواورلئین چهره‌ها را ردیابی می‌کنند. چه کسی باید آن‌ها را کنترل کند؟

    مارتین کسته ۲۰۱۰

    مارتین کسته

    نیواورلئین پیشگام در نظارت با شناسایی چهره زنده

    برایان لاگارد، بنیان‌گذار پروژه نولا، جلوی دیواری از صفحه‌نمایش‌ها ایستاده است که فیدهای شبکه گسترده دوربین‌های جرم‌گیری این سازمان غیرانتفاعی را در مقر آن در نیواورلئین در تاریخ ۴ دسامبر نمایش می‌دهد. این سیستم هزاران دوربین در سراسر شهر را تحت نظارت دارد تا به نیروی انتظامی کمک کند و امنیت عمومی را ارتقا بخشد.

    عبدالعزیز برای NPR

    برایان لاگارد، بنیان‌گذار پروژه نولا، در جلوی دیواری از صفحه‌نمایش‌ها که فیدهای شبکه گسترده دوربین‌های جرم‌گیری این سازمان غیرانتفاعی را در مقر نیواورلئین در تاریخ ۴ دسامبر نشان می‌دهد، ایستاده است. این سیستم هزاران دوربین در سطح شهر را زیر نظر دارد تا به نیروی انتظامی یاری رسانده و ایمنی عمومی را ارتقا دهد.

    نیواورلئین، مهد جشن و سرور خیابان بوربون، تبدیل به اولین شهر آمریکایی شده است که یک شبکه شناسایی چهره زنده دارد. چگونگی شکل‌گیری این وضعیت، داستانی از ابتکار خصوصی و عدم اقدام سیاسی است و ممکن است سرنخی برای آینده کاربردهای ایمنی عمومی این فناوری نظارتی باشد.

    پلیس‌های سراسر کشور به‌ طور معمول پس از وقوع جرم از شناسایی چهره استفاده می‌کنند تا شناسایی متهمان ضبط‌شده در دوربین‌ها را سرعت بخشند. اما شناسایی چهره زنده، که می‌تواند شخصی را که در حال حرکت در شهر است به‌ صورت لحظه‌ای شناسایی و ردیابی کند، آهسته‌تر پذیرفته شده است. به‌ جز تجربه‌های جداگانه، ادارات پلیس از این فناوری اجتناب کرده‌اند، زیرا نگران واکنش منفی نسبت به حریم خصوصی هستند.

    در نیواورلئین، این فناوری توسط یک سازمان خصوصی غیرانتفاعی به نام پروژه نولا معرفی شد که در سال ۲۰۰۹ توسط یک افسر پیشین پلیس به نام برایان لاگارد تأسیس شد.

    «من یکی از افرادی بودم که سال‌ها پیش در یک ماشین گرم می‌نشستیم و عکس‌ها و ویدیوهای گنگسترها می‌گرفتیم»، او می‌گوید. در سال‌های پس از طوفان کاترینا، زمانی که اداره پلیس به‌ شدت کمبود نیروی انسانی داشت، او می‌گوید واضح شد که شهر به دوربین‌های بیشتری نیاز دارد. «من زود متوجه شدم که این می‌تواند یک ضریب نیروی مؤثر باشد. یک ضریب نیروی شگفت‌انگیز.»

    او می‌گوید پروژه نولا به‌ عنوان یک مرکز تجمیعی برای فیدهای ویدئویی بیش از ۵٬۰۰۰ دوربین که بر روی اموال خصوصی «داوطلبان» نصب شده‌اند، عمل می‌کند؛ این افراد هزینهٔ اتصال سالانه را می‌پردازند.

    این حجم عظیم ویدئوها باعث شد که در سال ۲۰۲۲، او قابلیت شناسایی چهره زنده را به سیستم اضافه کند.

    «ما می‌توانیم درخواست‌های «سوزن در کاه» را پردازش کنیم و نتایج بسیار موفقیت‌آمیز را به‌ مراتب سریعتر ببینیم»، او می‌گوید. «و احتمال اینکه چیزی را از دست بدهیم نیز کمتر است.»

    یک دیوار صفحه‌نمایش‌ها فیدهای شبکه گسترده دوربین‌های جرم‌گیری پروژه نولا را که طول یک اتاق را در مقر این سازمان غیرانتفاعی در نیواورلئین پوشش می‌دهد، نمایش می‌دهد.

    عبدالعزیز برای NPR

    حدود ۲۰۰ تا از پیشرفته‌ترین دوربین‌های شبکه اکنون این قابلیت را دارند. در دفاتر پروژه نولا، که در ساختمانی در پردیس دانشگاه نیواورلئین واقع شده است، مانیتورهای این دوربین‌ها به‌ طور مداوم چهره‌های افراد ناشناس را که در محلهٔ فرانسوی قدم می‌زنند، جستجو می‌کنند. وقتی چهره‌ای با یکی از تقریباً ۲۵۰ فرد موجود در «فهرست‌های داغ» پروژه نولا مطابقت داشته باشد، صدای یک کامپیوتر به کارمندان هشدار می‌دهد.

    «این همان «فهرست داغ سطح دو» است»، لاگارد هنگام صدای هشدار توضیح می‌دهد. «این شخصی است که اخیراً دیده‌ایم، مسلح، و در فعالیت‌های باند دخیل است.»

    در روزهای شلوغ، لاگارد می‌گوید صدها هم‌خوانی وجود دارد. برخی اهداف توسط سازمان‌های فدرال، ایالتی یا محلی مطلوب هستند. دیگران افرادی هستند که لاگارد به‌ صورت خودجوش و به‌ دلیل مشارکت ظاهری آنها در جرائم جدی، ردیابی می‌کند.

    او می‌گوید این اطلاعات وقتی به سطحی معین برسد، به نیروی انتظامی منتقل می‌شود.

    «ما فقط نمی‌گوییم «آه، کسی در یک محله مواد مخدر می‌فروشد و فکر می‌کنیم او بد است»،» او می‌گوید. «ما نشان می‌دهیم: «این فرکانس فروش مواد مخدر است. این نوع مواد مخدر است که می‌فروشند. این افراد مسلح هستند و رفتار تهاجمی دارند.»

    اما همکاری پروژه نولا با پلیس شهر در بهار به یک مانع برخورد کرد.

    اگرچه لاگارد می‌گوید از ابتدا نسبت به استفاده‌اش از شناسایی چهره شفاف بوده است، این موضوع همچنان بسیاری را شگفت‌زده کرد وقتی مقاله‌ای از واشنگتن پست در ماه مه جزئیات اولین سیستم این‌چنین در کشور را برای نیواورلئین منتشر کرد.

    «این در واقع مقررات محلی پلیس نیواورلئین (NOPD) را نقض کرد»، سارا ویتینگتون، مدیر حقوقی ACLU لوئیزیانا، می‌گوید. او بیان می‌کند که قانون محلی «اجازهٔ استفاده از شناسایی چهره را می‌دهد، اما اجازهٔ استفاده از این نوع شناسایی زندهٔ چهره توسط یک نهاد شخص ثالث را نمی‌دهد.»

    سرپرست پلیس نیواورلئین، آن کِرک‌پاتریک، در یک نشست مطبوعاتی در ۱ ژانویهٔ ۲۰۲۵ در نیواورلئین به رسانه‌ها می‌گوید.

    کریس گریتهَن/گتی ایمیجز

    سرپرست آن کِرک‌پاتریک می‌گوید او در آوریل، پیش از انتشار خبر، تصمیم گرفت همکاری با پروژه نولا ممکن است مخالف مقررات شهر باشد؛ بنابراین این همکاری را متوقف کرد.

    «ما تا زمانی که مطمئن نشویم که در چارچوب قانون هستیم، به‌ خصوص واضحاً، اجازهٔ هشدار لحظه‌ای به افسرها نمی‌دهیم»، کِرک‌پاتریک می‌گوید.

    با این حال، توقف کِرک‌پاتریک ناشی از مخالفت با فناوری نیست؛ برعکس، او شناسایی چهره زنده را به‌ عنوان یک ابزار ارزشمند در اجرای قانون می‌بیند.

    «ما با پروژه نولا در حربه نیستیم — می‌خواهم مطمئن شوم که ما در این باره درک مشترکی داریم. اما این یک کسب‌وکار خصوصی است»، او می‌گوید. «و شما نمی‌توانید نگرانی‌های حریم‌خصوصی خود را از طریق شرکت‌های خصوصی کنترل کنید.»

    قانون فدرال به‌ طور خاص نحوهٔ استفادهٔ نیروی انتظامی از شناسایی چهره زنده را تنظیم نمی‌کند، اما دیوان عالی در پرونده United States v. Jones حکم کرد که پلیس برای استفاده از فناوری به‌ منظور دنبال‌کردن مداوم یک شخص، باید دلیل احتمالی و حکم داشته باشد.

    پروفسور حقوق دانشگاه واشنگتن، رایان کالو، که به‌ طور گسترده دربارهٔ قانون فناوری نوشته است، می‌گوید وضعیت نیواورلئین شبیه یک «بازی پوسته‌ای» برای این مسئولیت قانونی است.

    «نگرانی من این است که اگر نظارت توسط «جامعه» انجام شود، توسط افرادی که بازیگر رسمی نیستند، این می‌تواند از این حفاظت‌ها دور شود»، کالو هشدار می‌دهد.

    او اشاره می‌کند که نیروی انتظامی در طول سال‌ها از روش‌های مشابهی برای فناوری‌های نظارتی دیگر استفاده کرده است، همچون خرید پرونده‌های مرتبط با متهمان احتمالی از فروشندگان داده‌های خصوصی.

    در پروژه نولا، لاگارد می‌گوید که نسبت به حریم خصوصی بسیار محتاط است.

    «هر یک از ما چیزی برای محافظت دارد»، او می‌گوید. «ما این سیستم را هر روز، تقریباً تمام روز، برای ردیابی مجرمان خشونت‌آمیز استفاده می‌کنیم. ما قدرت این فناوری را می‌بینیم؛ می‌بینیم که اگر در دست‌های نادرست و بدون نظارت باشد، چطور می‌تواند سوءاستفاده شود.»

    برایان لاگارد، بنیان‌گذار پروژه نولا، از میز کار خود در مقر این سازمان در پردیس دانشگاه نیواورلئین فیدهای دوربین‌های جرم‌گیری را نظارت می‌کند.

    عبدالعزیز برای NPR

    لاگارد می‌گوید اقدامات محافظتی او شامل دریافت شماره پرونده برای هر درخواست شناسایی چهره از نیروی انتظامی به‌ منظور تأیید وجود یک تحقیق مشروع است. او همچنین یک وب‌سایت برنامه‌ریزی کرده است که در آن پروژه نولا تعداد درخواست‌های شناسایی چهره‌ای که دریافت می‌کند و از کدام نهادها می‌باشد را افشا کند.

    او می‌گوید پروژه نولا هنوز برای سازمان‌های فدرال و ایالتی جستجو انجام می‌دهد. همچنین همچنان اطلاعات را به NOPD می‌فرستد، زیرا این سازمان پیگیری می‌کند که چه کسی را در جستجوی خود دارد. وقتی دوربین آنها را شناسایی می‌کند، به پلیس «نکات بدون درخواست» می‌فرستد.

    لاگارد می‌گوید، در تجزیه و تحلیل نهایی، او معتقد است که سیستم او نسبت به یک سیستم دولتی که ممکن است قابل کنترل باشد، مسئولیت‌پذیرتر است، زیرا دوربین‌های پروژه نولا بر روی اموال خصوصی نصب می‌شوند و توسط «داوطلبان» میزبانی می‌شوند.

    «این انتخاب جامعه است. اگر می‌خواهند، این کار را انجام می‌دهند. اگر نمی‌خواهند، این کار را انجام نمی‌دهند»، او می‌گوید. «و اگر می‌خواهند و انجام می‌دهند و سپس بعداً فکر کنند «دیگر نمی‌خواهیم این کار را انجام دهیم»، می‌توانند خود دوربین‌ها را قطع کنند!»

    در همین حال، شهر در تصمیم‌گیری دربارهٔ خواسته‌های خود تعلل کرده است. پس از خبر واشنگتن پست، یکی از اعضای شورای شهر پیشنویس قانونی ارائه داد تا همکاری پلیس با ارائه‌دهندگان شخص ثالث داده‌های شناسایی چهره را رسمی‌سازی کند. این قانون‌گذاری همچنین قوانین و الزامات گزارش‌گیری برای این فناوری پیش‌نویس کرد؛ اما به پیش نرفت.

    همچنین بحثی دربارهٔ اجازه به شهر برای ساخت یک سیستم شناسایی چهره زندهٔ خود وجود داشته است، چیزی که سرپرست پلیس NOPD، کِرک‌پاتریک، حمایت می‌کند؛ اما سارا ویتینگتون از ACLU می‌گوید این ایده به‌ دلیل ترس از از دست دادن کنترل بر آن توسط نهادهای دیگر — به‌‌ویژه با توجه به افزایش اخیر اجرای فدرال مهاجرت در جنوب لوئیزیانا — به‌ تعلل افتاده است.

    «هیچ قانونی شهری نمی‌تواند مردم را محافظت کند، اگر دولت فدرال یا دولت ایالتی وارد عمل شده و بگویند: «خب، شما این سیستم را ساخته‌اید و ما آمدیم»،» می‌گوید.

    اما بدون یک ممنوعیت واضح‌تر برای استفاده پلیس از شناسایی چهره این سازمان غیرانتفاعی، ویتینگتون می‌گوید: «به‌ نظر می‌رسد ما به‌‌ طور پیش‌فرض به یک مدل خصوصی رفته‌ایم.»

    دوربین‌های نصب‌شده در بیرون از «تری لِگد دگ» در محله فرانسوی نیواورلئین، چهره‌های عابران را اسکن می‌کنند. این دستگاه‌ها از فناوری شناسایی چهره برای جستجوی متخلفان خشونت‌آمیز و دستورات قضایی استفاده می‌کنند، اگرچه اکثر افراد عبوری از حضور آنها بی‌اطلاع می‌مانند.

    عبدالعزیز برای NPR

    دوربین‌های نصب‌شده در بیرون از «تری لِگد دگ» در محله فرانسوی نیواورلئین، در تاریخ ۴ دسامبر ۲۰۲۵ چهره‌های عابران را اسکن می‌کنند. این دستگاه‌ها از فناوری شناسایی چهره برای جستجوی متخلفان خشونت‌آمیز و دستورات قضایی استفاده می‌کنند، هرچند اکثر عابران از نظارت بی‌اطلاع هستند.

    در خیابان بوربون، اکثر مردم هنوز از این‌که بسیاری از دوربین‌های نصب شده بر فراز سرشان می‌توانند نام افراد را با چهره‌ آن‌ها مطابقت دهند، بی‌اطلاعند.

    «اگر توسط شهر انجام شود، حداقل می‌توانند بگویند: «شما ما را برای این موقعیت انتخاب کردید تا این کارها را انجام دهیم». ولی اگر توسط یک سازمان غیرانتفاعی باشد، وضعیت متفاوت است.»

    اما تیم بلیک، صاحب بار «تری لِگد دگ»، دیدگاه مخالفی دارد. او نه تنها یک دوربین توانمند به شناسایی چهرهٔ زنده را در بالای درب ورودی خود میزبانی می‌کند، بلکه دوربین دیگری را که توسط پروژه نولا داخل بار نصب شده، دارد که دارای قابلیت دید حرارتی است و می‌تواند اسلحه‌های مخفی را تشخیص دهد.

    تیم بلیک، مالک «تری لِگد دگ»، در داخل مکان خود در نیواورلئین در تاریخ ۴ دسامبر ۲۰۲۵ ایستاده است. او پذیرندهٔ اولیهٔ ابتکار دوربین‌های جرم‌گیری پروژه نولا بود و بار خود را یکی از اولین مکان‌های محله فرانسوی کرد که به این شبکه پیوست.

    عبدالعزیز برای NPR

    «من نسبت به ده سال پیش هوادار بزرگ‌تری برای سامانه‌های نظارتی، به‌ویژه پروژه نولا، هستم»، او می‌گوید. «احساس امنیت بیشتری می‌کنم، پرسنل من نیز احساس امنیت می‌کند. مردم وقتی می‌دانند تحت نظارت هستند، رفتار خاصی نشان می‌دهند — متأسفانه، متأسفانه!»

    برای بلیک، کشور به دوربین‌های بیشتری مانند این‌ها نیاز دارد که توسط رستوران‌ها، مدارس، شهرها یا هر کسی که مایل به استقرار آنهاست، اداره شود.

    «از نظر من، هرچه افراد بیشتری به این نوع فناوری دسترسی داشته باشند، ایمنی همه بیشتر می‌شود»، او می‌گوید.