تا به حال حتما اسم Deepfake یا جعل عمیق را شنیدهاید، اما ممکن است ندانید که انواع مختلفی از تکنولوژی وجود دارند که میتوانند ویدیوها و صداهای ساختگی ایجاد کنند.
همه ما با تصاویر "فوتوشاپ شده" آشنا هستیم، و اینکه آنها چقدر شایع شدهاند. ما همچنین با جلوههای ویدیویی و جلوههای ویژهای که برای چندین دهه در فیلمها مورد استفاده قرار گرفتهاند، آشنا هستیم. اما به لطف "جعل عمیق یا Deepfake" عصر جدیدی از تحولات رسانهای پیش روی ما قرار گرفته است.
تکنولوژی تصاویر ویدیویی جعل عمیق و پرترههای ویدیویی عمیق دو تکنیک مشابه اما متفاوت مورد استفاده در فیلمهای هالیوودی، ویدیوهای یوتیوب و ... هستند. اما این تکنولوژیها واقعا چه هستند و چگونه کار میکنند؟
اگر تا به حال ویدیویی که در آن چهره نیکولاس کیج بر روی یک بازیگر فیلم دیگر قرار گرفتهاست را ندیده اید، پس قطعا یکی از فیلترها یا ماسکهای رسانههای اجتماعی را دیدهاید که میتواند شما را به یک گربه تبدیل کند، کلاه سرآشپز به سرتان بگذارد یا شما را به یک تکشاخ تبدیل کند.
شاید شما فیلمی را دیده باشید که در آن جوردن پیل کمدین نشان میدهد که چطور صورت کسی (در این مورد، رئیسجمهور سابق امریکا باراک اوباما) در یک ویدیو میتواند دستکاری شود تا به نظر برسد چیزی میگوید که هرگز انجام نداده است.
حال سوال این است"Deepfake" دقیقا چیست؟
در مرکز آن، چیزی است که ممکن است فکر کنید که صرفا یک جابه-جایی صورت است. اما یک دیپ فیک، یک ویدیو ساخته شده به کمک هوش مصنوعی است که با گرفتن تعدادی (معمولا صدها یا هزاران) عکس از یک شخص ایجاد شدهاست. این تصاویر را می توان از چند منبع، مانند اینستاگرام شخص، فیس بوک، اسنپ چت، یا حتی جستجوی تصویر گوگل دانلود کرد.
نرمافزار هوش مصنوعی و دیپ فیک، چهره تصاویر منبع را ترسیم و یک مدل چهره سهبعدی براساس عکسهایی که دریافت کرده، ایجاد میکند. این مدل محدوده و ویژگیهای چهره بازیگر هدف را ترسیم مینماید.
همچنین به نرمافزار یک ویدیو منبع داده میشود که شامل یک صورت هدف است که کاربر میخواهد آن را جایگزین کند. هوش مصنوعی همچنین چهره فرد در ویدیو را ترسیم و دوباره یک مدل سهبعدی را ایجاد میکند. اینجا جایی است که هوش مصنوعی شروع به تطبیق مدل منبع با مدل هدف میکند. هوش مصنوعی از طریق تصاویری که به آن داده شده است یاد میگیرد.
سپس هوش مصنوعی، صورت سهبعدی تولید شده را از عکسهای منبع بر روی مدل ۳ بعدی ویدیوی هدف اعمال میکند و ویدیویی تولید میکند که در آن حرکات صورت، دهان، چشمها و غیره با هم مطابقت دارند و در محدوده صورت اصلی کار میکنند. منبع این موضوع یک سری عکس ثابت است و نتیجه فیلم جعل عمیق یک ویدیو با صورت جایگزین شدهاست.
تفاوت دیپ فیک با یک پرتره ویدیویی عمیق(Deep Video Portrait) چیست؟
تفاوت میان یک جعل عمیق(Deepfake) و یک پرتره ویدیویی عمیق(DVP) در دو تمایز کلیدی است:
۱. ویدیوی خروجی از یک دیویپی جایگزین صورت نمیشود، تنها ویژگیها را دستکاری میکند.
۲. منبع یک دیویپی از یک بازیگر زنده سرچشمه میگیرد، نه از عکسهای جداگانه.
ویدیویی که اوباما درباره فیلمهای جعلی صحبت میکند، نمونهای از یک دی وی پی است، نه یک Deepfake. یک بازیگر وجود دارد که روی صورت او نقشهکشی شدهاست، و از آنجایی که شما جایگزین صورت هدف نیستید و تنها باعث حرکت صورت هدف میشوید، نتیجه میتواند باورپذیرتر از جعل عمیق باشد.
سازندگان دی وی پی میتوانند کارهایی مانند پلک زدن هدف، باز کردن دهان، بالا بردن ابروها، و خم کردن سر به کنار براساس حرکات بازیگر منبع انجام دهند. از طرف دیگر، دیپ فیکس نمیتواند واقعا از حرکات ویدیوی اصلی منحرف شود. به همین دلیل است که DVP بیش از یک deepfake باورکردنی است.
به طور مثال: یک ماسک فیلتر اسنپ چت یا اینستاگرام یک دی وی پی است، نه یک جعل عمیق. علت آن این است که بازیگر خود شما هستید (هدف صورت شما را تغییر نمیدهد)، اما صورت شما نقشهبرداری شدهاست و برنامه به سادگی چیزی را بر روی صورت شما قرار میدهد.
صدای جعلی و پرترههای ویدیویی عمیق
نوع دیگری از محتوای تقلبی که اخیرا دردسترستر و قویتر شده است بحث تولید صدای جعلی میباشد.
در کنفرانس ادوبی مکس کریتیو در سال ۲۰۱۶، ادوبی از سیستمی به نام ووکو(VoCo) رونمایی کرد: یک مجموعه صوتی که میتواند به کاربران کمک کند تا مردم هرچه میخواهند بگویند. یک سیستم تبدیل متن به آوا است البته با صدای واقعی فرد دیگری!
این سیستم تنها به 20 دقیقه شنیدن فایلی از صدای فردی نیاز دارد تا دقیقا همسطح آن را تولید و پخش کند.
البته از آن سال به بعد چیز دیگری در باره این سیستم شنیده نشده است، بعد از مطرح شدن بسیاری از ایرادات حقوقی و حریم شخصی به این سیستم به نظر دیگر در مجامع مطرح نشد، اما ایده و مسئلهای را مطرح کرد که کمپانیها و یا گروههای مختلف به دنبال رسیدن به آن هستند.
اکنون که ایده و تکنولوژی وجود دارد، به طور طبیعی، شرکتهای دیگر نسخه خود از تکنولوژی تولید صدا را منتشر کردهاند. امروزه لیربرد(Lyrebird) سرویسی منتشر کردهاست که یک آواتار صوتی را برای شما براساس تنها ۳۰ جمله گفتار ورودی (در مقابل ۲۰ دقیقه داده مورد نیاز برای وکو)تولید میکند.
همراه شدن یک دی وی پی با صدایی جعلی میتواند باورپذیری را افزایش دهد. یک چنین ترکیبی تمام حواس شما را تحت تاثیر خودش قرار خواهد داد.
تکنولوژی ترکیبی
در این میان بحث تکنولوژیهای ترکیبی نیز به شدت داغ است به طور مثال: FaceSwap یک اپلیکیشن است که باعث ترکیب قابلیتهای جعل عمیق و پرتره ویدیویی عمیق با هم میشود و در باورپذیر کردن ساختهها بسیار موثر است.
این فنآوریها به پیشرفت خود ادامه خواهند داد. اگر چه بسیاری از کاربردها سرگرمکننده و غیر طبیعی هستند، اما تاثیر این تکنولوژی قابلتوجه است. دیپ فیک و دی وی پی ها بدون شک تاثیرات گستردهای بر دیدگاه ما از واقعیت، اعتماد و حریم خصوصی خواهند داشت. با این حال، بحث در مورد اخلاق، مسائل و اثر آنها برروی اجتماع (خوب و بد) فراتر از دامنه این مقاله است. اما نمونههای مثبت و جذابی هم در حال ظهور میباشد به طور مثال فیلمی از صحبت کردن دیوید بکهام به نه زبان مختلف در فیلمی که به عنوان اولین دادخواست صوتی جهان برای پایان دادن به مالاریا ثبت شده است و از فناوریهای ذکر شده در این مقاله برای یک امر مهم انسانی استفاده گردیده است.
در حال حاضر تنها راهحل و پیشنهاد این است که به آنچه میبینید و میشنوید شک داشته باشید.