پرتره‌های ویدیویی عمیق و تصاویر جعل عمیق، چه هستند و تفاوت آن‌ها در چیست؟

پرتره‌های ویدیویی عمیق و تصاویر جعل عمیق، چه هستند و تفاوت آن‌ها در چیست؟

تا به حال حتما اسم Deepfake یا جعل عمیق را شنیده‌اید، اما ممکن است ندانید که انواع مختلفی از تکنولوژی وجود دارند که می‌توانند ویدیوها و صداهای ساختگی ایجاد کنند.
همه ما با تصاویر "فوتوشاپ شده" آشنا هستیم، و اینکه آن‌ها چقدر شایع شده‌اند. ما همچنین با جلوه‌های ویدیویی ‏‏و جلوه‌های ویژه‌ای که برای چندین دهه در فیلم‌ها مورد استفاده قرار گرفته‌اند، آشنا هستیم. اما به لطف "جعل عمیق یا Deepfake" عصر جدیدی از تحولات رسانه‌ای پیش روی ما قرار گرفته است.
تکنولوژی تصاویر ویدیویی جعل عمیق و پرتره‌های ویدیویی عمیق دو تکنیک مشابه اما متفاوت مورد استفاده در فیلم‌های هالیوودی، ویدیوهای یوتیوب و ... هستند. اما این تکنولوژی‌ها واقعا چه هستند و چگونه کار می‌کنند؟

اگر تا به حال ویدیویی که در آن چهره نیکولاس کیج بر روی یک بازیگر فیلم دیگر قرار گرفته‌است را ندیده اید، پس قطعا یکی از فیلترها یا ماسک‌های رسانه‌های اجتماعی را دیده‌اید که می‌تواند شما را به یک گربه تبدیل کند، کلاه سرآشپز به سرتان بگذارد یا شما را به یک تک‌شاخ تبدیل کند.
شاید شما فیلمی را دیده باشید که در آن جوردن پیل کمدین نشان می‌دهد که چطور صورت کسی (‏در این مورد، رئیس‌جمهور سابق امریکا باراک اوباما) ‏در یک ویدیو می‌تواند دستکاری شود تا به نظر برسد چیزی می‌گوید که هرگز انجام نداده است.

حال سوال این است"Deepfake" دقیقا چیست؟
در مرکز آن، چیزی است که ممکن است فکر کنید که صرفا یک جابه-جایی صورت است. اما یک دیپ فیک، یک ویدیو ساخته شده به کمک هوش مصنوعی است که با گرفتن تعدادی (‏معمولا صدها یا هزاران)‏ عکس از یک شخص ایجاد شده‌است. این تصاویر را می توان از چند منبع، مانند اینستاگرام شخص، فیس بوک، اسنپ چت، یا حتی جستجوی تصویر گوگل دانلود کرد.
نرم‌افزار هوش مصنوعی و دیپ فیک، چهره تصاویر منبع را ترسیم و یک مدل چهره سه‌بعدی براساس عکس‌هایی که دریافت کرده، ایجاد می‌کند. این مدل محدوده و ویژگی‌های چهره بازیگر هدف را ترسیم می‌‌نماید.
همچنین به نرم‌افزار یک ویدیو منبع داده می‌شود که شامل یک صورت هدف است که کاربر می‌خواهد آن را جایگزین کند. هوش مصنوعی همچنین چهره فرد در ویدیو را ترسیم  و دوباره یک مدل سه‌بعدی را ایجاد می‌کند. اینجا جایی است که هوش مصنوعی شروع به تطبیق مدل منبع با مدل هدف می‌کند. هوش مصنوعی از طریق تصاویری که به آن داده‌ شده ‌است یاد می‌گیرد.

خطرناک‌ترین نوع جرایم در هوش مصنوعی، سلامت انتخابات پیش رو در آمریکا تحت تاثیر یادگیری عمیقحتما بخوانید: خطرناک‌ترین نوع جرایم در هوش مصنوعی، سلامت انتخابات پیش رو در آمریکا تحت تاثیر یادگیری عمیق

سپس هوش مصنوعی، صورت سه‌بعدی تولید شده را از عکس‌های منبع بر روی مدل ۳ بعدی ویدیوی هدف اعمال می‌کند و ویدیویی تولید می‌کند که در آن حرکات صورت، دهان، چشم‌ها و غیره با هم مطابقت دارند و در محدوده صورت اصلی کار می‌کنند.  منبع این موضوع یک سری عکس ثابت است و نتیجه فیلم جعل عمیق یک ویدیو با صورت جایگزین شده‌است.

تفاوت دیپ فیک با یک پرتره ویدیویی عمیق(Deep Video Portrait) چیست؟
تفاوت میان یک جعل عمیق(Deepfake) و یک پرتره ویدیویی عمیق(DVP) ‏در دو تمایز کلیدی است:
   ۱. ویدیوی خروجی از یک دی‌وی‌پی جایگزین صورت نمی‌شود، تنها ویژگی‌ها را دستکاری می‌کند.
   ۲. منبع یک دی‌وی‌پی از یک بازیگر زنده سرچشمه می‌گیرد، نه از عکس‌های جداگانه.

ویدیویی که اوباما درباره فیلم‌های جعلی صحبت می‌کند، نمونه‌ای از یک دی وی پی است، نه یک Deepfake. یک بازیگر وجود دارد که روی صورت او نقشه‌کشی شده‌است، و از آنجایی که شما جایگزین صورت هدف نیستید و تنها باعث حرکت صورت هدف می‌شوید، نتیجه می‌تواند باورپذیرتر از جعل عمیق باشد.
سازندگان دی وی پی می‌توانند کارهایی مانند پلک زدن هدف، باز کردن دهان، بالا بردن ابروها، و خم کردن سر به کنار براساس حرکات بازیگر منبع انجام دهند. از طرف دیگر، دیپ فیکس نمی‌تواند واقعا از حرکات ویدیوی اصلی منحرف شود. به همین دلیل است که DVP بیش از یک deepfake باورکردنی است.
به طور مثال: یک ماسک فیلتر اسنپ چت یا اینستاگرام یک دی وی پی است، نه یک جعل عمیق. علت آن این است که بازیگر خود شما هستید (‏هدف صورت شما را تغییر نمی‌دهد)‏، اما صورت شما نقشه‌برداری شده‌است و برنامه به سادگی چیزی را بر روی صورت شما قرار می‌دهد.

صدای جعلی و پرتره‌های ویدیویی عمیق
نوع دیگری از محتوای تقلبی که اخیرا دردسترس‌تر و قویتر شده است بحث تولید صدای جعلی می‌باشد.
در کنفرانس ادوبی مکس کریتیو در سال ۲۰۱۶، ادوبی از سیستمی به نام ووکو(VoCo) رونمایی کرد: یک مجموعه صوتی که می‌تواند به کاربران کمک کند تا مردم هرچه می‌خواهند بگویند. یک سیستم تبدیل متن به آوا است البته با صدای واقعی فرد دیگری!

این سیستم تنها به 20 دقیقه شنیدن فایلی از صدای فردی نیاز دارد تا دقیقا همسطح آن را تولید و پخش کند.

البته از آن سال به بعد چیز دیگری در باره این سیستم شنیده نشده است، بعد از مطرح شدن بسیاری از ایرادات حقوقی و حریم شخصی به این سیستم به نظر دیگر در مجامع مطرح نشد، اما ایده‌ و مسئله‌ای را مطرح کرد که کمپانی‌ها و یا گروه‌های مختلف به دنبال رسیدن به آن هستند.
اکنون که ایده و تکنولوژی وجود دارد، به طور طبیعی، شرکت‌های دیگر نسخه خود از تکنولوژی تولید صدا را منتشر کرده‌اند. امروزه لیربرد(Lyrebird) سرویسی منتشر کرده‌است که یک آواتار صوتی را برای شما براساس تنها ۳۰ جمله گفتار ورودی (‏در مقابل ۲۰ دقیقه داده مورد نیاز برای وکو)‏تولید می‌کند.
همراه شدن یک دی وی پی با صدایی جعلی می‌تواند باورپذیری را افزایش دهد. یک چنین ترکیبی تمام حواس شما را تحت تاثیر خودش قرار خواهد داد.

تکنولوژی ترکیبی
در این میان بحث تکنولوژی‌های ترکیبی نیز به شدت داغ است به طور مثال: FaceSwap یک اپلیکیشن است که باعث ترکیب قابلیت‌های جعل عمیق و پرتره ویدیویی عمیق با هم می‌شود و در باورپذیر کردن ساخته‌ها بسیار موثر است.
 این فن‌آوری‌ها به پیشرفت خود ادامه خواهند داد. اگر چه بسیاری از کاربردها سرگرم‌کننده و غیر طبیعی هستند، اما تاثیر این تکنولوژی قابل‌توجه است. دیپ فیک و دی وی پی ها بدون شک تاثیرات گسترده‌ای بر دیدگاه ما از واقعیت، اعتماد و حریم خصوصی خواهند داشت. با این حال، بحث در مورد اخلاق، مسائل و اثر آن‌ها برروی اجتماع (‏خوب و بد) فراتر از دامنه این مقاله است. اما نمونه‌های مثبت و جذابی هم در حال ظهور می‌باشد به طور مثال فیلمی از صحبت کردن دیوید بکهام به نه زبان مختلف در فیلمی که به عنوان اولین دادخواست صوتی جهان برای پایان دادن به مالاریا ثبت شده است و از فناوری‌های ذکر شده در این مقاله برای یک امر مهم انسانی استفاده گردیده است.

در حال حاضر تنها راه‌حل و پیشنهاد این است که به آنچه می‌بینید و می‌شنوید شک داشته باشید.

: لینک کوتاه خبر
متن استاتیک شماره 3 موجود نیست