Manipüle edilmiş videoların yanlış bilgi yayabildiği, insanları zorbalık edebildiği ve zarara yol açabildiği bir çağda, UC Riverside araştırmacıları bu sahte içerikleri ortaya çıkarmak için güçlü bir yeni sistem geliştirdiler.
UCR’nin Marlan ve Rosemary Bourns Mühendislik Fakültesi’nden elektrik ve bilgisayar mühendisliği profesörü Amit Roy-Chowdhury ve doktora adayı Rohit Kundu, yüz değiştirme ve konuşma bozukluğunun çok ötesine geçen manipülasyonlar olsa bile video kurcalamalarını tespit eden bir yapay zeka modeli geliştirmek için Google bilim insanlarıyla iş birliği yaptı.
Google deepfake içerik tespitini ileri seviyeye getirdi
Evrensel Kurcalanmış ve Sentetik Videoları Tanımlama Ağı (UNITE) adlı yeni sistemleri, yalnızca yüzleri değil, arka planlar ve hareket desenleri de dahil olmak üzere tüm video karelerini inceleyerek sahtecilikleri tespit ediyor. Bu analiz, onu yüz içeriğine dayanmayan sentetik veya değiştirilmiş videoları tespit edebilen ilk araçlardan biri haline getiriyor.
Kundu: “Deepfake’ler gelişti. Artık sadece yüz değiştirmeyle ilgili değiller. İnsanlar artık güçlü üretken modeller kullanarak yüzlerden arka planlara kadar tamamen sahte videolar oluşturuyor. Sistemimiz tüm bunları yakalamak için tasarlandı”dedi.
UNITE’ın gelişimi, metinden videoya ve görüntüden videoya dönüştürme teknolojilerinin çevrimiçi ortamda yaygınlaşmasıyla birlikte gerçekleşti. Bu yapay zeka platformları, neredeyse herkesin son derece ikna edici videolar üretmesine olanak tanırken, bireyler, kurumlar ve demokrasinin kendisi için ciddi riskler oluşturuyor.
Kundu: “Bu araçların ne kadar erişilebilir hale geldiği korkutucu. Orta düzeyde beceriye sahip herkes, güvenlik filtrelerini aşarak, kamuya mal olmuş kişilerin hiç söylemedikleri şeyleri söylediği gerçekçi videolar üretebiliyor” dedi.
Kundu, daha önceki deepfake tespit cihazlarının neredeyse tamamen yüz ipuçlarına odaklandığını açıkladı. UNITE, bu sorunu çözmek için video klipleri analiz etmek üzere transformatör tabanlı bir derin öğrenme modeli kullanıyor. Bu model, önceki sistemler tarafından sıklıkla gözden kaçan incelikli mekansal ve zamansal tutarsızlıkları tespit ediyor. Model, belirli bir kişi veya nesneye bağlı olmayan özellikleri çıkaran SigLIP adlı temel bir yapay zeka çerçevesine dayanıyor. “Dikkat çeşitliliği kaybı” olarak adlandırılan yeni bir eğitim yöntemi, sistemin her karede birden fazla görsel bölgeyi izlemesini sağlayarak yalnızca yüzlere odaklanmasını engelliyor.