Techinside Google News
Techinside Google News

Microsoft AI fotoğraftan video için iddialı!

Microsoft AI fotoğraftan video konusunda ileri özelliklere sahip. Videolar, gerçek mi yoksa yapay zeka ürünü mü ayırmak çok zor hale geliyor.

Microsoft Research Asia, tek bir hareketsiz görüntüden ve bir ses parçasından korkutucu derecede gerçekçi deepfake videolar üretebilen bir yapay zeka modelini ortaya çıkardı. Bundan sonra internette gördüklerimize ve duyduklarımıza nasıl güveneceğiz?

Microsoft AI fotoğraftan video üretiyor

Daha önce de belirttiğimiz gibi , yapay zeka sistemleri geçtiğimiz birkaç yılda önemli kriterlerde bizi geride bıraktı ve şimdiden birçok insan vaktinden önce bir kenara atılıp yerini algoritmalara bırakma konusunda oldukça endişeli. Son zamanlarda oldukça sınırlı sayıda akıllı cihazın güçlü günlük asistanlara ve hayati üretkenlik araçlarına dönüştüğüne tanık olduk. Ayrıca , sessiz video kliplere gerçekçi ses efektleri oluşturabilen ve hatta metin istemlerinden çarpıcı görüntüler oluşturabilen modeller de var. Microsoft’un VASA-1 çerçevesi bir başka büyük adım gibi görünüyor.

- Advertisement -

Modeli, VoxCeleb2 veri kümesindeki yaklaşık 6.000 gerçek hayattaki konuşan yüzün görüntüleri üzerinde eğittikten sonra teknoloji, yeni canlandırılan kişinin yalnızca sağlanan ses kaydıyla doğru bir şekilde dudak senkronizasyonu yapamadığı, aynı zamanda korkutucu gerçek videolar üretebiliyor. ayrıca tek bir statik vesikalık fotoğraftan alınan çeşitli yüz ifadeleri ve doğal kafa hareketleri de bulunuyor.

Birkaç ay önce ortaya çıkan Alibaba Akıllı Bilgisayar Enstitüsü’nün Audio2Video Yayılım Modeline oldukça benzer ancak daha fotogerçekçi ve doğru. VASA-1’in, “ihmal edilebilir başlangıç ​​gecikmesiyle” saniyede 40 kare hızında 512×512 pikselde senkronize videolar oluşturabildiği bildiriliyor.

Proje demoları için kullanılan referans fotoğrafların tümü StyleGAN2 veya DALL-E tarafından yapay zeka tarafından oluşturulmuş olsa da, çerçevenin eğitim setinin dışına çıkma becerisini göstermek için kullanılan göze çarpan gerçek dünyadan bir örnek var: rap Mona Lisa. Proje sayfası, hareketsiz bir görüntüden oluşturulan ve bir ses parçasıyla eşleştirilen konuşma ve şarkı söyleme videolarının birçok örneğini içerir; ancak araç aynı zamanda duygular, ifadeler, sanal video kameraya olan mesafe gibi ” yüz dinamikleri ve kafa pozlarını ” ayarlamak için isteğe bağlı kontrollere de sahip.

Başarıyı detaylandıran bir makalenin girişinde, “Yapay zeka tarafından üretilen konuşan yüzlerin ortaya çıkışı, teknolojinin insan-insan ve insan-yapay zeka etkileşimlerinin zenginliğini artırdığı bir geleceğe açılan bir pencere sunuyor. Böyle bir teknoloji, dijital iletişimi zenginleştirme, iletişim bozukluğu olan kişiler için erişilebilirliği artırma, etkileşimli yapay zeka eğitimiyle eğitim yöntemlerini dönüştürme ve sağlık hizmetlerinde terapötik destek ve sosyal etkileşim sağlama vaadini taşıyor” ifadelerine yer verildi.

Siz bu konu hakkında ne düşünüyorsunuz? Görüşlerinizi yorumlarda paylaşın!

SON VİDEO

TÜMÜ
00:06:39

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

İlginizi çekebilir