Google'ın Yapay Zeka Teknolojisi Fotoğrafları Canlandırıyor!

Google’ın yeni yapay zeka teknolojisi Vlogger, kişinin tek bir fotoğraf üzerinden konuşan ve hareket eden sanal versiyonlarını oluşturabiliyor. Kullanıcıların sonuç almak için yalnızca bir portre fotoğrafı ve ses içeriği girmeleri yetiyor…

Bu yenilikçi model, metinden görüntüye, videoya ve 3D modellemeye dek pek çok yeteneğiyle bilinen difüzyon mimarisine dayanıyor. Bu noktada VLOGGER’ın mevcut teknolojiye ek kontrol mekanizmaları ekleyerek avatar oluşturma konseptini yeni bir seviyeye taşıdığı görülüyor.

VLOGGER özünde, karmaşık bir dizi adım aracılığıyla ses dosyaları ve hareketsiz görüntüleri işleyerek çalışıyor. Zamanlamaları ve hareketleri belirlemek için 3D hareket oluşturma sürecini ve ardından bir “zamansal difüzyon” modelini kullanılıyor. Daha sonra model, son gerçekçi avatarı oluşturmak için çıktıyı iyileştiriyor.

Google araştırmacılarının, VLOGGER’ın fark yaratacağını öngördüğü çok fazla alan var. Mevcut uygulama senaryolarında eğitim ve habercilik öne çıksa da Teams ve Slack gibi platformlarda da potansiyel görüyor araştırmacılar.

Google, VLOGGER’ı yapay zekanın ses, hareket ve göz teması yoluyla insanlarla doğal olarak etkileşim kurabileceği “evrensel bir sohbet robotu”na giden bir adım olarak görüyor.