Güncelleme Tarihi:
İnsanla yüz yüze konuşurken gözümüzün fark etmeden en çok takıldığı yerlerden biri dudaklar. Söylenen söz kadar, o sözün nasıl “ağızdan çıktığı” da güven, duygu ve doğallık hissini belirliyor. İşte bu yüzden robotlar yıllardır aynı duvara çarpıyor: Yürüyüşü, kol hareketi, hatta parmak becerisi gelişse bile, ağız ve yüz ifadeleri çoğu zaman ya donuk ya da karikatür gibi kalıyor. Sonuç: Robot insana benzedikçe, küçük bir mimik hatası bile daha çok göze batıyor.

Columbia Engineering araştırmacıları bu soruna farklı bir yerden yaklaşarak dikkat çekici bir adım attı. 15 Ocak’ta duyurulan ve Science Robotics’te yayımlanan çalışmada ekip, dudak hareketlerini “kural ezberleyerek” değil, insanları izleyerek öğrenen bir robot yüzü geliştirdi. Robot; farklı dillerde kelimeler oluşturmayı denedi, hatta şarkı söyleyip bir parça seslendirdi.
AYNA KARŞISINDA ÖĞRENDİ
Robotun en ilginç tarafı, önce “kendi yüzünü” tanıması. Araştırmacılar, esnek bir yüz yapısı ve toplam 26 yüz motoru bulunan bir sistem tasarladı. Sonra robotu bir aynanın karşısına oturtup binlerce rastgele mimik ve ağız hareketi yaptırdı.
Buradaki amaç, “Şu motoru şu kadar oynatırsam dudak nasıl görünür?” sorusuna robotun kendi kendine cevap bulmasıydı. Zamanla robot, motor komutlarıyla ortaya çıkan yüz görüntüsü arasında bağ kurmayı öğrendi. Bu öğrenme sürecinde, görüntüyü eyleme dönüştüren bir yapay zekâ yaklaşımı (vision-to-action) kullanıldı. Yani robot, programcıların tek tek “Şu ses böyle yapılır” diye kural yazmasına ihtiyaç duymadan, deneye deneye yüz kontrolünü kavradı.
YOUTUBE İLE USTALAŞTI
Kendi yüzünü kontrol etmeyi öğrenen robotun ikinci aşaması, insan izlemek oldu. Araştırmacılar bu kez robota saatlerce YouTube videosu izlettirdi: İnsanların konuşurken ve şarkı söylerken ağızlarının nasıl şekil değiştirdiğini gözlemledi. Yapay zekâ, ses ile ağız formu arasındaki ilişkiyi yakalamaya çalıştı.
Sonuçta robot, konuşmanın anlamını bilmeden bile, duyduğu seslere göre dudaklarını senkron şekilde oynatabildi. Ekip, sistemi farklı dillerde ve farklı seslerde test ettiğini söylüyor. Elbette kusursuz değil: Özellikle “B” gibi sert dudak kapanışları ve “V” gibi dudak büzme gerektiren seslerde zorlandıklarını da açıkça belirtiyorlar. Ama yaklaşımın güçlü yanı şu: Robot ne kadar çok izler ve etkileşime girerse, o kadar iyileşmesi bekleniyor.
UNCANNY VALLEY AŞILACAK MI
Araştırmacıların iddiası, bunun yalnızca “dudak senkronu” meselesi olmadığı. Amaç, robotların insanla iletişim kurarken daha doğal ve duygusal olarak ikna edici görünmesi. Çünkü mimikler, özellikle ağız bölgesi, konuşmanın tonunu taşıyan en güçlü kanallardan biri.
Ekip ayrıca, bu tür bir yüz hareketi yeteneğinin ChatGPT ya da Gemini gibi sohbet yapay zekâlarıyla birleştiğinde “bağ kurma” hissini belirgin biçimde artırabileceğini savunuyor. Yani robot sadece doğru cümleyi kurmakla kalmayacak; o cümleyi söylerken yüzü de “insan gibi” eşlik edecek. Uzun sohbetlerde, mimiklerin bağlama daha duyarlı hale gelebileceği düşüncesi de bu çalışmanın iddialı taraflarından biri.
Tabii işin bir de hassas yönü var: İnsanların duygusal olarak bağ kurabildiği yüz ifadeleri, aynı zamanda etik soru işaretlerini büyütüyor. Özellikle eğitim, eğlence, sağlık ve yaşlı bakımı gibi alanlarda “yakın ilişki” kuran robotların sınırları, şeffaflığı ve kötüye kullanım riskleri şimdiden tartışma konusu. Araştırmacılar da bu teknolojinin güçlü olacağını, bu yüzden “yavaş ve dikkatli” ilerlemek gerektiğini vurguluyor.