İnsanlık, Microsoft’ta bir araştırma ekibi tarafından geliştirilen ve yalnızca birkaç saniyede yüksek kaliteli insan sesi kopyaları üretebilen bir yapay zeka olan Vall-E’nin yaratılmasıyla (kaybedeceğimiz) makinelere karşı kaçınılmaz savaşa doğru bir adım daha attı. ses eğitimi.
Vall-E, yapay zeka destekli ilk ses aracı değil — xVASynth (yeni sekmede açılır)örneğin, birkaç yıldır ortalıkta dolaşıyor – ancak saf yetenek açısından hepsini aşmayı vaat ediyor. Cornell Üniversitesi’nde mevcut bir makalede (yeni sekmede açılır) (Windows Central aracılığıyla (yeni sekmede açılır)), Vall-E araştırmacıları, mevcut metin okuma sistemlerinin çoğunun, yüksek kaliteli konuşmayı doğru bir şekilde sentezlemek için “yüksek kaliteli temiz verilere” güvenmeleri nedeniyle sınırlı olduğunu söylüyor.
Belgede, “İnternetten taranan büyük ölçekli veriler, gereksinimi karşılayamaz ve her zaman performansın düşmesine yol açar” diyor. “Eğitim verileri nispeten küçük olduğu için, mevcut TTS sistemleri hala zayıf genellemeden muzdarip. Sıfır atış senaryosunda görünmeyen konuşmacılar için konuşmacı benzerliği ve konuşma doğallığı önemli ölçüde düşüyor.”
(“Sıfır atış senaryosu (yeni sekmede açılır)” bu durumda, esas olarak, yapay zekanın özel olarak eğitilmeden sesleri yeniden yaratma yeteneği anlamına gelir.)
Öte yandan Vall-E, çok daha büyük ve daha çeşitli bir veri seti ile eğitilmiştir: 7.000’den fazla benzersiz konuşmacıdan alınan 60.000 saatlik İngilizce konuşma, tamamı konuşma tanıma yazılımı tarafından yazıya dökülmüştür. Yapay zekaya beslenen veriler, diğer metinden konuşmaya sistemlerinde kullanılandan “daha gürültülü konuşma ve hatalı transkripsiyonlar” içeriyor, ancak araştırmacılar, girdinin büyük ölçeğinin ve çeşitliliğinin onu çok daha esnek, uyarlanabilir hale getirdiğine inanıyor. ve – bu büyük olanı – öncekilerden daha doğal.
Sayılar, denklemler, diyagramlar ve buna benzer başka şeylerle dolu olan makale, “Deney sonuçları, Vall-E’nin konuşma doğallığı ve konuşmacı benzerliği açısından son teknoloji sıfır atış TTS sisteminden önemli ölçüde daha iyi performans gösterdiğini gösteriyor” diyor. karmaşıklıklar. “Ayrıca, VALL-E’nin konuşmacının duygusunu ve akustik istemin akustik ortamını sentez halinde koruyabildiğini bulduk.”
Vall-E’yi Github’da çalışırken duyabilirsiniz (yeni sekmede açılır), araştırma ekibinin düzinelerce girdi ve çıktı örneğiyle birlikte her şeyin nasıl çalıştığına dair kısa bir dökümü paylaştığı yer. Kalite değişkenlik gösterir: Seslerden bazıları oldukça robotikken, diğerleri oldukça insani ses çıkarır. Ancak bir tür ilk geçiş teknolojisi demosu olarak etkileyici. Sistemler geliştikçe ve ses eğitimi veri seti daha da genişledikçe, bu teknolojinin bir veya iki veya beş yıl içinde nerede olacağını hayal edin.
Tabii bu yüzden sorun oluyor. AI sanat yaratıcısı Dall-E, gizlilik ve mülkiyet endişeleri nedeniyle geri tepme ile karşı karşıya (yeni sekmede açılır)ve ChatGPT botu, yakın zamanda New York Şehri Eğitim Bakanlığı tarafından yasaklandığı konusunda yeterince ikna edici. (yeni sekmede açılır). Vall-E, dolandırıcı pazarlama çağrılarında veya derin sahte videoları güçlendirmek için olası kullanım nedeniyle daha da endişe verici olma potansiyeline sahiptir. Bu biraz abartılı gelebilir ama baş editörümüz Tyler Wilde’ın yılın başında söylediği gibi, bu tür şeyler ortadan kalkmayacak. (yeni sekmede açılır)ve potansiyel sorunlar gerçek (ve gerçekten büyük) sorunlara dönüşmeden önce sorunları tanımamız ve yapay zeka sistemlerinin oluşturulmasını ve kullanılmasını düzenlememiz çok önemlidir.
Vall-E araştırma ekibi, makalesinin sonunda bu “daha geniş etkilere” değindi. Ekip, “VALL-E, konuşmacı kimliğini koruyan konuşmayı sentezleyebildiğinden, modelin yanlış kullanımında, ses tanımlamasını taklit etme veya belirli bir konuşmacıyı taklit etme gibi potansiyel riskler taşıyabilir” diye yazdı. “Bu tür riskleri azaltmak için, bir ses klibinin VALL-E tarafından sentezlenip sentezlenmediğini ayırt edecek bir algılama modeli oluşturmak mümkündür. Microsoft AI İlkelerini de koyacağız. (yeni sekmede açılır) modelleri daha da geliştirirken uygulamaya koymak.”
Anında ses taklidinin kötü yerlere yol açtığına dair daha fazla kanıta ihtiyacınız olursa:
Daha çok oyun haberleri yazısı okumak için kategorimize göz atabilirsiniz.