Bu yeni yapay zeka, yalnızca 3 saniyelik eğitimle insan seslerini taklit edebilir

İnsanlık, Microsoft’ta bir araştırma ekibi tarafından geliştirilen ve yalnızca birkaç saniyede yüksek kaliteli insan sesi kopyaları üretebilen bir yapay zeka olan Vall-E’nin yaratılmasıyla (kaybedeceğimiz) makinelere karşı kaçınılmaz savaşa doğru bir adım daha attı. ses eğitimi.

Vall-E, yapay zeka destekli ilk ses aracı değil — xVASynth (yeni sekmede açılır)örneğin, birkaç yıldır ortalıkta dolaşıyor – ancak saf yetenek açısından hepsini aşmayı vaat ediyor. Cornell Üniversitesi’nde mevcut bir makalede (yeni sekmede açılır) (Windows Central aracılığıyla (yeni sekmede açılır)), Vall-E araştırmacıları, mevcut metin okuma sistemlerinin çoğunun, yüksek kaliteli konuşmayı doğru bir şekilde sentezlemek için “yüksek kaliteli temiz verilere” güvenmeleri nedeniyle sınırlı olduğunu söylüyor.

Belgede, “İnternetten taranan büyük ölçekli veriler, gereksinimi karşılayamaz ve her zaman performansın düşmesine yol açar” diyor. “Eğitim verileri nispeten küçük olduğu için, mevcut TTS sistemleri hala zayıf genellemeden muzdarip. Sıfır atış senaryosunda görünmeyen konuşmacılar için konuşmacı benzerliği ve konuşma doğallığı önemli ölçüde düşüyor.”

(“Sıfır atış senaryosu (yeni sekmede açılır)” bu durumda, esas olarak, yapay zekanın özel olarak eğitilmeden sesleri yeniden yaratma yeteneği anlamına gelir.)

Öte yandan Vall-E, çok daha büyük ve daha çeşitli bir veri seti ile eğitilmiştir: 7.000’den fazla benzersiz konuşmacıdan alınan 60.000 saatlik İngilizce konuşma, tamamı konuşma tanıma yazılımı tarafından yazıya dökülmüştür. Yapay zekaya beslenen veriler, diğer metinden konuşmaya sistemlerinde kullanılandan “daha gürültülü konuşma ve hatalı transkripsiyonlar” içeriyor, ancak araştırmacılar, girdinin büyük ölçeğinin ve çeşitliliğinin onu çok daha esnek, uyarlanabilir hale getirdiğine inanıyor. ve – bu büyük olanı – öncekilerden daha doğal.

Sayılar, denklemler, diyagramlar ve buna benzer başka şeylerle dolu olan makale, “Deney sonuçları, Vall-E’nin konuşma doğallığı ve konuşmacı benzerliği açısından son teknoloji sıfır atış TTS sisteminden önemli ölçüde daha iyi performans gösterdiğini gösteriyor” diyor. karmaşıklıklar. “Ayrıca, VALL-E’nin konuşmacının duygusunu ve akustik istemin akustik ortamını sentez halinde koruyabildiğini bulduk.”

OKU Bugünün Wordle ipucu ve cevabı #805: 2 Eylül Cumartesi

Val-E diyagramı — (İmaj kredisi: Vall-E)

Vall-E’yi Github’da çalışırken duyabilirsiniz (yeni sekmede açılır), araştırma ekibinin düzinelerce girdi ve çıktı örneğiyle birlikte her şeyin nasıl çalıştığına dair kısa bir dökümü paylaştığı yer. Kalite değişkenlik gösterir: Seslerden bazıları oldukça robotikken, diğerleri oldukça insani ses çıkarır. Ancak bir tür ilk geçiş teknolojisi demosu olarak etkileyici. Sistemler geliştikçe ve ses eğitimi veri seti daha da genişledikçe, bu teknolojinin bir veya iki veya beş yıl içinde nerede olacağını hayal edin.

Tabii bu yüzden sorun oluyor. AI sanat yaratıcısı Dall-E, gizlilik ve mülkiyet endişeleri nedeniyle geri tepme ile karşı karşıya (yeni sekmede açılır)ve ChatGPT botu, yakın zamanda New York Şehri Eğitim Bakanlığı tarafından yasaklandığı konusunda yeterince ikna edici. (yeni sekmede açılır). Vall-E, dolandırıcı pazarlama çağrılarında veya derin sahte videoları güçlendirmek için olası kullanım nedeniyle daha da endişe verici olma potansiyeline sahiptir. Bu biraz abartılı gelebilir ama baş editörümüz Tyler Wilde’ın yılın başında söylediği gibi, bu tür şeyler ortadan kalkmayacak. (yeni sekmede açılır)ve potansiyel sorunlar gerçek (ve gerçekten büyük) sorunlara dönüşmeden önce sorunları tanımamız ve yapay zeka sistemlerinin oluşturulmasını ve kullanılmasını düzenlememiz çok önemlidir.

Vall-E araştırma ekibi, makalesinin sonunda bu “daha geniş etkilere” değindi. Ekip, “VALL-E, konuşmacı kimliğini koruyan konuşmayı sentezleyebildiğinden, modelin yanlış kullanımında, ses tanımlamasını taklit etme veya belirli bir konuşmacıyı taklit etme gibi potansiyel riskler taşıyabilir” diye yazdı. “Bu tür riskleri azaltmak için, bir ses klibinin VALL-E tarafından sentezlenip sentezlenmediğini ayırt edecek bir algılama modeli oluşturmak mümkündür. Microsoft AI İlkelerini de koyacağız. (yeni sekmede açılır) modelleri daha da geliştirirken uygulamaya koymak.”

Anında ses taklidinin kötü yerlere yol açtığına dair daha fazla kanıta ihtiyacınız olursa:

OKU Valve, Dota 2'den 90.000 smurf hesabını yasakladı; ardından ana hesapları da aldı

Daha çok oyun haberleri yazısı okumak için kategorimize göz atabilirsiniz.

Bu yeni yapay zeka, yalnızca 3 saniyelik eğitimle insan seslerini taklit edebilir

Göz Atabilirsin

Walter White'ın Kadroya Katılacağına İlişkin MultiVersus Geliştirici İpuçları

SilverStone, istiflenebilir sistemiyle 'hepsi bir arada' soğutmayı tam anlamıyla ele aldı

Uzaydan Gelen Katil Palyaçolar Oyunu Palyaçoları Ayrıntılı Gösteriyor

John Wick'in yönetmeni Rainbow Six filmi çekiyor

Son Yazılar

Over - -Counter doğum kontrolü kontraseptif erişimde dramatik bir artışa yol açtı

Zoë Kravitz, cephanelik ve bale dairelerinin zahmetsizce seksi görünmesini sağladı

Haftalık alışkanlıklar, obstrüktif bir uyku apnesinin semptomlarını daha da kötüleştirebilir

Bir kuyumcu bana bunu söyleyene kadar mücevherlerimi yıllarca yanlış giydim

Bir yanıt yazın Yanıtı iptal et

Bu yeni yapay zeka, yalnızca 3 saniyelik eğitimle insan seslerini taklit edebilir

Göz Atabilirsin

Son Yazılar

İlgili yazılar

Bir yanıt yazın Yanıtı iptal et