Yapay zeka tarafından üretilen ses, aynı konuşmacının diliyle veya birçok farklı dilde metin ipuçlarını komutla okuyabiliyor. OpenAI, blog gönderisinde “Bu küçük ölçekli uygulamalar, Voice Engine’in çeşitli endüstrilerde iyi amaçlar için nasıl kullanılabileceğine dair yaklaşımımız, koruyucu önlemlerimiz ve düşüncelerimiz hakkında bilgilendirmeye yardımcı oluyor.” dedi.
Erişimi olan şirketler arasında eğitim teknolojisi şirketi Age of Learning, görsel hikaye anlatımı platformu HeyGen, ön saf sağlık yazılımı üreticisi Dimagi, AI iletişim uygulaması yaratıcısı Livox ve sağlık sistemi Lifespan yer alıyor.
OpenAI, 2022’nin sonlarında Voice Engine’i geliştirmeye başladığını ve teknolojinin metin okuma API’si ve ChatGPT’nin Sesli Okuma özelliği için önceden ayarlanmış sesleri zaten güçlendirdiğini söyledi. OpenAI’in Voice Engine ürün ekibinin bir üyesi olan Jeff Harris, bir röportajda; modelin “lisanslı ve kamuya açık verilerin bir karışımı” üzerinde eğitildiğini söyledi. OpenAI, yayına modelin yalnızca yaklaşık 10 geliştiriciye sunulacağını söyledi.
AI metin-ses oluşturma, gelişmeye devam eden üretken bir AI alanı. Çoğu enstrümantal veya doğal seslere odaklanırken, kısmen OpenAI’in atıfta bulunduğu sorular nedeniyle daha azı ses üretimine odaklanmış. Alandaki bazı isimler arasında, AI ses klonlama teknolojisi ve araçları sağlayan Podcastle ve ElevenLabs gibi şirketler yer alıyor.
Aynı zamanda, ABD hükümeti yapay zeka ses teknolojisinin etik olmayan kullanımlarını engellemeye çalışıyor. Geçen ay, Federal İletişim Komisyonu, insanlar Başkan Joe Biden’ın yapay zeka ile klonlanmış bir sesinden spam çağrıları aldıktan sonra AI sesleri kullanan robot çağrıları yasakladı.
OpenAI’e göre, ortakları, rızaları olmadan insanları veya kuruluşları taklit etmek için Voice Generation’ı kullanmayacaklarını söyleyen kullanım politikalarına uymayı kabul etti. Ayrıca, ortakların orijinal konuşmacının “açık ve bilgilendirilmiş rızasını” almalarını, bireysel kullanıcıların kendi seslerini oluşturmaları için yollar oluşturmalarını ve dinleyicilere seslerin AI tarafından oluşturulduğunu açıklamalarını gerektirir. OpenAI ayrıca, kökenlerini izlemek ve sesin nasıl kullanıldığını aktif olarak izlemek için ses kliplerine filigranlama ekledi.
OpenAI, banka hesaplarına erişmek için ses tabanlı kimlik doğrulamanın aşamalı olarak kaldırılması, AI’de insanların seslerinin kullanımını korumaya yönelik politikalar, AI deepfakes hakkında daha fazla eğitim ve AI içeriğinin izleme sistemlerinin geliştirilmesi de dahil olmak üzere, bu gibi araçlarla ilgili riskleri sınırlayabileceğini düşündüğü birkaç adım önerdi.