Coqui ve Hugging Face iş birliğiyle sesli yapay zekada yeni bir dönem başlıyor. Dijital yapay zeka çağının sınırlarını sürekli zorlayan sesli yapay zeka teknolojileri hepimizi her geçen gün daha fazla etkiliyor. Sesli Yapay Zeka sektöründeki son gelişmeler, özellikle de Berlin merkezli Coqui'nin Hugging Face’le yürütttüğü iş birliği kapsamında yarattığı XTTS modeli, bu yeniliklerin ne kadar heyecan verici olduğunu bir kez daha kanıtlıyor. 2023’ün Mart ayında 3,3 milyon dolarlık tohum yatırım toparlayan Coqui, söz konusu iş birliği sayesinde yapay zeka ve ses teknolojisi alanında liderliğini pekiştiriyor. 

Coqui sözcüğünün dokunaklı bir anlamı var. Coqui, Porto Riko'ya özgü bir kurbağa türünü ifade ediyor. Orada bulunduğum süre boyunca beni eğlendiren bu minyatür kurbağalar gün batımlarında kendilerine özgü çıkardıkları bu ses, Porto Riko’nun ulusal hazinesi olarak addediliyor. Sesli yapay zeka alanında yeniliklere öncülük eden bir startup için Coqui isminin seçilmesi bir pazarlamacı ve iletişimci olarak ilgimi çekti. İsim, gerçek bir hikayeden ve doğadan ilham alıyor. Coqui'nin ekibi Mozilla'dan sektör vizyonerlerinden oluşuyor ve şirket, Sesli yapay zeka temel modeller geliştirmeyi ve sektörü genişletmeyi hedefliyor. Coqui adı, bu küçük sesli kurbağa türünden esinlenerek, sesli yapay zekada doğal ve insan benzeri sesler üretmek üzerine tasarlanmış durumda. Coqui, girişimleri aracılığıyla yapay zeka sektöründe önemli bir oyuncu olmayı ve sesli yapay zekanın demokratikleşmesine öncülük etmeyi hedefliyor.

Coqui'nin kurucu ortağı Joshua Meyer’la yaptığım kısa bir sohbetten, yeni XTTS geliştirmesinin sesli yapay zeka teknolojisinde önemli bir dönüm noktası olduğunu ve hem yapay zeka topluluğu hem de sektör için muazzam fırsatlar barındırdığını anladım. XTTS'nin başarısı ve bu iki şirket arasındaki iş birliği, sesli yapay zekayı evrenselleştirme ve herkes için erişilebilir hale getirmekte umut verici görünüyor. Şahsen ben bu yeni sesli yapay zeka çağının neler getireceğini görmek için sabırsızlanıyorum.

Joshua, LinkedIn'de OpenAI ve Spotify'ın son hamlelerini değerlendirirken, “Bugün jeneratif ses teknolojilerinde pek çok haber var ve bunların erişilebilir olması çok önemli” diye konuşuyor. Söz konusu bu duyarlılık, özellikle teknoloji ürün pazarlama ve iletişim alanlarında şirketler, startup’lar ve liderler aracılığıyla bu pazarı beraber büyütmenin önemini vurguluyor. 

Ses klonlama ve kapsamlı dil desteği gibi özellikler ilginizi çekiyorsa, XTTS demo sürümünü denemenizi şiddetle tavsiye ederim.

XTTS modeli nedir?

20 Eylül 2023'te Coqui, kapsamlı dil desteğiyle sesli yapay zekanın geleceğini yeniden şekillendirmeyi amaçlayan XTTS modelini tanıttı. Model, üç saniyelik bir ses klibi ile ses klonlama, duygu ve stil aktarımı gibi devrim niteliğinde özellikler sunuyor. Kapsamlı dil desteği ve yüksek ses kalitesi, XTTS'yi küresel olarak erişilebilir ve uygulanabilir kılıyor.

Hugging Face’le yürütülen iş birliği

Hugging Face’le yapılan işbirliği XTTS modelinin erişim alanını büyütüyor ve bu modeli Hugging Face platformunda barındırarak kullanıcı deneyimini zenginleştiriyor. Hugging Face CTO'su Julien Chaumond bu iş birliği ve genel olarak açık kaynaklı yapay zekanın önemini vurguluyor.

Kullanıcı deneyimi

XTTS modelini deneyimlemek bana sesli yapay zekanın ne kadar ileri gidebileceğini gösterdi. Ses klonlama ve duygu aktarımı gibi özellikler etkileşimli ve kişiselleştirilmiş kullanıcı deneyimleri sağlıyor.

XTTS'nin bazı özellikleri şöyle:

●    Sadece üç saniyelik bir ses klibiyle ses klonlama. 
●    Klonlama sırasında duygu ve stil aktarımı. 
●    Diller arası ses klonlama yetenekleri. 
●    Çok dilli konuşma üretimi.
●    24kHz örnekleme oranı. 

Şu anda XTTS İngilizce, İspanyolca, Fransızca, Almanca, İtalyanca, Brezilya Portekizcesi, Lehçe, Türkçe, Rusça, Hollandaca, Çekçe, Arapça ve Mandarin Çincesini desteklemektedir.

Coqui’nin kurucu ortağı Joshua Meyer’la kısa bir röportaj:

CT: Bu işbirliği için tebrikler Joshua. XTTS modelini geliştirmek için size ne ilham verdi?

JM: Ekibimiz Mozilla makine öğrenimi grubundan geliyor. Coqui'de vizyonumuz belli: Çok yakında her yerde bulunacak jeneratif ses yapay zekası için temel modeller oluşturmak. XTTS ses alanında, görüntüler için Stable Diffusion ve metinler için Llama'ya benzer sağlam bir pozisyonda.

CT: Hugging Face ile iş birliği nasıl ortaya çıktı ve modelin geleceği üzerinde nasıl bir etkisi olacak?

JM: Bu, Hugging Face’le yaptığımız ilk iş birliği değil. Bu itibarlı platformda temel modelleri piyasaya sürmeyi dört gözle bekliyoruz. Hugging Face açık kaynaklı yapay zeka liderleriyle iş birliği yapmaktan keyif alıyor. XTTS'nin lansmanı başarılı geçti ve topluluktan çok olumlu geri bildirimler aldı.

CT: XTTS modelinin sektöre ve genel kullanıcılara ne gibi faydalar sağlayacağını düşünüyorsunuz?

JM: XTTS sesli yapay zeka alanında benzersiz standartlar belirliyor ve ses üretim kalitesinde ise alternatifi yok. Coqui ve Hugging Face jeneratif yapay zeka yolculuğunun öncüleri. Hugging Face, XTTS'nin daha geniş bir topluluğa ulaşmasını sağlıyor ve Coqui olarak küresel geliştiricileri jeneratif ses yapay zekanın sınırlarını keşfetmeye ve yeniden tanımlamaya davet ediyoruz.

XTTS sesli yapay zeka teknolojisinde önemli bir ilerlemeyi temsil ediyor ve Coqui'nin bu alandaki yenilikleri, daha geniş yapay zeka topluluğu ve endüstrisi için önemli bir fırsat sunuyor.

XTTS'nin başarısı ve bu iki şirket arasındaki iş birliği, sesli yapay zekayı evrensel ve herkes için erişilebilir hale getirmekte umut vadediyor. Şahsen ben bu yeni sesli yapay zeka çağının neler getireceğini merakla bekliyorum.

Sesli yapay zeka ve kapsamlı dil desteği ilginizi çekiyorsa, XTTS demo sürümünü denemenizi tavsiye ederim.