Kateqoriyalar: İT xəbərləri

Yeni AI Microsoft 3 saniyəlik audio nümunəsindən istənilən şəxsin səsini təqlid edir

Cümə axşamı, tədqiqatçılar Microsoft üç saniyəlik səs nümunəsi verildikdə insan səsini dəqiq şəkildə təqlid edə bilən VALL-E adlı yeni süni intellekt (AI) modelini elan etdi. Müəyyən bir səsi öyrəndikdən sonra VALL-E natiqin emosional tonunu qoruyaraq, həmin şəxsin hər hansı dediyi səsi sintez edə bilər.

Onun müəllifləri təklif edir ki, VALL-E yüksək keyfiyyətli mətndən nitqə, nitqin redaktəsi üçün istifadə edilə bilər, burada insanın qeydi mətn transkripsiyasından redaktə edilə və dəyişdirilə bilər (əvvəlcə demədikləri şeyləri deməyə məcbur edir) və kimi digər generativ AI modelləri ilə birlikdə audio məzmun yaratmaq üçün GPT-3.

Microsoft VALL-E-ni "Neyron Codec Dil Modeli" adlandırır və o, Meta-nın 2022-ci ilin oktyabrında elan etdiyi EnCodec adlı texnologiyaya əsaslanır. Adətən dalğa formalarını manipulyasiya edərək nitqi sintez edən digər mətndən-nitqə metodlarından fərqli olaraq, VALL-E diskret audio yaradır. mətn və akustik göstərişlərdən kodek kodları. O, əsasən bir insanın necə səsləndiyini təhlil edir, EnCodec sayəsində bu məlumatı diskret komponentlərə ("tokenlər" adlanır) parçalayır və bu səsin kənarda başqa ifadələr işlətdiyi təqdirdə necə səslənəcəyi ilə bağlı "bildiklərini" uyğunlaşdırmaq üçün təlim məlumatlarından istifadə edir. üç saniyəlik nümunədən.

Microsoft LibriLight adlı Meta tərəfindən tərtib edilmiş audio kitabxanada VALL-E-nin nitq sintezi imkanlarını öyrətdi. O, əsasən ictimaiyyətə açıq olan LibriVox audiokitablarından götürülmüş 60-dən çox diktorun ingilis dilində 7 saatlıq verilişlərini ehtiva edir.

Diktorun səs tembrini və emosional tonunu qorumaqla yanaşı, VALL-E həm də audio nümunənin “akustik mühitini” simulyasiya edə bilir. Məsələn, nümunə telefon danışığından alınmışdırsa, sintez edilmiş səs çıxışı telefon danışığının akustik və tezlik xüsusiyyətlərini simulyasiya edəcək. Həmçinin nümunələr Microsoft VALL-E-nin vokal tembr variasiyaları yarada biləcəyini nümayiş etdirin.

Ola bilsin ki, VALL-E-nin fırıldaqçılıq və aldadıcılığı potensial olaraq asanlaşdırmaq qabiliyyətinə görə, Microsoft başqalarının sınaqdan keçirməsi üçün VALL-E kodunu təqdim etməyib, ona görə də biz onun imkanlarını sınaqdan keçirə bilməyəcəyik. Tədqiqatçılar bu texnologiyanın gətirə biləcəyi potensial sosial zərərin fərqindədirlər. Məqalənin sonunda yazırlar:

“VALL-E spikerin şəxsiyyətini qoruyan nitqi sintez edə bildiyi üçün o, səsin identifikasiyasının saxtalaşdırılması və ya müəyyən dinamiki təqlid etmək kimi modeldən sui-istifadənin potensial risklərini daşıya bilər. Bu cür riskləri azaltmaq üçün VALL-E istifadə edərək audio klipin sintez edilib-edilmədiyini ayırd etmək üçün tanınma modeli qurulacaq."

Siz Ukraynaya rus işğalçılarına qarşı mübarizədə kömək edə bilərsiniz. Bunun ən yaxşı yolu Ukrayna Silahlı Qüvvələrinə pul köçürməkdir Savelife və ya rəsmi səhifə vasitəsilə NBU.

Həmçinin oxuyun:

səhm
Julia Alexandrova

Qəhvəçi. Fotoqraf. Elm və kosmosdan yazıram. Düşünürəm ki, yadplanetlilərlə görüşmək bizim üçün hələ tezdir. Mən robot texnikasının inkişafını izləyirəm, hər halda ...

Cavab yaz

E-poçt ünvanından dərc olunmayacaq. Lazım alanlar qeyd olunur*