Root NationXəbərlərİT xəbərləriYeni AI Microsoft 3 saniyəlik audio nümunəsindən istənilən şəxsin səsini təqlid edir

Yeni AI Microsoft 3 saniyəlik audio nümunəsindən istənilən şəxsin səsini təqlid edir

-

Cümə axşamı, tədqiqatçılar Microsoft üç saniyəlik səs nümunəsi verildikdə insan səsini dəqiq şəkildə təqlid edə bilən VALL-E adlı yeni süni intellekt (AI) modelini elan etdi. Müəyyən bir səsi öyrəndikdən sonra VALL-E natiqin emosional tonunu qoruyaraq, həmin şəxsin hər hansı dediyi səsi sintez edə bilər.

Onun müəllifləri təklif edir ki, VALL-E yüksək keyfiyyətli mətndən nitqə, nitqin redaktəsi üçün istifadə edilə bilər, burada insanın qeydi mətn transkripsiyasından redaktə edilə və dəyişdirilə bilər (əvvəlcə demədikləri şeyləri deməyə məcbur edir) və kimi digər generativ AI modelləri ilə birlikdə audio məzmun yaratmaq üçün GPT-3.

Microsoft AI VALL-E

Microsoft VALL-E-ni "Neyron Codec Dil Modeli" adlandırır və o, Meta-nın 2022-ci ilin oktyabrında elan etdiyi EnCodec adlı texnologiyaya əsaslanır. Adətən dalğa formalarını manipulyasiya edərək nitqi sintez edən digər mətndən-nitqə metodlarından fərqli olaraq, VALL-E diskret audio yaradır. mətn və akustik göstərişlərdən kodek kodları. O, əsasən bir insanın necə səsləndiyini təhlil edir, EnCodec sayəsində bu məlumatı diskret komponentlərə ("tokenlər" adlanır) parçalayır və bu səsin kənarda başqa ifadələr işlətdiyi təqdirdə necə səslənəcəyi ilə bağlı "bildiklərini" uyğunlaşdırmaq üçün təlim məlumatlarından istifadə edir. üç saniyəlik nümunədən.

Microsoft LibriLight adlı Meta tərəfindən tərtib edilmiş audio kitabxanada VALL-E-nin nitq sintezi imkanlarını öyrətdi. O, əsasən ictimaiyyətə açıq olan LibriVox audiokitablarından götürülmüş 60-dən çox diktorun ingilis dilində 7 saatlıq verilişlərini ehtiva edir.

Diktorun səs tembrini və emosional tonunu qorumaqla yanaşı, VALL-E həm də audio nümunənin “akustik mühitini” simulyasiya edə bilir. Məsələn, nümunə telefon danışığından alınmışdırsa, sintez edilmiş səs çıxışı telefon danışığının akustik və tezlik xüsusiyyətlərini simulyasiya edəcək. Həmçinin nümunələr Microsoft VALL-E-nin vokal tembr variasiyaları yarada biləcəyini nümayiş etdirin.

Microsoft AI VALL-E

Ola bilsin ki, VALL-E-nin fırıldaqçılıq və aldadıcılığı potensial olaraq asanlaşdırmaq qabiliyyətinə görə, Microsoft başqalarının sınaqdan keçirməsi üçün VALL-E kodunu təqdim etməyib, ona görə də biz onun imkanlarını sınaqdan keçirə bilməyəcəyik. Tədqiqatçılar bu texnologiyanın gətirə biləcəyi potensial sosial zərərin fərqindədirlər. Məqalənin sonunda yazırlar:

“VALL-E spikerin şəxsiyyətini qoruyan nitqi sintez edə bildiyi üçün o, səsin identifikasiyasının saxtalaşdırılması və ya müəyyən dinamiki təqlid etmək kimi modeldən sui-istifadənin potensial risklərini daşıya bilər. Bu cür riskləri azaltmaq üçün VALL-E istifadə edərək audio klipin sintez edilib-edilmədiyini ayırd etmək üçün tanınma modeli qurulacaq."

Siz Ukraynaya rus işğalçılarına qarşı mübarizədə kömək edə bilərsiniz. Bunun ən yaxşı yolu Ukrayna Silahlı Qüvvələrinə pul köçürməkdir Savelife və ya rəsmi səhifə vasitəsilə NBU.

Həmçinin oxuyun:

Jereloarxeika
Qeydiyyatdan keçmək
Haqqında məlumat verin
qonaq

0 Şərhlər
Daxil edilmiş rəylər
Bütün şərhlərə baxın