Umelá inteligencia VALL-E od Microsoftu naklonuje váš hlas za 3 sekundy

Že dokáže umelá inteligencia napodobniť tvár politika a vložiť mu jeho vlastným hlasom do úst slová, ktoré by nikdy nevyslovil, na to si už pomaly zvykáme. Doteraz to vyžadovalo kopu času, vysoký výpočtový výkon a šikovného človeka. Microsoft však má systém VALL-E, ktorý zmákne naklonovať váš hlas za 3 sekundy

Presnejšie mu na to stačí trojsekundový záznam vášho hlasu, takže na to nepotrebuje celé hodiny analýzy. Následne dokáže umelá inteligencia napodobniť nielen váš hlas, ale aj emócie a prostredie, v ktorom bola pôvodná vzorka nahrávaná.

Na čo je to dobré?

Pochopiteľne, že ako prvé využitie asi každému napadne manipulácia s verejnou mienkou.

Ľuďom, ktorí si neoverujú fakty a nazdieľajú hocijaký nezmysel typu “B. Kollár začal používať antikoncepciu”, to bude stačiť a vytvoria si názor aj na základe klamstva.

Potom si prečítaj tiež: Čoskoro vraj budeš môcť hovoriť so svojou mŕtvou matkou. Digitálna nesmrteľnosť sa blíži vďaka ChatGPT

Sú tu však tiež iné využitia. Napríklad autori textu môžu týmto spôsobom vytvoriť zvukové verzie svojich diel pre zrakovo postihnutých, a to bez toho, aby strávili hodiny nahrávaním skutočného dabingu. Autori hier zasa môžu (pochopiteľne, že so súhlasom dabéra) vytvoriť dabing svojej hry hlasmi známych osobností. Možných využití je nepochybne množstvo.

V čom je novinka?

V prípade AI od Microsoftu, ktorá dostala neveľmi originálne meno VALL-E, je novinka v rýchlosti spracovania a kvalite výstupu. Bežne totiž na vytvorenie klonu vášho hlasu firmy potrebujú celé hodiny záznamov, aby umelú inteligenciu vytrénovali. Kratšie vzorky vedú k menej kvalitnému napodobneniu, ktoré môže znieť roboticky.

VALL-E zatiaľ nie je prístupný ako služba pre verejnosť, no vďaka dokumentom a vzorkám zverejneným Microsoftom na arXiv a na Githube si možno porovnať výsledky testovania na vlastné uši.

Aj toto by ťa moholo zaujať: VIDEO: Robot Atlas už môže pomáhať na stavbe

„Trik“ celého systému spočíva v tom, že na rozdiel od iných riešení využili vývojári zvukovú knižnicu obsahujúcu 60-tisíc hodín záznamu reči viac ako 7-tisíc po anglicky hovoriacich osôb. Na takejto vzorke vytrénovaná AI dokáže aj z trojsekundového záznamu vyrobiť drobné úseky (tokeny), podľa ktorých dokáže predpovedať, ako bude daný hlas znieť pri vyslovení iných fráz.

Výsledok je veľmi pôsobivý a svet deepfake ho určite s radosťou prijme.

Staň sa súčasťou aktívnej komunity TechGuru SK/CZ na Facebooku a na Instagrame.

Nájdeš nás aj na YouTube

O autorovi

Peter Vnuk

Je celoživotným fanúšikom technológií a pracuje pre niekoľko popredných slovenských médií z tejto oblasti. Okrem produktových recenzií, spravodajstva zo sveta vedy a techniky, sa venuje tiež tematickým článkom na hi-tech témy, ako je umelá inteligencia, robotika, virtuálna realita a pod. Je mu blízka tiež herná sféra, preto recenzuje aj herné príslušenstvo a hry.