Na fakultě ZČU načetla umělá inteligence knihu hlasem Karla Gotta

11.07.2023 11:16

Karel Gott patří mezi nejslavnější plzeňské rodáky. Hlas muže, který zemřel 1. října 2019, v roce 2023 díky Západočeské univerzitě v Plzni (ZČU) znovu ožil.

Fakulta aplikovaných věd ZČU

Český rozhlas (ČRo) a Karel Gott Agency představí ve čtvrtek 13. července, v předvečer zpěvákových nedožitých 84. narozenin, projekt GOTT NAVŽDY, který by bez ZČU nevznikl. Gottova autobiografická kniha Má cesta za štěstím z roku 2021 získala audiopodobu, v níž hlas Karla Gotta rozezněla umělá inteligence. Knihu načetla spolu s hercem Igorem Barešem.

„Byla to výzva. Jsme sice perfekcionisté a asi nikdy nebudeme úplně spokojeni, ale myslím, že v podmínkách a časových možnostech, jaké byly, jsme dosáhli výborného výsledku,“ říká Jindřich Matoušek, který vede tým syntézy řeči na katedře kybernetiky a ve výzkumném centru NTIS Fakulty aplikovaných věd ZČU.

Vědci měli na projekt omezený čas, museli během jednoho až dvou měsíců dokázat, že co nejvěrnější kopii Gottova hlasu vyrtvoří. Data jim poskytl rozhlasový archiv, neboť zpěvák v letech 2011-2015 na stanici Dvojka moderoval vlastní pořad Zpátky si dám tenhle film.

„Dostali jsme k dispozici velké množství nahrávek v délce kolem 200 hodin. Pro syntézu řeči je běžně potřeba několik desítek, ale to jde o člověka, který text načítá přímo za tímto účelem, a nahrávání je pod kontrolou. Tentokrát byla situace jiná, po prostříhání zbylo asi 20 hodin záznamu bez šumu, slov v cizím jazyce nebo písní v podkresu. Díky nim jsme vyrobili první ukázku, již Český rozhlas představil paní Ivaně Gottové, a ta pak rozhodla, že se bude pokračovat. To bylo někdy v prosinci 2022, v lednu a únoru jsme už odevzdávali první a začátkem června poslední kapitolu,“ pokračuje Jindřich Matoušek.

Na rekonstrukci hlasu Karla Gotta pracoval šestičlenný tým. Kromě těch, kteří se zabývali zvukem, se zapojili i anotátoři společnosti SpeechTech, jelikož nezbytnou součástí byl i text. „Kromě nahrávek jsme potřebovali jejich kompletní textový přepis. 200 hodin znamená asi 200 tisíc vět, a protože rozhlasový pořad neměl scénář a v časové tísni nebylo možné přepis obstarat ručně, pomohla firma SpeechTech a její rozpoznávač řeči, vyvinutý ve spolupráci s našimi kolegy z centra NTIS. Řečové nahrávky převedl na velmi kvalitní text, v němž anotátoři pouze opravovali některá slova. Na základě nahrávek a odpovídajících přepisů jsme pak mohli natrénovat model syntézy řeči založený na moderních hlubokých neuronových sítích tak, že hlasem Karla Gotta přečte zadaný psaný text,“ vysvětluje Jindřich Matoušek.

Že se projekt chystá, oznámili Ivana Gottová a generální ředitel ČRo René Zavoral 13. června. Odezva fanoušků byla okamžitá a názory veřejnosti budou podle Jindřicha Matouška rozhodně zajímavé: „Když děláte syntézu hlasu, který všichni moc dobře znají, je to něco úplně jiného, výsledek bude každý kriticky hodnotit. Velmi důležitá je samozřejmě etická stránka věci, neboť bez souhlasu rodiny Karla Gotta by takový projekt vzniknout nemohl. Ale když už svolení máte, je to velká příležitost oslovit širokou veřejnost, předvést jí technologii syntézy řeči i možnosti umělé inteligence, a ukázat, že se jí nemusí bát.“

Katedra kybernetiky má s technologií syntézy řeči bohaté zkušenosti. „Řečové technologie nejsou žádná novinka, jsou tu s námi už 30 nebo 40 roků a na katedře s nimi pracujeme od devadesátých let. Z poslední doby je známý například náš projekt automatické konzervace hlasu, který vznikl zejména jako pomoc pro nemocné, jimž hrozí, že přijdou o hlas. Spolu s našimi partnery jsme navrhli proces, kterým si lidé doma nahrají svůj hlas, dokud ještě mohou hovořit, a my z nahrávek vytvoříme jeho kopii, jíž pak promlouvají z různých přístrojů. Tyto zkušenosti jsme využili i při vytváření hlasu Karla Gotta,“ vysvětluje Jindřich Matoušek.

„Bylo nám potěšením na tak zajímavé úloze pracovat a doufám, že jsme i tímto projektem ukázali, že v ČR umíme dělat výzkum a vývoj řečových technologií a potažmo umělé inteligence na světové úrovni. Byla by škoda, kdybychom v budoucnu o toto postavení měli přijít například kvůli hrozící menší podpoře výzkumu, která by se dotkla nás i všech kolegů a kolegyň z ostatních oborů. I když technologie syntézy řeči udělala v posledním desetiletí obrovský pokrok a v běžných úlohách, jako je čtení textu, funguje výborně, neznamená to, že je zcela vyřešena. Aby byl počítačový hlas plnohodnotným partnerem člověka v hlasovém dialogu, nestačí jen přečíst daný text. Syntéza musí také dokonale porozumět tématu konverzace, umět vyjádřit postoj mluvčího, náladu, emoce, mít paměť… Takové úlohy na svá řešení teprve čekají, “ dodává Jindřich Matoušek.

ČRo připravil projekt GOTT NAVŽDY jako jeden z dárků posluchačům ke 100. výročí zahájení pravidelného vysílání na našem území.

Foto ZČU

SDÍLEJTE ČLÁNEK
MOHLO BY VÁS ZAJÍMAT