FIT VUT bude hostit Mezinárodní workshop JSALT 2025

Brno, 17. června 2025 – Fakulta informačních technologií Vysokého učení technického v Brně (FIT VUT) hostí od 23. června do 1. srpna již 32. ročník prestižního mezinárodního workshopu JSALT 2025. Renomovaná akce z oblasti výzkumu umělé inteligence, jejímž dlouhodobým organizátorem je americká Johns Hopkins University, přiláká do Brna světové špičky v oboru strojového zpracování přirozeného jazyka a řeči. Workshop lze vnímat jako ocenění dlouholeté práce brněnské výzkumné skupiny BUT Speech@FIT a jejího vedoucího, profesora Jana Černockého.

Brno a Česká republika v letních týdnech potvrdí svou pozici světového centra výzkumu v jedné z klíčových oblastí AI. Ve dnech 23. června až 1. srpna 2025 bude FIT VUT hostit více než 100 světových odborníků na poli řečových a jazykových technologií. Významný workshop Jelinek Summer Workshop on Speech and Language Technology (JSALT) organizuje americká Johns Hopkins University ve spolupráci s partnery evropského projektu ESPERANTO. Brněnská Fakulta informačních technologií VUT se hostitelem nestává náhodou – pro vysokoškolskou instituci jde o ocenění úspěšné činnosti zdejší výzkumné skupiny BUT Speech@FIT a jejího vedoucího Jana Černockého. Vědeckým ředitelem skupiny je Lukáš Burget. Černocký, Burget a bývalý člen skupiny Pavel Matějka jsou řazeni do stovky nejvlivnějších světových výzkumníků v oblasti rozpoznání řeči.

Dolování dat z řeči, sofistikovaněji řečeno výzkum strojového učení aplikovaného na lidskou řeč a jazyk – tak by se dalo jednoduše popsat to, čemu se Černocký a jeho spolupracovníci řadu let na půdě brněnského VUT věnují a v čem dosáhli takových úspěchů, že dnes český výzkum patří mezi pětici nejlepších ve světě. Co lze vlastně z řeči „vydolovat“? Klíčová slova, věk mluvčího, pohlaví, emoce, socio-ekonomická data… Komunikace člověka a stroje pomocí řeči nebo textu není abstraktním vědeckým tématem, pracuje s ní každý webový prohlížeč nebo sociální síť. Většina z nás používá hlasové asistenty, diktování zpráv, navigaci, mnozí se už setkali s ověřováním mluvčího (např. u bankovních služeb). Výsledky výzkumu se mohou promítat také do automatického titulkování, zjednodušení přijímání hovorů na tísňových linkách, zefektivnění psychoterapeutických sezení, do komunikace mezi dispečery a piloty leteckého provozu, ovšem i do bezpečnostního sektoru. V posledních letech se do popředí derou nová témata, jako je třeba boj proti hlasovým deepfake. Za technologickými převraty nedávné minulosti přitom hledejme českou stopu.

Česká a brněnská stopa ve zpracování řeči

Podíl českých vědců na rozvoji řečových a jazykových technologií není veřejnosti znám tak, jak by si zasloužil. V máločem jsme totiž podobně světoví. Brněnská skupina BUT Speech@FIT je vlajkovou lodí oboru. Její počátky sahají až do roku 1997, kdy Jan Černocký působil na brněnské Fakultě elektrotechniky a informatiky VUT. Začátky byly organizačně náročné, jak sám vzpomíná: „Devadesátá léta byla hodně problematická, zvlášť co se financí na univerzitách týče.“

Zlom přinesla zahraniční spolupráce. Černocký absolvoval doktorské studium ve Francii, navázal zde kontakty a v roce 1999 se jeho tým zapojil do prvního velkého evropského projektu, zaměřeného na databáze řečových dat. Skutečným bodem zvratu bylo setkání s profesorem Hynkem Heřmanským, působícím od 80. let ve Spojených státech – Heřmanský je dodnes světovou kapacitou v oboru zpracování řeči, jistou legendou oboru. Díky němu získali mladí brněnští vědci první stáže v USA a zapojili se do projektů. Skupina v roce 2002 přešla na nově založenou Fakultu informačních technologií VUT a úspěchy na sebe nenechaly čekat. V roce 2005 brněnští „řečaři“ zaskočili vědecký svět v mezinárodním hodnocení systémů pro rozpoznávání jazyka a o rok později dokázali totéž při zaměření se na identifikaci mluvčího. Najednou se všichni začali zajímat o to, kde vlastně Brno leží.

Úspěchy otevřely dveře do prestižních projektů financovaných např. americkými vládními agenturami. A promítly se i do české ekonomiky: V okruhu brněnských výzkumníků má své kořeny např. firma Phonexia, která jako první na světě nabídla vysoce přesnou komerční biometrickou technologii pro identifikaci mluvčího pomocí hlasu a dnes působí v 60 zemích.

Aktuálně má Černockého tým 30 členů deseti národností, mezi nimiž najdeme zkušené výzkumníky i doktorské studenty. Internacionalizace je pro Černockého podmínkou vědeckého pokroku: „My jsme do toho vždycky hodně šlapali, poznali jsme to už u Hynka Heřmanského. Je to pro nás v České republice asi jediná šance. Internacionalizace působí zpětnovazebně a vyplatí se. Odborně i lidsky.“ Brno sice není univerzitním Oxfordem, ale v některých oborech zdejší věda exceluje. Skupina BUT Speech@FIT si na zájem zahraničních pracovníků stěžovat nemůže.

Akce, na níž se rodí budoucnost

Černocký s oblibou tvrdí, že na to, jak je Česká republika malou zemí, je pozice jeho oboru opravdu silná. V mezinárodní komunitě se ví, že se řečové technologie rozvíjejí v USA, Číně… a v Česku. Brno se už v minulosti díky skupině BUT Speech@FIT stalo dějištěm světových akcí. Černocký s týmem dokázali do ČR poprvé přivést například největší konferenci na téma strojového zpracování řeči Interspeech (konala se v roce 2021). A letos FIT VUT hostí špičkový mezinárodní workshop JSALT 2025, což je akce organizovaná americkou Johns Hopkins University. Workshop se za více než 25 let své existence konal převážně v USA a západní Evropě, v roce 2014 zavítal do Prahy. „Ano, pořádání JSALTu je jednou z pomyslných medailí, které má naše skupina na krku,“ je si významu události vědom Černocký.

Šestitýdenního výzkumného workshopu se zúčastní stovka světových odborníků. Za všechny jmenujme Sanjeeva P. Khudanpura (Johns Hopkins University), Ricarda Marxera (University of Toulon) nebo Ramaniho Duraiswamiho (University of Maryland). Účastníci jsou rozděleni do čtyř týmů, které se budou věnovat vybraným výzkumným tématům. Patří mezi ně zlepšení schopnosti velkých jazykových modelů (např. známý ChatGPT) důsledně dodržovat zadané role během delších interakcí (třeba simulace rozhovoru pacient–lékař) nebo zjednodušení a zefektivnění rozpoznávání mluvené řeči ve složitých scénářích, jimiž jsou schůzky s velkým počtem účastníků konané v rušném prostředí.

Cílem workshopu, který se koná za podpory projektu OP JAK a pod záštitou města Brna a Jihomoravského kraje, je posunout hranice výzkumu, podporovat mezinárodní vědeckou spolupráci a zapojit doktorské a magisterské studenty, kteří tak získávají neocenitelný odborný mentoring. Spousta dnes existujících technologií má své kořeny ve výzkumu a spolupracích, které se nastartovaly na JSALTu. Příkladem za všechny je systém pro automatický překlad, který najdeme třeba v Google Translate. „Workshop propojí šikovné lidí z celého světa. A někdy se do roka a do dne objeví výsledek, který postaví dosavadní technologii na hlavu,“ uzavírá své hodnocení Černocký.

Mimochodem, JSALT má zmiňovanou českou stopu vepsanou už ve svém názvu, který připomíná česko-amerického vědce Fredericka (Bedřicha) Jelinka, rodáka z Kladna a průkopníka výzkumu rozpoznávání řeči s využitím statistických metod. Jelinkova rodina po komunistickém puči opustila Československo a zamířila za oceán. Jelinek dlouhá léta vedl řečový výzkum ve společnosti IBM a na Johns Hopkins University. Je symbolické, že akce se jménem českého rodáka je pořádána právě na FIT VUT, fakultě, která se stala jedním ze světových center výzkumu využití umělé inteligence pro práci s řečí a přirozeným jazykem.

Zdroj a foto: VUT