Předměty doktorandského studia
- XP31FON - Fonetika řeči a pokročilé hlasové technologie (v doktorském programu Akustika a Biomedicínské inženýrství)
Aktuálně nabízená rámcová témata disertačních prací:
- Moderní metody rozpoznávání silně narušené řeči na bázi hlubokých neuronových sítí
Současné rozpoznávače řeči dosahují v běžných úlohách vysoké
úspěšnosti. Přesnost při rozpoznávání narušené řeči je však stále
velmi nízká, a to zejména v případě silně narušené řeči (např. snímané
vzdáleným mikrofonem, ovlivněné šumem či Lombardovým efektem). Výzkum
v rámci této práce bude zaměřen v první řadě na výběr, systematickou
analýzu a optimalizaci vhodné metody akustického modelování na bázi
DNN-HMM (výběr a optimalizace architektury neuronové sítě typu CNN,
BLSTM, apod.) i na analýzu vlivu případného předzpracování narušené
řeči. Aplikace lze nalézt při hlasovém ovládání různých zařízení či
diktování v reálném prostředí inteligentního domu, v jedoucím
automobilu i mnoha dalších aplikacích.
- Optimalizace jazykového modelování pro rozpoznávání spontánní a neformální řeči
Jazykové modelování je nezbytnou a klíčovou součástí rozpoznávání
spojité řeči. Zejména při rozpoznávání spontánní řeči současně hojně
používané statistické n-gramové modely narážejí na své limity. Moderní
metody jazykového modelování využívají třídy, morfologické informace
či přístupy k modelování na bázi neuronových sítí. Objevují se první
práce využívající hlubokých sítí, které mohou mít potenciál zejména
pro jazykové modely spontánní řeči. Optimalizace jazykových modelů pro
rozpoznávání spontánní resp. neformální řeči využívající tyto moderní
přístupy je hlavním obecným cílem této práce. Druhým praktickým cílem
práce je zvážení možnosti průběžné tvorby či aktualizace jazykových
modelů z dostupných on-line zdrojů.
- Použití hlubokých neuronových sítí v systémech pro zvýrazňování řeči
Výzkum v rámci této práce bude zaměřen především na nové možnosti
použití a trénování hlubokých neuronových sítí (DNN) v úloze
zvýrazňování řeči. Neuronové sítě se v současné době používají v
oblasti hlasových technologií zejména jako jádro moderních DNN-HMM
rozpoznávačů řeči či pro výpočet aposteriorních pravděpodobností
různých tříd (fonémů, artikulačních příznaků resp. informace o řečové
aktivitě). Analýza možností využití odhadnutých aposteriorních
příznaků v algoritmech zvýrazňování řeči pro jednokanálový
příp. vícekanálový systém bude hlavním cílem výzkumu v této
oblasti. Zvláštní pozornost bude věnovaná možnostem zvýraznění řeči
narušené intenzivním resp. silně nestacionárním šumem pozadí.
Přesnější směřování Vaší vědecké práce v případě zájmu o doktorské
studium a výše uvedené rámcové téma upřesním při osobní
konzultaci. Další informace o výzkumných aktivitách v oblasti
zpracování řeči lze nalézt na stránkách
Laboratoře zpracování řeči či
fakultních
stránkách našeho výzkumného týmu .
Realizované a aktuálně vedené disertační práce:
Ing. Petr Mizera, PhD. - (2020) :
Rozpoznávání řeči na bázi artikulačních příznaků
Ing. Michal Borský, PhD. - 2017 :
Robust recognition of strongly distorted speech
Ing. Josef Rajnoha, PhD. - 2013 :
Modelování neřečových událostí v robustních rozpoznávačích řeči
Ing. Jiří Tatarinov, PhD. - 2011 :
Detektory řečové aktivity na bázi skrytých Markovových modelů
Ing. Hynek Bořil, PhD. - 2008 :
Robust Speech Recognition:
Analysis and Equalization of Lombard
Effect in Czech Corpora
Ing. Petr Fousek, PhD. - 2007 :
Extraction of Features for Automatic Recognition of Speech Based on
Spectral Dynamics
Ing. Petr Opršal, PhD. - 2007 (VŠB Ostrava, školitel specialista) :
Metody zvýrazňování řeči na bázi Wavelet transformace.
Ing. Josef Vopička, PhD. - 2004 (školitel specialista) :
Vyhledávání klíčových elemntů v souvislé promluvě
Ing. Jan Ingerle, PhD. - 2003 (školitel specialista) :
Metody zvýrazňování řečového signálu kombinující směrový příjem s postfiltrací
ZPĚT
Petr Pollák -
domovská stránka