Jak se zdá, nezbývá než odpovědět sám sobě.
Na téma rozpoznávání řeči a převodu na text u nás vzniklo několik diplomových prací – 2015. Od té doby v tomto směru chcípl pes. Zřejmě si všichni chrochtají nad tím, jaký je ten google pašák a je jim u zadku, že přes něj honí veškerá svá data. Ale k věci.
Z těch prací se mi jeví jako užitečná a použitelná diplomová práce Lukáše Kryške, která se zaobírá i vytvořením aktustického modelu pro češtinu. Bakalářská práce Kláry Kufové češtinu vůbec neřeší.
Nicméně závěr, který potvrzuje i diplomová práce Aleše Bricha z r. 2016 je ten, že úspěšnost rozpoznávání u češtiny je pod 50%. Otázkou je, za jak dlouho bude tahle mizerná úspěšnost lepší než nic, protože hledání sekretářky, která by nabušila text audinahrávky do počítače za nějaký rozumný obolus připomíná hledání pověstné jehly v kupce sena.
Jen pro úplnost přidávám ještě link na diplomovou práci Ondřeje Plátka, která se zaobírá rozpoznáváním řeči přes Kaldi z r.2013. Ovšem ta je pouze v angličtině a o češtině se v ní vůbec nemluví.
A nešlo by za stávajícího stavu, kdy podpora češtiny není ideální, pouze lokálně sledovat audio na výskyt specifického slova označujícího začátek dotazu - to by mohl zvládnout třeba TensorFlow taky od Google ( ale jistě i řada dalších projektů ) a až pak poslat do cloudu audio k rozpoznání a hned se zas přepojit do lokálního sledování audia. Tím by se vyloučilo neustálé odesílání důvěrných dat.
Myslel jsem, že jsem zmínil dostatečně jasně, že nechci honit data přes nějaký cloud u něhož nemám sebemenší záruku, že ten audiozáznam někdo nezneužije - třebas jenom tím, že si ho někam uloží a časem někomu prodá.
Jestli se nepletu, tak již v dobách W2000 existoval perfektní offline slovník, a offline ovládání PC v češtině. Vešlo se to na jedno CD. Jenže pak byl velký boom nakupování, či prodej, nebo likvidace firem. Bohužel se to dotklo i mnou zmiňované firmy. Bohužel název už si nepamatuji. Ano, byl to komerční projekt, který nebyl nejlevnější a to byl asi celý kámen úrazu. Lidé nechtějí za software platit, pokud nemusí, avšak též se nechtějí učit novým věcem. A to je přesně důvod, proč je Linux na desktopu tam, kde je. Sice je zdarma, ale musí se vynaložit alespoň minimální snaha k plnému nasazení a to lidé odmítají. Stačí se podívat na programové vybavení, které ve windows používají a které je dávno překonané i pod těmi windows. Chyba není v systémech, ale jako vždycky v lidech. My ostatní na tom můžeme jenom vydělat.
Pro offline ovládání stačí rozpoznat předtím registrované povely (vyhodnocuje se shoda), což je jednodušší úloha než např. přepsat řeč do textu. Takže není rozpoznávání jako rozpoznávání.
Přepisování řeči do textu je záležitostí posledních let, to je fakt. Tehdy to umělo jen dobře číst texty. Nevím nakolik je náročný převod hlasu do textu (rozuměj hardwerově), třeba by to z výkonnostního hlediska před těmi dvaceti lety nebylo ani možné.
Pokud se člověk podívá na výsledky automatických titulků na YouTube, je jasné že minimálně v rámci off-line zpracování je to zvládnuté jak kvalitativně tak objemově. Čeština by proti angličtině snad měla mít ještě výhodu, jelikož jak se čte tak se píše (až na y/i což se snad dá dohnat pravidly).
Například: https://www.youtube.com/watch?v=RdXXyn0jYQU Zvolit titulky "Angličtina (vytvořeno automaticky)".