Rozpoznávání řeči

Jak se zdá, nezbývá než odpovědět sám sobě.

Na téma rozpoznávání řeči a převodu na text u nás vzniklo několik diplomových prací – 2015. Od té doby v tomto směru chcípl pes. Zřejmě si všichni chrochtají nad tím, jaký je ten google pašák a je jim u zadku, že přes něj honí veškerá svá data. Ale k věci.

Z těch prací se mi jeví jako užitečná a použitelná diplomová práce Lukáše Kryške, která se zaobírá i vytvořením aktustického modelu pro češtinu. Bakalářská práce Kláry Kufové češtinu vůbec neřeší.

Nicméně závěr, který potvrzuje i diplomová práce Aleše Bricha z r. 2016 je ten, že úspěšnost rozpoznávání u češtiny je pod 50%. Otázkou je, za jak dlouho bude tahle mizerná úspěšnost lepší než nic, protože hledání sekretářky, která by nabušila text audinahrávky do počítače za nějaký rozumný obolus připomíná hledání pověstné jehly v kupce sena.

Jen pro úplnost přidávám ještě link na diplomovou práci Ondřeje Plátka, která se zaobírá rozpoznáváním řeči přes Kaldi z r.2013. Ovšem ta je pouze v angličtině a o češtině se v ní vůbec nemluví.

27.5.2020 22:15 jose17 | skóre: 44 | blog: Joseho_blog | Bratislava
Rozbalit Rozbalit vše Re: Rozpoznávání řeči – CMUSphinx

tak mozno za par rokov nieco vypadne z https://voice.mozilla.org/cs

Ja vim, on vi, ty nano!

1.6.2020 21:00 TechnikTom
Rozbalit Rozbalit vše Re: Rozpoznávání řeči – CMUSphinx

A nešlo by za stávajícího stavu, kdy podpora češtiny není ideální, pouze lokálně sledovat audio na výskyt specifického slova označujícího začátek dotazu - to by mohl zvládnout třeba TensorFlow taky od Google ( ale jistě i řada dalších projektů ) a až pak poslat do cloudu audio k rozpoznání a hned se zas přepojit do lokálního sledování audia. Tím by se vyloučilo neustálé odesílání důvěrných dat.

2.6.2020 10:52 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Rozpoznávání řeči – CMUSphinx

Myslel jsem, že jsem zmínil dostatečně jasně, že nechci honit data přes nějaký cloud u něhož nemám sebemenší záruku, že ten audiozáznam někdo nezneužije - třebas jenom tím, že si ho někam uloží a časem někomu prodá.

1.6.2020 22:59 Tibor
Rozbalit Rozbalit vše Re: Rozpoznávání řeči – CMUSphinx

I ja bych byl moc rad za offline cestinu, treba nekoho vyburcujeme a poradne do toho slapne :-)

2.6.2020 15:07 PetebLazar | skóre: 33 | blog: l_eonardovo_odhodlani
Rozbalit Rozbalit vše Re: Rozpoznávání řeči – CMUSphinx

Pokud jde toto, tak musí jít asi cokoli.

1.6.2020 23:32 Pavel 'TIGER' Růžička | skóre: 53
Rozbalit Rozbalit vše Re: Rozpoznávání řeči – CMUSphinx

Jestli se nepletu, tak již v dobách W2000 existoval perfektní offline slovník, a offline ovládání PC v češtině. Vešlo se to na jedno CD. Jenže pak byl velký boom nakupování, či prodej, nebo likvidace firem. Bohužel se to dotklo i mnou zmiňované firmy. Bohužel název už si nepamatuji. Ano, byl to komerční projekt, který nebyl nejlevnější a to byl asi celý kámen úrazu. Lidé nechtějí za software platit, pokud nemusí, avšak též se nechtějí učit novým věcem. A to je přesně důvod, proč je Linux na desktopu tam, kde je. Sice je zdarma, ale musí se vynaložit alespoň minimální snaha k plnému nasazení a to lidé odmítají. Stačí se podívat na programové vybavení, které ve windows používají a které je dávno překonané i pod těmi windows. Chyba není v systémech, ale jako vždycky v lidech. My ostatní na tom můžeme jenom vydělat.

2.6.2020 12:53 OldFrog {Ondra Nemecek} | skóre: 36 | blog: Žabákův notes | Praha
Rozbalit Rozbalit vše Re: Rozpoznávání řeči – CMUSphinx

Pro offline ovládání stačí rozpoznat předtím registrované povely (vyhodnocuje se shoda), což je jednodušší úloha než např. přepsat řeč do textu. Takže není rozpoznávání jako rozpoznávání.

-- OldFrog

2.6.2020 22:07 Pavel 'TIGER' Růžička | skóre: 53
Rozbalit Rozbalit vše Re: Rozpoznávání řeči – CMUSphinx

Přepisování řeči do textu je záležitostí posledních let, to je fakt. Tehdy to umělo jen dobře číst texty. Nevím nakolik je náročný převod hlasu do textu (rozuměj hardwerově), třeba by to z výkonnostního hlediska před těmi dvaceti lety nebylo ani možné.

2.6.2020 22:33 PetebLazar | skóre: 33 | blog: l_eonardovo_odhodlani
Rozbalit Rozbalit vše Re: Rozpoznávání řeči – CMUSphinx

Pokud se člověk podívá na výsledky automatických titulků na YouTube, je jasné že minimálně v rámci off-line zpracování je to zvládnuté jak kvalitativně tak objemově. Čeština by proti angličtině snad měla mít ještě výhodu, jelikož jak se čte tak se píše (až na y/i což se snad dá dohnat pravidly).

Například: https://www.youtube.com/watch?v=RdXXyn0jYQU Zvolit titulky "Angličtina (vytvořeno automaticky)".

3.6.2020 00:07 Fluttershy, yay! | skóre: 92 | blog:
Rozbalit Rozbalit vše Re: Rozpoznávání řeči – CMUSphinx

„oběti“, nebo „objeti“?

🇵🇸 ✊ Touch grass ✊ 🇺🇦 ✊ no gods, no masters

3.6.2020 10:10 jiwopene | skóre: 31 | blog: Od každého trochu…
Rozbalit Rozbalit vše Re: Rozpoznávání řeči – CMUSphinx

S přízvukem nebo u některých slov to trochu zlobí – např. „cereal port“ (má být „serial“).

.sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.

3.6.2020 19:36 PetebLazar | skóre: 33 | blog: l_eonardovo_odhodlani
Rozbalit Rozbalit vše Re: Rozpoznávání řeči – CMUSphinx

Nejhůře dopadla asi "šlehačka" jako "slight Hachiko". ;-)

Dotaz: Rozpoznávání řeči – CMUSphinx

Odpovědi