Portál AbcLinuxu, 13. května 2024 20:03


Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Vložit další komentář
24.4.2003 08:13 svb
Rozbalit Rozbalit vše Doplneni & opravy
Odpovědět | Sbalit | Link | Blokovat | Admin
Vzhledem k tomu, ze se prave Aspellem zabyvam mam tri doplneni/opravy textu v clanku: 1, neni pravda, ze Aspell jen kontroluje preklepy. Je to totiz doopravdy "speller" a "bad spelling" v anglictine znamena nejen preklepy, ale i chybne zapsani slova (tedy chybny pravopis). Znamena to to, ze Aspell dokaze odhadnout jak zapsane slovo zni a vybrat korektni slovo, ktere zni stejne. V praxi to vypada tak, ze pokud napisete "gdybi", tak program na kontrolu preklepu by vam pravdepodobne nenabidl nic, ale Aspell odhadne, ze slovo "kdyby" se vyslovuje stejne a poradi vam ho. Tahle vlastnost je ale bohuzel pro cestinu k nicemu, jednak proto, ze pro cestinu nikdo nevytvoril soubor stejne znejicich skupin hlasek (napr. gd==kd, ...), ale hlavne proto, ze aglicke a ceske pojeti pravopisu se dost lisi - v cestine jsou bezne chyby i/y a podobne, kde se da odlisit jen podle kontextu a soundslike pristup by byl k nicemu, zatimco v aglictine (alespon podle toho, co pise Kevin Atkinson na strankach Aspellu) pise polovina lidi slova tak, jak je slysi, takze maji jen malou sanci, ze se strefi do pravopisne spravneho zapisu slova (protoze jak vsichni vime, v anglictine se vse pise naprosto nepravidelne a chaoticky). Tem pak Aspell muze pomoci. 2, autor pise "Nevím přesně, jak tabulce rozumět a v čem je algoritmus Aspellu lepší než třeba ten v ispellu." Takze odpoved: rozdil Aspellu a Ispellu je prave v tom (autorem Aspellu tolik propagovanem) soundslike pristupu, ktery v Ispellu chybi. Ispell je tedy opravdu jen kontrolorem preklepu. A jak tabulce rozumet? To je jednoduche - jsou to vysledky pro testovaci korpus slov. A kdo ze ho sestavoval? Podle vysledku vas asi neprekvapi, ze autor Aspellu. Je jasne, ze pokud tam dal prave slova ktera se stejne ctou ale zcela jinak pisi (a nepochybuji o tom, protoze to je prave jeho predstava o beznych pravopisnych chybach), musel Aspell zakonite dopadnout o mnoho lepe nez ostatni spellcheckery. V nasich podminkach (kde vetsina lidi zatim vi, ze kdyby se nepise gdybi) by podobne srovnani pravdepodobne Aspellu tak dobre vysledky neprineslo (ono by mozna stacilo to srovnat na nejakem oficialnim korpusu, treba i anglickem). 3, zminovana "podpora pro formaty" znamena vlastne filtry, ktere dokazou odfiltrovat napr. SGML tagy nebo URL, takze se nekontroluji a Aspell pak v nich nehlasi chyby. Filter email (u ktereho ma autor otaznik) filtruje jen emailove adresy (tzn. s "podporou formatu email" to ma pramalo spolecneho). Jinak doporucuji vzit v uvahu, ze Aspell je momentalne ve verzi 0.50.3 a jeho dokoncenost opravdu opdovida tomu, ze jeste neni ani prvni verze. Zdrojove kody obsahuji mnoho chyb, ja sam jsem uz byl nucen pri implementaci Aspellu nekolik opravit.
24.4.2003 10:07 Vlastimil Ott | skóre: 66 | blog: Plastique | Opava
Rozbalit Rozbalit vše Doplneni & opravy
Diky za doplneni. Jsem rad, ze jsem tak nejak spravne pochopil tu tabulku, nebyl jsem si jen jisty tim, kdo a z ceho ji sestavil. Taky o te podpore vyslovnosti jsem vedel, jenom jsem nepochopil jeji prinos. Takze diky za vysvetleni, skoda, ze jsem tato fakta neznal pred napsanim clanku (asi moje chyba). Polepsim se. --vo
Práce: Liberix, o.p.s. | Blog: OpensourceBlog.cz | Online kurz Zlatý WordPress
24.4.2003 10:54 Robert Krátký | skóre: 94 | blog: Robertův bloček
Rozbalit Rozbalit vše Doplneni & opravy
Je to trochu OT, ale neda mi to...

Rikate, ze "v anglictine se vse pise naprosto nepravidelne a chaoticky".

Chapu to spravne jako nadsazku, ze?

24.4.2003 11:04 marx
Rozbalit Rozbalit vše Doplneni & opravy
Zapis zvukovej formy anglictiny do pisanej sa skutocne blizi obtiaznosti zapisu do egyptskych hieroglyfov. takze to az taka 'nadsazka' nebude :)
24.4.2003 11:27 Robert Krátký | skóre: 94 | blog: Robertův bloček
Rozbalit Rozbalit vše Doplneni & opravy
dalsi nadsazka ;-) ("zapis do egyptskych hieroglyfu").

ja jsem vsak zminoval "nepravidelnost a chaoticnost".

24.4.2003 12:41 marx
Rozbalit Rozbalit vše Doplneni & opravy
a ty vidis v hieroglyfoch nejaku pravidelnost ? :)
24.4.2003 12:45 unchallenger | skóre: 69 | blog: unchallenger
Rozbalit Rozbalit vše Doplneni & opravy
[nadsázka] Pokud si myslíte, že vztah mezi zvukovou a psanou formou angličtiny není nepravidelný a chaotický, doporčuji tohle ;-) [/nadsázka]
24.4.2003 14:15 Robert Krátký | skóre: 94 | blog: Robertův bloček
Rozbalit Rozbalit vše Doplneni & opravy
ukazovali nam tu rikanku ve skole. moc pekne :-). nicmene opravdove reseni se nachazi na temze webu. kdyz jsem to kdysi cetl poprve, moc jsem se nasmal.
24.4.2003 11:01 marx
Rozbalit Rozbalit vše dalsie opravy
Odpovědět | Sbalit | Link | Blokovat | Admin
ad1) cesky narodny korpus sa nevytvara na Masarykovej univerzite v Brne (okrem ineho to vidno aj z URL :), na MU sa robia trosku ine zvacsa specializovanejsie a radovo mensie korpusy) ad2) pokial sa toho este prilis nezmenilo, tak hlavnym dovodom preco je slovnik v aspelli tak velky nie je jeho kvalita, ale to ze aspell nezvlada (na rozdiel od ispellu) robit kompresiu a tym padom ma ulozene kazde slovo zvlast. pamatam sa, ze bola snaha to tam dorobit, vtej dobe mal cesky slovnik ~60mb co ma aj doteraz, takze sa to nepohlo. ad3) existuje este program fispell, ktory dosahuje (pre cestinu) podobnych vysledkov ako aspell, lenze s pamatovymi narokmi podobnymi ispellu. momentalne nie je na webe :( ale nemal by byt az taky problem ho tam dat.
24.4.2003 11:14 Tomáš
Rozbalit Rozbalit vše Díky
Odpovědět | Sbalit | Link | Blokovat | Admin
Díky za článek, zprovoznil jsem si aspell do mutta na školním serveru, na kterém není ispell (nejsem tam root). Ale zjistil jsem, že oproti ispellu je aspell brutálně pomalý. Zmáčknu klávesu a ono nic, po dvou sekundách se provede akce. Dokud nebudu mít počítač s přebytkem výkonu, tak u mě vyhrává ispell.
24.4.2003 14:18 Wolf | skóre: 7
Rozbalit Rozbalit vše aspell pres PHP
Odpovědět | Sbalit | Link | Blokovat | Admin
Dobry den, chci pouzit aspell, ktery by se spoustel na linuxovem serveru, na kontrolu pravopisu na pracovnich stanicich (v prostredi IE6) s Windows. Aspell se spousti pomoci PHP skriptu a vysledek se vypise zpet na stranku. Stranka je v kodovani iso-8859-2, aspellu posilam kodovani iso8859-2. Problem je v kodovani - kdyz kontroluji napr. slovo "šek" tak aspell ignoruje prvni pismenko a kontroluje pouze posledni dve takze vyhodi chybu i ve slove, ktere je spravne... Nevite nekdo jak to vyresit? Budu vdecny za kazdou radu jak to vyresit, nebo odkazy. Diky Evzen Vlk
24.4.2003 14:31 svb
Rozbalit Rozbalit vše aspell pres PHP
S kodovanim uz jsem mel problem taky. Jste si jisty, ze tomu posilate ISO8859-2? Pokud uzivatel vyplni neco ve formulari umistenem na strance v IE na Windows, je to v kodovani Win1250. Popisovany problem by tomu zcela odpovidal, protoze ISO8859-2 a Win1250 se lisi pouze znaky šžťľŠŽŤĽ. "š" tudiz Aspell povazuje za neznakovy element a slovo pro nej zacina az za nim.
25.4.2003 21:58 Wolf | skóre: 7
Rozbalit Rozbalit vše aspell pres PHP
opravdu se to posilalo ve windows-1250, kdyz to po odeslani prekoduju do iso a pred vypisem do windows-1250 funguje to dobre diky za radu
24.4.2003 14:26 svb
Rozbalit Rozbalit vše Doplneni II
Odpovědět | Sbalit | Link | Blokovat | Admin
Par reakci na veci, co zaznely v diskuzi: 1, Komprese slovniku je (pry) u Aspellu nerealizovatelna prave kvuli tem soundslike - zpracovani neprobiha jako jednoduche vyhledavani podobnych retezcu (napr podle Levenshteinovy vzdalenosti) ale sloziteji, coz (udajne) kompresi v pameti vylucuje. Komprese na disku je bezpredmetna. 2, Neplati, ze velikost slovniku = kvalita (zcela odhlednuto od komprese), protoze pokud ve slovniku bude "prilis mnoho" slov, zvysuje se pravdepodobnost, ze nejake bezne spatne zapsane slovo bude mylne povazovano za zcela nepouzivane slovo zapsane spravne (tohle taky nastava casteji v anglictine, protoze ma mensi slovni zasobu). 3, Rychlost Aspellu je velice slusna, radove minimalne stovky slov / sec (muzu zmerit presneji, jestli chcete), takze pokud vam to chodi pomalu, neni chyba na strane Aspellu ale na strane hostitelske aplikace. (Jedine dalsi vysvetleni je, ze to je tim Unixem - ja pouzivam Aspell jedine na Windowsech :-) /*koneckoncu ani nevim to je to ten Mutt*/ 4, Aspell se na Windows kompiluje velmi obtizne a je v tomto ohledu bohuzel napsan velice spatne (tzn. zavisle na platforme). OT, Tvrzeni, ze v anglictine se vse pise chaoticky a nepravidelne nadsazka nebyla (spise eufemismus), stejne jako tvrzeni, ze ma malou slovni zasobu. Zajemci o dalsi diskusi na toto OT tema necht si nejdriv prectou nejakou lingvistickou literaturu.
24.4.2003 15:26 Robert Krátký | skóre: 94 | blog: Robertův bloček
Rozbalit Rozbalit vše Doplneni II
ad chaos a nepravidelnost: Nebyl bych neco podobneho zminoval, kdybych nejakou literaturu nactenou nemel...

Vsechny vyjimky, ktere pravdepodobne zpusobuji nejvice potizi, lze etymologicky odvodit. I samotna (na prvni pohled matouci) vyslovnost anglictiny je zpusobena postupnymi zmenami pravopisu - zatimco vyslovnost zustavala vicemene stejna (zjednodusene receno).

Zalezi tedy na tom, co si v tomto smyslu predstavujete pod slovem "nepravidelnost". Pokud je to mnozstvi vyjimek a zdanlivych nelogicnosti, pak proti tomu nelze nic namitat. Avsak rozhodne to nemuze byt vykladano jako "chaos" nebo "nahodilost".

25.4.2003 07:40 svb
Rozbalit Rozbalit vše Doplneni II
Myslel jsem tim spise to, ze to neni diskuse, ktera by se hodila sem. Nicmene (jak jiste vite) prave ten vyvoj Anglictiny, ktery zminujete, probihal naprosto zivelne (coz souvisi s hospodarskymi pomery v Anglii a prilehlych oblastech od odchodu Rimanu az do ted) a hovorovy jazyk se stava(l) normou. Proto je Anglictina natolik nepravidelna a chaoticka.
27.4.2003 15:01 kokot
Rozbalit Rozbalit vše Doplneni II
No co na to rict?:-) Anglictina je jazyk ve kterem se jiz pred dlouhymi staletimi odelila psana stranka veci a mluvena. Proto ten rozdil. Rodilemu cechovi asi muze prijit, ze je anglictina chaoticka, ale to je proto, ze cesti jazykovedci upenlive dbaji na stejne psani i cteni slov. V ostatnich jazycich to tak uplne neni. Extremem je francouzstina ktera nejen ze se jinak pise a cte podobne jako u anglictiny ale ma i slozita pravopisna pravdila. Takze pokud znate nekdo anglicky a francouzsky tak pochopite, ze anglictina velmi presne odpovida mluvena stranka jazyka psane i kdyz pro cecha to muze byt problem pochopit. A jeste neco, jak tu jiz bylo zminovano. Francouzstina a anglictina maji spolecny zaklad a v davne historii se jazyky odelili. Muzeme byt radi ze pocitacovemu svetu vladne jednoducha anglictina:-)
24.4.2003 15:47 marx
Rozbalit Rozbalit vše Doplneni II
ad) velkost slovniku je to presne tak ako pises, pre ostatnych len ako porovnanie. ajka (*): 5.678.117 slov aspell 0.50-2: 1.201.844 slov (*) ajka nie je (a nebude volne dostupna) cisla su mierne skreslene tym, ze obsahuju aj priezviska z ceskych telefonnych zoznamov. co sa tyka pouzitych slov, tak pri elektronickych zdrojoch v cestine (niekolko GB textu) mame 1.201.844 roznych slov, pricom tych ktore boli pouzite viac nez raz je 'len' 640,966. ad) rychlost v tomto nemozem suhlasit. Aj ked nie je rozumne porovnavat ispell s aspellom pretoze ispel hlada len to vzdialenosti 1 a aspell do vzdialenosti 2 od fonetickeho tvaru slova. ale aj tak (rozdelenie aby sa porovnavalo porovnatelne) program priemer na najdenie nahrady ispell 0.056 fispell -e1 0.034 ----- fispell -e2 0.464 aspell 1.631
25.4.2003 07:45 svb
Rozbalit Rozbalit vše Doplneni II
S rychlosi mate asi pravdu, neuvedomil jsem si, ze jsem u Aspellu povypinal vsechny veci u soundslike co sly, protoze se me to zdalo pro Cestinu zbytecne.
Kazdopadne ale pokud trva reakce na klavesu 2 sekundy, nebude chyba na strane Aspellu, ale te aplikace co ho vyuziva.
25.4.2003 08:03 marx
Rozbalit Rozbalit vše Doplneni II
To su nie 2 sekundy na klavesu, ale na najdenie alternativ zleho slova. Co znamena, ze ak je tam tych dobrych slov 50, tak to cele moze trvat 2.5s a menej :) aspell je hrozne zavisly od mnozstva pamati a ten vysledok je scasti taky hrozny aj tym, ze na testy bolo pouzite co najmenej vykonne zelezo (ak sa pamatam tak P233, 128MB). Ono robit taketo testy na 'novych' pocitach ma velmi malu vypovednu hodnotu. Vidim to tak, ze sa pridam k tomuto threadu clanok a napisem cosi aj o tej teorii.
25.4.2003 16:33 unchallenger | skóre: 69 | blog: unchallenger
Rozbalit Rozbalit vše Doplneni II
Mně aspell akorát žere pamět. Mám pocit, že kdysi dávno to nedělal, ale v RH 8.0 mi to dělal určitě, v RH 9 to dělá taky (aspell-0.33.7.1). Když myslím jen žere pamět, tak fakt prostě jen žere pamět -- když to přeleze 700MB, tak ho vždycky zabiju, protože mám jen 512MB (ještě že mám ten velký swap ;-) ), ale nevěřím, že kdybych ho nechal pokračovat, že s tím někdy přestal. Nesetkal se s tím někdo? Dělám něco špatně?
30.4.2003 16:17 Permon
Rozbalit Rozbalit vše Doplneni II
Setkali. RH 8.0 Zjevne ma nejaky problem prave s tim filtrovanim tagu. Mam pocit, ze to delalo temer u libovolneho html. Pote co se mu rekol, ze to nema brat jako html, ale jako plaintext, tak to zvladl bez pozirani pameti. Nicmene jsem nemel silu zdroj hledat.
24.4.2003 18:22 Petr
Rozbalit Rozbalit vše chyby v ceskem slovniku
Odpovědět | Sbalit | Link | Blokovat | Admin
posledni (nevim jestli uplne) verze ceskeho slovniku pro aspell (aspell-cs 0.2-3) obsahuje "zapomnetlivy" i "zapometlivy" (vcetne vsech odvozenych tvaru). Pritom spravne je "..mne..". Starsi verze aspell-cs 0.1 to ma dobre. Da se tem slovnikum vubec verit, nebo budou casem pro kazde slovo obsahovat vsechny varianty, v nichz se nejcasteji chybuje? Komu se daji tyto chyby hlasit?
21.7.2003 23:28 bbb
Rozbalit Rozbalit vše chyby v ceskem slovniku
Kdyz je mozne pridavat si svoje "nova" slova do lokalniho slovniku, melo by byt pro takovehle pripady (pritomnost chybnych slov ve slovniku) mozne naopak vyhazovat slova za slovniku velkeho. Pujde to nekdy? Pokud by byla realizace obtizna, mohlo by aspon jit vytvaret jeste jeden lokalni slovnik slov, ktera se najit _nemaji_, a ten pouzit k filtraci vysledku. To by umoznilo lidem s jistou mirou vkusu vyradit si ze slovniku slova, ktera se asi v "modernejsich" versich budou objevovat.
25.4.2003 19:05 unchallenger | skóre: 69 | blog: unchallenger
Rozbalit Rozbalit vše Unicode?
Odpovědět | Sbalit | Link | Blokovat | Admin
Jak spellcheckujete UTF-8 soubory? Ať už ispellem nebo aspellem? Píšu si na to wrapper, který vychází z toho, že co není representovatelné v ISO-8859-2, nemá cenu spellcheckovat na češtinu, takže se to transparentně zachová -- ale pokud už někdo má něco v tom smyslu hotového...

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.