Standardní knihovna pro Python - 7 (řetězce 3) (diskuse)

Přihlášení | Registrace

napište » Zprávičky

inzerujte » Pracovní nabídky

Open source webový aplikační framework Django slaví 20. narozeniny

včera 22:22 | Komunita

Open source webový aplikační framework Django slaví 20. narozeniny.

Ladislav Hagara | Komentářů: 0

DebConf25

včera 16:11 | Komunita

V Brestu dnes začala konference vývojářů a uživatelů linuxové distribuce Debian DebConf25. Na programu je řada zajímavých přednášek. Sledovat je lze online.

Ladislav Hagara | Komentářů: 0

Před 30 lety se začala používat přípona .mp3

včera 11:33 | IT novinky

Před 30 lety, tj. 14. července 1995, se začala používat přípona .mp3 pro soubory s hudbou komprimovanou pomocí MPEG-2 Audio Layer 3.

Ladislav Hagara | Komentářů: 15

Commodore 64 Ultimate

včera 10:55 | IT novinky

Výroba 8bitových domácích počítačů Commodore 64 byla ukončena v dubnu 1994. Po více než 30 letech byl představen nový oficiální Commodore 64 Ultimate (YouTube). S deskou postavenou na FPGA. Ve 3 edicích v ceně od 299 dolarů a plánovaným dodáním v říjnu a listopadu letošního roku.

Ladislav Hagara | Komentářů: 16

Reachy Mini, open source robot od Hugging Face

13.7. 17:55 | Zajímavý projekt

Společnost Hugging Face ve spolupráci se společností Pollen Robotics představila open source robota Reachy Mini (YouTube). Předobjednat lze lite verzi za 299 dolarů a wireless verzi s Raspberry Pi 5 za 449 dolarů.

Ladislav Hagara | Komentářů: 11

Počítačová hra DOGWALK

11.7. 16:44 | Komunita

Dnes v 17:30 bude oficiálně vydána open source počítačová hra DOGWALK vytvořena v 3D softwaru Blender a herním enginu Godot. Release party proběhne na YouTube od 17:00.

Ladislav Hagara | Komentářů: 3

AI řešení náboru pracovníku pro McDonald's mělo přihlašovací jméno 123456 a heslo 123456

11.7. 14:55 | Humor

McDonald's se spojil se společností Paradox a pracovníky nabírá také pomocí AI řešení s virtuální asistentkou Olivii běžící na webu McHire. Ian Carroll a Sam Curry se na toto AI řešení blíže podívali a opravdu je překvapilo, že se mohli přihlásit pomocí jména 123456 a hesla 123456 a získat přístup k údajům o 64 milionech uchazečů o práci.

Ladislav Hagara | Komentářů: 16

Visual Studio Code a VSCodium 1.102

11.7. 00:11 | Nová verze

Byla vydána (𝕏) červnová aktualizace aneb nová verze 1.102 editoru zdrojových kódů Visual Studio Code (Wikipedie). Přehled novinek i s náhledy a videi v poznámkách k vydání. Ve verzi 1.102 vyjde také VSCodium, tj. komunitní sestavení Visual Studia Code bez telemetrie a licenčních podmínek Microsoftu.

Ladislav Hagara | Komentářů: 0

Apache HTTP Server (httpd) 2.4.64 řeší 8 bezpečnostních chyb

10.7. 21:00 | Bezpečnostní upozornění

Byla vydána nová verze 2.4.64 svobodného multiplatformního webového serveru Apache (httpd). Řešeno je mimo jiné 8 bezpečnostních chyb.

Ladislav Hagara | Komentářů: 4

Grok 4

10.7. 15:22 | Nová verze

Společnost xAI na síti 𝕏 představila Grok 4, tj. novou verzi svého AI LLM modelu Grok.

Ladislav Hagara | Komentářů: 12

Centrum | Napsat | Starší

navrhněte » Anketa

Jaký je váš oblíbený skriptovací jazyk?

bash (59%)

python (26%)

perl (7%)

powershell (3%)

batch (1%)

vbscript (1%)

jiný, uvedu v diskusi (4%)

Celkem 393 hlasů

Komentářů: 16, poslední 8.6. 21:05

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Články / Standardní knihovna pro Python - 7 (řetězce 3) / Standardní knihovna pro Python - 7 (řetězce 3) (diskuse)

Štítky: kernel, programování, Python

Nástroje: Začni sledovat (1) ?

Vložit další komentář

13.2.2007 00:54 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Odpovědět | Sbalit | Link | Blokovat | Admin

Je to divný, ale ten maketrans s češtinou mi s UTF-16 funguje. ;-)

Zjevně i Pythonu nějaký ten krůček do úplné unicodizace chybí. Za modul unicodedata budiž ovšem had blahoslaven a veleben. :-)

Jak moc jsou ábíčkáři inteligentní? ;-)

13.2.2007 10:48 Jan Martinek | skóre: 43 | blog: johny | Brno
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Jestli mohu doporučit, tak funkcím maketrans/translate je dobré se vyhnout, pokud si opravdu nejste naprosto jistí, že je opravdu potřebujete. Tyto funkce pracují s jednotlivými bajty (nikoli znaky), což se moc nehodí při práci s utf-8 a při práci s textem obecně. Jestliže ten maketrans s češtinou fungoval, byla to náhoda. A pokud nefungoval, nebyla to chyba pythonu ;-)

Pro překódování řetězce odněkud někam je lepší použít encode/recode. Pro "hádání" kódování slouží Yetiho enca se svým pythonovským modulem pyenca. Pro odstranění diakritiky lze využít výše zmíněný modul unicodedata.

Jo a díky za pěkný článek!

13.2.2007 11:57 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Takhle nějak?

def deaccent(unistr):
    return "".join(aChar 
                   for aChar in unicodedata.normalize("NFD", unistr) 
                   if "COMBINING" not in unicodedata.name(aChar))

Jak moc jsou ábíčkáři inteligentní? ;-)

13.2.2007 12:01 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Á, odpovím si sám:

def deaccent(unistr):
    return "".join(aChar 
                   for aChar in unicodedata.normalize("NFD", unistr) 
                   if not unicodedata.combining(aChar))

bude očividně mnohem rychlejší. :-)

Budu si ten modul muset prostudovat. :-D

Jak moc jsou ábíčkáři inteligentní? ;-)

13.2.2007 13:28 Jan Martinek | skóre: 43 | blog: johny | Brno
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Vida, díky - tvůj postup naprosto precizně odstraní akcenty :-)

Zkusil jsem si s tím taky pohrát a dostal jsem se do svízele s tím, že vlastně nechápu, k čemu se to vlastně používá. Má to smysl možná tehdy, když musí být výsledkem ascii řetězec, a pak pouhé odstranění akcentů nestačí. Zde je ukázka několika možností:

#!/usr/bin/env python
#coding: utf-8

import unicodedata

def deaccent(unistr):
    return "".join(aChar 
                   for aChar in unicodedata.normalize("NFD", unistr) 
                   if not unicodedata.combining(aChar))
                   
old_cz = u'áÁčČďĎěĚéÉíÍňŇóÓřŘšŠťŤúÚůŮýÝžŽ'
old_fr = u'ôœùûüÿàâçéèêëïîÔŒÙÛÜŸÀÂÇÉÈÊËÏÎ'
old = old_cz + old_fr
print old
print deaccent(old)
print deaccent(old).encode('ascii', 'replace')
print deaccent(old).encode('ascii', 'ignore')
print unicodedata.normalize('NFKD', old).encode('ascii', 'ignore')
print unicodedata.normalize('NFKD', old).encode('ascii', 'replace')

Výsledek je toto:

áÁčČďĎěĚéÉíÍňŇóÓřŘšŠťŤúÚůŮýÝžŽôœùûüÿàâçéèêëïîÔŒÙÛÜŸÀÂÇÉÈÊËÏÎ
aAcCdDeEeEiInNoOrRsStTuUuUyYzZoœuuuyaaceeeeiiOŒUUUYAACEEEEII
aAcCdDeEeEiInNoOrRsStTuUuUyYzZo?uuuyaaceeeeiiO?UUUYAACEEEEII
aAcCdDeEeEiInNoOrRsStTuUuUyYzZouuuyaaceeeeiiOUUUYAACEEEEII
aAcCdDeEeEiInNoOrRsStTuUuUyYzZouuuyaaceeeeiiOUUUYAACEEEEII
a?A?c?C?d?D?e?E?e?E?i?I?n?N?o?O?r?R?s?S?t?T?u?U?u?U?y?Y?z?Z?
 o??u?u?u?y?a?a?c?e?e?e?e?i?i?O??U?U?U?Y?A?A?C?E?E?E?E?I?I?

Jak je vidět, s češtinou celkem není problém, a proto pro ni lze na netu najít tolik více či méně korektních postupů. Ale zkusil jsem francouzštinu a pro ascii reprezentaci by to ještě chtělo spravit ty ligatury.

13.2.2007 13:41 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Tak s těmi ligaturami bacha, ono v některých jazycích je to plnohodnotné písmeno, takže jakékoli odstraňování čehokoliv je locale-dependent. ;-)

Jak moc jsou ábíčkáři inteligentní? ;-)

13.2.2007 14:47 Jan Martinek | skóre: 43 | blog: johny | Brno
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Aha, máš pravdu:

>>> import unicodedata
>>> unicodedata.name(u'Œ')
'LATIN CAPITAL LIGATURE OE'
>>> unicodedata.name(u'Æ')
'LATIN CAPITAL LETTER AE'

Konverze do ASCII (nebo spíš latin-1?) by IMHO locale-dependent být nemusela. Ale nejsem si jistý. Za přečtení stojí tohleto: http://effbot.org/zone/unicode-convert.htm Uf. Radši akcenty nikdy neodstraňovat.

13.2.2007 15:21 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Mnojo, jazykověda je ještě lepší zábava než linuxový kernel. :-D

Jak moc jsou ábíčkáři inteligentní? ;-)

13.2.2007 15:43 Jan Martinek | skóre: 43 | blog: johny | Brno
Rozbalit Rozbalit vše Re: Standardní knihovna pro Python - 7 (řetězce 3)

Hehe

A když už jsme u těch akademických debat, zdá se, že pro převod do ASCII se při normalizaci víc hodí parametr 'NFKD' (místo 'NFD'), přestože ničí část informace. Například:

>>> ctvrtka = u'\N{VULGAR FRACTION ONE QUARTER}'
>>> print unicodedata.normalize('NFKD', ctvrtka)
1⁄4
>>> print unicodedata.normalize('NFD', ctvrtka)
¼

Bohužel, někteří často pomocí skriptů převádějí do ASCII názvy souborů a adresářů. Takže když bude v názvu jedna čtvrtina, vyrobí se z toho nadbytečné lomítko, které v cestě nadělá paseku. No teoreticky by se to stát mohlo, no ne? :-)