Přihlášení | Registrace

napište » Zprávičky

dnes 14:55 | IT novinky

Před 70 lety, 7. června 1954, ve věku 41 let, zemřel Alan Turing, britský matematik, logik, kryptoanalytik a zakladatel moderní informatiky.

Ladislav Hagara | Komentářů: 1

NiceGUI, webový prohlížeč jako frontend pro kód v Pythonu

dnes 11:44 | Zajímavý software

NiceGUI umožňuje používat webový prohlížeč jako frontend pro kód v Pythonu. Zdrojové kódy jsou k dispozici na GitHubu pod licencí MIT.

Ladislav Hagara | Komentářů: 1

Home Assistant 2024.6

dnes 10:55 | Nová verze

Open source platforma Home Assistant (Demo, GitHub, Wikipedie) pro monitorování a řízení inteligentní domácnosti byla vydána ve verzi 2024.6. Z novinek lze vypíchnout lepší integraci LLM (OpenAI, Google AI, Ollama) nebo podporu Matter 1.3.

Ladislav Hagara | Komentářů: 0

IKEA otevře pobočku v Robloxu

včera 20:55 | IT novinky

IKEA ve Spojeném království hledá zaměstnance do své nové pobočky. Do pobočky v počítačové hře Roblox. Nástupní mzda je 13,15 liber na hodinu.

Ladislav Hagara | Komentářů: 0

Vulkan 1.3 na M1 za 1 měsíc, nový ovladač Honeykrisp

včera 10:44 | Zajímavý článek

Alyssa Rosenzweig se v příspěvku na svém blogu Vulkan 1.3 na M1 za 1 měsíc rozepsala o novém Vulkan 1.3 ovladači Honeykrisp pro Apple M1 splňujícím specifikaci Khronosu. Vychází z ovladače NVK pro GPU od Nvidie. V plánu je dále rozchodit DXVK a vkd3d-proton a tím pádem Direct3D, aby na Apple M1 s Asahi Linuxem běžely hry pro Microsoft Windows.

Ladislav Hagara | Komentářů: 32

Visual Studio Code a VSCodium 1.90

včera 01:00 | Nová verze

Byla vydána (𝕏) květnová aktualizace aneb nová verze 1.90 editoru zdrojových kódů Visual Studio Code (Wikipedie). Přehled novinek i s náhledy a animovanými gify v poznámkách k vydání. Ve verzi 1.90 vyjde také VSCodium, tj. komunitní sestavení Visual Studia Code bez telemetrie a licenčních podmínek Microsoftu.

Ladislav Hagara | Komentářů: 0

Kali Linux 2024.2

včera 00:44 | Nová verze

Byla vydána (Mastodon, 𝕏) nová verze 2024.2 linuxové distribuce navržené pro digitální forenzní analýzu a penetrační testování Kali Linux (Wikipedie). Přehled novinek se seznamem nových nástrojů v oficiálním oznámení.

Ladislav Hagara | Komentářů: 0

Tetris slaví 40 let

5.6. 16:44 | IT novinky

Počítačová hra Tetris slaví 40 let. Alexej Pažitnov dokončil první hratelnou verzi 6. června 1984. Mezitím vznikla celá řada variant. Například Peklo nebo Nebe. Loni měl premiéru film Tetris.

Ladislav Hagara | Komentářů: 10

MicroPython 1.23.0

5.6. 10:44 | Nová verze

MicroPython (Wikipedie), tj. implementace Pythonu 3 optimalizovaná pro jednočipové počítače, byl vydán ve verzi 1.23.0. V přehledu novinek je vypíchnuta podpora dynamických USB zařízení nebo nové moduly openamp, tls a vfs.

Ladislav Hagara | Komentářů: 0

Ubuntu Core 24

5.6. 10:22 | Nová verze

Canonical vydal Ubuntu Core 24. Představení na YouTube. Nová verze Ubuntu Core vychází z Ubuntu 24.04 LTS a podporována bude 12 let. Ubuntu Core je určeno pro IoT (internet věcí) a vestavěné systémy.

Ladislav Hagara | Komentářů: 2

Centrum | Napsat | Starší

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Poradna / Databázová poradna / Textové soubory do relační databáze - struktura db

Štítky: data, databáze, hash

Dotaz: Textové soubory do relační databáze - struktura db

10.1.2011 16:03 4rasic
Textové soubory do relační databáze - struktura db

Přečteno: 567×

Odpovědět | Admin

Dobrý den. Mám několik desítek textových souborů, které obsahují až statisíce řádků. Jejich struktura je zhruba následující:

soubor0:
jednoznackyidentifikator | boolhodnota | stringhodnota | ...

souborN:
jednoznackyidentifikator | nejakadalsihodnota | zaseneco | ...

...

Potřebuju data z těchto souborů dostat do DB. Můj plán je následující: pro každý soubor vytvářet automaticky tabulku, jejíž název bude sha1 hash názvu souboru (kvůli rozlišování písmen, nepovoleným znakům aj.), v každé tabulce bude jednoznackyidentifikator PK. Někde stranou si budu v aplikaci udržovat seznam názvů souborů, které chci procházet (nemusím chtít všechny). Takový je můj plán. V nespočetně mnoha článcích jsem se ale dočetl, že není dobré měnit strukturu databáze (vytvářet tabulky) dynamicky a dost se od toho odrazuje. Tzn. že by byla lepší jedna tabulka, ve které by byla data ze všech souborů? Není to blbost?

Nástroje: Začni sledovat (0) ?

Odpovědi

10.1.2011 16:19 okbob | skóre: 30 | blog: systemakuv_blog | Benešov
Rozbalit Rozbalit vše Re: Textové soubory do relační databáze - struktura db

Ono hodně záleží, co s těmi daty chcete dělat a jak je chcete zpracovávat? Jestli je nejakým způsobem významné, z kterého souboru data pochází? Jestli chcete provádět jednorázovou operaci nebo zda-li s daty chcete pracovat trvale? A také záleží, co vlastně tato data znamenají.

Jinak 100 tis nebo mil, přip. 10 mil řádků v jedné tabulce není problém.

10.1.2011 16:38 4rasic
Rozbalit Rozbalit vše Re: Textové soubory do relační databáze - struktura db

Chci třeba zobrazit "naráz"(nějak filtrovaná) všechna data z 4 souborů - řádky spojené pomocí jednoznackyidentifikator. Na to se právě perfektně hodí mít více tabulek a nad nima hodit inner join. Myslím, že toto samé se dá provést i pokud by to bylo v jedné tabulce (jen postup získání dat je složitější).

10.1.2011 19:13 okbob | skóre: 30 | blog: systemakuv_blog | Benešov
Rozbalit Rozbalit vše Re: Textové soubory do relační databáze - struktura db

Pokud ta data ze souborů jsou skutečně natolik jiná, že byste je chtěl spíš JOINovat než UNIONovat :), tak pak asi má smysl je nechat v samostatných tabulkách.

11.1.2011 00:35 4rasic
Rozbalit Rozbalit vše Re: Textové soubory do relační databáze - struktura db

Tuhle odpověď jsem tak uplně nepochopil, ale mám asi 2 možnosti realizace:

1/ vícero tabulkami

soubor0:
identifikator | sloupec1 | sloupec2
-----------------------------------
fasd8fSDd6    | 0        | retezec


soubor1:
identifikator | sloupec1 | sloupec2
-----------------------------------
fasd8fSDd6    | false    | -51


... a pak join using identifikator ... moznost where, order ...


2/ jednou tabulkou

soubor  | identifikator | sloupec  | hodnota_bool | hodnota_varchar | hodnota_int
---------------------------------------------------------------------------------
soubor0 | fasd8fSDd6    | sloupec1 | NULL         | NULL            | 0
soubor0 | fasd8fSDd6    | sloupec2 | NULL         | retezec         | NULL
soubor1 | fasd8fSDd6    | sloupec1 | false        | NULL            | NULL
soubor1 | fasd8fSDd6    | sloupec2 | NULL         | NULL            | -51

tady nevim, jaky dotaz pouzit?

Nemůžu se zbavit dojmu, že za 2/ je takové čistější, ale asi také o dost pomalejší (??).

11.1.2011 06:34 okbob | skóre: 30 | blog: systemakuv_blog | Benešov
Rozbalit Rozbalit vše Re: Textové soubory do relační databáze - struktura db

Takhle od stolu se nedá říci, které řešení je výhodnější - vyzkoušejte si rychlost nejčastějších dotazů a pohodlí sestavovaní dotazů. Vaše druhá varianta je analogií materializace. Což někdy je výhodné, a někdy ne. Záleží na přístupu. Pokud bych měl hodně souborů tak bych inklinoval spíš k jedné nebo dvoum tabulkám. S málem souborů můžete mít tabulky per soubor.

11.1.2011 08:15 4rasic
Rozbalit Rozbalit vše Re: Textové soubory do relační databáze - struktura db

No těch "spolusouvisejících" souborů bude okolo 10. Maximálně tak 100. On asi také není zanedbatelný čas pro samotné spojování několika statisíce řádkových tabulek že? V té dvojce maximálně spojím tabulky 2 (pokud to budu mít v 3NF). U té 2/ varianty jsou ale zase "nevyužité sloupce" (NULL). Kolik času navíc zabere procházení takových sloupců, pokud bych podle nich chtěl třeba hledat? V těch záznamech se také bude často hledat pomocí LIKE '%neco%'.

11.1.2011 12:50 okbob | skóre: 30 | blog: systemakuv_blog | Benešov
Rozbalit Rozbalit vše Re: Textové soubory do relační databáze - struktura db

to spojeni tabulek je pomerne zanedbatelne relativne ku cteni dat z disku. Zjednodusene - db dotazy jsou tim pomalejsi cim vic ctete data, ktera vas v tu chvili nezajimaji. NULL znamena +/- 1 bit - zalezi na db a typu. To ze budete vyhledavat skrz LIKE znamena, ze se Vam nebudou chytat indexy. Coz by vedlo na oddelene tabulky. Zase, pri deseti tabulkach je to ok, ale pri 100 tabulkach se budete proklinat, az budete psat dotazy. Ja bych zkusil nahnacat do jedne, dvou tabulek, vygeneroval si testovaci data, a pak si vyzkousel, jak dlouho trvaji dotazy.

11.1.2011 16:05 4rasic
Rozbalit Rozbalit vše Re: Textové soubory do relační databáze - struktura db

Tak já přímo dotazy psát nebudu, to si naprogramuju a bude se to generovat automaticky, takže je mi jedno jestli ten dotaz bude mít 10M. Teď jsem si jen tak letmo zkusil v mysql (pak asi použiju firebird nebo postgres, ale to je teď jedno) vygenerovat 450000 řádkovou tabulku + 70000 řádkovou tabulku. Pokud hledám jen v té větší tabulce, zabere to při použití like 0.0684s, po spojení left joinem (uvědomil jsem si, že inner join je blbost, protože budu chtít vidět "všechna" data - v závislosti na konkrétní tabulce) nad oběma 0.0849s. Pokud zdvojnásobím počty řádků v tabulkách, tak časy jsou pak několikanásobně větší. Tzn. že pokud spojím 3 2sloupcové tabulky s počtem řádků 1 000 000 left joinem, budu mít maximálně 1 000 000 řádků po spojení. V případě 1 tabulky jich bude 3 * 2 * 1 000 000 a to pak bude trvat hoodně dlouho než se to projde. Mimochodem kdybych měl 1 tabulku - jakým způsobem bych v ní hledal? Jak by vypadal pro jednotabulkovou variantu tento dotaz?:

select identifikator from soubor1 where (sloupec1 = 'neco' AND sloupec2 = 'necojine') OR sloupec2 = 'necojine2' order by sloupec1, sloupec2 desc limit 300 offset 2;

To je jeden z typických dotazů nad daty a teď si neumím představit variantu pro jedno(dvou)tabulkové řešení. Asi tam budou nějaké vnořené dotazy a nějaký union, ale sql tak dobře neznám.

11.1.2011 19:48 jk
Rozbalit Rozbalit vše Re: Textové soubory do relační databáze - struktura db

tak u toho prikladu bych vam radil, at na to nejdete s sqlite.

Zrovna su hraju v sqlite s jednou tabulkou, ktera ma 3 miliony radku jakmile reknu order by pole1,pole2 desc, tak trva dotaz 4 minuty, vzestupne 4 vteriny. A to mam slozeny index na tech polich pole1, pole2.

Kdyz pouziji pouze order by pole1 desc, tak to jde take okamzite.

11.1.2011 20:43 jekub
Rozbalit Rozbalit vše Re: Textové soubory do relační databáze - struktura db

a udelat index pole1, pole2 desc nepomuze?

Založit nové vlákno • Nahoru

Tiskni Sdílej:

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje