Webový server Caddy (Wikipedie) s celou řadou zajímavých vlastností byl vydán ve verzi 2.8 (𝕏). Přehled novinek na GitHubu.
Byla vydána verze 3.0 (@, 𝕏) svobodného softwaru HAProxy (The Reliable, High Performance TCP/HTTP Load Balancer; Wikipedie) řešícího vysokou dostupnost, vyvažování zátěže a reverzní proxy. Detailní přehled novinek v příspěvku na blogu společnosti HAProxy Technologies.
Společnost Framework Computer představila novou vylepšenou verzi svého modulárního notebooku Framework Laptop 13 s Intel Core Ultra Series 1, displej s lepším rozlišením a novou webovou kameru. Přímo do Česka jej zatím koupit nelze.
Byla vydána nová verze 2.16 svobodného video editoru Flowblade (GitHub, Wikipedie). Přehled novinek v poznámkách k vydání. Videoukázky funkcí Flowblade na Vimeu. Instalovat lze také z Flathubu.
TerminalTextEffects (TTE) je engine pro vizuální efekty v terminálu. Zdrojové kódy jsou k dispozici na GitHubu pod licencí MIT.
Od čtvrtka 30. 5. do soboty 1. 6. lze v Praze navštívit Veletrh vědy, tj. největší populárně naučnou akci v České republice, kterou každoročně od roku 2015 pořádá Akademie věd ČR. Vstup zdarma.
Canonical představil Ubuntu optimalizované pro jednodeskový počítač s RISC-V procesorem Milk-V Mars.
Armbian, tj. linuxová distribuce založená na Debianu a Ubuntu optimalizovaná pro jednodeskové počítače na platformě ARM a RISC-V, ke stažení ale také pro Intel a AMD, byl vydán ve verzi 24.5.1 Havier. Přehled novinek v Changelogu.
Společnost xAI založena Elonem Muskem a stojící za AI LLM modelem Grok získala investici 6 miliard dolarů.
Finálový zápas mistrovství světa v ledním hokeji přinesl nový rekord NIX.CZ (𝕏): "Dosavadní absolutní maximum našeho propojovacího uzlu bylo překonáno v čase 21:10, kdy jsme při přenosu dat dosáhli 3,14 Tbps. Je třeba také doplnit, že po deváté hodině večerní byly na maximu i ostatní datové přenosy nesouvisející s hokejovým šampionátem".
Projekt Gutenberg nenabízí žádné pokročilé rozhraní, které by umožnilo jednotlivá díla vyhledávat pomocí komplexních statistických kritérií. K dispozici jsou offline katalogy, top 100 knih. Top 100 vévodí anglický román rodinného života Pýcha a Předsudek od Jane Austenové z roku 1813 a na druhém místě je Alenka v říši divů. Na čtvrtém místě je Kafka se svou povídkou Proměna.
Online není možné soubory filtrovat či řadit podle kritérií jako např. četnost výskytu archaismů z dané množiny slov, výskyt přímé řeči a pod. Proto si budeme muset data z Projektu Gutenberg stáhnout nejdříve na náš disk, abychom s nimi mohli pracovat.
Co je projekt Gutenberg? Projekt Gutenberg je nejstarší existující digitální knihovnou. Založen byl již v roce 1971 Michaelem S. Hartem, americkým veteránem korejské války, který zemřel roku 2011 ve věku 64 let. Centrální idea projektu je publikovat texty, které jsou public domain, protože jim prošel copyright. V každém případě zde tedy najdeme díla řeckých filozofických velikánů. Co když ale intelektuálně sofistikované údery z nejzazších hlubin minulosti nejsou zrovna tím, co bychom chtěli číst, a raději bychom preferovali třeba nějaký román s napínavým příběhem?
Michael S. Hart (vlevo) a Gregory Newby z Projektu Gutenberg v r. 2006.
Zdroj: "Marcello" z Wikimedia Commons pod licencí GFDL 1.2
Od roku 1971, kdy počítače ještě vypadaly jako automatické pračky, projekt Gutenberg nasbíral přes 50 tisíc literárních děl, které jsou uspořádány v souborové hierarchii textových souborů, kde se často vyskytují vícenásobné kopie toho samého souboru, které se liší třeba jen korekturami nebo formátováním mezer. Soubory jsou obsahují prostý text v kódování ASCII nebo UTF-8.
50 tisíc souborů? To je tedy slušné cvičení na souborový systém. Posuďte sami. Pustíme tento příkaz pouze na zjištění, kolik ten adresář včetně podadresářů zabírá místa. Kontrolka disku se rozsvítí jako baterka a z disku je čteno průměrnou rychlostí cca 1,3 MB/s, ač se jedná jen o souborová metadata. Po 6 minutách kontrolka disku konečně zhasne a dostaví se kýžený výsledek 22 gigabajtů. Toto je doslova příkaz, který pustíte a můžete si jít udělat kafe:
$ time du -sm pg 21773 pg real 5m54.408s user 0m3.518s sys 0m18.034s
Nejdříve si toto velké sousto tedy budeme muset zkopírovat z Projektu Gutenberg na náš disk. Použijeme k tomu Rsync:
rsync --progress -z -urv -v --exclude='GUTINDEX*' --exclude='*-8.txt' --include='*.txt' \ --include='*/' --exclude='*' --delete --min-size=1 --max-size=10000000 \ ftp@ftp.ibiblio.org::gutenberg pg
--progress
zapíná indikaci probíhajícího stahování. -z
zapíná kompresi, -u
přenáší pouze soubory, které byly obnoveny (podle časového razítka) od doby, kdy jsme
je stáhli. -r
je zcela nezbytná rekurze, pokud chceme stáhnout víc než jednotlivý soubor. -v
zvyšuje množství informativních hlášek. Že --exclude
a --include
vyřazují a zařazují určité druhy souborů je asi jasné, co už ale asi jasné být nemusí je, že --exclude
a --include
mezi sebou interagují nějakým komplexním způsobem, který je popsán v sekci FILTER RULES
manuálové stránky rsyncu, která má 2500 řádků a jak bývá u manuálových stránek zvykem, u popisu --exclude
na to čtenář není upozorněn. Takže se to dozví pouze tehdy, když si manuálovou stránku přečte celou jako román. Proto má uživatel v zásadě na výběr dvě možnosti: buď zemře sešlostí věkem dřív, než
ten rsync vůbec pustí, a nebo se rsync bude chovat jinak, než uživatel bude věřit, že by se měl chovat, a uživatel nebude chápat proč.
Další přepínače si vysvětlíme v příštím dílu seriálu.
Nástroje: Tisk bez diskuse
Tiskni Sdílej:
Diskuse byla administrátory uzamčena
50 tisíc souborů? To je tedy slušné cvičení na souborový systém. Posuďte sami.
Hm…
mike@unicorn:~/work/git/kernel-upstream> time du -sm . 1862 . real 0m1.698s user 0m0.132s sys 0m0.944s mike@unicorn:~/work/git/kernel-upstream> find . -type f | wc -l 54299
$ time du -sm . 88245 . real 3m0.174s user 0m0.636s sys 0m8.708s $ find . -type f | wc -l 257280 Ale fakt je, že ten find trval věky ...
autor blogu
Kéž by… on je to ale článek.