MicroPython (Wikipedie), tj. implementace Pythonu 3 optimalizovaná pro jednočipové počítače, byl vydán ve verzi 1.23.0. V přehledu novinek je vypíchnuta podpora dynamických USB zařízení nebo nové moduly openamp, tls a vfs.
Canonical vydal Ubuntu Core 24. Představení na YouTube. Nová verze Ubuntu Core vychází z Ubuntu 24.04 LTS a podporována bude 12 let. Ubuntu Core je určeno pro IoT (internet věcí) a vestavěné systémy.
Databáze DuckDB (Wikipedie) dospěla po 6 letech do verze 1.0.0.
Intel na veletrhu Computex 2024 představil (YouTube) mimo jiné procesory Lunar Lake a Xeon 6.
Na blogu Raspberry Pi byl představen Raspberry Pi AI Kit určený vlastníkům Raspberry Pi 5, kteří na něm chtějí experimentovat se světem neuronových sítí, umělé inteligence a strojového učení. Jedná se o spolupráci se společností Hailo. Cena AI Kitu je 70 dolarů.
Byla vydána nová verze 14.1 svobodného unixového operačního systému FreeBSD. Podrobný přehled novinek v poznámkách k vydání.
Společnost Kaspersky vydala svůj bezplatný Virus Removal Tool (KVRT) také pro Linux.
Grafický editor dokumentů LyX, založený na TeXu, byl vydán ve verzi 2.4.0 shrnující změny za šest let vývoje. Novinky zahrnují podporu Unicode jako výchozí, export do ePub či DocBook 5 a velké množství vylepšení uživatelského rozhraní a prvků editoru samotného (např. rovnic, tabulek, citací).
Byla vydána (𝕏) nová verze 7.0 LTS open source monitorovacího systému Zabbix (Wikipedie). Přehled novinek v oznámení na webu, v poznámkách k vydání a v aktualizované dokumentaci.
Organizace Apache Software Foundation (ASF) vydala verzi 22 integrovaného vývojového prostředí a vývojové platformy napsané v Javě NetBeans (Wikipedie). Přehled novinek na GitHubu. Instalovat lze také ze Snapcraftu a Flathubu.
Český statistický úřad vydal publikaci Ženy, muži a digitalizace - 2023 (pdf) s celou řadou tabulek a grafů. Například průměrná hrubá měsíční mzda ICT odborníků byla v roce 2022 u žen 61 992 a u mužů 71 960.
Tiskni Sdílej:
v dokumentu ktery ma byt o odbornicich v IT
Řekl kdo?
Jmenuje se to Ženy, muži a digitalizace. ICT odborníci jsou jenom sekce 2.3, resp. tabulky 30-32.
tabulky o tom kdo co nakupuje doma, nebo jestli se doma pouziva chat nebo email
Digitalizace. Neslyšeli? Neviděli? Nikdy?! Ani v tom titulku?
Život je otázkou priorit :)
Nedávno mě pobavil jeden Japonec, který vysvětloval, že v Japonsku prodávají osobní počítače o polovinu levněji než v Česku, tím, že tam není po nich žádná poptávka. Žáci dostanou školní tablety a studenti jsou schopni udělat vysokou školu s mobilním telefonem. Prý jsou i případy, kteří celou diplomku datlovali (bez externí klávesnice) do telefonu.
pdftoppm digitalizace.pdf -png x for x in $(seq -w 41); do tesseract -l ces x-$x.png x-$x pdf; done; gs -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -dAutoRotatePages=/None -sOutputFile="digitalizace-ocr.pdf" $(for x in $(seq -w 41); do echo x-$x.pdf; done)
office-pipe
mohl umět, ale nevím, jestli to tam úplně patří (nechtěl bych tam přidávat závislost na Tesseractu a PDF knihovnách, takže by to spíš volal jako podprocesy, a pak se to moc neliší od obyčejného shellového skriptu).
V Relačních rourách by tuhle funkcionalitu šlo implementovat jako streamlet a pustit ji nad více soubory, ale většinou asi člověk potřebuje převést jen jeden dokument, takže i tady je asi jednodušší mít obyčejný shellový skript.
Vzhledem k tomu, že tam nejsou žádná relační data (v tomhle případě je úspěch z toho dostat aspoň nestrukturovaný text místo rozsypaného čaje), tak je to dost mimo záběr Relačních rour.
Maximálně se z toho dají jako relační/strukturovaná data vytáhnout metadata dokumentu:
$ find -name digitalizace.pdf -print0 \ | relpipe-in-filesystem \ --file path \ --streamlet mime_type \ --streamlet exiftool \ | relpipe-out-recfile %rec: filesystem %type: path regexp /.*/ %type: mime__type regexp /.*/ %type: File_58_MIMEType regexp /.*/ %type: exiftool__xml regexp /.*/ path: ./digitalizace.pdf mime__type: application/pdf File_58_MIMEType: application/pdf exiftool__xml: <?xml version='1.0' encoding='UTF-8'?> + <rdf:RDF xmlns:rdf='http://www.w3.org/1999/02/22-rdf-syntax-ns#'> + + <rdf:Description rdf:about='./digitalizace.pdf' + xmlns:et='http://ns.exiftool.org/1.0/' et:toolkit='Image::ExifTool 12.40' + xmlns:ExifTool='http://ns.exiftool.org/ExifTool/1.0/' + xmlns:System='http://ns.exiftool.org/File/System/1.0/' + xmlns:File='http://ns.exiftool.org/File/1.0/' + xmlns:PDF='http://ns.exiftool.org/PDF/PDF/1.0/' + xmlns:XMP-x='http://ns.exiftool.org/XMP/XMP-x/1.0/' + xmlns:XMP-xmp='http://ns.exiftool.org/XMP/XMP-xmp/1.0/' + xmlns:XMP-dc='http://ns.exiftool.org/XMP/XMP-dc/1.0/' + xmlns:XMP-xmpMM='http://ns.exiftool.org/XMP/XMP-xmpMM/1.0/' + xmlns:XMP-pdf='http://ns.exiftool.org/XMP/XMP-pdf/1.0/' + xmlns:XMP-pdfaid='http://ns.exiftool.org/XMP/XMP-pdfaid/1.0/'> + <ExifTool:ExifToolVersion>12.40</ExifTool:ExifToolVersion> + <System:FileName>digitalizace.pdf</System:FileName> + <System:Directory>.</System:Directory> + <System:FileSize>880 KiB</System:FileSize> + <System:FileModifyDate>2023:06:21 10:29:28+02:00</System:FileModifyDate> + <System:FileAccessDate>2023:06:28 23:02:18+02:00</System:FileAccessDate> + <System:FileInodeChangeDate>2023:06:29 13:35:47+02:00</System:FileInodeChang\ eDate> + <System:FilePermissions>-rw-rw-r--</System:FilePermissions> + <File:FileType>PDF</File:FileType> + <File:FileTypeExtension>pdf</File:FileTypeExtension> + <File:MIMEType>application/pdf</File:MIMEType> + <PDF:PDFVersion>1.4</PDF:PDFVersion> + <PDF:Linearized>No</PDF:Linearized> + <PDF:PageCount>41</PDF:PageCount> + <PDF:Author>myskova7414</PDF:Author> + <PDF:CreateDate>2023:06:21 09:38:55+02:00</PDF:CreateDate> + <PDF:Producer>Acrobat Distiller 9.5.5 (Windows)</PDF:Producer> + <PDF:Creator>PScript5.dll Version 5.2.2</PDF:Creator> + <PDF:ModifyDate>2023:06:21 09:38:55+02:00</PDF:ModifyDate> + <PDF:Title>Microsoft Word - ICT_gender_metodika_cs.docx</PDF:Title> + <XMP-x:XMPToolkit>Adobe XMP Core 4.2.1-c043 52.372728, 2009/01/18-15:08:04 \ </XMP-x:XMPToolkit> + <XMP-xmp:ModifyDate>2023:06:21 09:38:55+02:00</XMP-xmp:ModifyDate> + <XMP-xmp:CreateDate>2023:06:21 09:38:55+02:00</XMP-xmp:CreateDate> + <XMP-xmp:MetadataDate>2023:06:21 09:28:14+02:00</XMP-xmp:MetadataDate> + <XMP-xmp:CreatorTool>PScript5.dll Version 5.2.2</XMP-xmp:CreatorTool> + <XMP-dc:Format>application/pdf</XMP-dc:Format> + <XMP-dc:Title>Microsoft Word - ICT_gender_metodika_cs.docx</XMP-dc:Title> + <XMP-dc:Creator>myskova7414</XMP-dc:Creator> + <XMP-xmpMM:DocumentID>uuid:833e5971-ac60-4506-8d82-652f5b8a5ab7</XMP-xmpMM:D\ ocumentID> + <XMP-xmpMM:InstanceID>uuid:c9fa996a-e388-4108-907e-925f45d9d2fc</XMP-xmpMM:I\ nstanceID> + <XMP-pdf:Producer>Acrobat Distiller 9.5.5 (Windows)</XMP-pdf:Producer> + <XMP-pdfaid:Part>1</XMP-pdfaid:Part> + <XMP-pdfaid:Conformance>B</XMP-pdfaid:Conformance> + </rdf:Description> + </rdf:RDF> # Record count: 1Případně je tam streamlet
tesseract
, ale ten čte obrázek a generuje jeden atribut s rozpoznaným textem (tzn. nevyleze z toho PDF, ale jen ten text).