Wordcloud z dat z Facebooku

Přihlášení | Registrace

napište » Zprávičky

dnes 01:00 | Nová verze

Byla vydána (𝕏) květnová aktualizace aneb nová verze 1.90 editoru zdrojových kódů Visual Studio Code (Wikipedie). Přehled novinek i s náhledy a animovanými gify v poznámkách k vydání. Ve verzi 1.90 vyjde také VSCodium, tj. komunitní sestavení Visual Studia Code bez telemetrie a licenčních podmínek Microsoftu.

Ladislav Hagara | Komentářů: 0

Kali Linux 2024.2

dnes 00:44 | Nová verze

Byla vydána (Mastodon, 𝕏) nová verze 2024.2 linuxové distribuce navržené pro digitální forenzní analýzu a penetrační testování Kali Linux (Wikipedie). Přehled novinek se seznamem nových nástrojů v oficiálním oznámení.

Ladislav Hagara | Komentářů: 0

Tetris slaví 40 let

včera 16:44 | IT novinky

Počítačová hra Tetris slaví 40 let. Alexej Pažitnov dokončil první hratelnou verzi 6. června 1984. Mezitím vznikla celá řada variant. Například Peklo nebo Nebe. Loni měl premiéru film Tetris.

Ladislav Hagara | Komentářů: 10

MicroPython 1.23.0

včera 10:44 | Nová verze

MicroPython (Wikipedie), tj. implementace Pythonu 3 optimalizovaná pro jednočipové počítače, byl vydán ve verzi 1.23.0. V přehledu novinek je vypíchnuta podpora dynamických USB zařízení nebo nové moduly openamp, tls a vfs.

Ladislav Hagara | Komentářů: 0

Ubuntu Core 24

včera 10:22 | Nová verze

Canonical vydal Ubuntu Core 24. Představení na YouTube. Nová verze Ubuntu Core vychází z Ubuntu 24.04 LTS a podporována bude 12 let. Ubuntu Core je určeno pro IoT (internet věcí) a vestavěné systémy.

Ladislav Hagara | Komentářů: 2

DuckDB 1.0.0

včera 01:00 | Nová verze

Databáze DuckDB (Wikipedie) dospěla po 6 letech do verze 1.0.0.

Ladislav Hagara | Komentářů: 0

Intel na veletrhu Computex 2024

4.6. 19:55 | IT novinky

Intel na veletrhu Computex 2024 představil (YouTube) mimo jiné procesory Lunar Lake a Xeon 6.

Ladislav Hagara | Komentářů: 0

Raspberry Pi AI Kit

4.6. 13:44 | IT novinky

Na blogu Raspberry Pi byl představen Raspberry Pi AI Kit určený vlastníkům Raspberry Pi 5, kteří na něm chtějí experimentovat se světem neuronových sítí, umělé inteligence a strojového učení. Jedná se o spolupráci se společností Hailo. Cena AI Kitu je 70 dolarů.

Ladislav Hagara | Komentářů: 0

FreeBSD 14.1

4.6. 13:22 | Nová verze

Byla vydána nová verze 14.1 svobodného unixového operačního systému FreeBSD. Podrobný přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0

Kaspersky Virus Removal Tool (KVRT) také pro Linux

4.6. 12:55 | Zajímavý software

Společnost Kaspersky vydala svůj bezplatný Virus Removal Tool (KVRT) také pro Linux.

Ladislav Hagara | Komentářů: 11

Centrum | Napsat | Starší

Rozcestník

AbcLinuxu

HDmag.cz

pools - Svědek Damdogův

Sem tam mě něco(někdo) napadne, nebo nasere tak to sem postnu, no...

Aktuální zápisy

? Archív

? Současný desktop

? Navigace

Nej blogů na AbcLinuxu

Nejčtenější za poslední měsíc

Nejkomentovanější za poslední měsíc

AbcLinuxu:/ Blogy / Svědek Damdogův / Stunome / Wordcloud z dat z Facebooku

Štítky: api, Cloud, čeština, data, Facebook, GitHub, instalace, Rproject, stunome, token

Wordcloud z dat z Facebooku

24.11.2013 14:50 | Přečteno: 1665× | Stunome | poslední úprava: 24.11.2013 14:53

Dneska si jako správné novomediální *** ukážeme, jak jednoduše udělat naprosto zbytečný (ale vypadá to fakt pěkně) word cloud s pomocí programu R project.

Co k tomu potřebujeme:

R project (tu)
přístupový token z FB Graph API (tu)
R knihovnu Rfacebook (dokumentace tu)

Stažení potřebných dat

Jako první si pustíme R konzoli a nainstalujeme potřebné balíčky.

# instalace knihoven
install.packages("Rfacebook")
install.packages("tm")
install.packages("wordcloud")

# nacteni knihoven
library(Rfacebook)
library(tm)
library(wordcloud)

Načtení dat

Jakmile si seženeme facebook token, ze stránky https://developers.facebook.com/tools/explorer, můžeme se zvesela pustit do načítání dat z Facebooku pomocí R. Nám bude stačit načíst 300 komentářů z jakékoliv Facebook stránky. A trochu si je předpřipravíme.

# nacteni tokenu do promenne
token <- "token_pro_graph_api"

# nacteni prispevku stranky do promenne
page <- getPage("biooo.cz", token=token, n=300)

# vytvoreni korpusu, ktery bude obsahovat pouze sloupec se zpravami
corpus <- Corpus(VectorSource(page$message))

# slova z korpusu zmenšíme, odstraníme interpunkci a čísla
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)

Vytvoření matice slov

V další fázi vytvoříme z předpřipraveného korpusu matici slov a spočteme jejich frekvenci.

ap.tdm <- TermDocumentMatrix(corpus)
ap.m <- as.matrix(ap.tdm)
ap.v <- sort(rowSums(ap.m), decreasing=TRUE)
ap.d <- data.frame(word = names(ap.v), freq=ap.v)

Vykreslení

Již se zdárně blížíme k cíli, teď si načteme do proměnné předpřipravenou paletu barev:

require(RColorBrewer)
pal <- brewer.pal(8,"Dark2")

Nyní stačí již jen nastavit soubor výstupu a spustit samotné vytvoření word cloudu!

png("wordcloud.png",width=1024,height=1024)
wordcloud(ap.d$word,ap.d$freq, scale=c(10,.2),min.freq=3,max.words=150, random.order=FALSE, rot.per=.15, colors=pal)
dev.off()

TADÁ! Máme náš první word cloud.

Co by se dalo zlepšit?

Spousta věcí! Především:

vůbec jsme neřešili lemmatizaci
jsou tam zbytečná slova - např. předložky (nejpoužívanější slovo je "pro")
je dobré projít tabullku slov, a vyhodit nežádoucí / negativní, pokud jsou nějaké