Portál AbcLinuxu, 3. června 2024 00:29

Privoxy - 2 (pozměňování obsahu)

4. 6. 2007 | Jiří Poláček
Články - Privoxy - 2 (pozměňování obsahu)  

Druhý nášup informací o Privoxy se zaměřuje na samotný obsah webových stránek načítaných do našeho prohlížeče – pokud se nám cokoliv znelíbí nejenom na stránce samotné, ale též v hlavičkách protokolu HTTP, tak si to prostě změníme. Podívejme se, jak na to.

Pozměňování obsahu stránek na základě sady definovaných pravidel

Toto je silná zbraň Privoxy, kterou ovšem pořádně využijí jen ti, kterým nejsou cizí regulární výrazy. Do souborů s filtry lze zapsat klasické nahrazovací příkazy typu s/najdi/nahraď/, sdružovat je do skupin jakožto pojmenované filtry a následně aplikovat na obsah vybraných stránek v souboru s akcemi. Vše nejlépe osvětlí příklady – autoři Privoxy nabízí například následující primitivní filtr k odstranění značek HTML pro blikající a jezdící text:

FILTER: html-annoyances
s-</?(blink|marquee).*>--sigU

V souboru s akcemi jej nyní můžeme použít:

{+filter{html-annoyances}}
/

Začátek filtru je indikován klíčovým slovem FILTER na začátku řádku, za dvojtečkou následuje název filtru, na který se potom lze odvolávat v souboru s akcemi (zapisuje se do složených závorek za volání akce filter). Lomítko jako vzorek vyhovuje všem doménám, filtr z příkladu se tedy bude aplikovat na veškerý načítaný webový obsah.

Jak již příklad ukazuje, oddělovacím znakem v nahrazovacím příkazu může být i jiný znak než lomítko (kterých je v HTML požehnaně), za posledním oddělovacím znakem mohou následovat modifikátory s následujícím významem:

Více se s regulárními výrazy můžete seznámit například na českém webu www.regularnivyrazy.info.

Jiný příklad – další jednoduchý filtr nabízený tvůrci Privoxy - mění veškerý výskyt slova Microsoft na MicroSuck:

FILTER: fun
s/microsoft(?!.com)/MicroSuck/ig

I takovýto filtr by se dal aplikovat na širokou škálu webových stránek. Autoři Privoxy nám však nabízejí mnohem více mnohem užitečnějších filtrů, z nichž ty nejzajímavější má smysl zmínit:

Nejlepší na pozměňování obsahu stránek však je možnost napsat si filtr vlastní. Osobně například používám takovýto filtr pro automatické přihlašování se k některým webovým službám:

FILTER: prihlaseni
s/name="username" *value=""/name="username" value="muj_login"/
s/name="password"/name="password" value="moje_heslo"/
s%</body>%<script type="text/javascript">document.forms\[0\].submit();</script></body>%i

Kromě toho, že do patřičných formulářových polí doplní jméno a heslo, navíc na konec stránky přidá skript pro automatické odeslání formuláře. Výborné je, že toto automatické přihlašování funguje i na stránkách, kde si kontrolují „referery“.

Ostatní akce proxy-serveru

Akce block a filter se zajisté uplatní nejvíce, Privoxy však použitelných akcí nabízí mnohem více. Většinu z nich popisuje následující přehled, který jsem pro lepší přehlednost seskupil do několika celků. Akce označené hvězdičkou jsou dostupné až od verze Privoxy 3.0.5.

Nakládání s hlavičkami http

add-header{název: hodnota}
Přidává specifikovanou hlavičku, aniž by byla kontrolována její správnost.
crunch-client-header{řetězec}, crunch-server-header{řetězec} *
Smaže každou hlavičku zasílanou klientem či serverem, která obsahuje specifikovaný řetězec.
force-text-mode *
V případě chybějící hlavičky „Content-Type“ nastaví typ obsahu na čistý text.
hide-accept-language{jazyk} *

Nahradí hlavičku preferovaných jazyků klienta na specifikovaný jazyk; pokud se uvede klíčové slůvko block, bude hlavička smazána. Znám uživatele, kteří si v prohlížeči nastavují preferovaný jazyk na angličtinu jen proto, aby jim Google nevyhledával na českých stránkách – následující dva řádky v Privoxy to elegantně pořeší:

{+hide-accept-language{en,cs}}
.google.cz
hide-referer{block|forge|http://nejaka.adresa.cz}
Modifikuje hlavičku udávající, ze které stránky přichází uživatelův požadavek; hodnota block ji zcela smaže, forge nastaví jméno dotazované serveru, jiný řetězec se zašle tak, jak byl specifikován.
hide-user-agent{typ-prohlížeče}
Změní identitu prohlížeče na daný řetězec; lze se tak maskovat vůči vybraným serverům, typicky internetovému bankovnictví. Alternativně – při serverovém nasazení Privoxy – můžeme zvyšovat podíl svého oblíbeného prohlížeče v návštěvnostech stránek, ať si uživatelé našeho proxy-serveru používají, co chtějí ;-).

Nakládání s obrázky

handle-as-image
Definovaná URL budou chápána jako obrázek – využívá se ve spojitosti s blokováním obrázku, aby se místo webové stránky informující o blokování zobrazilo to, co definuje akce set-image-blocker, obvykle neutrální obrázek.
set-image-blocker{blank|pattern|URL}
Specifikuje, co se má zobrazit namísto obrázků blokovaných sekvencí příkazů {+block +handle-as-image}; hodnota blank zašle průhledný obrázek velikosti 1×1; pattern vyústí v šedobílou šachovnici; jiný řetězec specifikuje adresu, odkud se má načítat náhradní obrázek.
inspect-jpegs *
Prohledává hlavičky obrázků ve formátu JPEG pro chybné komentářové bloky a opravuje je.
deanimate-gifs{first|last}
Redukuje animované obrázky ve formátu GIF na první či poslední snímek.

Správa cookies

prevent-keeping-cookies, session-cookies-only
Zajistí smazání cookies v případě restartu webového prohlížeče, čímž se stanou cookies určené pro ukládání profilů uživatelů bezpředmětné, nebrání to však přihlašování se k běžným webovým službám.
crunch-outgoing-cookies, crunch-incoming-cookies
Zabraňuje webovému serveru ve čtení/zapisování cookies.
send-wafer{název=hodnota}
umožňuje přidat libovolnou cookie
send-vanilla-wafer
Zasílá webovým serverům, od nichž je některá cookie zadržena ve „vězení“ (tj. uložena v souboru specifikovaném volbou jarfile), speciální cookie se sdělením „nepřijímám cookies, které mi zasíláte, a rád bych, abyste mě přestali sledovat“.

Nejrůznější vychytávky

filter-client-headers, filter-server-headers *
Ve výchozím nastavení se filtry uplatňují pouze na obsah načítané stránky, tyto akce rozšiřují platnost filtrů také na hlavičky zasílané klientem či serverem.
prevent-compression
Zabraňuje webovému serveru zasílat data komprimovaná, neboť na taková nelze uplatnit některé filtry.
redirect{adresa} *

Přesvědčí prohlížeč, že požadovaný dokument se nachází na specifikované adrese a že by si jej měl načíst odtud. Pokud se nám například znelíbí logo jednoho vyhledávače, můžeme si pomoci následovně:

{+redirect{http://www.tucniak.sk/images/tucniak.gif}}
www.google.cz/intl/en_com/images/logo_plain.png

Vyhledávač Google s pozměněným logem a preferencí anglického jazyka

fast-redirects{check-decoded-url|simple-check}
Formátuje odkazy na stránce na poslední platnou adresu – hodí se pro servery, které veškeré odkazy konstruují přes přesměrovávací skripty; tj. například z adresy http://nejaka­.domena/skrip­t?cil=http://ci­lova.domena „vyzobne“ http://cilova­.domena.
handle-as-empty-document *
Uplatní se u blokovaných stránek, když se namísto webové stránky s informací o blokování zašle prázdný dokument. Hodí se pro blokování souborů, které nejsou ani webovou stránkou ani obrázkem, tj. například javascripty v externích souborech, styly apod.

V souvislosti s pozměňováním obsahu je dobré také znát jednu volbu ze základního konfiguračního souboru – buffer-limit. Definuje maximální velikost paměti (v kilobajtech) pro filtrování obsahu, výchozí velikost je 4 MB. Pokud načítaný dokument přesáhne tuto velikost, další filtrování se již na zbytku dokumentu neprovádí.

Příště

V závěrečném díle povídání o Privoxy bude představeno webové rozhraní a vysvětleno řízení přístupu na základě IP adres.

Seriál Privoxy (dílů: 3)

První díl: Privoxy - 1 (blokování přístupu), poslední díl: Privoxy - 3 (řízení přístupu).
Předchozí díl: Privoxy - 1 (blokování přístupu)
Následující díl: Privoxy - 3 (řízení přístupu)

Související články

Kompletní proxy server přes modem
HTun: Strč prst skrz proxy
Čo keď nechodí sieť?
Nastavení DNS
OSPF - dynamické routování

Odkazy a zdroje

privoxy.org

Další články z této rubriky

PowerDNS – přívětivý a jednoduchý DNS server
Bootování ze sítě: pxelinux a kořenový adresář na NFS
Těžký život Do Not Track
OpenAFS – servery
Architektura IPv6 – konfigurace adres a objevování sousedů (2)

Diskuse k tomuto článku

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.