Jak na vlastní fulltextové vyhledávání?

Přihlášení | Registrace

napište » Zprávičky

dnes 21:55 | IT novinky

Microsoft představil nové označení počítačů Copilot+. Dle oznámení se jedná se o počítače poskytující funkce umělé inteligence. Vedle CPU a GPU mají také NPU (Neural Processing Unit). Uvnitř představených Copilot+ notebooků běží ARM čipy Qualcomm Snapdragon X.

Ladislav Hagara | Komentářů: 0

Zranitelnost CVE-2024-4367 v PDF.js (Firefox < 126)

dnes 17:55 | Zajímavý článek

Příspěvek na blogu Codean Labs rozebírá zranitelnost CVE-2024-4367 v PDF.js, tj. mj. prohlížeči PDF souborů ve Firefoxu. Při otevření útočníkem připraveného pdf souboru může být spuštěn libovolný kód v JavaScriptu. Vyřešeno ve Firefoxu 126.

Ladislav Hagara | Komentářů: 1

Lazygit 0.42.0

dnes 12:55 | Nová verze

Lazygit byl vydán ve verzi 0.42.0. Jedná se o TUI (Text User Interface) nadstavbu nad gitem.

Ladislav Hagara | Komentářů: 0

Open source herní konzole Picopad a Picopad Pro

dnes 12:22 | IT novinky

K open source herní konzole Picopad přibyla (𝕏) vylepšená verze Picopad Pro s větším displejem, lepšími tlačítky a větší baterii. Na YouTube lze zhlédnout přednášku Picopad - open source herní konzole z LinuxDays 2023.

Ladislav Hagara | Komentářů: 2

GitLab 17

17.5. 13:44 | Nová verze

Byla vydána (𝕏) nová major verze 17 softwarového nástroje s webovým rozhraním umožňujícího spolupráci na zdrojových kódech GitLab (Wikipedie). Představení nových vlastností i s náhledy a videi v oficiálním oznámení.

Ladislav Hagara | Komentářů: 0

Sovereign Tech Fund podpoří vývoj FFmpeg

17.5. 12:22 | Komunita

Sovereign Tech Fund, tj. program financování otevřeného softwaru německým ministerstvem hospodářství a ochrany klimatu, podpoří vývoj FFmpeg částkou 157 580 eur. V listopadu loňského roku podpořil GNOME částkou 1 milion eur.

Ladislav Hagara | Komentářů: 0

24. září 2024 budou zveřejněny zdrojové kódy přehrávače Winamp

17.5. 01:55 | Komunita

24. září 2024 budou zveřejněny zdrojové kódy přehrávače Winamp.

Ladislav Hagara | Komentářů: 12

Google Chrome 125

16.5. 23:33 | Nová verze

Google Chrome 125 byl prohlášen za stabilní. Nejnovější stabilní verze 125.0.6422.60 přináší řadu oprav a vylepšení (YouTube). Podrobný přehled v poznámkách k vydání. Opraveno bylo 9 bezpečnostních chyb. Vylepšeny byly také nástroje pro vývojáře.

Ladislav Hagara | Komentářů: 2

Neovim 0.10

16.5. 21:11 | Nová verze

Textový editor Neovim byl vydán ve verzi 0.10 (𝕏). Přehled novinek v příspěvku na blogu a v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0

Tails 6.3

16.5. 20:55 | Nová verze

Byla vydána nová verze 6.3 živé linuxové distribuce Tails (The Amnesic Incognito Live System), jež klade důraz na ochranu soukromí uživatelů a anonymitu. Přehled změn v příslušném seznamu. Tor Browser byl povýšen na verzi 13.0.15.

Ladislav Hagara | Komentářů: 0

Centrum | Napsat | Starší

navrhněte » Anketa

Podle hypotézy Mrtvý Internet mj. tvoří většinu online interakcí boti.

Jsem bot. (79%)

Jsem člověk. (5%)

Opravdu jsem člověk! (9%)

Jsem něco jiného. (8%)

Celkem 387 hlasů

Komentářů: 16, poslední 14.5. 11:05

Rozcestník

AbcLinuxu

HDmag.cz

Johny z Podoli - rocfdebian

Aktuální zápisy

? Archív

? Oblíbené stránky

? Současný desktop

? Navigace

Nej blogů na AbcLinuxu

Nejčtenější za poslední měsíc

Nejkomentovanější za poslední měsíc

AbcLinuxu:/ Blogy / rocfdebian / Tábor / Jak na vlastní fulltextové vyhledávání?

Štítky: databáze, diskuze, Google, hledání, HTML, Internet, nastavení, online, problém, reklama, vyhledávání, web, XML

Jak na vlastní fulltextové vyhledávání?

22.4.2012 22:00 | Přečteno: 3274× | Tábor

Aktuálně jsem postaven před problém, jak vytvořit relativně kvalitní fulltextové vyhledávání na vlastním webu. Pravdou je, že existuje řada služeb online, které fulltext na web umí přidat. Mezi možné kandidáty patří Google který mě osobně nevyhovuje, neboť prvním výsledkem ve vyhledávání je vždy placená reklama. Ačkoliv postoj google chápu, tak je to nejlepší způsob, jak poslat návštěvníka ke konkurenci.

Druhá, hodně doporučovaná možnost je Atomz který po cca 2 měsících zkoušení nefunguje tak, jak bych chtěl. Ačkoliv jsem v nastavení na atomz zvolil indexovat 1x týně, tak po měsíci jsem zistil, že stejně nic neindexuje. Jediná šance je se na atomz hlásit a vždy obnovovat index. Bohužel, toto je problém. Často zadám do Atomzu hledat něco, co na webu mám ale Atomz to nenajde. Bohužel takovéhle vyhledávání mi hodně nevyhovuje.

Mrkněte sami, jak to s Atomzem vlastně vypadá

Tento zápisek má v podstatě posloužit k rozvíření diskuze an téma vlastního fulltextu. Na webu mám inplementovaný http://www.taboreni.cz/sitemap.xml a z něj bych asi nejraději vycházel. Asi bych dle sitemaps celý web třeba 1x za 24 hodin grabnum wgetem a nějak "zpracoval" obsah a uložil do databáze. Pak bych měl tabulku v DB která by vždy obsahovala html titulek, H nadpisy, textový obsah a URL... a teď je jen otázka, jak postavit vyhledávací script.

Chtěl bych, aby hledání probíhalo fultextově, nezáleželo na diakritice (ATOMZ diakritiku neumí a tak vyhledává špatně), rád bych aby se upřednostnil titulek, pak nadpisy Hx a nakonec obsah webu.

Nemáte nějaké nápady a zkušenosti?

Hodnocení: 100 %

špatné • dobré

Tiskni Sdílej:

Komentáře

Nástroje: Začni sledovat (2) ? , Tisk

Vložit další komentář

22.4.2012 22:18 Fluttershy, yay! | skóre: 92 | blog:
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Odpovědět | Sbalit | Link | Blokovat | Admin

Jyxo?

🇵🇸 ✊ Touch grass ✊ 🇺🇦 ✊ no gods, no masters

22.4.2012 22:21 Člověk z Horní Dolní | blog: blbeczhornidolni
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Odpovědět | Sbalit | Link | Blokovat | Admin

Outsourcuj to do Indie.

23.4.2012 00:20 Adam
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Sa smejes ale ono pri CAPTCHA to funguje

22.4.2012 22:29 retroslava | skóre: 9 | blog: TryCatch | Žižkoff
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Odpovědět | Sbalit | Link | Blokovat | Admin

Třeba http://postgres.cz/wiki/Instalace_PostgreSQL#Instalace_Fulltextu ?

Pozor! Jsem naprostý idiot. Co jsem napsal včera dnes už dávno neplatí. Zavazuji se, že budu diskutovat nezávazně.

22.4.2012 22:36 Johny z Podoli | skóre: 26 | blog: rocfdebian
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

to už jsem viděl, bohužel mám firebird (interbase) ;-)

Můj web o táborech: Letní dětské tábory, Hudební tábor , Můj nový blog na Nul.cz

22.4.2012 23:03 bazil | skóre: 33 | blog: sluje | Miroslav
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Odpovědět | Sbalit | Link | Blokovat | Admin

No nevím, jak ve Firebirdu, nicméně v MySQL se to řeší buď: přidáním fulltextu nad sloupcem, což se může negativně projevit na výkonu dotazů nad danou tabulkou nebo (podle mě lepší řešení): se vytvoří v DB jedna tabulka navíc, každý text v DB má na ni vazbu a při každé úpravě textu se musí upravit i tabulka. Potom se vybuduje fulltext nad touto tabulkou. Prioritizace nadpisů by se dala zařídit vlastním sloupcem pro nadpisy v tabulce pro vyhledávání.

Nevýhodou tohoto řešení je vyšší režije při aktualizaci textu v DB (ale to se děje jen při vkládání nového článku, nebo úpravě starého), naopak výhodou je, že se zachová rychlost selectů nad stávajícími tabulkami s texty (při normálním prohlížení webu nejčastější dotaz) a zároveň se získá fulltextový klíč pro vyhledávací skript, který je tedy poté trochu pomalejší, ale zase vyhledávací select se nebude pouštět tak často.

22.4.2012 23:05 marbu | skóre: 31 | blog: hromada | Brno
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Odpovědět | Sbalit | Link | Blokovat | Admin

Kdybych si s tím chtěl hrát, zkusil bych provozovat vlastní instanci lucene, sphinx nebo nějakého jiného open source search engine.

There is no point in being so cool in a cold world.

23.4.2012 12:52 limit_false | skóre: 23 | blog: limit_false
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Taky bych doporučil Sphinx. Ze začátku to bude trocha pruda, ale fungovalo to celkem rozumně, později se ladily jenom váhy a možná občas příliš pomalé dotazy.

When people want prime order group, give them prime order group.

22.4.2012 23:35 Ondra
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Odpovědět | Sbalit | Link | Blokovat | Admin

Mathias Hasselmann - Full Text Search Engines, Part I

Michal Hruby - FTS engines - memory usage

22.4.2012 23:42 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Odpovědět | Sbalit | Link | Blokovat | Admin

Kdysi na Rootovi a tuším, že i tady, vyšlo pár článků. Je to ale už hodně dávno... cca kolem roku 2005. Leoš tu tou dobou také řešil něco kolem Lucene.

Hello world ! Segmentation fault (core dumped)

22.4.2012 23:49 dad
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Odpovědět | Sbalit | Link | Blokovat | Admin

my pouzivame mnogosearch

23.4.2012 00:25 mess | skóre: 43 | blog: bordel | Háj ve Slezsku - Smolkov
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Odpovědět | Sbalit | Link | Blokovat | Admin

SELECT * FROM articles WHERE title LIKE %neco% AND content LIKE %neco%;

Cez párne mesiace zošíváš vaginy, cez neparne montuješ hajzle.

23.4.2012 00:41 Johny z Podoli | skóre: 26 | blog: rocfdebian
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

nojo, kdyby těch tabulek nebyly desítky, sloupců stovky a hromada dat není z databáze ale je generovaná onfly scrpty a podobně ;-)

bohužel...

Můj web o táborech: Letní dětské tábory, Hudební tábor , Můj nový blog na Nul.cz

23.4.2012 01:32 Migi | skóre: 59 | blog: Mig_Alley
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Odpovědět | Sbalit | Link | Blokovat | Admin

Off Topic:

Nevim už kde, ale nedavno jsem četl jakysi članek doporučující rodičům webové stránky s katalogy táborů. Takové ty články "kam poslat děti na prazdniny at maji rodiče pokoj".

Ten tvůj portál byl na prvním místě a dlužno říci že ze všech zmíněných webů působil naprosto nejšpičkověji.

Takže gratuluju k úspěchu a drceni konkurence :-)

23.4.2012 07:31 JK
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Odpovědět | Sbalit | Link | Blokovat | Admin

Nepomuze starsi clanek? Cestinu jsem resil prevodem diakritiky na znaky bez diakritiky a s vyhledavanim jsem spokojen.

23.4.2012 08:28 Aleš Janda | skóre: 23 | blog: kýblův blog | Praha
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Odpovědět | Sbalit | Link | Blokovat | Admin

http://search.seznam.cz/vlastni - ale vrchní reklama je tam taky (může se však strefovat do jiných slov než Google).

Anebo jsem kdysi zkoušel rozběhnout Sphinx, přičemž každé slovo se lemmatizovalo (tím se do značné míry vyřešilo skloňování a diakritika).

Zahrajte si trojšachy přes internet :-)

23.4.2012 08:39 Jan Grmela | skóre: 45 | blog: Kilo šťávy z lachtana | Brno
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Odpovědět | Sbalit | Link | Blokovat | Admin

Možná Amazon CloudSearch?

23.4.2012 08:57 pek | skóre: 20
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Odpovědět | Sbalit | Link | Blokovat | Admin

Používám sphider, ale to je spíš pro menší weby.

Slackware

23.4.2012 09:06 Sajfi | skóre: 8
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Odpovědět | Sbalit | Link | Blokovat | Admin

Ja si teď po večerech hraju s Sherlockem z nasi Ceske kotliny a je to moc hezká hračka :-)

23.4.2012 11:02 xkucf03 | skóre: 49 | blog: xkucf03
Rozbalit Rozbalit vše Diakritika

Odpovědět | Sbalit | Link | Blokovat | Admin

K té diakritice: skutečně je to nutné? Předpokládám, že v databázi máš obsah s diakritikou, takže jde o to, jak budou hledat uživatelé. Je lepší 1) vyhledávat i nesmysly a zatěžovat irelevantními výsledky uživatele, kteří si „dali tu práci“ se zadáváním hledaného textu s diakritikou nebo 2) dávat špatné výsledky uživatelům, kteří jsou líní/neschopní zadat hledaný text včetně háčků a čárek?

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

23.4.2012 12:17 Käyttäjä 11133 | skóre: 58 | blog: Ajattelee menneisyyttä
Rozbalit Rozbalit vše Re: Diakritika

3) podle toho jestli hledaný řetězec obsahuje nebo neobsahuje diakritiku vyhledávat v indexu s diakritikou, nebo ne (často potřebuju něco najít z blackberry, hledání pouze s diakritikou mě irituje :-)

)

23.4.2012 12:18 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: Diakritika

Obdobný problém je například se skloňováním a s překlepy. Jako rozumné se mi jeví přiřadit přesné shodě lepší skóre a částečné shodě (překlep, chybějící diakritika) nebo jinému tvaru stejného slova přiřadit skóre o něco horší. Takže irelevantní výsledky budou až za relevantními a líný uživatel dostane, co chtěl.

V praxi se mi osvědčilo (z pohledu uživatele) i vyhledávání podle začátků slov. Krásná ukázka toho je na wowhead.com.

Hello world ! Segmentation fault (core dumped)

23.4.2012 15:37 Roman Schulz | skóre: 8 | Brno
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Odpovědět | Sbalit | Link | Blokovat | Admin

Taky bych doporučil Sphinx, je snadno konfigurovatelný, indexace může probíhat pomocí zadaného SQL dotazu. Používáme ho i na velkých projektech k naprosté spokojenosti

23.4.2012 17:33 joka x3m | skóre: 1
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Odpovědět | Sbalit | Link | Blokovat | Admin

Stiahnut obsah webu rekurzivne cez perl, natlacit texty do db, 2 stlpce, jeden s diakritikou, druhy bez, zapnut index pre fulltext na stlpci bez diakritiky, pri hladani ocistit diakritiku a zvazit jednoduchy fulltext select alebo rozsireny. Robil som specialne parsovanie webu, a vsetko mi funguje presne tak ako ja chcem :) ak chces napis na kalus bodka jozef zavinac gmail bodka com a mozem ti dat blizsie info o tom, nie je to az tak komplikovane ak tvoja db podporuje fulltext :)

23.4.2012 19:27 Kvakor
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

A pokud nejsou data čistý text (což většinou nejsou, buď je to (X)HTML nebo nějaký značkovací jazyk redakčího systému), tak se musí text prvně převést. Když je zdroj nějak strukturovaný, je ještě možné vytahat "zvýrazněné" části bokem do separátního sloupce, když jsem něco takového kdysi dělal, tak tam šlo všechno z <strong>, <em>, vnitřku nadpisů a toho, co se vkládalo do klíčových slov v hlavičce.

Zákazník chtěl ještě podporu skoňování a časování, ale protože se mi nepovedlo najít volně dostupná data, tak se to nakonec neřešilo. Stejně dodnes nevím, jak to elegantně řešit, návrh byl pro každé slovo, které se najde v "sloňovací/časovací" tabulce, provést dotazy na všechny další slova se stejným identifikátorem. V praxi to mohlo znamenat zhruba zdeseti-zdvacetinásobení dotazů, protože se počítalo i zahrnutí nespisovných tvarů (typu "myšmi/myšma/myšima/myšema/myšmami/myšmama"). Docela by mně zajímalo, jak tohle řeší hoši v Seznamu :-)

23.4.2012 19:49 xkucf03 | skóre: 49 | blog: xkucf03
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Stejně dodnes nevím, jak to elegantně řešit, návrh byl pro každé slovo, které se najde v "sloňovací/časovací" tabulce, provést dotazy na všechny další slova se stejným identifikátorem. V praxi to mohlo znamenat zhruba zdeseti-zdvacetinásobení dotazů

Proto se to řeší tak, že se do indexu ukládají pouze slova v základním tvaru a dotazy se převádějí opět na základní tvar (pokud např. nejsou v uvozovkách).

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

23.4.2012 21:10 Kvakor
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

To by šlo, sice by generování zabralo šíleně času, ale vyhledávání by to moc nezpomalilo. Ale tenkrát jsem to už neřešil, protože bych nakonec mohl skončit u implementovani plnohodnotného vyhledavaciho enginu jen kvůli pár stránkám :-)

24.4.2012 12:12 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Jak na vlastní fulltextové vyhledávání?

Obvykle úplně stačí jenom odřezávat přípony, na to není ani potřeba slovník, seznam českých přípon se dá najít někde v ispellu.

Ještě na tom nejsem tak špatně, abych četl Viewegha.

Založit nové vlákno • Nahoru

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje