A HITS (Hyperlink-Induced Topic Search, hiperlinkeken alapuló téma szerinti keresés) egy informatikai algoritmus, amely egy kapcsolatrendszerből (például weboldalak közötti linkekből) nyer ki információt az egyes csomópontok fontosságáról. Az algoritmust 1998-ban publikálta Jon Kleinberg, a Cornell University számítástudomány-professzora.

Alapötlete a releváns oldalak felbontása két kategóriára: a keresett téma szempontjából központi (hub), illetve mértékadó (authoritive) oldalakra. (Emiatt néha hub/authority algoritmusként is szokták emlegetni.) Mértékadó oldal például egy színvonalas szakmai portál vagy egy tekintélyes kutató saját publikációit tartalmazó személyes honlapja; központi oldal egy hírportál, linkgyűjtemény vagy katalógus. A csoportosítás egy rekurzív definíció alapján történik: a központi oldalak azok, amik sok mértékadó oldalra mutatnak, a mértékadó oldalak pedig azok, amikre sok központi oldal mutat.

A két csoport meghatározása iterációval történik: minden oldalhoz rendelünk két számot, amik az oldal központiságát, illetve mértékadóságát jelzik. Kezdetben a számokat tetszés szerint választjuk (például minden oldalnak ugyanazt), majd minden iterációban egy oldal mértékadósága a rá mutató oldalak központiságának összege, és a központisága az általa mutatott oldalak mértékadóságának összege lesz.

HITS és PageRank szerkesztés

A HITS első ránézésre nagyon hasonlónak tűnik a PageRank algoritmushoz, de van egy fontos különbség közöttük: a PageRank egy témafüggetlen, csak a linkstruktúra által meghatározott érték, a HITS viszont mindig egy konkrét témára nézve keres (tipikusan egy másik, vektortér-modell alapú kereső által visszaadott találatok között). Ez azt jelenti, hogy egyrészt a HITS eredménye sokkal pontosabb és relevánsabb lesz, másrészt viszont minden egyes kérdésnél újra ki kell számolni, tehát kevésbé hatékony. Ezzel magyarázható, hogy – bár a két algoritmust egyszerre publikálták – a PageRankra épült kereső (a Google) piacvezető lett, a HITS viszont nem terjedt el.

HITS és közösségi szűrés szerkesztés

A HITS által visszadott eredmények nagyon jól használhatóak közösségi szűrésre. Ha két oldal ugyanazokra vagy majdnem ugyanazokra az oldalakra mutat, akkor a két oldal valószínűleg azonos témájú, illetve azonos közösséghez tartozik. Ugyanez igaz arra a két oldalra, amire ugyanazok az oldalak mutatnak. Ez alapján az oldalak jól csoportosíthatók: például az „abortusz” szóra keresve két élesen elkülönülő csoportba rendeződnek a találatok, az egyikben a pro-life, a másikban a pro-choice oldalak lesznek.

Lásd még szerkesztés

Irodalom szerkesztés

  • Jon M. Kleinberg: Authoritative Sources in a Hyperlinked Environment, Journal of the ACM 46, 1999. ([1])

Források szerkesztés