Projekt
„Nový hledač“
Metodologie relevance, tj. určení dobrých a špatných linků
Motto: Neumím a priori určit, že link je dobrý. Ale umím určit, že link je
špatný. A dobré linky jsou potom ty linky, které nejsou špatné.
Obecně:
Dobré (správné) linky jsou linky na relevantní WWW stránky, tedy na
kvantitativně (rozumně) velké a kvalitativně dobré stránky, které odpovídají
hledanému slovu.
Konkrétně:
Špatné (chybné, nesprávné) linky jsou linky na: obecnější stránky,
neodpovídající stránky, malé nebo nekvalitní stránky, méně obecné stránky nebo
duplikované stránky.
V toleranci jsou linky, které:
- vedou na obecnější stránku, kde je hledané slovo jedním z několika
základních slov
- vedou na méně obecnou stránku, ale velkou a kvalitní (domovskou stránku
serveru na dané téma)
Hlavním důvodem zavedení tolerance je, že linky jsou vyhodnocovány způsobem
buďto-nebo (dobrý-špatný).
Příklad:
Pokud hledáme slovo „lodě“, je obecnější stránka o dopravních prostředcích,
neodpovídající stránka o letadlech, malá nebo nekvalitní stránka obsahuje dvě
věty a dva obrázky lodí (a ještě k tomu špatné), méně obecná stránka je na
téma „historie konstrukce lodí v Argentině“, duplikované stránky jsou
hlavní stránka a podstránka téhož Webu nebo dvoje stránky o témž objektu.
V toleranci je link, který vede:
- na server o dopravních prostředcích, který obsahuje části auta, letadla a
lodě, tedy kde jsou lodě majoritní nebo výraznou částí
- na velký server o obchodních lodích.
Pokud má hledané slovo více významů, rozhoduje mínění většiny lidí (ten význam,
pod kterým slovo chápe většina lidí).
Postup:
Z nalezených linků určím špatné linky. Zbylé linky jsou dobré.
Tato metodika je objektivní. Posuzuje link z hlediska „kolik uživatelů jej
považuje za relevantní“, tedy k poměrně přesnému vyhodnocení kvality
pořadí linků.
Nejčastější chybou hledačů je umísťování méně obecných stránek na první
nalezenou stránku linků (před relevantní obecnější stránky).
Zde se zabývám kvalitou (chybami) hledačů, nikoli spamem (vnějšími okolnostmi).