Projekt „Nový hledač“
Můj nový princip hledání, teorie a praxe
Pro stanovení pořadí
nalezených linků při hledání nepoužívám jednotlivé WWW stránky, ale množiny
komponent Internetu (WWW stránky, dokumenty, obrázky, audia, videa,
scripty...). Tyto množiny jsou větší než jednotlivé WWW stránky, vzájemně se
vice liší, je tedy pro můj algoritmus snazší je hodnotit a stanovit jejich
pořadí. To je bod A, tedy teorie.
Bod B je praxe (realizace) téhle mé myšlenky, tedy jak ty množiny tvořit.
Internet (celý světový Web) je graf, v kterém jsou WWW stránky (a další
komponenty) uzly a WWW odkazy jsou hrany. A je to dokonale heterogenní síť, WWW
stránky jsou spojeny v podstatě náhodně, bez ladu a skladu a mimoto skoro
každá WWW stránka může být v principu spojena s každou jinou. A já
jsem přišel na to, jak z téhle houštiny (roští) ty potřebné množiny vysekat,
tedy jak odlišit relevantní hrany vod nerelevantních. Dělám to prostě trošku
jinak než stávající hledače. A jak to dělám? Sorry, tohle samozřejmě neprozradím,
to je to moje klíčové tajemství, na kterém je moje technologie založena.
Snad jen tohle:
To, co já hlavně z WWW stránek a dalších komponent Internetu potřebuji
vytáhnout, jsou informace, do které množiny (kterých množin) patří. A pro tohle
zařazení pak kombinuji tyto informace s hranami, tedy s WWW odkazy.
PS
Moje teorie je kombinace: selský rozum, pravděpodobnost, statistika, teorie
grafů, fuzzy množiny. Nejedná se o velkou vědu (neuronové sítě apod.) ani o
umělou inteligenci.
PS2
Podstatná poznámka k mé technologii.Tohle je hodně odborné, ale matematici a IT
experti by to měli pochopit.
Já jsem stran hledání vymyslel:
A) místo stránek používat množiny
B) jak tyto množiny konstruovat.
Ačko jsem publikoval jako první na světě, to už mi nikdo nevezme. Ale bez Bčka
by Ačko byla jen teorie, a to Bčko jsem vymyslel také.
Pokud se nad tím Ačkem nějaký expert přes matematiku, hledače, SEO apod..
zamyslí, tak během několika hodin či dnů přijde na to, co by ty moje množiny
mohly triviálně být.
Také já jsem na to přišel brzy (cca za týden) a zděsil jsem se, vždyť tohle by
mohl vymyslet kdekdo. Ale pak jsem se uklidnil, ono to triviální řešení
nefunguje (!). Je totiž založené na lineární algebře, která se pro Internet
nehodí. Plyne z něj, že uděláme pro danou stránku pořadí množiny P1,
do které tato stránky patří, a pořadí stránky v této množině P2.
A pak to lineárně vyhodnotíme: P = V1xP1 + V2xP2,
kde P je výsledné pořadí stránky při hledání na Internetu pro dané klíčové
slovo, V1 je konstantní váha pro množiny a V2 je
konstantní váha pro jednotlivé WWW stránky v množinách. Vtip je v tom, že nejde
stanovit konstanty V1 a V2 tak, aby byly univerzálně
použitelné (plyne z praxe). Naopak, V1 a V2 jsou různé
pro každou množinu stránek, resp. stránku, nejen staticky (bez ohledu na
hledané klíčové slovo), ale i dynamicky (při doindexaci v okamžiku dotazu
pro hledané klíčový slovo). Lineární algebra tedy pro řešení hledacích množin
nestačí, je potřeba použít daleko složitější a obtížnější model, založený na
teorii grafů. A tento model jsem vymyslel.