Projekt
„Nový hledač“
Struktura dat
Takhle bude vypadat struktura pro stahování
(zdrojové kódy WWW stránek, WWW stránky v češtině plus v angličtině, počty jsou cca)
100 adresářů
v každém z těchto adresářů 100 podadresářů
v každém z těchto adresářů 10000 podadresářů
v každém z těchto adresářů 20 souborů
každý soubor 10 kilobyte
Celkem stahování
100 milionů (mega) adresářů
2 miliardy (giga) souborů
Objem uložených dat po stažení: 2 giga souborů x 10 kilobyte dat = 20 terrabyte.
Komprese
Při kompresi (gzip) je možno předpokládat, že se objem stažených stránek sníží
cca 3x, tedy na cca 7 terrabyte.
Databáze
Pro zpracování bude třeba databáze o objemu cca 10 terrabyte
Celkem
Celkem (stahování plus databáze) 7+10 = 17 terrabyte.