Yahoo nutzt ebenfalls Hadoop
Yahoo und Semager haben etwas gemeinsam. Beide nutzen Hadoop, um sich einen Datenbestand aufzubauen. Hadoop ist ein Open Source Framework aus der Apache Software Foundation das mittels dem sogenannten MapReduce Algorithmus eine große Aufgabe in viele kleine zerteilt und diese dann an verschiedene Rechner in einem Rechner-Verbund verteilt.

Das Verteilen der Jobs und anschließende Zusammenfassen geschieht auf einer virtuellen Festplatte das via einem verteilten Dateisystem (DFS – Distributed FileSystem) über alle beteiligten Rechner erzeugt wird.
Yahoos Angaben zufolgen ist diese Implementation teil der Open Source Strategie des Unternehmens. Hier eine kleine Übersicht über die zu verwaltende Datenmenge von Yahoos Hadoop implementation:
Anzahl der Links innerhalb des gesamten Index: über eine Billionen (1.000.000.000.000 +)
Größe des Index: 300 Terabyte (komprimiert !)
CPU Kerne die an der Berechnung beteiligt sind: 10.000
Festplattenkapazität Gesamt (Cache, etc.): 5 Petabyte
Wer mag kann sich anbei noch kleines Video dazu ansehen (auf Englisch):
Weitere mit Hadoop verwandte Themen und für Suchmaschinenbetreiber sehr interessante Projekte:
| Diese Artikel könnten Sie auch interessieren: |













