Yahoo nutzt ebenfalls Hadoop

Yahoo und Semager haben etwas gemeinsam. Beide nutzen Hadoop, um sich einen Datenbestand aufzubauen. Hadoop ist ein Open Source Framework aus der Apache Software Foundation das mittels dem sogenannten MapReduce Algorithmus eine große Aufgabe in viele kleine zerteilt und diese dann an verschiedene Rechner in einem Rechner-Verbund verteilt.

Hadoop MapReduce

Das Verteilen der Jobs und anschließende Zusammenfassen geschieht auf einer virtuellen Festplatte das via einem verteilten Dateisystem (DFS – Distributed FileSystem) über alle beteiligten Rechner erzeugt wird.

Yahoos Angaben zufolgen ist diese Implementation teil der Open Source Strategie des Unternehmens. Hier eine kleine Übersicht über die zu verwaltende Datenmenge von Yahoos Hadoop implementation:

Anzahl der Links innerhalb des gesamten Index: über eine Billionen (1.000.000.000.000 +)
Größe des Index: 300 Terabyte (komprimiert !)
CPU Kerne die an der Berechnung beteiligt sind: 10.000
Festplattenkapazität Gesamt (Cache, etc.): 5 Petabyte

Wer mag kann sich anbei noch kleines Video dazu ansehen (auf Englisch):


Weitere mit Hadoop verwandte Themen und für Suchmaschinenbetreiber sehr interessante Projekte:

  • Lucene – Framework zur Erstellung von Indexes
  • HBase – Datenbanksystem für riesige Datenmengen verteilt auf einem Rechner-Verbund
  • Nutch – Webcrawler welcher Lucene Daten zu Verfügung stellt und Link-Value berechnet
  • Mahout – Neues Projekt um MapReduce Algorithmen in Multicore CPUs zu parallelisieren

  • Share and Enjoy:
    • Print
    • Digg
    • StumbleUpon
    • del.icio.us
    • Facebook
    • Yahoo! Buzz
    • Twitter
    • Google Bookmarks

    Diese Artikel könnten Sie auch interessieren:
    Name (notwendig)
    Email (notwendig, wird aber nicht veröffentlicht)
    Website