Yahoo nutzt ebenfalls Hadoop

Yahoo und Semager haben etwas gemeinsam. Beide nutzen Hadoop, um sich einen Datenbestand aufzubauen. Hadoop ist ein Open Source Framework aus der Apache Software Foundation das mittels dem sogenannten MapReduce Algorithmus eine große Aufgabe in viele kleine zerteilt und diese dann an verschiedene Rechner in einem Rechner-Verbund verteilt.

Hadoop MapReduce

Das Verteilen der Jobs und anschließende Zusammenfassen geschieht auf einer virtuellen Festplatte das via einem verteilten Dateisystem (DFS – Distributed FileSystem) über alle beteiligten Rechner erzeugt wird.

Yahoos Angaben zufolgen ist diese Implementation teil der Open Source Strategie des Unternehmens. Hier eine kleine Übersicht über die zu verwaltende Datenmenge von Yahoos Hadoop implementation:

Anzahl der Links innerhalb des gesamten Index: über eine Billionen (1.000.000.000.000 +)
Größe des Index: 300 Terabyte (komprimiert !)
CPU Kerne die an der Berechnung beteiligt sind: 10.000
Festplattenkapazität Gesamt (Cache, etc.): 5 Petabyte

Wer mag kann sich anbei noch kleines Video dazu ansehen (auf Englisch):


Weitere mit Hadoop verwandte Themen und für Suchmaschinenbetreiber sehr interessante Projekte:

  • Lucene – Framework zur Erstellung von Indexes
  • HBase – Datenbanksystem für riesige Datenmengen verteilt auf einem Rechner-Verbund
  • Nutch – Webcrawler welcher Lucene Daten zu Verfügung stellt und Link-Value berechnet
  • Mahout – Neues Projekt um MapReduce Algorithmen in Multicore CPUs zu parallelisieren


  • Update: Semantik-Bot hört auf robots.txt

    Es gab ein paar Updates und Verbesserungen in den letzten Tagen und Wochen bei den Crawlprozessen. Sie sind dadurch zwar nicht schneller geworden, aber sicherer und stabiler. Eines der wichtigsten neuen Features ist die (längst überfällige) Unterstützung der robots.txt des semantischen Crawlers. Neben diesen und weiteren Bugfixes haben wir uns deshalb erlaub, dem Crawler eine neue Versionsnummer zu spendieren. Ab sofort ist der Semager-Bot mit “Semager/1.2″ in euren Logs zu finden.

    Überprüfen könnt Ihr dies z.B. ganz einfach indem Ihr auf die Seite Webseiten-Analyse geht und dort eure URL überprüfen lasst. Der Crawler kommt sofort bei euch vorbei und meldet euch unter anderem URL Fehler und ob diese durch die robtos.txt gesperrt ist, falls Sie gesperrt ist.

    Vielen herzlichen Dank an alle die uns geholfen haben Schwachstellen und Fehler aufzufinden, wie z.B.:

  • Christian Rozsenich, www.egotour.eu
  • Johann, www.johannburkard.de
  • Kommentare:  1 Kommentar

    Suchmaschinenmarkt fühlbar verunsichert

    Vielerorts wurde schon von der geplanten (erhofften/bedauertern/..?) übernahme von Yahoo durch Microsoft berichtet (zu empfehlen hierzu u.a. Netzwelt, ..)

    Reaktionen dazu gab es ebenfalls bereits, zunächst von Google, danach von Microsoft als Gegenreaktion auf vorherige. Einzig Yahoo hält sich bisher vornehmlich bedeckt.

    Google unterstellt dabei Microsoft, durch den Kauf von Yahoo ähnliche Monopolstrukturen im Web aufbauen zu wollen, wie unter den Betriebssystemen. Weitere Bedenken seien in den Bereichen E-Mail und Instant Messaging. Microsoft konterte anschließend mit Googles Quasimonopol in den Bereichen Online-Werbung und Suchanfragen.

    Aber gehen wir mal ein Schritt zurück, beobachten und fassen zusammen was eigentlich wirklich los ist…

  • Yahoo kriselt, es gibt Verluste und man will Entlassungen vornehmen (Golem). In Wirklichkeit kann man von Verlusten natürlich nicht reden, das Ergebniss ist nur nicht so positiv wie noch ein Jahr zuvor. Aber gut, als logische Konsequenz müssen Kosten eingesparrt werden.
  • Microsoft, die Nummer 3 auf dem Suchmaschinenmarkt wittert endlich (s)eine Chance und gibt ein großzügiges Kaufangebot ab (62% über Wert).
  • Das Netz und die Blogosphäre überschlagen sich mit Meldungen über Sinn und Unsinn einer solchen Vereinigung.
  • Angeblich gibt es noch weitere Firmen, die Interesse an einer Übernahme hätten (Rupert Murdoch). Ob da etwas wahres dran ist, kann man nicht beurteilen. Bisher liegt (zumindest öffentlich) nur das Angebot von Microsoft vor. Alle weiteren Angebote sind möglicherweise nur Gerüchte schlauer Analysten, um den ein oder anderen Börsenkurs in die Höhe zu treiben – vielleicht aber auch nicht (siehe auch Infoweek, Vallywag).
  • Nun würde Google Yahoo seine Hilfe “in jeder Hinsicht” anbieten (siehe auch Wall Street Journal, derStandard), natürlich nur wieder laut “informierter Kreise”.
  • Trotzdem würde es ins Bild der ersten Pressemitteilung von Google passen, die damit eine Menge Hebel in Bewegung setzen, um eine Übernahme von Yahoo durch Microsoft zu verhindern.

  • Daraus schlussfolgert man folgende logischen Konsequenzen
    a) Suchmaschinen haben auch schon mal bessere Zeiten erlebt (sogar Urgesteine wie Yahoo)
    b) Google hat Angst (nein Microsoft, ich will nicht das Du Yahoo kaufst)

    Addiert man diese beiden ergibt sich
    c) Der Suchmaschinenmarkt hat seinen Zenith überschritten (die großen Jungs wissen das und müssen was unternehmen)

    Läßt sich diese Schlussfolgerung durch andere Ergebnisse erhärten?
    I) Denk mal nach, wieviele primäre Informationsquellen hast Du jetzt und wieviele noch vor ca. 1.5 bis 2 Jahren?
    II) Ist es doch durchaus vorstellbar, das mehr Internetnutzer sich mit Freunden in Social Communities beschäftigen, als auf der Suche nach noch mehr “Datenmüll”.
    III) Hat sich das Nutzerverhalten nicht auch verändert? Wissen die (mittlerweile) erfahren Nutzer nicht schon, wo sie bestimmte Informationen finden können, anstatt einfach mal blind danach zu suchen und eine Suchmaschine zu befragen?

    Angenommen das stimmt alles, was passiert dann in der Zukunft?
    Erstmal gar nicht so viel. Es wird ein paar Umverteilung von Einnahmen geben, etwas weniger für Suchmaschinenbetreiber und etwas mehr für Communities und spezialisierten Informationsanbietern. Damit einhergehend wird die Glaubwürdigkeit einer Internetseite, beurteilt in Foren, Blogs und Vergleichsportalen eine zunehmende Rolle spielen. Also eigentlich alles was wir jetzt auch schon beobachten können.

    Später dann wird es versuche seitens der Suchmaschinenbetrieber geben “Eierlegende Wollmilchsäue” zu etablieren, um die Nutzer wieder zurück holen. Wie die Erfahrung zeigte, werden diese Projekte meist jedoch nur mäßigen Erfolg haben. Stattdessen werden die LoveMarks solange sie keine bösen Schnitzer machen oder von noch “cooleren” abgelöst werden, sich langfristig am Markt etablieren können. Suchmaschinen dagegen haben es als gefühlter austauschbarer Dienstleister zunehmender schwerer mit Trends mithalten zu können. Natürlich sind sie immer noch da, aber sie werden mehr und mehr zur zweiten Wahl.

    Konklusio
    Entweder muss es mal wieder einen ordentlichen Vorschub geben in der Suchtechnologie (z.B. durch Semantik) oder Suchmaschinen werden einfach uninteressanter, fallen im Nutzerverhalten ab und versuchen mit allen mitteln sich zu behaupten (ist das nicht schon so?).

    Kommentare:  3 Kommentare

    Kleine Updates

    In den letzten Tagen fanden wieder einige kleinere Updates statt. Davon betroffen sind:

  • Die Produktwerbung am Ende eines Suchergebnisses ist jetzt verfeinert worden. Zudem ist es möglich diese mit einem Klick auf “Anzeige” auszublenden. In Zukunft wird es hier noch ein paar Möglichkeiten mehr geben. Mehr wird aber noch nicht verraten.
  • Kleinere Designkorrekturen hier und da.
  • Der Cookie den Ihr bei Semager nach Anmeldung erhaltet ist nun 4 Tage gültig (nicht mehr nur 2) und ist auch nach einem Neustart des Browsers immer noch gültig.
  • Das wars auch schon für heute. Viel Spaß und ein schönes Wochenende.