Yahoo nutzt ebenfalls Hadoop
Yahoo und Semager haben etwas gemeinsam. Beide nutzen Hadoop, um sich einen Datenbestand aufzubauen. Hadoop ist ein Open Source Framework aus der Apache Software Foundation das mittels dem sogenannten MapReduce Algorithmus eine große Aufgabe in viele kleine zerteilt und diese dann an verschiedene Rechner in einem Rechner-Verbund verteilt.

Das Verteilen der Jobs und anschließende Zusammenfassen geschieht auf einer virtuellen Festplatte das via einem verteilten Dateisystem (DFS – Distributed FileSystem) über alle beteiligten Rechner erzeugt wird.
Yahoos Angaben zufolgen ist diese Implementation teil der Open Source Strategie des Unternehmens. Hier eine kleine Übersicht über die zu verwaltende Datenmenge von Yahoos Hadoop implementation:
Anzahl der Links innerhalb des gesamten Index: über eine Billionen (1.000.000.000.000 +)
Größe des Index: 300 Terabyte (komprimiert !)
CPU Kerne die an der Berechnung beteiligt sind: 10.000
Festplattenkapazität Gesamt (Cache, etc.): 5 Petabyte
Wer mag kann sich anbei noch kleines Video dazu ansehen (auf Englisch):
Weitere mit Hadoop verwandte Themen und für Suchmaschinenbetreiber sehr interessante Projekte:
Update: Semantik-Bot hört auf robots.txt
Es gab ein paar Updates und Verbesserungen in den letzten Tagen und Wochen bei den Crawlprozessen. Sie sind dadurch zwar nicht schneller geworden, aber sicherer und stabiler. Eines der wichtigsten neuen Features ist die (längst überfällige) Unterstützung der robots.txt des semantischen Crawlers. Neben diesen und weiteren Bugfixes haben wir uns deshalb erlaub, dem Crawler eine neue Versionsnummer zu spendieren. Ab sofort ist der Semager-Bot mit “Semager/1.2″ in euren Logs zu finden.
Überprüfen könnt Ihr dies z.B. ganz einfach indem Ihr auf die Seite Webseiten-Analyse geht und dort eure URL überprüfen lasst. Der Crawler kommt sofort bei euch vorbei und meldet euch unter anderem URL Fehler und ob diese durch die robtos.txt gesperrt ist, falls Sie gesperrt ist.
Vielen herzlichen Dank an alle die uns geholfen haben Schwachstellen und Fehler aufzufinden, wie z.B.:
Suchmaschinenmarkt fühlbar verunsichert
Vielerorts wurde schon von der geplanten (erhofften/bedauertern/..?) übernahme von Yahoo durch Microsoft berichtet (zu empfehlen hierzu u.a. Netzwelt, ..)
Reaktionen dazu gab es ebenfalls bereits, zunächst von Google, danach von Microsoft als Gegenreaktion auf vorherige. Einzig Yahoo hält sich bisher vornehmlich bedeckt.
Google unterstellt dabei Microsoft, durch den Kauf von Yahoo ähnliche Monopolstrukturen im Web aufbauen zu wollen, wie unter den Betriebssystemen. Weitere Bedenken seien in den Bereichen E-Mail und Instant Messaging. Microsoft konterte anschließend mit Googles Quasimonopol in den Bereichen Online-Werbung und Suchanfragen.
Aber gehen wir mal ein Schritt zurück, beobachten und fassen zusammen was eigentlich wirklich los ist…
Daraus schlussfolgert man folgende logischen Konsequenzen
a) Suchmaschinen haben auch schon mal bessere Zeiten erlebt (sogar Urgesteine wie Yahoo)
b) Google hat Angst (nein Microsoft, ich will nicht das Du Yahoo kaufst)
Addiert man diese beiden ergibt sich
c) Der Suchmaschinenmarkt hat seinen Zenith überschritten (die großen Jungs wissen das und müssen was unternehmen)
Läßt sich diese Schlussfolgerung durch andere Ergebnisse erhärten?
I) Denk mal nach, wieviele primäre Informationsquellen hast Du jetzt und wieviele noch vor ca. 1.5 bis 2 Jahren?
II) Ist es doch durchaus vorstellbar, das mehr Internetnutzer sich mit Freunden in Social Communities beschäftigen, als auf der Suche nach noch mehr “Datenmüll”.
III) Hat sich das Nutzerverhalten nicht auch verändert? Wissen die (mittlerweile) erfahren Nutzer nicht schon, wo sie bestimmte Informationen finden können, anstatt einfach mal blind danach zu suchen und eine Suchmaschine zu befragen?
Angenommen das stimmt alles, was passiert dann in der Zukunft?
Erstmal gar nicht so viel. Es wird ein paar Umverteilung von Einnahmen geben, etwas weniger für Suchmaschinenbetreiber und etwas mehr für Communities und spezialisierten Informationsanbietern. Damit einhergehend wird die Glaubwürdigkeit einer Internetseite, beurteilt in Foren, Blogs und Vergleichsportalen eine zunehmende Rolle spielen. Also eigentlich alles was wir jetzt auch schon beobachten können.
Später dann wird es versuche seitens der Suchmaschinenbetrieber geben “Eierlegende Wollmilchsäue” zu etablieren, um die Nutzer wieder zurück holen. Wie die Erfahrung zeigte, werden diese Projekte meist jedoch nur mäßigen Erfolg haben. Stattdessen werden die LoveMarks solange sie keine bösen Schnitzer machen oder von noch “cooleren” abgelöst werden, sich langfristig am Markt etablieren können. Suchmaschinen dagegen haben es als gefühlter austauschbarer Dienstleister zunehmender schwerer mit Trends mithalten zu können. Natürlich sind sie immer noch da, aber sie werden mehr und mehr zur zweiten Wahl.
Konklusio
Entweder muss es mal wieder einen ordentlichen Vorschub geben in der Suchtechnologie (z.B. durch Semantik) oder Suchmaschinen werden einfach uninteressanter, fallen im Nutzerverhalten ab und versuchen mit allen mitteln sich zu behaupten (ist das nicht schon so?).
Kleine Updates
In den letzten Tagen fanden wieder einige kleinere Updates statt. Davon betroffen sind:
Das wars auch schon für heute. Viel Spaß und ein schönes Wochenende.




