Semager-Bot mit neuer Versionsnummer

Nach einigen Verbesserungen im Crawler, gibt es nun eine neue Versionsnummer “1.3″. Für Webmaster ändert sich dadurch nichts, der Bot hört nach wie vor auf die Anweisungen in der robots.txt, die entweder unterhalb “*” (jeder Crawler wird angesprochen) oder “semager” stehen (Anweisungen nur speziell nur für den Semager Bot).

Die wichtigsten Änderungen sind:

- Es wurde ein Fehler korrigiert, der dazu führte das die robots.txt mehrfach bei einem Seitenaufruf geladen wurde. Dies war insbesondere dann der Fall, wenn die Seite über Frames verfügte.

- Der Semager-Bot unterstützt jetzt ebenfalls Wildcard-Anweisungen (z.B: Disallow: /test/*.html).

- Einige Verbesserungen und Patches in der Fehlererkennung.

- Bessere Erkennung von Weiterleitungen.


Ein Zugeständnis an Google

Die Indexierungsleistung von Google ist schon enorm. Wie lange dauert es bis ein neues Dokument bzw. ein Blogeintrag im Index erscheint?

Es kommt darauf an. Zum einen natürlich wie viele Links auf die Domain zeigen und somit welche Domainpopularität/PageRank/Verlinkungsfaktor diese Seite hat. Sicherlich spielt auch auch die Glaubwürdigkeit der Seite (inoffiziel auch TrustRank genannt) eine gewichtige Rolle. Und zu guter letzt vermutlich auch der sogenannte QDF-Wert (Query Deserves Freshness) , welcher eine Aussage über den aktuellen Beliebtheitswert eines Suchwortes macht (sprich, ob ein Begriff aktuell sehr oft gesucht wird oder nicht).

Beispiel: unser Blogeintrag Suche nach Textduplikaten.
Veröffentlicht um 14.27, im Index erstmalig gesehen um 14.37!
Leider konnte ich nicht mehr nachverfolgen wie lange es gedauert hat, bis die Seite auch “Im Cache” war. Anscheinend aber ganz normal, ein paar Tage. Was ich auf der anderen Seite wieder merkwürdig finde ist, warum derzeit der Blogeintrag überhaupt nicht mehr zu finden ist …? Ob dies mit den Links zusammenhängt die auf diese Seite zeigen oder jemand den Inhalt geklaut hat oder der Index einfach nur zur Zeit ein Update macht, ich weiß es nicht.

Anderes Beispiel: Der Bericht über die Nutzung von Hadoop bei Yahoo war bereits nach 6 Minuten im Google-Index! In diesem Fall gab es auch viel Berichterstattung in anderen Medien darüber und der QDF war vermutlich höher.

Auf jeden Fall eine ordentliche Leistung einen Blogeintrag nach nur 6 Minuten in den Index zu pushen.

PS: Falls Jemand eine Idee hat, warum der Eintrag derzeit nicht online ist, bitte nur zu. Würde mich mal interessieren.
Gruß Matze

Kommentare:  2 Kommentare

Suche nach Textduplikaten

Unser neuestes Tool, die Suche nach Textduplikaten, erleichtert das Auffinden der von Ihnen erstellten Texte im Internet. Dazu sortieren wir alle Wörter in Ihrem Originaltext nach deren Beziehungs-Häufigkeit und führen anschließend eine Suche nach z.B. den seltensten 6 Wörtern Ihres Textes durch.

Natürlich ist dieses Tool nicht der Weisheit letzter Schluss, den es erlaubt keine Phrasensuche nach ganzen Sätzen. Aber es ist ein Ansatz, um mal schnell ein paar Nachforschungen anzustellen. Je Fachspezifischer ein Text ist und um so seltenere Wörter verwendet werden, um so höher ist die Trefferwahrscheinlichkeit. Stoppworte (der, die, das,…) werden gänzlich gefiltert.

Hier die Suche nach Textduplikaten.


Yahoo nutzt ebenfalls Hadoop

Yahoo und Semager haben etwas gemeinsam. Beide nutzen Hadoop, um sich einen Datenbestand aufzubauen. Hadoop ist ein Open Source Framework aus der Apache Software Foundation das mittels dem sogenannten MapReduce Algorithmus eine große Aufgabe in viele kleine zerteilt und diese dann an verschiedene Rechner in einem Rechner-Verbund verteilt.

Hadoop MapReduce

Das Verteilen der Jobs und anschließende Zusammenfassen geschieht auf einer virtuellen Festplatte das via einem verteilten Dateisystem (DFS – Distributed FileSystem) über alle beteiligten Rechner erzeugt wird.

Yahoos Angaben zufolgen ist diese Implementation teil der Open Source Strategie des Unternehmens. Hier eine kleine Übersicht über die zu verwaltende Datenmenge von Yahoos Hadoop implementation:

Anzahl der Links innerhalb des gesamten Index: über eine Billionen (1.000.000.000.000 +)
Größe des Index: 300 Terabyte (komprimiert !)
CPU Kerne die an der Berechnung beteiligt sind: 10.000
Festplattenkapazität Gesamt (Cache, etc.): 5 Petabyte

Wer mag kann sich anbei noch kleines Video dazu ansehen (auf Englisch):


Weitere mit Hadoop verwandte Themen und für Suchmaschinenbetreiber sehr interessante Projekte:

  • Lucene – Framework zur Erstellung von Indexes
  • HBase – Datenbanksystem für riesige Datenmengen verteilt auf einem Rechner-Verbund
  • Nutch – Webcrawler welcher Lucene Daten zu Verfügung stellt und Link-Value berechnet
  • Mahout – Neues Projekt um MapReduce Algorithmen in Multicore CPUs zu parallelisieren


  • Doppelte Indizierung (Delete Duplicates)

    Das in einem vorherigen Blogeintrag beschriebene Problem mit doppelter Indizierung ist nun behoben. Sollten im Index Internetseiten auftauchen mit entweder

    a) der gleichen URL, oder
    b) den selben Inhalten (via MD5 Hash)

    wird nur das Dokument mit der höchsten Anzahl an Links behalten. Alle anderen werden gelöscht (siehe auch Nutch: Delete Duplicates)

    Natürlich ist die Methode nicht so effektiv im Kampf gegen Content-Diebstahl wie es Beispielsweise bei Google der Fall ist, da nur ein einzelnes Zeichen ausreicht, um einen anderen Hash-Wert zu erzeugen und somit auch scheinbar einen anderen Inhalt zu haben.

    Folgende Duplikate werden erkannt:

  • http://www.domain.de
  • http://www.domain.de/
  • http://www.domain.de/index.php
  • http://www.domain.de/index.html
  • Domainaliase

  • « ältere Einträge