In welcher Reihenfolge wird gecrawlt?

Breadth-First Search: Hierbei werden von der Startseite aus (Level 0) alle Links verfolgt, die auf eine Webseite verweisen (Level 1). Anschließend wird rekursiv von den Level n-Webseiten aus jeder Link verfolgt bis auf Level n + 1. Es wird von der Wurzel an eine Baumstruktur Level für Level aufgebaut.

Depth-First Search: Im Gegensatz zur Breitensuche wird hier jeder gefundene Link direkt weiterverfolgt. Erst wenn auf Level n keine Verlinkung mehr folgt, wird auf Level n – 1 weitergecrawlt.

Backlink-Count: Als nächste Seite wird stets diejenige gecrawlt, auf welche nach dem aktuellen Crawlingschritt die meisten Links der bisher erfassten Seiten zeigen.

Batch-PageRank: Alle k (mit k Element von N) erfassten Seiten wird ein ungefährer Page-Rank-Wert berechnet. Die k Seiten mit dem höchsten PageRank werden im nächsten Durchlauf gecrawlt.

OPIC: Alle Seiten bekommen am Anfang eine bestimmte “cash”-Menge. Bei jedem
Crawl einer Seite wird deren “cash” an die Seiten, auf welche sie verlinkt, aufgeteilt. Die folgende Crawlingpriorität wird dann anhand der Höhe des “cash” festgelegt.

Larger Sites First: Es werden zuerst parallel mehrere Webseiten mit einer großen Anzahl an Unterseiten gecrawlt. So kann sich der Crawl über längere Zeit mit umfangreichen Seiten beschäftigen, ohne den Zielserver durch zu viele Anfragen in kurzer Zeit zu überlasten.

Auszug aus einer lesenswerten Bachelor Arbeit von Susanne Weber:
Analyse von Linkstrukturen in begrenzten Teilräumen des World Wide Web

Schreibe einen Kommentar