In welcher Reihenfolge wird gecrawlt?

Breadth-First Search: Hierbei werden von der Startseite aus (Level 0) alle Links verfolgt, die auf eine Webseite verweisen (Level 1). Anschließend wird rekursiv von den Level n-Webseiten aus jeder Link verfolgt bis auf Level n + 1. Es wird von der Wurzel an eine Baumstruktur Level für Level aufgebaut.

Depth-First Search: Im Gegensatz zur Breitensuche wird hier jeder gefundene Link direkt weiterverfolgt. Erst wenn auf Level n keine Verlinkung mehr folgt, wird auf Level n – 1 weitergecrawlt.

Backlink-Count: Als nächste Seite wird stets diejenige gecrawlt, auf welche nach dem aktuellen Crawlingschritt die meisten Links der bisher erfassten Seiten zeigen.

Batch-PageRank: Alle k (mit k Element von N) erfassten Seiten wird ein ungefährer Page-Rank-Wert berechnet. Die k Seiten mit dem höchsten PageRank werden im nächsten Durchlauf gecrawlt.

OPIC: Alle Seiten bekommen am Anfang eine bestimmte “cash”-Menge. Bei jedem
Crawl einer Seite wird deren “cash” an die Seiten, auf welche sie verlinkt, aufgeteilt. Die folgende Crawlingpriorität wird dann anhand der Höhe des “cash” festgelegt.

Larger Sites First: Es werden zuerst parallel mehrere Webseiten mit einer großen Anzahl an Unterseiten gecrawlt. So kann sich der Crawl über längere Zeit mit umfangreichen Seiten beschäftigen, ohne den Zielserver durch zu viele Anfragen in kurzer Zeit zu überlasten.

Auszug aus einer lesenswerten Bachelor Arbeit von Susanne Weber:
Analyse von Linkstrukturen in begrenzten Teilräumen des World Wide Web

Kommentare:  Kommentare deaktiviert für In welcher Reihenfolge wird gecrawlt?

Reverse Proxy für SEO

Was für einen Sinn soll den ein Reverse Proxy für einen SEO haben? Nun, eigentlich ganz einfach: es geht darum eine IP Adresse im Ausland zu haben auf dem „offiziell“ die Domain läuft. Inoffiziell ist dies aber nur ein Reverse Proxy, der die Anfragen an den Server in Deutschland zurück routet. Dort werden Sie bearbeitet und das HTML erzeugt. Anschließend bekommt der Nutzer der Webseite oder der Bot das HTML von der IP aus dem Ausland ausgeliefert.

Wofür brauche ich eine IP aus dem Ausland? Antwort: um in diesem entsprechendem Land besser zu ranken!

Wenn ich schon einen Server habe, auf dem der Reverse Proxy läuft, dann kann ich doch auch gleich die Webseite dort laufen lassen? Antwort: prinzipiell schon; wenn die Webseite aber mehrsprachig ist, ist es einfacher nur einen Server pflegen zu müssen, als für jedes Landbzw. Sprache je einen eigenen Server.

Ok, also gut. Installieren wir mal einen Reverse Proxy…

Da alle meine Systeme auf Gentoo laufen und ich mich einigen Foren später für „pound“ entschieden habe, beginne ich mit:

ACCEPT_KEYWORDS="~x86" emerge pound

Die Config befindet sich in /etc/pound.cfg und ist sehr einfach gehalten. Für unser Beispiel brauchen wir eigentlich nur folgendes:

ListenHTTP
    Address 12.34.56.78 # die IP aus dem Ausland, sprich dieser Rechner hier, auf dem der Reverse Proxy "Pound" läuft
    Port 80
    Service
        URL ".*"
        BackEnd
            Address 87.65.43.21 # die IP des eigentlich Servers wo es hingehen soll
            Port 80
        End
    End
End

Man kann noch einige Optionen mehr einstellen, z.B. ob man nur .html oder .png weiterleiten möchte. Es können auch mehrere Server angegeben werden und eine Priorität mit welcher diese zu bedienen sind (Loadbalancing). Kurzum, „Pound“ ist ein einfacher, aber ebenso genialer LoadBalancer und Reverse Proxy und ebenfalls für einen SEO geeignet ;-).

Viel Spaß beim Routen,
Matze

Kommentare:  Kommentare deaktiviert für Reverse Proxy für SEO

Webanalyse um SEMRush-Daten ergänzt

Die Webanalyse wurde nun um ein paar weitere Daten von SEMRush ergänzt.

Im einzelnen finden sich nun die Top 10 Wörter mit denen diese Domain rankt, sowie ein paar Daten dazu wie genaue Position, Anzahl der Suchergebnisse, etc. Unter „Competitors“ finden sich dann Domains, die zu den gleichen Keywords ranken, wie die getestete Webseite und wieviele Überschneidungen es dazu gibt.

Noch ein paar weitere Daten findet Ihr dann unter SEMRush selbst.

Also jetzt erstmal viel Spaß mit den neuen Funktionen.

Kommentare:  Kommentare deaktiviert für Webanalyse um SEMRush-Daten ergänzt

Googlebot füllt Suchanfragen aus

Da ich aus aktuellem Anlass in letzter Zeit öfters in die echtzeit Log-Dateien meines Servers sehe, ist mir aufgefallen, das der Googlebot anscheinend hergeht und Suchanfragen ausfüllt. Und dies, obwohl eindeutig in der robots.txt definiert wurde, das dieses Verzeichnis gesperrt ist.

Muss man nicht verstehen… ?

66.249.65.116 – – [24/Feb/2010:16:19:25 +0100] „GET /search/?q=streifenvorhang HTTP/1.1″ 200 19672 „-“ „Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)“

Kommentare:  Kommentare deaktiviert für Googlebot füllt Suchanfragen aus

Google SERPs CTR zu hoch bewertet?

Wie vielen von euch bekannt sein sollte, ist der CTR die Click-Through-Rate in den normalen Suchergebnissen von Google, ebenfalls ein Signal für eine gute oder schlechte Domain. Sprich, wenn eure Seite auf Platz 10 ist und Ihr sie in ein bestimmten Frequenz (Cookie, User-Agent, etc) immer wieder mal anklickt, steigt eure Position allein durch das Klickverhalten auf z.B. Position 8. Wie stark der SERP CTR genau ist, ist natürlich nicht bekannt, aber ich vermute er ist sehr stark geworden (schließlich kann man Benutzer ja nicht manipulieren, aber Links schon 😉 ).

Als Beweis dazu möchte ich die unzähligen Warez und Download-Seiten anführen, die in letzter Zeit gefühlt nur so in die SERPs schießen. Da in den Titeln dieser zumeist etwas steht wie „kostenlos Downloaden“, „free bei Rapidshare“ oder ähnliche legal zweifelhafte Angebote, werden diese Seite sicherlich von vielen geklickt, in der Hoffnung hier etwas kostenlos abstauben zu können.

Schauen wir uns doch mal ein paar Suchbegriffe an: Zombilution (ein PC-Spiel,dass mich mal spontan interessiert hat):

1 x T-Shirt
8 x Download (Warez)
1 x Forum

Ganz ähnlich verhält es sich bei vielen Begriffen aus dem Long-Tail. Die Zunahme dieser Rapidshare- und Download-Suchmaschinen in der ersten SERP ist brisant, ja schon nervend. Sieht man sich mal die Alexa-Ranking solcher Seiten an, staunt man nicht schlecht:

Alexa: rapidshare-catalog.com
Alexa: Rapidog.com
Alexa: Zoozle.net

Alle innerhalb eines halben Jahres in olympische Höhen katapultiert. Davon können normale SEOs nur träumen. Was dort an Traffic abgegriffen wird, reicht, wenn es richtig monetarisiert wird, für mehrere Mitarbeiter-Gehälter. Diese können solche Seiten natürlich wieder klonen und wieder einstellen, klonen und wieder einstellen…

Und genau das, so zumindest meine Vermutung, geschieht zur Zeit auch. Ich vermute der Erfolg dieser Seiten ist deswegen so hoch, da Google der Klickrate in den SERPs eine zunehmend höhere Bedeutung einräumt. Wie man sieht vermüllen Sie sich damit nur Ihren eigenen Index.

PS: Hat jemand von euch einen Crawler, der nach Rapidshare downloads sucht? Bitte melden 😉

UPDATE: Mittlerweile sind die Ergebnisse zu oben genannter Google-Suche nicht mehr gar so verseucht. Es scheint so als hätte Jemand etwas dagegen unternommen ^^.

Kommentare:  Kommentare deaktiviert für Google SERPs CTR zu hoch bewertet?

« ältere Einträge