Google nutzt vermehrt LSI?!

Das Problem mit den Linktexten ist Google wohl zunehmend ein Dorn im Auge. Da gibt es doch pfiffige SEO`s, die hunderte (tausende?) Links mit passendem Linktext setzen, ohne dabei aufzufallen. Wie frech! Und dann ist ja noch dieser Link „…mehr“, der ja thematisch absolut korrekt sein kann, leider aber überhaupt nichts aussagt. Gerade dann, wenn nur der Titel und die ersten 20 Wörter eines Artikels als Vorschau angezeigt werden und ein anschließendes „…mehr“ auf den eigentlichen Artikel zeigt. Für den Benutzer ja eigentlich der optimale Link. Für eine Suchmaschine aber etwas schwieriger. Da muss ein Lösung her…

Fassen wir mal zusammen:

Anhand der Webmaster-Tools von Google können wir erkennen, das Google Links nicht nur anhand des reinen Linktextes wertet, sondern auch von dessen Umfeld. Es wird unterschieden zwischen Sätze, Keywords und Content. Zudem ist in SEO Blogs oft zu lesen, das Links die innerhalb eines Textes gesetzt werden wertvoller sind, als Links, die in Linkblöcken stehen. Ein weiterer Hinweis sei auch die Änderung des Textlink-Marktplatzes Teliad, nunmehr sogenannte InLinks zu verkaufen, also Links innerhalb des zentralen Textes einer Webseite.

Sprich, Google verläßt sich immer weniger auf den Text innerhalb des Links, sondern nimmt zunehmend auch dessen Umfeld mit. Wenn wir dieses Umfeld jetzt immer weiter ausdehnen, haben wir irgendwann die ganze Webseite als „Linktext“ erfasst. Dummerweise stehen dort eine Menge Wörter drin und man kann sich gar nicht so recht entscheiden, welches von denen den nun für das Ranking wichtig sein soll.

Ergo, der Linktext selbst wird unwichtiger, die Themenrelevanz der verlinkten Seiten untereinander wichtiger. Dies ist insbesondere bei gekauften Links ein Problem. Links die freiwillig und aufgrund einer Empfehlung gesetzt worden sind, sind in der Regel in hohem Maße themenaffin. Gekaufte Links dagegen haben oft wenig oder überhaupt nichts miteinander gemeinsam.

Die Lösung heißt LSI (Latent Semantic Indexing). Zunächst schneidet man eine Webseite in seine einzelne Bestandteile (Tokens) und bildet eine Matrix daraus, dann kommen so Sachen wie SVD (Singularitäts-Wert-Zerlegung) und man bildet einen Vektor (sprich, einen Pfeil mit Länge und Richtung).

Am Ende hat man zwei Vektoren, je für die verlinkende Seite und die verlinkte Seite. Man misst den Winkel zwischen den zwei Vektoren und zieht davon den Cosinus. Diesen Wert nimmt man dann als Dämpfungsfaktor, um zu bestimmen wieviel PageRank der Link vererbt. Je weiter die Seiten thematisch auseinander sind, um so weniger wird vererbt.

Das ist natürlich nur eine grobe Umschreibung dessen, wie so etwas funktioniert und es gibt noch eine Reihe weiterer und vor allen Dingen neuerer Algorithmen, aber es beschreibt das Prinzip ganz gut.

Es hat den Anschein, als das Google nun ebenfalls diese Technik vermehrt einsetzt ( zumindest bei google.com – in der deutschprachigen Suche auf google.de scheint sich dies noch nicht bemerkbar zu machen). Grund für diese Vermutung sind Diskussion über Änderungen im Umgang mit Linktexten in verschiedenen Foren. Verfolgt man diese, kommt man sehr leicht auf oben genanntes Ergebnis.

Die „Rumours“ dazu im Netz:
http://www.seroundtable.com/archives/018087.html
http://www.bayaw.com/2008-08-23/does-anchor-text-no-longer-that-important-in-google.html
http://sphinn.com/story/67317
http://www.blogstorm.co.uk/google-changes-algorithm-anchor-text-less-important/
http://forums.digitalpoint.com/showthread.php?t=993671

PS: Schon ein Kreuz mit dieser Suchmaschine. Erst klaut Sie mir die „verwandten Suchvorgänge“ und nun auch noch mein geliebtes LSI – vielleicht sollte ich weniger Innovationen ins Netz stellen ;-).