Google nutzt vermehrt LSI?!

Das Problem mit den Linktexten ist Google wohl zunehmend ein Dorn im Auge. Da gibt es doch pfiffige SEO`s, die hunderte (tausende?) Links mit passendem Linktext setzen, ohne dabei aufzufallen. Wie frech! Und dann ist ja noch dieser Link „…mehr“, der ja thematisch absolut korrekt sein kann, leider aber überhaupt nichts aussagt. Gerade dann, wenn nur der Titel und die ersten 20 Wörter eines Artikels als Vorschau angezeigt werden und ein anschließendes „…mehr“ auf den eigentlichen Artikel zeigt. Für den Benutzer ja eigentlich der optimale Link. Für eine Suchmaschine aber etwas schwieriger. Da muss ein Lösung her…

Fassen wir mal zusammen:

Anhand der Webmaster-Tools von Google können wir erkennen, das Google Links nicht nur anhand des reinen Linktextes wertet, sondern auch von dessen Umfeld. Es wird unterschieden zwischen Sätze, Keywords und Content. Zudem ist in SEO Blogs oft zu lesen, das Links die innerhalb eines Textes gesetzt werden wertvoller sind, als Links, die in Linkblöcken stehen. Ein weiterer Hinweis sei auch die Änderung des Textlink-Marktplatzes Teliad, nunmehr sogenannte InLinks zu verkaufen, also Links innerhalb des zentralen Textes einer Webseite.

Sprich, Google verläßt sich immer weniger auf den Text innerhalb des Links, sondern nimmt zunehmend auch dessen Umfeld mit. Wenn wir dieses Umfeld jetzt immer weiter ausdehnen, haben wir irgendwann die ganze Webseite als „Linktext“ erfasst. Dummerweise stehen dort eine Menge Wörter drin und man kann sich gar nicht so recht entscheiden, welches von denen den nun für das Ranking wichtig sein soll.

Ergo, der Linktext selbst wird unwichtiger, die Themenrelevanz der verlinkten Seiten untereinander wichtiger. Dies ist insbesondere bei gekauften Links ein Problem. Links die freiwillig und aufgrund einer Empfehlung gesetzt worden sind, sind in der Regel in hohem Maße themenaffin. Gekaufte Links dagegen haben oft wenig oder überhaupt nichts miteinander gemeinsam.

Die Lösung heißt LSI (Latent Semantic Indexing). Zunächst schneidet man eine Webseite in seine einzelne Bestandteile (Tokens) und bildet eine Matrix daraus, dann kommen so Sachen wie SVD (Singularitäts-Wert-Zerlegung) und man bildet einen Vektor (sprich, einen Pfeil mit Länge und Richtung).

Am Ende hat man zwei Vektoren, je für die verlinkende Seite und die verlinkte Seite. Man misst den Winkel zwischen den zwei Vektoren und zieht davon den Cosinus. Diesen Wert nimmt man dann als Dämpfungsfaktor, um zu bestimmen wieviel PageRank der Link vererbt. Je weiter die Seiten thematisch auseinander sind, um so weniger wird vererbt.

Das ist natürlich nur eine grobe Umschreibung dessen, wie so etwas funktioniert und es gibt noch eine Reihe weiterer und vor allen Dingen neuerer Algorithmen, aber es beschreibt das Prinzip ganz gut.

Es hat den Anschein, als das Google nun ebenfalls diese Technik vermehrt einsetzt ( zumindest bei google.com – in der deutschprachigen Suche auf google.de scheint sich dies noch nicht bemerkbar zu machen). Grund für diese Vermutung sind Diskussion über Änderungen im Umgang mit Linktexten in verschiedenen Foren. Verfolgt man diese, kommt man sehr leicht auf oben genanntes Ergebnis.

Die „Rumours“ dazu im Netz:
http://www.seroundtable.com/archives/018087.html
http://www.bayaw.com/2008-08-23/does-anchor-text-no-longer-that-important-in-google.html
http://sphinn.com/story/67317
http://www.blogstorm.co.uk/google-changes-algorithm-anchor-text-less-important/
http://forums.digitalpoint.com/showthread.php?t=993671

PS: Schon ein Kreuz mit dieser Suchmaschine. Erst klaut Sie mir die „verwandten Suchvorgänge“ und nun auch noch mein geliebtes LSI – vielleicht sollte ich weniger Innovationen ins Netz stellen ;-).

Kommentare

Roland Bischof - suchmaschinen-optimierung.artebis.ch  11.Nov 2008 - 20:23

Wegen der Link-Generierungs-Fabriken wurde es schon drängend, dass Google & Co Verbesserungen suchen. Naheliegend, dass sie dabei auf semantische Faktoren und thematische Cluster-Bildungen stiessen.

Google verwendet allerdings vermutlich weniger semantische Faktoren-Zerlegungen via SVD, als eine direkt häufigkeitsbasierende Vektoren-Bildung, zusammengesetzt aus bedingten Co-Occurrencies. Ich vermute das deshalb, weil derartige Vektoren einerseits einen Grossteil der Datenbasis in sich abbilden können, also ressourcen-schonend für DB-gestützte -Algorithmen und -Retrieval geeignet sind, und, zum Anderen, zumindest nach meinen Erfahrungen, auch weniger aufwändig in der Erstellung sind. Für die Annahme eines solchen Ansatzes spricht auch die zuvor beschriebene Beobachtung von Tom.

Sollte man sich darüber wirklich ärgern? 😉 Nun, eine Frage der Perspektive. Mich als Entwickler von Lösungen zur semantischen SEO freut es natürlich, wenn thematische Kongruenzen auch bei Google höher gewichtet werden.
Und weil’s dem Endbenutzer ob der Linkkunstelei bisweilen schon ganz eng um die Galle ward, wird’s auch ihm wohl zu Gesichte stehen … 😉

Florian - motor-trends.de  13.Okt 2008 - 03:54

Ich habe das von Dir beobachtete Auswirkungen von Googels zunehmenden LSI-Verfahren auch bei verschiedenen Projekten beobachten können. Der Linktext verliert zunehmend an Relevanz. Oftmals findest du auf spitzen Positionen Seiten welche ausschließlich über ihren URL-Text und meist Themen-affin verlinkt sind… guter Beitrag, lG Florian

Tom - geldboersenshop.de  08.Okt 2008 - 20:49

Ich habe noch vor kurzem in einem Blog einen Test gelesen (keine Ahnung mehr, wo das war), der die nötige Themenrelevanz nicht erkennen lässt. Es waren zwei Seiten mit exakt einem Link von der gleichen Quelle. Der eine Text war ein Buchstabengewirr mit einem Keyword. Beim anderen war das Keyword normal, aber der Text drumherum war zum Thema. Die Seite mit dem fetten Keyword rankte vorne.

Aber egal wie Google mit LSI klarkommt, die vorderen SERPs werden spätestens nach einer gewissen zeit von den SEOs eingenommen.

Name (notwendig)
Email (notwendig, wird aber nicht veröffentlicht)
Website