Latent Semantisches Indizieren (LSI)

Im folgenden ein kleiner Exkurs über das „Latent Semantische Indizieren“, kurz LSI genannt. Es zeigt auf wie Dokumente automatische klassifiziert werden können. Semager (früher NG-Search) benutzt eine verbesserte Version dieses Algorithmus, um Wortverwandtschaften zu berechnen.
Mit dieser Methode kann eine Suchmaschine feststellen, um was es bei einem Text oder einer Internetseite geht. Man nimmt einfach an, das z.B. hat eine Seite über Apple-Computer meistens ebenfalls die Wörter iMac oder iPod enthalten.

Latent Semantische Indizierung geht also im Vergleich zur normalen Indizierung einen Schritt weiter. Es werden nicht nur die Schlüsselwörter einer Seite gespeichert, sondern es wird auch untersucht welche anderen Seiten ebenfalls diese Begriffe enthalten. LSI betrachtet Dokumente mit vielen gleichen Begriffen als „semantisch Nahe“ und Dokumente mit nur einigen wenigen gleichen Wörtern als „semantisch Entfernt“.

Diese im Grunde genommen einfache Methode stimmt dennoch überraschend gut mit einer menschlichen Klassifizierung von Dokumenten überein. Obwohl der LSI Algorithmus zwar nicht versteht was der Text bedeutet, ist die Mustererkennung überraschend hoch.

Indem sie zusätzliches Gewicht auf in Verbindung stehende Wörter in Inhalten legt, bewirkt eine Latent Semantische Indizierung einen Negativeffekt auf das Ranking einer Seite, das nur die Suchbegriffe enthält, aber nicht die oftmals mit Ihnen in Verbindung stehenden Wörter.

Bei Semager werden Ihnen die in Verbindung stehenden Wörter nicht vorenthalten. Ganz im Gegenteil, wir wollen ja dass Sie sich gut zurecht finden und schlagen Ihnen deshalb diese Wortbeziehung als zusätzliche Suchbegriffe vor.

Schreibe einen Kommentar