Semantik nun stärker eingebunden als bisher

Im letzten Update der Suchfunktionen von Semager wurde die Gewichtung der Semantik verstärkt. Das heißt, das nunmehr nicht nur sehr stark verwandte Wörter in die Suche mit einfließen, sondern besonders bei Mehrwort-Abfragen, nun auch das Gesamtkonzept aller Suchbegriffe ein mehr an Bedeutung findet.

Im Hintergrund passiert dabei folgendes: es wird berechnet, welche Gemeinsamkeiten alle genannten Suchbegriffe haben und daraus eine “Wortwolke” berechnet. In dieser Wortwolke befindet sich eine Sammlung von Wörter die mal mehr, mal weniger mit den einzelnen Suchbegriffen zu tun haben. Anschließend werden die besten Kandidaten dieser Wortwolke identifziert und die Suche um diese Begriffe angereichert.

So löst eine Suche nach “paris” nun eine zusätzliche Suche nach

  • hilton,
  • pariser,
  • eiffelturm,
  • frankreich und
  • disneyland

aus. Wie man an dem Beispiel sieht, wird die Suche um Namen, Orte und Gebäude sinnvoll erweitert. Die Suchergebnisse können sich entsprechend sehen lassen (hier).

Meiner persönlichen Meinung nach sind diese Treffer eine Bereicherung der Suche und den Suchergebnissen von Google weit voraus, aber urteilen Sie dich bitte selbst (Google Suche nach “Paris”).

PS: Es wird übrigens derzeit stark an einem Kategorisierungssystem gearbeitet. Die ersten Ergebnisse werden in ca. 2 Wochen in der Webseiten-Anaylse online gehen. Nach weiterem Feintuning erfolgt dann die Clusterbildung in den normalen Suchergebnissen. Man darf also weiter gespannt sein :-)

Diese Artikel könnten Sie auch interessieren: Diese Seite speichern bei:

Kommentare

M.Schneider -   03.Jan 2009 - 12:55

@Roland Bischof:
Vielen Dank für den Hinweis, und ja, etwas in dieser Art wird sogar kommen. Im Moment ist erstmal die Kategorisierung von Webseiten dran. Für Deutsch funktioniert Sie schon recht gut, die anderen Sprachen müssen erst noch trainiert werden.
Anschließend werden die semantischen Wörter ebenfalls Kategorisiert und es wird eine Vorauswahl bei den Suchergebnissen getroffen, sollten diese thematisch stark voneinander abweichen. Dazu ist natürlich noch eine Menge Feintuning nötig, aber das wird schon :-)

Roland Bischof - artebis.de  12.Dez 2008 - 16:02

Erstmal Glückwunsch zu dem Upgrade!

Da ich ein, offenbar sehr ähnliches, Wortwolken-Verfahren in der semantischen Suchmaschinenoptimierung verwende, um meinen Kunden Vorschläge für geeignete Schlüsselbegriffe machen zu können, konnte ich, zum Einen, meine eigenen Erfahrungen damit sammeln, und, zum Anderen, den Hut vor den von Euch überwundenen, für mich sehr wohl erahnbaren, Aufwänden, ziehen!

Bei den Versuchen mit meinem Cluster-Gewichtungs-Algorithmus fand ich zunächst einen, mal kleineren, mal grossen, aber grundsätzlichen, Nachteil, der offenbar auch auf Euer Verfahren zutrifft.

Ein Beispiel:

Sie suchen nach dem Begriff ‘Hilton’.
Als Suchender würde ich mir wünschen, etwas über oder zu Hilton, etwa eine kleine Auflistung deren Hotels in den wichtigsten Hauptstädten, idealerweise auch andere Hotels, und auch etwas über eine namensgleiche Dame, zu finden.

Tatsächlich fokussiert SemaGer derzeit jedoch derzeit mit ‘Hilton’ in den Hauptergebnissen völlig auf den Begriff ‘Paris’! Er kommt in ausnahmslos jedem der Haupteinträge vor, als gäbe es nichts Anderes… Semantisch differente Dimensionen werden nicht gezeigt, selbst die verwandten Begriffe (rechts) verweisen weder auf Hauptstädte noch Hotels. Bei Google sind, zum Vergleich, immerhin vier von 10 Einträgen der SERP frei von dem Begriff ‘Paris’, und einer davon verweist sogar auf das ‘Hilton Berlin’…

Was unterscheidet die beiden Ergebnisseiten? Meines Erachtens ist das die multidimensionale Ergebnisaufbereitung.
Der Hintergrund liegt, nach meinem Verständnis, in einer zu starken Fokussierung auf zu wenige der semantischen Dimensionen. Namensgleichheiten im Web werden so nach der Gewichtung mit einer nur eindimensionalen Wolke zu sehr verdichtet, selbst wenn sie semantisch herzlich wenig miteinander zu tun haben, und anderes, aus Sicht des Suchenden semantisch Relevantes, gleichzeitig ausgeblendet. Was, wenn nicht steuerbar, wahrlich nicht immer wünschenswert ist …

Ich hoffe, meine Bemerkungen kommen bei Euch als das an, als das sie gemeint sind: als wohl kritisch, aber konstruktiv und motivierend. Der von Euch gewählte Ansatz sollte sich (im Prinzip einfach) verbessern lassen, indem Ihr auch die Cluster-Gewichtung selbst mehrdimensional vornehmt (Nach meiner Erfahrung reichen fast immer zwei bis maximal fünf Dimensionen, mit einem Median von drei), und dann auch die Ergebnisanzeige auf eine mehrdimensionale ausweitet… ;-)

LG’e,
Roland Bischof

Name (notwendig)
Email (notwendig, wird aber nicht veröffentlicht)
Website