Common Neurolinguistic Map

Im heutigen Teil unserer kleinen Reihe “semantische Algorithmen” erklären wir was es sich mit einer Common Neurolinguistic Map auf sich hat und wofür das gut ist.

Dazu zunächst einmal eine englische Definition und anschließend die deutsche Übersetzung:

  • The human brain creates a Neurolinguistic Map for every topic.
  • Cultural and geographical differences reflect in a different Neurolinguistic Map.
  • The Common Neurolinguistic Map is the common part of neural word connections between the Neurolinguistic Maps of people of the same environment.
  • Das menschliche Gehirn erzeugt für jede Thematik einen eigenen und sehr subjektiven Sprach- und Meinungsraum.
  • Kulturelle und geographische Unterschiede resultieren in unterschiedliche Sprach- und Meinungsräume.
  • Der gemeinsame Sprach- und Meinungsraum ist die Schnittmenge der Wortbeziehung zwischen allen Sprach- und Meinungsräumen von Menschen aus dem selben Umfeld.

Mit anderen Worten: zunächst einmal bildet sich jeder Mensch seine eigene Meinung zu allem und jedem. Am Ende dieses Prozesses, assoziiert ein Mensch wenn er an ein “Ding” denkt bestimmte weitere Dinge (Sprachraum) und Gefühle (Meinungen). Natürlich macht es dabei einen Unterschied was man von z.B. Schweinefleisch hält, ob man nun Christ oder Islamist (kulturelle Unterschiede) ist. Und es macht einen Unterschied was man von Schnee hält, ob man nun in der Arktis oder in der Karibik wohnt (geographische Unterschiede).

Fassen wir aber nun einmal alle Wortbeziehungen von Menschen in gleichem Umfeld (sowohl kulturell als auch geographisch) zusammen, erhalten wir den gemeinsamen Sprach- und Meinungsraum Common Neurolinguistic Map.

Wofür soll das gut sein?
Eine semantische Suchmaschine wie Semager nutzt diese Information, um einer Sucheingabe einen solchen Sprachraum zuzuordnen und sucht nun – anstatt nur nach den Suchbegriffen – ebenfalls nach den größten gemeinsamen Nennern innerhalb dieses Sprachraums.

Der interessierte Leser findet unter Latent-Semantic-Optimization eine detailierte Beschreibung dazu in englischer Sprache. Oben genannte englischen Definitionen wurden ebenfalls von dort entnommen.

Kommentare:  1 Kommentar

ContentDNA

The ContentDNA is the closest approximation of the ideal content for a given search term in a given search environment. The ContentDNA is backward-extracted using Latent Semantic Optimization.

Bzw. auf Deutsch: Die ContentDNA ist die nächste Annäherung an den idealen Inhalt für einen bestimmten Suchbegriff in einer bestimmten Umgebung. Die ContentDNA wird via Latent Semantic Optimization rückwärts extrahiert.

Mit anderen Worten, um bei Semager (und vermutlich/sicherlich auch schon jetzt bei weiteren Suchmaschinen) eine Top-Position in den Suchergebnissen zu erreichen, reicht es nicht seinen Inhalt auf einen einzelnen Suchbegriff zu optimieren. Vielmehr geht der Trend in Richtung “Latent Semantic Optimization”. Dabei spielt der allgemeine Sprachgebrauch zu einer Thematik eine wichtige Rolle.

Man kann es aber auch einfacher ausdrücken:
“Verwenden Sie in Ihrer Internetseite Wörter, die im allgememeinen genutzt werden, um Ihre Thematik zu beschreiben.”

Ein paar kleine Beispiele dazu: geht es um “iPods”, benutzen Sie “MP3″ und “Player”. Geht es um “Schmuck”, benutzen Sie “Gold” und “Silber”.
Sicherlich für jeden Menschen absolut einleuchtend. Schließlich kommt man ja teilweise gar nicht herum, diese Wörter nicht zu verwenden. Und genau deswegen sollten Sie sie auch benutzen, weil es eben wie gesagt (fast) alle anderen auch machen. Das ist dann die Grundlage für den idealen Inhalt, bzw. den ContentDNA.

Viel Spaß beim weiteren erforschen der deutschen Sprache.


Ein Zugeständnis an Google

Die Indexierungsleistung von Google ist schon enorm. Wie lange dauert es bis ein neues Dokument bzw. ein Blogeintrag im Index erscheint?

Es kommt darauf an. Zum einen natürlich wie viele Links auf die Domain zeigen und somit welche Domainpopularität/PageRank/Verlinkungsfaktor diese Seite hat. Sicherlich spielt auch auch die Glaubwürdigkeit der Seite (inoffiziel auch TrustRank genannt) eine gewichtige Rolle. Und zu guter letzt vermutlich auch der sogenannte QDF-Wert (Query Deserves Freshness) , welcher eine Aussage über den aktuellen Beliebtheitswert eines Suchwortes macht (sprich, ob ein Begriff aktuell sehr oft gesucht wird oder nicht).

Beispiel: unser Blogeintrag Suche nach Textduplikaten.
Veröffentlicht um 14.27, im Index erstmalig gesehen um 14.37!
Leider konnte ich nicht mehr nachverfolgen wie lange es gedauert hat, bis die Seite auch “Im Cache” war. Anscheinend aber ganz normal, ein paar Tage. Was ich auf der anderen Seite wieder merkwürdig finde ist, warum derzeit der Blogeintrag überhaupt nicht mehr zu finden ist …? Ob dies mit den Links zusammenhängt die auf diese Seite zeigen oder jemand den Inhalt geklaut hat oder der Index einfach nur zur Zeit ein Update macht, ich weiß es nicht.

Anderes Beispiel: Der Bericht über die Nutzung von Hadoop bei Yahoo war bereits nach 6 Minuten im Google-Index! In diesem Fall gab es auch viel Berichterstattung in anderen Medien darüber und der QDF war vermutlich höher.

Auf jeden Fall eine ordentliche Leistung einen Blogeintrag nach nur 6 Minuten in den Index zu pushen.

PS: Falls Jemand eine Idee hat, warum der Eintrag derzeit nicht online ist, bitte nur zu. Würde mich mal interessieren.
Gruß Matze

Kommentare:  2 Kommentare

Suche nach Textduplikaten

Unser neuestes Tool, die Suche nach Textduplikaten, erleichtert das Auffinden der von Ihnen erstellten Texte im Internet. Dazu sortieren wir alle Wörter in Ihrem Originaltext nach deren Beziehungs-Häufigkeit und führen anschließend eine Suche nach z.B. den seltensten 6 Wörtern Ihres Textes durch.

Natürlich ist dieses Tool nicht der Weisheit letzter Schluss, den es erlaubt keine Phrasensuche nach ganzen Sätzen. Aber es ist ein Ansatz, um mal schnell ein paar Nachforschungen anzustellen. Je Fachspezifischer ein Text ist und um so seltenere Wörter verwendet werden, um so höher ist die Trefferwahrscheinlichkeit. Stoppworte (der, die, das,…) werden gänzlich gefiltert.

Hier die Suche nach Textduplikaten.