Großes Semantik Update
Innerhalb der letzten Woche gab es ein größeres Update der semantischen Datenbank. Dabei mussten einige Daten komplett in andere Zeichensätze umgewandelt werden. Das Ganze hat dann etwas gedauert. An dieser Stelle möchte ich nochmals um Entschuldigung bitten, falls es hier und da zu Schwierigkeiten bei der Darstellung von Sonderzeichen (z.B. “ä” “ö” “ü”) gekommen ist.
Das Warten hat sich aber gelohnt. Im gleichen Zug wurden neue Datensätze aufgespielt, so dass nun mit verbesserten semantischen Wortlisten gearbeitet wird. Außerdem, da nun alle Daten einheitlich vorhanden sind, brauchen weniger Sonderfälle behandelt zu werden und der Programmcode wurde entsprechend bereinigt. Die Daten werden damit schneller ausgelesen und sind verfügbarer denn je.
Trotzdem, das nächste Update kommt bestimmt. Zur Zeit sind einige Kooperationen in Anbahnung, um mittels Datenbanken anderer Anbieter, Semagers Ansätze zu vervollständigen. Wir dürfen gespannt sein…
LSO Tool in Entwicklung
In der URL-Analyse finden sich seit kurzem noch eine Reihe von weiteren Information. Neben gemessenen Daten zur Zugriffszeit wie DNS-Lookup und Download-Zeit (soll ja für Google Adwords wichtig werden), dem HTTP-Response Header (z.B. zum finden von Server Fehleinstellungen), oder eine Möglichkeit Textduplikate aufzufinden, gibt es nun noch informationen zu LSO (Latent Semantische Optimierung). Von den drei LSO-Tools ist bisher zwar nur eine implementiert, aber sie gibt bereits interessante Einblicke in die Latent-Semantische-Optimierung.
LSO Optimierungsgrad (in Entwicklung):
Der hier angegebene Prozentwert sagt aus, wie sehr sich der Text auf ein Thema konzentriert und die gängigsten Wörter in diesem Umfeld verwendet werden. Je höher der Wert, umso schärfer ist das Thema beschrieben. Ein geringerer Wert enthält Optimierungspotenzial. Werte ab 60% sind i.d.R. „ok“, ab 75% „gut“ und ab 85% als „sehr gut“ einzustufen. Die 100% zu erreichen ist rein rechnerisch höchst unwahrscheinlich, da aufgrund von Sprachunschärfe oder durch eine Veränderung des Textes, stetig neue oder weitere Möglichkeiten entstehen.
Keywords die aus semantischer Sicht ergänzt werden könnten (fertiggestellt, Feintuning erforderlich):
Die hier angezeigten Keywords könnten den Text/diese URL aus semantischer Sicht schärfer auf ein spezielles Thema ausrichten. Bitte beachten Sie, dass es rein rechnerisch nicht möglich ist, den 100% perfekten Inhalt zu erzeugen. Es werden immer Keywords fehlen, egal wie oft Sie den Text umschreiben (Sprachunschärfe, individuelle Meinungen). Entscheiden Sie also selbst, wie relevant die vorgeschlagenen Wörter noch für Ihren Text sein könnten.
Keywords die aus semantischer Sicht gelöscht werden könnten (in Entwicklung):
Die hier angezeigten Keywords weiten den Text/diese URL aus semantischer Sicht möglicherweise auf andere Themengebiete aus. Bitte beachten Sie, dass es rein rechnerisch nicht möglich ist, den 100% perfekten Inhalt zu erzeugen. Es werden immer Keywords zu viel sein, egal wie oft Sie den Text umschreiben (Sprachunschärfe, individuelle Meinungen). Entscheiden Sie also selbst, wie relevant die vorgeschlagenen Wörter noch für Ihren Text sein könnten.
Filterupdate Semantik
Mal angenommen Sie suchen nach “Döner Berlin”, wie berechnet Semager dann die Semantik dieses Queries?
Nun, eines der Probleme dabei ist, die Wörter zu filtern, welche zu weit weg von dem Thema sind. Ein derzeit verwendeter Ansatz dazu ist der Verbreitungsgrad. So hat das Wort “Döner” beispielsweise den Grad “406″ und Berlin “131.962″. Berlin ist also sehr viel beliebter als Döner (was auch immer das bedeuten mag
.
Würde man nur nach “Döner” suchen, würde Berlin ausgefilter werden, da es ganz offensichtlich in einer ganz anderen Größenordnung spielt. Sucht man hingegen nach “Deutschland” wird Berlin nicht ausgefiltert, da Deutschland einen Verbreitungsgrad in der gleichen Größenordnung (178.851) wie Berlin hat.
Was aber passiert bei “Döner Berlin”? Hier treffen zwei Wörter aufeinander die in komplett unterschiedlichen Größenordnungen liegen. Ich habe damit viel herum experimentiert. So kann man den Mittelwert berechnen, auf logarythmischer Basis arbeiten oder mit linearen Gleichungen, um den Wert zu berechnen, ab dem andere Wörter “zu weit weg” sind.
Schlussendlich nehm ich jetzt einfach nur noch den größten Faktor des Queries als Schwellenwert an. Um ein wievielfaches nun ein verwandtes Wort den Schwellenwert überschreiten muss und ob es dann gelöscht oder abgewertet wird und um wieviel, ist aber eine andere Frage.
Tatsache ist, das ein solcher Filter absolut notwendig ist, um das Ergebnis qualitativ aufzuwerten. Den – wenn man es nicht macht – beinhalten die Keywordlisten bei jedem Query höchstwahrscheinlich immer mehr oder weniger die beliebtesten Keywords im allgemeinen und weniger die semantisch Interessanten.
TOP 20 der “verbreitesten Keywords”:
1) suche 223.232
2) deutschland 178.851
3) suchen 145.714
4) berlin 131.962
5) e mail 124.109
6) software 123.281
7) internet 121.459
zeit 121.301
9) shop 119.490
10) archiv 116.930
11) newsletter 116.376
12) nachrichten 113.278
13) bilder 110.287
14) jahre 108.632
15) search 105.083
16) musik 104.611
17) navigation 104.045
18) blog 102.885
19) jahr 102.798
20) leben 97.037
PS: Die Liste ist nicht ganz auf dem neuesten Stand. Auf den Live-Servern gibt es etwas andere Ergebnisse. Im großen und ganzen passt es aber.
Kaspersky blockt Yahoo Search ?
Über einen Bericht auf Heise aufmerksam geworden, scheint es, als ob Kaspersky mit Ihrer Antivirus Software eine Webfilter hat, der Yahoo Suchergebnisse blockiert, wenn Sie via Overture umgeleitet werden.
Bei Telepolis (Heise) gibt es einen Bericht über semantische Suchen. Semager wird ebenfalls genannt, schneidet aber nicht gut ab, da Suchergebnisse “beim Klicken jedoch auf leere Seiten führen”. Nach einem Telefonat mit der Redaktion und einigem probieren scheint es ein Problem zu sein, welches Browserunabhängig ist. Bei jedem Klick auf ein Suchergebniss kommt man auf eine leere Seite von Overture. Wohingegen bei mir und allen Bekannten die Umleitungen gut funktionieren.
Nach weiteren Telefonaten und einigen Suchen, kristalliert sich heraus, dass betreffende Rechner ein Kaspersky Programm installiert haben. Es scheint, als werden die Umleitung als Spam erkannt und heraus gefiltert. Das Problem haben anscheinend andere auch (Forum Kaspersky). Wie man es aber umgehen kann ist mir schleierhaft…
Test-Berechnung für Spanische Semantik
Nach dem Englischtest ist nun auch ein spanischer Durchlauf fertig. Man beachte dass sich die Ergebnisse bei lange andauernden Berechnungen fortwährend weiter stabilisieren. Die bisherigen Beziehungen sind aber durchaus schlüssig:
19.490 gefundene Wörter
188.858 Beziehungen zwischen diesen Wörtern
1.567 Wörter gesamt berechnet
z.B. http://www.semager.de/keywords/?q=linux&lang=es
Als nächstes folgt Französisch und danach Italienisch. Evtl. werde ich auch mal türkisch starten. Nur um mal zu sehen, wie gut die Ergebnisse sind…




