Neuronale Berechnung von Semantik
Für zukünftige Versionen von Semager soll die Semantik stärker neuronal berechnet werden als bisher. Wie eine solche Berechnung stattfinden kann wird hier erklärt:
1) Man konzentriert sich auf die Suchbegriffe mit einer “Eingabeenergie”.
2) Die Energie wird je nach Stärke der Beziehung auf die verwandten Wörter des jeweiligen Suchbegriffes verteilt.
3) Überschreitet die angekommene Energie einen Schwellenwert, feuert dieses Wort wiederum die angekommen Energie ab, die Kaskade ist ausgelöst. Kommt nicht genug Energie an, merkt sich das Wort, wieviel Energie bisher angekommen ist und addiert diese bei der nächsten “Energieankunft” hinzu – evtl. ist ja jetzt die Energie hoch genug, um den Schwellenwert zu überschreiten und die Kaskade auszulösen.
4) Die Punkte 1-3 werden in eine rekursive Funktion gepackt und mit Abbruchbedingungen versehen, a) maximale tiefe der Rekursion und b) minimal Energie die zum versenden an ein Wort notwendig ist.
Natürlich ergeben sich hieraus noch eine Reihe weitere Fragen, z.B. wie der Schwellenwert eines Wortes berechnet wird oder wie die Kaskade ausgewertet wird. Wir sind an dem Thema dran und werden euch informieren, sobald wir neue spannende Ergebnisse für euch haben.
Weitere Information:
neuronales Netz
semantisches Netz
Informatik Neuronen Schwellenwert
Doppelte Indizierung (Delete Duplicates)
Das in einem vorherigen Blogeintrag beschriebene Problem mit doppelter Indizierung ist nun behoben. Sollten im Index Internetseiten auftauchen mit entweder
a) der gleichen URL, oder
b) den selben Inhalten (via MD5 Hash)
wird nur das Dokument mit der höchsten Anzahl an Links behalten. Alle anderen werden gelöscht (siehe auch Nutch: Delete Duplicates)
Natürlich ist die Methode nicht so effektiv im Kampf gegen Content-Diebstahl wie es Beispielsweise bei Google der Fall ist, da nur ein einzelnes Zeichen ausreicht, um einen anderen Hash-Wert zu erzeugen und somit auch scheinbar einen anderen Inhalt zu haben.
Folgende Duplikate werden erkannt:
Google droht Gmail in Deutschland zu schließen
Wie Aktuell berichtet wird, droht Google mit der Schließung seines Email Dienstes in Deutschland (siehe Heise, ReadersEdition, de.internet.com, Google Focus, Netzeitung, sowie verschiedenste Blogs).
Zitat Heise:
Google hat mit der Schließung seines E-Mail-Dienstes Google Mail in Deutschland gedroht, sollte die Bundesregierung an ihrer umstrittenenen Gesetzesinitiative zur Überwachung des Telekommunikations- und Internetverkehrs festhalten.
Unserer Meinung nach ist diese Aussage nur eine Marketingaktion mit dem Hintergrund den Ruf von Google in Bezug zur eigenen Vorratsdatenspeicherung zu verbessern und/oder davon abzulenken. Wir sind der festen Überzeugung dass Google Mail in Deutschland nicht eingestellt wird.
Stattdessen wird mit dieser Aussage die Wichtigkeit der Anonymität postuliert, da doch in letzter Zeit viele Stimmen gegen Googles Politik der Datenspeicherung laut geworden sind. Den “Ball” wieder zurück zu spielen und mit dem Finger auf einen anderen zu zeigen, ist unserer Meinung nach nicht der richtige Weg.
Neues Filesystem, update auf XFS – jetzt
Die Migration auf das neue Filesystem XFS ist im vollen Gange. Es kann zu ausfällen der verwandten Suchbegriffe und von einzelnen Suchergebnissen kommen. Wir bitten noch um ein bißchen Geduld. In ca. 3-4 Stunden (bis ca. 21.00 Uhr, 21. April) sollte alles wieder seinen normales Gang gehen.
Nachtrag:
Die Keywordlisten sind wieder voll funktionsfähig. Wir haben die Zwischenzeit genutzt und noch einige Korrekturen vorgenommen. Im Einzelnen betraf es Sonderzeichen und Umlaute, sowie eine Änderung im Algorithmus, welcher zu einer langfristigen Verbesserung der Ergebnisse führen wird (betrifft die Anzahl der Dokumente die latent semantisch indiziert werden und deren Relation zur Keywordliste).
Korrekturen im Highliting
Bei einigen Sonderzeichen haben sich im Highliting, d.h. bei der Hervorhebung von Suchbegriffen und verwandten Wörtern, Fehler eingeschlichen. Unter anderem war dies bei Suchbegriffen mit französischen Umlauten wie z.B. in Café der Fall.
Einen weiteren Fehler gab es bei Überschneidungen zwischen Suchbegriffen und semantischen Wörtern mit ähnlicher Schreibweise. Dort wurden Wörter zum Teil doppelt hervorgehoben.
Wir hoffen alle Fehler korrigiert zu haben, falls Ihr dennoch etwas finden solltet: bitte meldet es.
| « ältere Einträge |




