Doppelte Indizierung (Delete Duplicates)
Das in einem vorherigen Blogeintrag beschriebene Problem mit doppelter Indizierung ist nun behoben. Sollten im Index Internetseiten auftauchen mit entweder
a) der gleichen URL, oder
b) den selben Inhalten (via MD5 Hash)
wird nur das Dokument mit der höchsten Anzahl an Links behalten. Alle anderen werden gelöscht (siehe auch Nutch: Delete Duplicates)
Natürlich ist die Methode nicht so effektiv im Kampf gegen Content-Diebstahl wie es Beispielsweise bei Google der Fall ist, da nur ein einzelnes Zeichen ausreicht, um einen anderen Hash-Wert zu erzeugen und somit auch scheinbar einen anderen Inhalt zu haben.
Folgende Duplikate werden erkannt:
Diese Artikel könnten Sie auch interessieren:





