Nutch 1.0 erschienen
Endlich ist die lang ersehnte Version 1.0 des OpenSource Frameworks Nutch erschienen. Nach fast 2jähriger Entwicklungszeit ist Nutch mit etlichen Verbesserungen, Updates und immer neuen Features nun sicherlich eine ernstzunehmende und kostenlose Alternative gegenüber den Lizenzpflichtigen Suchmaschinen,wie z.B. von Google. Die komplette Liste der Änderungen findet Ihr in dem Nutch-Changelog.
Die wichtigsten Änderungen neben den zahlreichen Bugfixes, ist sicherlich die Integration Solr, einem Enterprise Search Server und die Updates auf die neuesten Versionen von Lucene (Indezes) und Hadoop (verteiltes Crawlen und Indizieren von Webseiten).
Ich hoffe auf viele interessante, neue und autonome Projekte, um den gängigen Suchmaschinen mit vertikalen Suchmaschinen (sprich, nur auf eine Branche ausgerichtet) den Kampf anzusagen. Mit dieser Technik – Ja, möglich.
Sobald ich erste Ergebnisse habe, bekommt Ihr Sie gleich von mir. Ich vermute ich werde dies in Form von Podcasts machen und euch in mehreren Sendungen durch eine Installation begleiten.
Viel Spaß beim Crawlen
Matthias
Diese Artikel könnten Sie auch interessieren:





