Apache, Solr, Lucene, Stanbol

Apache Solr, Lucene und Stanbol - Wir finden besser

Erfolgreiche Suchlösungen sind heute maßgeblich für den Erfolg eines Portals. Apache Lucene (TM) ist eine hochperformante Text-Suchmaschine, komplett in Java realisiert und als Open Source-Software frei verfügbar. Wir unterstützen Sie gern mit unserem Know How bei der Integration dieser Suchmaschine.


unitb consulting setzt Apache Lucene aus gutem Grund in vielen seiner Projekte ein. Die Integration von Lucene ist eine sinnvolle Alternative zu anderen Lösungen mit großem Namen und teuren Lizenzverträgen.

Wir haben Lucene und SolR bei folgenden Kunden erfolgreich integriert:

  • Axel Springer
    • B.Z. Berlin
    • welt.de (im Auftrag Axel Springer Media Systems)
  • WAZ Mediengruppe
    • DerWesten - WAZ New Media
    • Lifeline - Gong Verlag
    • Braunschweiger Zeitungsverlag
  • Augsburger Allgemeine
  • General-Anzeiger Bonn
  • O'Globo
  • Dallas News

Die reine Volltextsuche ist nur noch Must-Have - Auto-Suggestion, "Meinten Sie", Suchwort-Highlighting, Facettierte Suchen: all das gehört mittlerweile zu einer ordentlichen Suche dazu. Schonende Hardwareressourcen, schnelle Antwortzeiten, Failovers und attraktive Betriebskosten werden ebenso als Standard angesehen.

In den vielen Verlagsprojekten sind neben diesen Anforderungen der Technik die inhaltlichen Anforderungen enorm hoch, um schneller und effizienter Inhalte qualitativ besser zu erstellen oder zu veredeln.

Hierzu gehören weiterführende Suchansätze oder Lösungen mit Solr, Lucene und Stanbol, wie

  • automatische Kewyword-Generierung
  • automatische Empfehlung von ähnlichen Artikeln
  • Entity-Extraktion aus gelieferten Inhalten.

Für alle Aufgabenstellungen hat unitb consulting unterschiedliche Lösungen implementiert.


Automatische Keyword-Generierung

Redakteure sollen beim Schreiben so weit wie möglich entlastet werden. Deshalb generieren wir aus dem geschriebenen Text für Ihre Redakteure automatisch Keywords, die diese nutzen oder überschreiben können. Durch das Vertaggen mittels der Keywords entsteht die Möglichkeit, mit gleichen Keywords vertaggte Artikel in Beziehung zu setzen und dem Leser einen Mehrwert zu geben.

Die Keywords lassen sich zusätzlich mit einem Thesaurus abgleichen, Synonyme finden oder Überbegriffe mittels Tag-Bäumen finden.

Aus den Keywords können beliebig Themenseiten erstellt werden. Themenseiten erweitern das Leseangebot Ihrer Nutzer und haben vor allem eine sehr hohe SEO-Relevanz.


Ähnliche Arikel finden

Nach dem Schreiben des Artikel müssen die Redakteure meist händisch ähnliche Artikel aus dem Online-CMS heraussuchen, um diese für Ihre Leser mit anzubieten. Dieser Prozess ist sehr zeitaufwendig.

Deshalb hat unitb consulting ein Plug-In entwickelt, welches auf Basis von Apache Lucene eine Textanalyse durchführt und im Online-CMS ähnliche Artikel heraussucht. Diese Vorschläge können vom Redakteur automatisch übernommen werden und oder manuell zugeordnet werden. Vielfältige Steuerungsmöglichkeiten, z.B. ob die ähnlichen Artikel nach Relevanz, Zeit oder einem Mix aus Beidem zugeordnet werden sollen, runden das Plug-In in seiner Funktionalität ab.

So sparen Sie Zeit und werten Ihr Angebot qualitativ auf, ähnliche Artikel erhöhen die Verweildauer auf der Seite und erhöhen das Besuchs-/Seitenaufrufverhältnis positiv.


Erkennung von Entities (Personen, Orte, Firmen, Marken) im Text (Entity-Extraktion)

Das neueste und anspruchsvollste Plug-In von unitb consulting ist die Personenerkennung aus Texten. Für den Gongverlag ist dieses Modul im Bereich der Prominenten-Erkennung im Einsatz, um aus den Texten der Frauenzeitschriften das Who-is-Who der deutschen und europäischen Prominenz zu extrahieren. Neben den reinen Namen wie z.B. "Oliver Kahn" werden auch Synonyme wie "der Torwart-Titan" erkannt und verschlagworten dieses Text qualifiziert mit Personen. Dieser Natural Language Programming (NLP) Algorithmus läßt sich auf andere Entitäten wie Orte, Firmen und Marken ausweiten. In einer Ausbaustufe werden zusätzlich Beziehungen zwischen  Personen hergestellt, um auch aus reinen Vornamen Personen zu erkennen, z.B. wenn "Boris" und "Lilly" im Text vorkommen, kann der Algorithmus bei weiteren Kriterien entscheiden, dass es sich um die Familie Becker handelt.

Die entsprechenden Wörterbücher werden durch selbst lernende Algorithmen automatisch mit neuen Personen ergänzt, die dann manuell qualitätsgesichert werden.

 

Haben Sie Interesse an diesen anspruchsvollen Implementierungen? Sprechen Sie uns an!

 


Kontakt

Falls Sie Fragen oder Interesse an weiteren Informationen haben, nehmen Sie Kontakt mit uns auf.

Telefon +49.30.44 31 92 00
E-Mail office@unitb-consulting.de
Adresse unitb consulting GmbH
Brunnenstraße 156
10115 Berlin