You have a question, a project?

Tell us more about it!

*
*
*
*
*
* : mandatory fields

Neue Version der Such- und Analysesoftware Sinequa

Sinequa ES 9 bietet Hadoop- und Mahout-Integration, Smart Caching, semantische Markierungen und "Hyper-Indizierung"
Paris/Frankfurt am Main, 26. Juni 2014. Sinequa, Spezialist für Big Data Echtzeit-Suche und -analyse mit Sitz in Paris, hat im Juni ein neues Release seiner gleichnamigen Such- und Analyseplattform veröffentlicht. Highlight von Version 9 ist die Integration und Nutzung von Hadoop/Mahout. Dadurch ermöglicht Sinequa automatische Klassifikation und Clustering, Empfehlungen und prädiktive Analysen.

"Version 9 bedeutet für uns technologisch einen großen Schritt nach vorne", erklärt Alexandre Bilger, CEO von Sinequa. Für eine automatische Klassifikation kann der Anwender große Mengen bereits klassifizierter Dokumente an Sinequa/Mahout senden und das System anweisen, neue Dokumente analog zu klassifizieren. Etwaige Fehler werden manuell korrigiert und das System berücksichtigt die Korrekturen bei der nächsten Klassifizierung. Diese Methode des maschinellen Lernens ist hilfreich, wenn große Mengen klassifizierter Dokumente vorliegen und die Nutzer Schwierigkeiten haben, Regeln für die Klassifizierung eindeutig zu formulieren, etwa weil jeder einen anderen Blickwinkel auf das Dokumente hat.

Performancesteigerung durch doppelte Indizierung und intelligentes Cashing

Über Hyper-Indizierung und intelligente Caching-Mechanismen hat Sinequa die Performance seiner Analyseplattform bei der Echtzeitsuche und -analyse nochmals erhöht. In der neuen Version wurde die Indizierung, also die Analyse der Inhalte und das Zusammenstellen eines Datenreservoirs, erweitert durch Schaffung eines "Hyperindex". Der ursprüngliche Index wird dabei ein zweites Mal indiziert. So generiert Sinequa aus einer großen Sammlung von Dokumenten einen kompletten "Fingerabdruck" für den Suchenden, der alle Kompetenzen einer Person und der Themen, an denen diese im Laufe der Zeit gearbeitet hat, in konzentrier Form und kürzester Zeit zur Verfügung stellt. Über diesen "semantic join" verbindet Sinequa Experten direkt mit Themen, ohne dass die zugrunde liegenden Dokumente im Suchergebnis noch einmal auftauchen.

Für Datenquellen, die nicht für eine schnelle Datenextraktion ausgelegt sind, bietet Sinequa ES V9 intelligente Caching-Mechanismen. Diese verbindet die Vorteile der Suche und "elastischer Speicherung" von Original-Inhalten.

Die Hadoop-Integration ist auf drei Ebenen möglich: Entweder Sinequa spricht das Hadoop-Dateisystem HDFS als Datenquelle über einen neu geschaffenen Konnektor an. Bei der bidirektionalen Hadoop-Integration indiziert die Analysesoftware Hadoop-Daten oder der Sinequa-Index wird seinerseits von Hadoop angesprochen für typische Hadoop-Operationen wie das Erstellen von Relevanz-Rankings, Empfehlungen oder prädiktiven Analysen. Darüber hinaus kann Sinequa ES V9 Hadoop-Berechnungen für die sprachliche Indizierung und Index-Neuzusammensetzung verwenden. Mit Hadoop Mahout (Machine Learning) kann Sinequa Algorithmen für Hadoop-Operationen nutzen.

Für Version 9 wurden außerdem neue Konnektoren zu weiteren Repositorien für strukturierte und unstrukturierte Daten entwickelt. Damit stehen im neuen Release insgesamt 140 Anschlüsse zur Verfügung, was eine noch verfeinerte Inhaltsanalyse in nunmehr 19 Sprachen ermöglicht, darunter auch Chinesisch, Japanisch und Koreanisch. Die Geo-Location-Funktionen verknüpfen Personen oder Objekte mit einer geografischen Position und können Distanzen beim Relevanz-Ranking berücksichtigen (z.B. so, dass Relevanz mit der Entfernung abnimmt). Durch seine Grid-Architektur ist die Sinequa-Plattform skalierbar bis hin zu "Big Data"-Umgebungen; diese Elastizität beim Hinzufügen neuer Nutzer oder Datenquellen wurde in Version 9 noch einmal erweitert durch die Integration von Amazon Web Services. So können Anwender die Analyseplattform wahlweise in der Amazon-Cloud hosten.