Technologien & Themen | Technologiefelder bei Averbis

Produkte für heute mit Lösungen von morgen

Lösungen & Technologien

TEXT MINING

MACHINE LEARNING

SEMANTISCHE SUCHE

TERMINOLOGIE-MANAGEMENT

Text Mining

AUTOMATISCHE DOKUMENTENKLASSIFIZIERUNG

Dokumentenklassifizierung: Artikel und Textdokumente werden zur Indexierung automatisch anhand eines frei definierbaren Kategoriensystems klassifiziert. Beispielsweise können Agenturmeldungen so automatisch den jeweiligen Ressorts (z.B. „Wirtschaft“, „Politik“) zugewiesen werden.

FLEXIBLE KONZEPTERKENNUNG DURCH TERMINOLOGIEN

Konzepterkennung durch den Einsatz von Terminologien: Dabei ist die Lexikonstruktur flexibel und ermöglicht die Aufnahme von Synonymen und verschiedenen Attributen, die für die Annotation eine Rolle spielen. Der Lexikonabgleich kann auf zusammenhängenden oder getrennten Textblöcken durchgeführt werden („Innovationsfähigkeit“ vs. „Fähigkeit zur Innovation“).

PRÄZISE IDENTIFIKATION

Erkennung von Entitäten durch die rein statistische Verrechnung von etlichen unterschiedlichen Informationen und Merkmalen aus Kontextwörtern. Somit werden präzise Personen- und Produktnamen, Organisationen oder geografische Angaben identifiziert.

ANALYSE & MINING

Sentiment-Analyse und Opinion-Mining: Qualitative Werturteile werden in Texten zuverlässig erkannt und auf Satzebene ausgewertet. Averbis – Text Mining in Perfektion.

Überzeugen Sie sich von der Performance von Information Discovery im Vergleich zu Apache UIMA

Feature-Vergleich

Machine Learning

AUTOMATISCHE KLASSIFIKATION VON DOKUMENTEN

Die Dokumenten- oder Text-Klassifikation von Information Discovery ermöglicht die einfache Klassifikation von Dokumenten mit statistischen Verfahren aus dem Bereich Künstlichen Intelligenz.

Wir bieten Klassifikations- und Clustering-Techniken auf der Grundlage moderner Text Mining und maschineller Lernverfahren durch Natural Language Processing an.

Dadurch können Anwendungsszenarien wie Sentiment-Analyse, Content-Monitoring, Technologie-Kategorisierung, Predictive Coding, Clustering, Alerting und Dokumenten-Recherche in wenigen Schritten umgesetzt werden.

Einfach & Schnell

Anwender benötigen kein tiefgreifendes Verständnis über statistische Lernverfahren. Sie können unsere Services sowohl über eine leistungsfähige grafische Oberfläche als auch über Web-Services verwenden. Die Methoden des maschinellen Lernens wie z.B. Natural Language Processing und Deep Learning unterstützen Information Professionals bei komplexen Annotations- und Klassifikationsarbeiten.

Im Unterschied zu regelbasierten Verfahren, bei denen für jede mögliche Entscheidung eine Regel definiert werden muss, lernen Computer bei maschinellen Lernverfahren aus den Beispielen und Erfahrungen der Experten. Das System wird antrainiert und lernt. Anschließend treffen sie eigenständige Vorhersagen auf neuen, bisher unbekannten Dokumenten.

Die automatische Kategorisierung von großen Datenmengen mit einer hohen Anzahl hierarchischer Kategorien bei hoher Vorhersagequalität erfordert eine ausreichende Anzahl von Lerndaten. Das Konzept des aktiven Lernens (engl. „Active Learning“) minimiert den Aufwand der manuellen Erstellung dieser Daten durch intelligentes Daten-Sampling und iteratives überwachtes Lernen. Weitere Infos zu Machine Learning.

Semantische Suche

INTELLIGENTE SUCHE

Durch die Integration spezieller Komponenten bietet die Suchmaschine eine umfassende Behandlung sprachlicher Phänomene. Selbst Phrasen, Synonyme oder einzelne Bestandteile zusammengesetzter Wörter werden erkannt und Laien- und Expertensprache aufeinander abgebildet („Blinddarmentzündung“, „Entzündung des Blinddarms“, „Appendizitis“, „entzündeter Appendix“ etc.)

FACETTIERTE SUCHE

Um große Treffermengen sinnvoll einzugrenzen, zeigt die Suchmaschine dem Nutzer verwandte Suchbegriffe an, welche mit einer Suchanfrage semantisch assoziiert sind.

AUTOMATISCHE EMPFEHLUNGEN

Auf der Basis von Textähnlichkeiten errechnet die Suchmaschine automatisch Empfehlungen für Artikel, die für den Benutzer ebenfalls von Relevanz sein können.

FLEXIBLES RECHTEMANAGEMENT

Bestehende Konzepte zum Rechtemanagement (bspw. LDAP-Benutzergruppen) können übernommen werden. Dabei unterstützt die Lösung sowohl das Abspeichern der Berechtigungen im Suchindex als auch die Abfrage bestehender Berechtigungsdienste.

Terminologie-Management

WEBBASIERTER EDITOR

Über einen webbasierten Editor lassen sich vorhandene Terminologien und sonstige Begriffskataloge importieren, editieren und zur Informationsextraktion und Verschlagwortung nutzbar machen.

MEHRSPRACHIG

Mehrsprachigkeit wird dabei ebenso unterstützt wie das Anreichern von Wort-Synonymen und Querverweisen zu anderen Terminologien.

FLEXIBEL & INTELLIGENT

Der Editor unterstützt die Eingabe von neuen Termen durch automatische Validierung und Konsistenzchecks und hilft er bei der Anreicherung mit Informationen aus verschiedenen Fremdquellen.

Technologien

SOLR

Apache Solr ist die führende Enterprise Such-Plattform für die Indizierung und Abfrage von digitalen Informationen aller Art. Dabei kann diese Suchmaschine gleichermassen im Extranet sowie auch im Intranet ihren Einsatz finden.

Zu den wichtigsten Eigenschaften von Solr zählen die Volltext-Suche, Treffer-Highlighting, die facettierte Suche, dynamisches Clustering, Mehrsprachigkeit und vieles mehr.

Solr ist hochgradig skalierbar und bietet eine fehlertolerante verteilte Suche und Indexierung. Es wird als Suchmaschine von vielen der weltweit größten Internetseiten eingesetzt.

UIMA

Die Unstructured Information Management Architecture (UIMA) ist eine Architektur und ein Software-Framework zur Programmierung von Text- und Data-Mining-Anwendungen und zu deren Integration in Suchmaschinen.

Die Architektur ist seit 2009 offizieller OASIS Standard und damit der einzige Industriestandard für Content-Analytics Software. Das Apache UIMA Framework ist eine Apache lizensierte Open-Source-Implementierung der UIMA Architektur, und bietet eine Laufzeitumgebung, in welche Entwickler ihre UIMA-Komponenten integrieren und UIM Applikationen entwickeln können. Das Framework selbst ist nicht spezifisch für eine bestimmte IDE oder Plattform.

NEO4J

Neo4j ist eine der führenden Graph-Datenbanken, die in zahlreichen Unternehmen, darunter mehr als 50 Global 2000 Kunden, zum Einsatz kommt. Neo4j bietet ultraschnelle Schreib- und Leseperformanz bei uneingeschränkter Datenintegrität.

Es vereint einen nativen Graphen-Speicher mit einer skalierbaren, auf Geschwindigkeit ausgelegten Architektur und ACID-Compliance, um die Vorhersagbarkeit relationsbezogener Anfragen zu gewährleisten. Laut DB Engines, der anerkannten Rangliste für die aktuellen Top-Datenbankmanagementsysteme, ist Neo4j die am schnellsten wachsende Datenbank seiner Art.

ANGULARJS

AngularJS ist ein Open-Source Web-Applikations-Framework, welches von Google und einer Community von Entwicklern und Unternehmen bereitgestellt wird. Es addressiert eine Vielzahl von Herausforderungen, die bei der Entwicklung von „Single-Page“-Applikationen entstehen.

AngularJS möchte sowohl die Entwicklung als auch das Testen dieser Anwendungen vereinfachen und stellt hierfür ein Framework für client-seitige Model-View-Controller (MVC) und Model-View-Viewmodel (MVVM)-Architekturen bereit. Zusätzlich existieren eine Vielzahl von Komponenen, die für die Entwicklung von Rich-Internet-Applikationen verwendet werden.

BOOTSTRAP

Bootstrap ist ein freies und sehr häufig verwendetes CSS-Framework. Es enthält auf HTML und CSS basierende Gestaltungsvorlagen für Typografie, Formulare, Buttons, Tabellen, Grid-Systeme, Navigations- und andere Oberflächengestaltungselemente sowie zusätzliche, optionale JavaScript-Erweiterungen.

Es gehört zu den meistgenutzten Projekten beim Open-Source-Hostingdienst GitHub und wird unter anderem von der NASA und dem US-amerikanischen Nachrichtensender MSNBC eingesetzt.

Finden Sie Antworten in Ihren Daten

Gerne präsentieren wir Ihnen unsere Produkte und erstellen für Sie einen Demonstrator auf Basis Ihrer ausgewählten Datenbestände.

Kontaktieren Sie uns