+49 40 790 117 97 info@sab-team.com

Menu
Cloudsuchdienst Azure Cognitive Search im Praxis-Test

Cloudsuchdienst Azure Cognitive Search im Praxis-Test

By In Allgemein On 25. Januar 2022


In meinem letzten Blog- Beitrag „Das Wissen im Unternehmen transparent machen“ habe ich die Funktionalität von Azure Cognitive Search erläutert. Der Beitrag endete mit dem Versprechen zu diesem Thema Anwendungen, die einen Suchindex verwenden, vorzustellen. Nun ist es soweit!

Zur Erinnerung: Cognitive Search ist ein Cloudsuchdienst von Microsoft, mit dem Dokumente durchsucht werden können und Schlagworte in einem Suchindex gespeichert werden. Damit können Suchfunktionen, leicht in eigene Anwendungen integriert werden. So die Theorie – und in der Praxis?

Kopie, Scan, Foto? Egal!
Für das nachfolgende Beispiel habe ich 80 Dokumente in den Formaten PDF und Word verwendet. Sie enthalten Text in deutscher und englischer Sprache und auch Bilder. Der Text ist teilweise direkt kopierbarer Text oder gescannter Text, der als Bild innerhalb der Datei gespeichert wird.

Die 80 Dokumente habe ich in Cloud-Speicher, einen sogenannten Azure Blob Storage, hochgeladen. Übrigens: Dieser Speicher kann bei Bedarf DSGVO-konform konfiguriert werden.
Im anschließenden Schritt habe ich einen sogenannten Such-Index erstellt. Dabei wurden die Texte auf Schlagworte, Schlüsselworte untersucht und eine Gefühlsanalyse (Sentiment Analysis) durchgeführt. Ist die Stimmung im Text maximal positiv, so entspricht dies dem Wert 1.0. Bei maximal negativer Stimmung beträgt der Wert der Sentiment-Analyse nur 0.0.

Gescannter Text wurde per OCR ermittelt und ebenfalls analysiert. Im Dokument enthaltene Bilder wurden auf darin enthaltene Gegenständer untersucht und die Gesamtsituation des Bildes erkannt.

Alle ermittelten Angaben wurden im Suchindex gespeichert, wobei die Analyse der 80 Dokumenten nur wenige Sekunden in Anspruch nahm. Das Abfragen des Such-Index ermöglicht es, die Dokumente anhand ihrer Inhalte wiederzufinden. Dies kann beispielsweise mit Programmiersprachen, wie Python oder C#, erfolgen oder mit direkten Aufruf von http-requests, da der Suchindex über ein REST-API abgefragt werden kann.

Beispiel-Anwendungen
Nachfolgend finden sich Screenshots von vier Beispiel-Anwendungen. Die gesuchten Begriffe können im Text der Dateien sein, die unterschiedliche Formate aufweisen, wie z.B.
• Word
• PDF (direkt lesbar)
• PDF (gescannte Texte)
oder in der Beschreibung enthaltener Bilder.

Die Anwendung ist noch „experimentell“, was bedeutet, dass sie nur die Funktionalität nachweist und noch nicht für den Endanwender bereitgestellt werden kann. Eine verbesserte grafische Oberfläche ist bei Microsoft in Arbeit und wird innerhalb der nächsten ein bis zwei Monate vorgestellt. Ab dem zweiten Quartal 2022 soll sie dann auch für Kunden nutzbar sein.

 

Startseite:

Suche nach dem Begriff „handlungsfähig“ mit Ergebnis: eine Word-Datei, die in ihrem Text das Wort „handlungsfähig“ enthält

Suche nach dem Begriff „Joghurt“. Per OCR (Optical Character Recognition) wurden auch die gescannten Texte analysiert.

Suche nach dem Begriff „Panda“ mit dem Ergebnis einer PDF-Datei, die ein Bild mit zwei Panda-Bären enthält:


Suche nach dem Begriff „house“ mit den Ergebnissen
• Eine Datei mit einem Bild, auf dem ein Haus zu sehen ist
• Eine Datei mit dem Wort „house“ im Text

 

Praxis-Test bestanden!
Mein Fazit: Azure Cognitive Search kann problemlos für die effiziente Suche in Dokumenten verwendet und in eigene Anwendungen integriert werden.

Und es bleibt spannend: Im nächsten Blog-Beitrag zu diesem Thema beschreibe ich die Verwendung eines sogenannten „Knowledge-Stores“. In einem Knowledge-Store kann nicht nur mit selbst erstellten Programmen gesucht werden, sondern auch mit Business Intelligence Tools, wie z.B. Microsoft Power BI. Zusätzlich können im Knowldege Store eigene sogenannte „Custom Skills“ untergebracht werden.

Alle Produktnamen sind geschützte Marken und Markennamen der jeweiligen Hersteller.


Related Posts