+49 40 790 117 97 info@sab-team.com

Menu
Automatische Schrift- und Objekterkennung in Bildern mit Azure Cloud-Diensten von Microsoft ohne aufwändige Programmierung

Automatische Schrift- und Objekterkennung in Bildern mit Azure Cloud-Diensten von Microsoft ohne aufwändige Programmierung

By In Allgemein On 28. Juli 2020


In einem meiner letzten Beiträge habe ich den Nutzen von Azure Logic Apps bei der automatisierten Bearbeitung von E-Mails beschrieben (Link auf den Beitrag). E-Mails mit Dateianhängen werden automatisch erkannt und folgendermaßen verarbeitet: Der E-Mail-Body und auch die Datei-Anhänge werden in einem „Azure Blob“ gespeichert. Dies ist ein Cloud-Speicher von Microsoft, der im weiteren Sinne mit dem populären Dropbox-Speicher vergleichbar ist.

Sollen die automatisch gespeicherten Datei-Anhänge nun ausgewertet werden, kann dies ebenfalls ohne aufwändige Softwareentwicklung erfolgen, indem erneut Azure Logic Apps eingesetzt werden.

Azure Logic Apps können auf viele Standard-Cloud-Speicher wie Dropbox, Google Drive oder OneDrive zugreifen und die Inhalte durch die Azure Cognitive Services analysieren lassen. Die Dateien können auch vom Cloud-Speicher des einen Anbieters in den Cloud-Speicher eines anderen Anbieters kopiert werden:

Auch hier entsteht keine Arbeit für die Softwareentwicklung, sondern nur Konfigurations-Aufwand. Allerdings sollte der zugehörige Einsatz für die Analyse des jeweiligen Prozesses und für die Durchführung von Tests nicht vergessen werden.

Bildanalyse zur Weiterverarbeitung
Im folgenden Beispiel sollen ein oder mehrere Bilder (JPG, PNG, BMP), die in einem Dropbox-Speicher abgelegt werden, anschließend analysiert werden, um zu ermitteln,
• welche Objekte sich im Bild befinden

• und/oder welche Schriftzüge/Texte im Bild enthalten sind
• und falls sich Texte im Bild befinden, sollen auch die wesentlichen Schlüsselworte (Key Phrases) festgestellt werden.

Basierend auf den automatisch ermittelten Informationen könnte dann eine Entscheidung (maschinell oder menschlich) getroffen werden, wie das Bild weiter verarbeitet werden soll oder wie die Text-Inhalte ausgewertet werden.

Soll die Verarbeitungskette automatisch ablaufen, so können die Ergebnisse auch maschinell weiterverarbeitet werden können. Oftmals sind solche Funktionen nur als Bestandteil komplexerer Software-Anwendungen möglich oder sie müssen programmiert werden. Dies bedeutet nicht selten Softwareentwicklungskosten in fünfstelliger Höhe. Mit Azure Logic-Apps bleiben die Kosten dafür deutlich geringer.

In obigem Beispiel überwacht eine Azure Logic-App einen Dropbox-Ordner auf neu entstandene Dateien und nimmt die beschriebenen Schritte (Bild-Analyse und Text-Erkennung) vor, sobald eine neue Datei im überwachten Dropbox-Ordner angelegt wurde. Dropbox ist populär und wird von vielen Anwendungen unterstützt. Für die Logic App ist es auch unerheblich, wie die neue Datei dort entstanden ist. Sie könnte auch mit einer anderen Logic App aus einer Mail eines GMail- oder Office365-Postfachs entnommen und im Dropbox-Ordner abgelegt werden, beispielsweise mit folgenden Schritten, bei denen jeder Dateianhang einer Mail in einem Dropbox-Ordner abgelegt wird:

Die Ergebnisse aus der Text-Erkennung und der Bild-Analyse werden in gewöhnlichen Text-Dateien abgelegt und stehen dann der Weiterverarbeitung zur Verfügung.

Hier nun ein konkretes Beispiel einer Text-Erkennung und der Bild-Analyse anhand dieses Bildes mit Text:

• Folgender Text wurde dabei (mit geringen Fehlern) erkannt:

Obst und Gemüse stecken voller Vitamine, Spurenelemente und Ballaststoffe – genau das Richtige für eine gesunde undabwechslungsreiche Ernährung. Bild: yanadjan/stock_adobe.com
In Obst und Gemüse stecken viele wichtige Nährstoffe, sie
enthalten aber auch viel Wasser und sind deshalb (meist)
energiearm. Deshalb sind sie gut für Ihre Gesundheit. In einer
Stellungnahme weist die Deutsche Gesellschaft für Ernährung
(DGE) darauf hin, dass eine Ernährung mit einem hohen Anteil
pflanzlicher Lebensmittel nicht nur gesund erhält, sondern auch
Krankheiten vorbeugen kann. IN FORM stellt Ihnen hier die wichtigsten Gründe vor, warum Obst und Gemüse täglich auf Ihrem Speiseplan stehen sollten:TIPPDer IN FORM Salsonkalender
verrät Ihnen, in welchem Monat das Angebot verschiedener
Obst- und Gemüsesorten besonders Üppig ist

 

• Folgende Schlüsselworte wurden ermittelt:

[“Obst”,
“FORM”,
“Gemüse stecken voller Vitamine”,
“gesunde undabwechslungsreicheErnährung”,
“Spurenelemente”,
“Ballaststoffe”,
“wichtige Nährstoffe”,
“Speiseplan stehen”,
“TIPPDer”,
“Stellungnahme”,
“Deutsche Gesellschaft”,
“wichtigsten Gründe”,
“hohen Anteil”,
“enthalten”,
“Wasser”,
“pflanzlicher Lebensmittel”,
“Angebot verschiedener”,
“Bild”,
“Gesundheit”,
“DGE”,
“Krankheiten”,
“Salsonkalender”,
“Gemüsesorten”]

 

• Die automatisch erstellte Bildbeschreibung lautet :

a screenshot of fruit and vegetables;

 

• Folgende Objekte wurden im Bild erkannt:
[“table”,
“fruit”,
“food”,
“different”,
“sitting”,
“photo”,
“small”,
“plate”,
“wooden”,
“filled”,
“colorful”
,”holding”,
“bowl”]

Übersetzung in 60 Sprachen möglich
Eine Übersetzung der erkannten Begriffe in die deutsche Sprache ist mit Azure Logic App und Azure Cognitive Services als zusätzlicher Schritt ebenfalls möglich. Für eine Übersetzung stehen über 60 verschiedene Sprachen zu Verfügung. Die Bilder lassen sich somit in allen verfügbaren Sprachen verschlagworten.
Die erkannten Texte können in der weiteren Verarbeitung anhand der ermittelten Schlüsselworte kategorisiert und mit ihnen zusammen gespeichert werden, um sie einem anderen Mitarbeiter oder dem nächsten Verarbeitungsschritt zuzuordnen.

Automatische Objekterkennung ist vielseitig nutzbar
Für Rechnungen, Lieferscheine und gängige „Dokumente“ ist diese Vorgehensweise heutzutage eine standardisierte Verarbeitung. Aber in vielen Fachbereichen wie Bauwesen, Finanzierung, Personalwesen, Handel, Verarbeitung von Katalog- und Produktbildern wird diese Technologie noch wenig genutzt, obwohl sie vielseitig einsetzbar ist.

Das Trainieren einer Künstlichen Intelligenz mit eigenen Bildern mit Hilfe des Moduls „Custom Vision“ ist ebenfalls möglich.

Hierbei könnte ein vorhandenes Modell, das bereits Getränkeflaschen und Getränkedosen unterscheiden kann, soweit verfeinert werden, dass es die Flaschen und Dosen unterschiedlicher Hersteller oder unterschiedlicher Marken erkennen kann. Hierauf werde ich in einem meiner nächsten Beiträge eingehen.

Alle Produktnamen sind geschützte Marken und Markennamen der jeweiligen Hersteller.


Related Posts