Automatische Schrift- und Objekterkennung in Bildern mit Azure Cloud-Diensten von Microsoft ohne aufwändige Programmierung

By Autor In Allgemein On 28. Juli 2020

In einem meiner letzten Beiträge habe ich den Nutzen von Azure Logic Apps bei der automatisierten Bearbeitung von E-Mails beschrieben (Link auf den Beitrag). E-Mails mit Dateianhängen werden automatisch erkannt und folgendermaßen verarbeitet: Der E-Mail-Body und auch die Datei-Anhänge werden in einem „Azure Blob“ gespeichert. Dies ist ein Cloud-Speicher von Microsoft, der im weiteren Sinne mit dem populären Dropbox-Speicher vergleichbar ist.

Sollen die automatisch gespeicherten Datei-Anhänge nun ausgewertet werden, kann dies ebenfalls ohne aufwändige Softwareentwicklung erfolgen, indem erneut Azure Logic Apps eingesetzt werden.

Azure Logic Apps können auf viele Standard-Cloud-Speicher wie Dropbox, Google Drive oder OneDrive zugreifen und die Inhalte durch die Azure Cognitive Services analysieren lassen. Die Dateien können auch vom Cloud-Speicher des einen Anbieters in den Cloud-Speicher eines anderen Anbieters kopiert werden:

Auch hier entsteht keine Arbeit für die Softwareentwicklung, sondern nur Konfigurations-Aufwand. Allerdings sollte der zugehörige Einsatz für die Analyse des jeweiligen Prozesses und für die Durchführung von Tests nicht vergessen werden.

Bildanalyse zur Weiterverarbeitung
Im folgenden Beispiel sollen ein oder mehrere Bilder (JPG, PNG, BMP), die in einem Dropbox-Speicher abgelegt werden, anschließend analysiert werden, um zu ermitteln,
• welche Objekte sich im Bild befinden

• und/oder welche Schriftzüge/Texte im Bild enthalten sind
• und falls sich Texte im Bild befinden, sollen auch die wesentlichen Schlüsselworte (Key Phrases) festgestellt werden.

Basierend auf den automatisch ermittelten Informationen könnte dann eine Entscheidung (maschinell oder menschlich) getroffen werden, wie das Bild weiter verarbeitet werden soll oder wie die Text-Inhalte ausgewertet werden.

Soll die Verarbeitungskette automatisch ablaufen, so können die Ergebnisse auch maschinell weiterverarbeitet werden können. Oftmals sind solche Funktionen nur als Bestandteil komplexerer Software-Anwendungen möglich oder sie müssen programmiert werden. Dies bedeutet nicht selten Softwareentwicklungskosten in fünfstelliger Höhe. Mit Azure Logic-Apps bleiben die Kosten dafür deutlich geringer.

In obigem Beispiel überwacht eine Azure Logic-App einen Dropbox-Ordner auf neu entstandene Dateien und nimmt die beschriebenen Schritte (Bild-Analyse und Text-Erkennung) vor, sobald eine neue Datei im überwachten Dropbox-Ordner angelegt wurde. Dropbox ist populär und wird von vielen Anwendungen unterstützt. Für die Logic App ist es auch unerheblich, wie die neue Datei dort entstanden ist. Sie könnte auch mit einer anderen Logic App aus einer Mail eines GMail- oder Office365-Postfachs entnommen und im Dropbox-Ordner abgelegt werden, beispielsweise mit folgenden Schritten, bei denen jeder Dateianhang einer Mail in einem Dropbox-Ordner abgelegt wird:

Die Ergebnisse aus der Text-Erkennung und der Bild-Analyse werden in gewöhnlichen Text-Dateien abgelegt und stehen dann der Weiterverarbeitung zur Verfügung.

Hier nun ein konkretes Beispiel einer Text-Erkennung und der Bild-Analyse anhand dieses Bildes mit Text:

• Folgender Text wurde dabei (mit geringen Fehlern) erkannt:

Obst und Gemüse stecken voller Vitamine, Spurenelemente und Ballaststoffe – genau das Richtige für eine gesunde undabwechslungsreiche Ernährung. Bild: yanadjan/stock_adobe.com
In Obst und Gemüse stecken viele wichtige Nährstoffe, sie
enthalten aber auch viel Wasser und sind deshalb (meist)
energiearm. Deshalb sind sie gut für Ihre Gesundheit. In einer
Stellungnahme weist die Deutsche Gesellschaft für Ernährung
(DGE) darauf hin, dass eine Ernährung mit einem hohen Anteil
pflanzlicher Lebensmittel nicht nur gesund erhält, sondern auch
Krankheiten vorbeugen kann. IN FORM stellt Ihnen hier die wichtigsten Gründe vor, warum Obst und Gemüse täglich auf Ihrem Speiseplan stehen sollten:TIPPDer IN FORM Salsonkalender
verrät Ihnen, in welchem Monat das Angebot verschiedener
Obst- und Gemüsesorten besonders Üppig ist

• Folgende Schlüsselworte wurden ermittelt:

[“Obst”,
“FORM”,
“Gemüse stecken voller Vitamine”,
“gesunde undabwechslungsreicheErnährung”,
“Spurenelemente”,
“Ballaststoffe”,
“wichtige Nährstoffe”,
“Speiseplan stehen”,
“TIPPDer”,
“Stellungnahme”,
“Deutsche Gesellschaft”,
“wichtigsten Gründe”,
“hohen Anteil”,
“enthalten”,
“Wasser”,
“pflanzlicher Lebensmittel”,
“Angebot verschiedener”,
“Bild”,
“Gesundheit”,
“DGE”,
“Krankheiten”,
“Salsonkalender”,
“Gemüsesorten”]

• Die automatisch erstellte Bildbeschreibung lautet :

a screenshot of fruit and vegetables;

• Folgende Objekte wurden im Bild erkannt:
[“table”,
“fruit”,
“food”,
“different”,
“sitting”,
“photo”,
“small”,
“plate”,
“wooden”,
“filled”,
“colorful”
,”holding”,
“bowl”]

Übersetzung in 60 Sprachen möglich
Eine Übersetzung der erkannten Begriffe in die deutsche Sprache ist mit Azure Logic App und Azure Cognitive Services als zusätzlicher Schritt ebenfalls möglich. Für eine Übersetzung stehen über 60 verschiedene Sprachen zu Verfügung. Die Bilder lassen sich somit in allen verfügbaren Sprachen verschlagworten.
Die erkannten Texte können in der weiteren Verarbeitung anhand der ermittelten Schlüsselworte kategorisiert und mit ihnen zusammen gespeichert werden, um sie einem anderen Mitarbeiter oder dem nächsten Verarbeitungsschritt zuzuordnen.

Automatische Objekterkennung ist vielseitig nutzbar
Für Rechnungen, Lieferscheine und gängige „Dokumente“ ist diese Vorgehensweise heutzutage eine standardisierte Verarbeitung. Aber in vielen Fachbereichen wie Bauwesen, Finanzierung, Personalwesen, Handel, Verarbeitung von Katalog- und Produktbildern wird diese Technologie noch wenig genutzt, obwohl sie vielseitig einsetzbar ist.

Das Trainieren einer Künstlichen Intelligenz mit eigenen Bildern mit Hilfe des Moduls „Custom Vision“ ist ebenfalls möglich.

Hierbei könnte ein vorhandenes Modell, das bereits Getränkeflaschen und Getränkedosen unterscheiden kann, soweit verfeinert werden, dass es die Flaschen und Dosen unterschiedlicher Hersteller oder unterschiedlicher Marken erkennen kann. Hierauf werde ich in einem meiner nächsten Beiträge eingehen.

Alle Produktnamen sind geschützte Marken und Markennamen der jeweiligen Hersteller.

Vortrag beim 54. Bremer Security Forum: „KI in der Praxis – und was bedeutet das für die Informationssicherheit?“

IT-Sicherheit ist ein Thema, das in keinem Unternehmen vernachlässigt werden darf. Gut, dass es das Freie Institut für IT-Sicherheit e.V. (IFIT) gibt, das den direkten Wissens- und Erfahrungsaustausch zur Verbesserung der IT-Sicherheit unterstützt. Deshalb lud das IFIT am 3. April[...]

Flexible, kostengünstige und skalierbare Anwendungsarchitektur – ein Praxisbeispiel

Im Bereich der kundenspezifischen Softwareentwicklung existieren bereits viele erprobte und bewährte Methoden für moderne Anwendungsarchitekturen. Insbesondere bei mehrschichtigen und verteilten Anwendungen können eine hohe Leistung und Flexibilität der Anwendungen erreicht werden. Jedoch steigen die Kosten für eine individuelle Softwareentwicklung oft[...]

Neue Möglichkeiten des Wissensmanagements – ChatGPT verarbeitet Unternehmensdaten mit Azure OpenAI und Cognitive Search

Millionen von Menschen haben mittlerweile mit ChatGPT experimentiert und erstaunliche Erfahrungen mit den Möglichkeiten gemacht. Wer sehr aktuelle Daten oder Daten, die nicht öffentlich sind (wie die eigenen Unternehmensdaten) verwenden will, stößt jedoch schnell an Grenzen. Das ist schade, denn[...]

Erstellung von Zusammenfassungen mit Künstlicher Intelligenz und OpenAI

Das Zusammenfassen von Gesprächsprotokollen oder das Erstellen eines „Abstracts“ aus recherchierten Texten war bisher mit einem hohen Zeitaufwand verbunden. Künstliche Intelligenz und OpenAI bringen frischen Wind in diese Aufgaben und helfen diese meist lästigen Arbeiten schnell zu erledigen. OpenAI und[...]

Digitalisierung – vom Spielzeug zur skalierbaren und erweiterbaren Architektur

Digitalisierung macht Spaß! Angeregt durch den Artikel „ExoMy: Mars-Rover zum Selberbauen“ hat SAB Geschäftsführer Dipl.-Phys.Ing. Stefan Scharr seinen eigenen Mars-Rover gebaut. Dieser Roboter dient nun als Anschauungs-Objekt für Seminare und Vorlesungen sowie für Präsentations-Zwecke. Denn was als Freizeitbeschäftigung begann, hat[...]

Digitalisierung im Unternehmen – Rechnet sich das?

Eine Frage rund um Digitalisierung, die mir häufig gestellt wird, lautet: „Lohnt sich Digitalisierung überhaupt für kleinere Unternehmen? Oder ist das nur etwas für Großunternehmen und Konzerne?“. Diese Frage kommt gerne von Firmen, die sich scheuen, ein Digitalisierungsprojekt zu starten.[...]

Interpretation von Daten mit Azure Cognitive Search und Knowledge Store – Praxisbeispiel Hotelbewertungen

Die Interpretation von Daten ist heutzutage ein wichtiges Instrument bei der Führung eines Unternehmens. So können Trends, Kundenerwartungen sowie Marktentwicklungen schnell aufgespürt und darauf reagiert werden. Das muss nicht zeitaufwändig sein. Am Beispiel von Bewertungen von Hotels, die in Textform[...]

Von Daten zu Informationen – Cloudsuchdienst Azure Cognitive Search mit Knowledge Store (Wissensspeicher)

In einem meiner letzten Blog-Beiträge mit dem Titel „Das Wissen im Unternehmen transparent machen“ habe ich die Azure Cognitive Search vorgestellt. In einem weiteren Beitrag mit dem Titel „Cloudsuchdienst Azure Cognitive Search im Praxis-Test“ präsentierte ich eine Beispiel-Anwendung, in der[...]

Cloudsuchdienst Azure Cognitive Search im Praxis-Test

In meinem letzten Blog- Beitrag „Das Wissen im Unternehmen transparent machen“ habe ich die Funktionalität von Azure Cognitive Search erläutert. Der Beitrag endete mit dem Versprechen zu diesem Thema Anwendungen, die einen Suchindex verwenden, vorzustellen. Nun ist es soweit! Zur[...]

Automated Machine Learning – in kurzer Zeit prüfen, ob die Datenbasis für wirtschaftliche Entscheidungen ausreicht

Daten sind das Gold des digitalen Zeitalters! Allerdings müssen Daten, wie jeder Rohstoff, aufbereitet werden. Sind ausreichend Daten im passenden Format vorhanden, kann man durch computergestützte Analysen Muster erkennen und auf deren Basis wirtschaftliche Entscheidungen treffen. Automated Machine Learning ermöglicht[...]

Automatische Schrift- und Objekterkennung in Bildern mit Azure Cloud-Diensten von Microsoft ohne aufwändige Programmierung

Related Posts

Kategorien

Neueste Beiträge

Archive