+49 40 790 117 97 info@sab-team.com

Menu
Erfolgreicher durch KI – Daten analysieren und Trends erkennen

Erfolgreicher durch KI – Daten analysieren und Trends erkennen

By In Allgemein On 5. August 2020


In mehreren vorherigen Beiträgen habe ich erläutert, wie einfach Künstliche Intelligenz (KI) mit Microsoft Cognitive Services bereits in vielen Situationen angewandt werden kann. Dabei wurden bereits fertig trainierte Modelle der KI verwendet, die für viele Situationen ausreichend sind.

KI-Unterstützung durch den Azure Machine Learning Service von Microsoft
In diesem und zukünftigen Beiträgen möchte ich den Spagat versuchen, sowohl für Anwender als auch für Experten zu erklären, wie Softwareentwickler und Data Scientists durch den „Azure Machine Learning Service“ beim Erstellen eigener Modelle für Künstliche Intelligenz unterstützt werden können. Oder noch einfacher ausgedrückt: Ich werde erläutern, wie Sie Ihre Daten besser nutzen können, um daraus Vorhersagen generieren zu können.

Im Fokus: Informationsgewinnung und Prognosen erstellen
Eine der grundlegendsten Aufgaben, die Data Scientists im Bereich der KI haben, besteht in der Erstellung und Ausführung sogenannter „Experimente“, in denen Daten aufbereitet und analysiert werden. Aus den analysierten Daten sollen Erkenntnisse gewonnen und Zusammenhänge erkannt werden, damit aus neuen Daten, die aktuell noch nicht vorliegen, ebenfalls Prognosen erstellt werden können.

Der Azure Machine Learning Service bietet Unterstützung bei der Erstellung der Experimente sowohl in grafischer Form als auch in Form von Programmcode an. In diesem Beitrag wird auf die grafische Unterstützung eingegangen, da sie auch für Laien verständlicher ist. Die Erläuterung, wie Modelle mit Programmcode erstellt werden, folgt in einem der nächsten Beiträge.

Experiment „Diabetes-Erkrankung“
In diesem Beispiel wird ein einfacher Datensatz verwendet, der anonymisierte Details zu Patienten enthält, die auf Diabetes getestet wurden. Nur ein Teil der Patienten war an Diabetes erkrankt. Das zu erstellende „KI-Modell“ soll anhand dieser Daten lernen, welche Eigenschaften ein Patient aufweist, der an Diabetes erkrankt sein könnte, ohne dass dafür ein expliziter Test am Patienten durchgeführt werden muss.

Mit Hilfe des Azure Machine Learning Service ist bereits eine erste Visualisierung der Daten möglich, wobei eine Verteilung der Werte innerhalb einer Spalte dargestellt wird:

Statistische relevante Größen wie der Median oder die Standardabweichung (Standard deviation) werden automatisch ermittelt und dargestellt.

In der Regel sind die Daten und die dazugehörigen Zusammenhänge so komplex, dass die Daten weiter aufbereitet oder nicht relevante Daten entfernt werden müssen. Fachleute nennen dies «Feature Engineering». Im nächsten Schritt wird dann eine ”Normalisierung der Daten” vorgenommen. Damit soll vermieden werden, dass eine der gemessenen Größen lediglich aufgrund ihrer höheren Zahlenwerte einen höheren Einfluss auf die Prognose nimmt als die anderen Größen.
Bis die Daten also passend aufbereitet sind, können mehrere Veränderung vorgenommen werden. Diese Veränderungen werden in sogennanten Data Sets versioniert und kommentiert, damit die Data Scientisten später genau nachvollziehen können, welches Data Set mit welcher Art der Datenaufbereitung zur zuverlässigsten Prognose führt.

Ein Training des Modells wird anschließend nicht mit dem kompletten vorliegenden Datensatz vorgenommen, sondern nur mit einem großen Anteil, beispielsweise 70% der Daten und dem Wissen, in welchem Datensatz ein erkrankter Patient und in welchem ein gesunder Patient vorliegt. Daraus soll das System lernen, erkrankte von gesunden Patienten zu unterscheiden.

Mit Hilfe der restlichen 30% der Daten ist nun eine Überprüfung dazu möglich, wie gut das Modell eine Erkrankung vorhersagt. Denn die Prognose des Modells und die Information über die Diabetes-Erkrankung lassen sich ja vergleichen.

Dieser Vorgang wird als „Scoring“ bezeichnet und entspricht einer Qualitätskontrolle (Score Model). Damit lässt sich messen, wie oft das Modell korrekt prognostiziert. Ist die Prognosequalität nicht ausreichend, so können beispielsweise die Daten weiter aufbereitet werden oder die Parameter des Algorithmus geändert werden oder ein anderer Algorithmus eingesetzt werden.

Azure Machine Learning Service bietet erprobte Algorithmen
Die Data Scientists kennen viele dieser Algorithmen und wissen, welcher in der Regel für die jeweilige Aufgabenstellung am ehesten in Frage kommt. Der Azure Machine Learning Service bietet viele der erprobten Algorithmen bereits an:

Damit wird es für die Data Scientisten einfacher, den passenden Algorithmus einzusetzen.
Nachfolgend wird der Ablauf des oben beschriebenen Experiments in grafischer Form komplett dargestellt:

Im letzten Schritt „Evaluate Model“ entstehen Größen, wie ROC Curve, mit denen dann die Qualität des Modells bewertet werden kann.
In diesem Beispiel ist die Qualität noch nicht sonderlich gut. So wäre es ideal, wenn der Wert für „AUC“ (Area under Curve) möglichst nahe dem 1,0 entsprechen würde. Hier liegt er nur bei 0,8597. Dies war zu erwarten, da im Bereich der Datenaufbereitung nicht viel Aufwand betrieben wurde. Das Ziel dieses Beitrags lag aber darin, den kompletten Ablauf vorzustellen und die Vorgehensweise auch für Laien verständlich zu machen.

Diese Vorgehensweise bietet die Möglichkeit, ohne großen Programmieraufwand zu betreiben, eigene Modelle mit Künstlicher Intelligenz zu erstellen, falls kein passendes Modell der Cloud- und KI-Anbieter existiert.

Coming soon….
In den nachfolgenden Beiträgen zeige ich, wie dieses Modell mit einem Webservice veröffentlicht werden kann, damit Anwender es in eigenen Programmen nutzen können und wie Data Scientists die noch notwendigen Optimierungen in automatisierter Form ermitteln können.

Alle Produktnamen sind geschützte Marken und Markennamen der jeweiligen Hersteller.

 


Related Posts