Von Daten zu intelligenten Systemen: Data Science als Schlüssel für erfolgreiche KI
Medizinische Assistenzsysteme oder Software-Lösungen zur vorausschauenden
Wartung von Industrieanlagen versprechen großen Nutzen. Sie basieren auf
Daten, die mit Methoden der Künstlichen Intelligenz (KI) ausgewertet
werden. Voraussetzung ist ein umfassendes Datenmanagement. Warum es bei
der Entwicklung von KI-Systemen auf die „richtigen“ Daten ankommt, was
Data Engineering bedeutet und welche Kompetenzen Data Science-Fachleute
benötigen, erläutert Kai-Uwe Sattler, Professor für Datenbanken und
Informationssysteme an der TU Ilmenau. Er ist Mitglied der Arbeitsgruppe
„Technologische Wegbereiter und Data Science“ der Plattform Lernende
Systeme und Co-Autor des Whitepapers „Von Daten zu KI“.
Herr Sattler, große Mengen an Daten plus intelligente Algorithmen ergeben
nutzbringende KI-Anwendungen. Was ist falsch an dieser Rechnung?
Kai-Uwe Sattler: Große Datenmengen allein genügen leider nicht. Zwar
werden gerade für das Lernen mit tiefen Netzen große Trainingsdaten
benötigt, aber dies erhöht natürlich auch den Aufwand der Datenerfassung,
-vorbereitung und des Trainings. Daher kommt es darauf an, die "richtigen"
Daten als Trainingsdaten zur Verfügung zu haben. So sollten die
Trainingsdaten – beispielsweise für die Bilderkennung – natürlich die zu
identifizierenden Objekte enthalten. Aber eben auch Negativbeispiele in
allen möglichen bzw. auftretenden Variationen. Hierbei sind Bias
(Voreingenommenheit) und Diskriminierung schon bei der Datenauswahl zu
vermeiden. In der Literatur ist eine ganze Reihe von Beispielen für Bias
und Diskriminierung beschrieben, die zeigen, welche Auswirkungen dies
haben kann.
Wie werden aus Daten brauchbare Daten? Worauf kommt es beim Data
Engineering an?
Kai-Uwe Sattler: Zunächst müssen überhaupt geeignete Daten erfasst werden,
die das zu bearbeitende Problem repräsentieren. So sollten für eine
Anwendung im Bereich Predictive Maintenance eben auch Fehlerzustände, und
nicht nur normale Betriebsdaten erfasst werden. Sind Daten erfasst, müssen
sie aufbereitet werden. Dies umfasst die Bereinigung wie das Erkennen und
Entfernen fehlerhafter Werte, die Verknüpfung mit anderen Daten und ggf.
die Annotation der Daten. Sowohl die Daten als auch die Erfassungs- und
Verarbeitungsprozesse sollten dokumentiert und durch Metadaten beschrieben
werden, um eine Nachvollziehbarkeit zu gewährleisten. Der Aufwand dieser
Vorbereitung kann in KI-Projekten bis zu 80 Prozent des Gesamtaufwands
betragen. Data Engineering stellt die Methoden und Infrastrukturen für
diese Prozesse zur Verfügung und umfasst Datenmanagement, Datenintegration
und Datenaufbereitung – beispielsweise durch Datenbanksysteme, Big Data-
Systeme oder Data Cleaning-Werkzeuge.
Welche Fähigkeiten benötigen Entwicklerinnen und Entwickler, um
vertrauenswürdige KI-Anwendungen zu schaffen?
Kai-Uwe Sattler: Neben Methodenkenntnissen aus dem Bereich des
maschinellen Lernens bzw. der Künstlichen Intelligenz sind dies
insbesondere Kenntnisse zur Datenmodellierung, -transformation und
-integration, aber auch Kenntnisse der Statistik, um Eigenschaften der
Daten und die Qualität der Ergebnisse bewerten zu können. Ferner sind
Kenntnisse aus den Bereichen Ethik und Recht hilfreich, um
verantwortungsvoll mit den Daten umgehen zu können. Und natürlich ist auch
umfassendes Anwendungswissen unabdingbar. Dies zeigt schon, dass es sich
nicht mehr allein um klassische Softwareentwicklung handelt. Vielmehr sind
dies Anforderungen, die einen interdisziplinären Zugang erfordern:
Anwendungsexpertinnen und -experten benötigen zunehmend sogenannte Data
Literacy-Expertise und Data Science-Fachleute müssen auch die
Anwendungsdomänen verstehen. Hier wird sich sicher ein großer Bedarf an
Weiterbildungsangeboten entwickeln.
Weiterführende Informationen:
Das Whitepaper „Von Daten zu KI – Intelligentes Datenmanagement als Basis
für Data Science und den Einsatz Lernender Systeme“ der Plattform Lernende
Systeme steht hier zum kostenlosen Download bereit: https://www.plattform-
lernende-
systeme.de/files/Downloads/Pub
Einen Überlick über Studiengänge rund um KI und Data Science in
Deutschland liefert die KI-Landkarte der Plattform Lernende Systeme:
https://www.plattform-lernende
Über die Plattform Lernende Systeme
Die Plattform Lernende Systeme wurde 2017 vom Bundesministerium für
Bildung und Forschung (BMBF) auf Anregung des Fachforums Autonome Systeme
des Hightech-Forums und acatech gegründet. Sie vereint Expertinnen und
Experten aus Wissenschaft, Wirtschaft, Politik und Zivilgesellschaft aus
dem Bereich Künstliche Intelligenz. In Arbeitsgruppen entwickeln sie
Handlungsoptionen und Empfehlungen für den verantwortlichen Einsatz von
Lernenden Systemen. Ziel der Plattform ist es, als unabhängiger Makler den
gesellschaftlichen Dialog zu fördern, Kooperationen in Forschung und
Entwicklung anzuregen und Deutschland als führenden Technologieanbieter
für Lernende Systeme zu positionieren. Die Leitung der Plattform liegt bei
Bundesministerin Anja Karliczek (BMBF) und Karl-Heinz Streibich (Präsident
acatech).
Originalpublikation:
Daniel Keim, Kai-Uwe Sattler: Von Daten zu KI – Intelligentes
Datenmanagement als Basis für Data Science und den Einsatz Lernender
Systeme. Whitepaper aus der Plattform Lernende Systeme, München 2020.
