18. November 2019
Machine Learning Federated Learning
TMC – Technology, Media & Communications

Datenschutz-Compliance bei KI am Beispiel Federated Learning

Anwendungen im Kontext von Künstlicher Intelligenz sind auf Unmengen an Daten angewiesen. Konflikte mit der DSGVO sind vorprogrammiert.

Künstliche Intelligenz zu definieren ist sinnlos, denn es handelt sich dabei um ein Marketing-Buzzword ähnlich wie Cloud und Industrie 4.0. Es gibt abstrakt die Richtung zu Anwendungen vor, die wahrnehmen, verstehen, handeln und lernen, ohne dabei aber konkret zu werden. Wenn Elaine Rich in den Achtzigern das Forschungsgebiet der Künstlichen Intelligenz beschrieb als “the study of how to make computers do things at which, at the moment, people are better”, dann wird schnell klar: Unter KI lassen sich sicherlich verschiedene Verfahren subsumieren, die allesamt aber nur einen ähnlichen Zweck teilen.

Ein Teilbereich dieser KI, der aus datenschutzrechtlicher Sicht sicherlich zu den interessanteren gehört, ist das Maschinelle Lernen (Machine Learning) und darunter neuronale Netzwerke.

Modelle als aggregierter Wissensspeicher

Grundlage des Machine Learning sind Daten, sogenannte Trainingsdaten, anhand derer ein Algorithmus lernt. Diese Trainingsdaten enthalten etwa Orchesterfotos und die Klassifizierung “Cellistin”, welche die Fotos kennzeichnet, auf denen eine Cellistin zu sehen ist.

Das daraus erlernte Wissen wird als Modell gespeichert. Ein Modell besteht entgegen landläufiger Meinung aus einer mathematischen Struktur mit numerischen Werten, zum Beispiel mit verschiedenen Schichten von Punkten und gewichteten Verbindungen zwischen solchen Punkten im Falle eines neuronalen Netzwerkes. Anhand eines solchen Modells kann im Beispiel eine Musikerin auf einem unbekannten Foto eines Orchesters als Cellistin erkannt werden.

Machine Learning: Rechtsgrundlage für das Training

Offensichtlich problematisch an diesem Beispiel ist das Trainieren eines Modells auf Grundlage der Trainingsdaten. Innerhalb der unzähligen datenschutzrechtlichen Einzelfragen soll hier nur auf eine einzige eingegangen werden:

Die Rechtsgrundlage für das Trainieren wird typischerweise nicht in der Vertragserfüllung liegen, eine Einwilligung scheidet aus Akzeptanzgründen aus. Im Wesentlichen bleibt es bei der Interessenabwägung nach Art. 6 (1) 1 lit. f DSGVO, verstärkt durch Art. 89 (1) DSGVO und § 27 (1) BDSG. Maßgeblich für die gebotene Abwägung ist alleine der Einzelfall unter Berücksichtigung etwa der Kritikalität der betroffenen Daten. Jedenfalls aber dort, wo die Trainingsdaten verschiedenen Datenquellen entstammen (z.B. Smartphones) bedarf die Argumentation besondere Aufmerksamkeit. Denn die Trainingsdaten müssten zunächst zentral beim Anbieter gesammelt werden, bevor sie dort in das Training einfließen.

In der Praxis haben sich drei Herangehensweisen herauskristallisiert:

1.      Anonyme Daten

Zunächst ist es möglich, die Trainingsdaten vor dem Trainieren zu anonymisieren. Obgleich bei hinreichender Anonymisierung die Anwendbarkeit der DSGVO ausgeschlossen wäre, ist dieses Vorgehen in aller Regel nicht passend. Es erfordert einen mitunter substantiellen Eingriff in die Trainingsdaten, dem viele wertvolle Informationen geopfert werden müssten. Dies gilt insbesondere vor dem Hintergrund, dass sich ein Personenbezug nicht nur aus unmittelbar personenbezogenen Daten ergibt, sondern auch dann vorliegt, wenn aus Daten lediglich Rückschlüsse auf natürliche Personen gezogen werden können. Die Menge der bei der Anonymisierung zu löschenden Daten kann also enorm sein.

2.      Synthetische Daten

Ein anderer Weg wäre ein Training mit künstlich erzeugten Daten. Da sich die Fragen nach der Qualität der Anonymisierung hier schon gar nicht stellen, ist die DSGVO typischerweise nicht anwendbar.

Aber auch hier stellt sich wieder das praktische Problem, dass die statistische Natur der synthetischen Daten den Originaldaten hinreichend gleichen müsste, denn andernfalls ist das Modell nicht zu präzisen Vorhersagen in der Lage und würde im Beispiel vielleicht auch Bratschenspielerinnen als Cellistinnen erkennen. Um dieses Informationsdefizit gering zu halten, müssten für das Erstellen der synthetischen Daten die Originaldaten herangezogen werden, was aber das Problem nur verlagert.

3.      Federated Learning

Als weitere Variante, die versucht, mit dieser Thematik effektiv umzugehen, hat sich das föderierte Lernen (Federated (Machine) Learning) herausgebildet. Hierbei kommen die verteilt gespeicherten Daten nicht zum zentral laufenden Algorithmus, sondern umgekehrt. Jede Datenquelle (z.B. ein Smartphone) trainiert also mit den eigenen Trainingsdaten ein sogenanntes Lokales Modell auf Grundlage eines Globalen Modells, welches initial beliebig gewählt werden kann.

Das Lokale Modell wird nach dem Training zentral zum Anbieter geladen, der es mit den Lokalen Modellen unzähliger anderer Datenquellen aggregiert und daraus das Globale Modell erzeugt. Dieses wiederum wird zu den lokalen Datenquellen gesendet, die es als Grundlage für das anknüpfende Training benutzen. Dieser Kreislauf wiederholt sich immer weiter, bis das Globale Modell eine hinreichend gute Qualität erreicht hat. Das Aggregieren lässt sich mit kryptographischen Techniken so gestalten, dass die aggregierende Partei die Werte der Lokalen Modelle nicht erfährt, aber dennoch korrekt aggregieren kann. Somit kommt diese Partei jedenfalls nicht mit personenbezogenen Daten in Berührung.

Der Vorteil des Federated Learning liegt auf der Hand: Personenbezogene Trainingsdaten verlassen die lokale Datenquelle zu keiner Zeit. Geteilt werden lediglich Modelle, die typischerweise als datenschutzrechtlich anonym qualifiziert werden. In der Interessenabwägung nach Art. 6 (1) 1 lit. f BGB führt dieses Vorgehen zu einem Überwiegen auf Seiten des Anbieters, solange dieser durch angemessene Maßnahmen im Einklang mit dem Stand der Technik sicherstellt, dass ein Zugriff Dritter praktisch ausgeschlossen ist.

Federated Learning als datenschutzkonforme Möglichkeit

Machine Learning ist von einer Vielzahl an Trainingsdaten abhängig, um gute Modelle zu trainieren, damit mit diesen für unbekannte Eingabedaten Vorhersagen getroffen werden können. Federated Learning ist neben der Anonymisierung von Trainingsdaten und der synthetischen Herstellung von Trainingsdaten eine Möglichkeit, KI-Modelle auf Grundlage von personenbezogenen Daten im Einklang mit dem Datenschutz zu erstellen.

Wie bei anderen KI-Verfahren auch sollte Machine Learning nur eingesetzt werden, wenn die datenschutzrechtlichen Weichen für das Training gestellt sind. Wer an dieser Stelle nachlässig ist, riskiert, dass Modelle von der DSGVO infiziert werden und im Anschluss nicht nutzbar sind.

Tags: Datenschutz-Compliance Federated Learning KI Machine Learning