30. Oktober 2025
KI-generierter Softwarecode Due Diligence 
Künstliche Intelligenz

KI-generierter Softwarecode in der Due Diligence 

Wie ist in der Due Diligence und in M&A-Transaktionen mit den urheberrechtlichen Risiken von KI-generiertem Softwarecode umzugehen?

Bei M&A-Transaktionen, die den Erwerb von Softwarelösung zum Gegenstand haben, stellen sich zunehmend urheberrechtlich verankerte Fragen. Es wird im Rahmen der Due Diligence grundsätzlich geprüft, ob die Zielgesellschaft bzw. verkaufende Gesellschaft Rechtsinhaberin der entwickelten Softwarelösung ist und ob ausgeschlossen werden kann, dass die Softwarelösung Rechte Dritter verletzt. 

Einerseits ergeben sich urheberrechtlich verankerte Fragen aus dem Umstand, dass in der heutigen Zeit häufig generative Künstliche Intelligenz (nachfolgend „KI“) in der Entwicklung oder Optimierung von Softwarelösungen eingesetzt wird. KI-Systeme können dabei nicht nur Codezeilen generieren, sondern auch in bestehenden Softwarelösungen zum Fortentwickeln oder zur Optimierung des Codes eingesetzt werden.

Herausforderungen folgen andererseits daraus, dass solchen KI-Systeme zumeist Methoden und Verfahren zugrunde liegen, deren Leistungsfähigkeit aus dem Training mit großen Datenmengen oft unbekannten Ursprungs stammt. Sind bei dem Training wiederum urheberrechtliche Verstöße begangen worden, so können sich diese Verstöße in dem entwickelten Softwarecode fortsetzen und somit Nutzungsbeschränkungen und Haftungsrisiken für die erwerbende Gesellschaft darstellen. 

Ist KI-generierter Code schutzfähig?

Insbesondere stellt sich die Frage danach, ob der durch Entwickler* der Zielgesellschaft KI-generierte Softwarecode urheberrechtlich geschützt ist. Ist dies der Fall, so stellt sich die Frage, wer Inhaber der geistigen Eigentumsrechte am Softwarecode ist, insbesondere also, ob die geistigen Eigentumsrechte daran der Zielgesellschaft zustehen. Nur in solchen Fällen kann der Softwarecode im Rahmen eines Kaufvertrages (Asset Deal) übertragen werden. Auch für den Wert der Zielgesellschaft im Anteilskaufvertrag (Share Deal) spielt es eine Rolle, ob diese Inhaberin der Rechte am Softwarecode ist. 

Im Übrigen stellt sich die Frage, welche Risiken die Nutzung und der Vertrieb KI-generierten Softwarecodes noch birgt, darunter insbesondere, ob der KI-generierte Softwarecode bestehende Urheberrechte Dritter verletzt. 

Generierung von Softwarecode mithilfe von KI wirft Fragen nach Urheberschaft und Verantwortlichkeiten auf

KI-Systeme sind heute in der Lage, eigenständig Softwarecode zu erstellen, zu überarbeiten und zu optimieren. Grundlage hierfür sind große Sprachmodelle (Large Language Models (LLM)).

Diese KI-Systeme werden mit großen Datenmengen, darunter Textblöcke, eine sehr große Menge an Quellcode (Source Code) und Softwaredokumentation verschiedener Programmiersprachen, trainiert. Grundlage solcher Systeme sind häufig neuronale Netze, die während des Trainings Muster in den als Trainingsdaten bereitgestellten Softwarecodezeilen erkennen. Dabei werden die einzelnen Textblöcke oder Codezeilen in sogenannte Token aufgespalten, Kategorisierungen gebildet und anderen Token zugeordnet. Im KI-System erfolgt dann beispielsweise die Prompteingabe eines menschlichen Programmierers, um ein gesamtes Problem umfassend automatisiert programmieren zu lassen. Alternativ gibt es KI-Systeme, die automatisiert eine Überprüfung menschlich geschriebenen Softwarecodes vornehmen und Verbesserungsvorschläge generieren. Ebenso können KI-Systeme bestehenden Softwarecode analysieren, Fehler identifizieren, alternative Lösungsansätze vorschlagen und Performanceverbesserungen anregen.

Damit übernehmen KI-Systeme zunehmend Tätigkeiten, die bislang menschlicher Kreativität und Expertise im Softwareentwicklungsprozess vorbehalten waren, was rechtliche Fragen zur Urheberschaft und Verantwortlichkeit aufwirft. Der durch das KI-System generierte Output besteht daher oft aus unmittelbar maschinenlesbare Quell-Codezeilen. Es entsteht zwar scheinbar neuer Code, der aber auf zuvor gelernten Mustern und Zusammenhängen beruht. Bei der Optimierung von Softwarecode analysiert die KI den bestehenden Programmtext und schlägt effizientere oder fehlerfreie Varianten vor, oft unter Nutzung bekannter Programmierparadigmen und Best Practices.

Schutzfähigkeit von KI-generiertem Code

Nach § 69a Abs. 3 UrhG werden Computerprogramme geschützt, 

wenn sie individuelle Werke in dem Sinne darstellen, daß sie das Ergebnis der eigenen geistigen Schöpfung ihres Urhebers sind.

Es kommt also auch für die Frage der Schutzfähigkeit von durch KI-Systeme generierten Softwarecode auf die Schöpfungshöhe an. Dabei gilt nach §§ 69a IV, 7 UrhG das Schöpferprinzip auch für Computerprogramme. Es ist anerkannt, dass nur ein Mensch zu einer eigenen geistigen Schöpfung in der Lage ist und deshalb nur ein Mensch Urheber sein kann. Vollständig durch ein KI-System generierter Softwarecode ist demnach gemeinfrei (sog. Public Domain).

Ein urheberrechtlicher Schutz an Softwarecode, der unter Beteiligung von KI-Systemen entwickelt wurde, ist grundsätzlich nur dann denkbar, wenn ein Mensch ein KI-System als untergeordnetes Werkzeug für eigenes kreatives Schaffen nutzt und dabei der menschliche Beitrag eine nachweisliche Schöpfungshöhe erreicht. Dabei stellt sich die Frage, ab wann ein menschlicher Beitrag bei gemischten „Mensch-Maschine-Erfindungen“ (Bomhard/Gajeck, RDi 2021, 472, 477) ausreicht, um eine eigene geistige Leistung darzustellen. Zumeist dürfte ausreichen, wenn der menschliche Beitrag nicht durch die Tätigkeit des KI-Systems derart überlagert wird, dass für eine eigene geistige Leistung kein Raum mehr ist (Vgl. Bomhard/Gajeck, RDi 2021, 472, 477; Dornis GRUR 2021, 784, 787 ff.). Für einen urheberrechtlich relevanten Beitrag dürften komplexe Prompts und die umfangreiche Nachbearbeitung notwendig sein, um überhaupt eine persönliche geistige Schöpfung des Programmierers mit urheberrechtlichem Schutz zu erhalten. Dann entsteht an den menschlich entwickelten Codezeilen ein Urheberrecht nach §§ 2, 69a UrhG. Die Codeteile, die das KI-System generiert hat, bleiben hingegen gemeinfrei. Der Grundsatz der Gemeinfreiheit beinhaltet die allumfassende Nutzungsmöglichkeit für jedermann. Es handelt sich also nicht um Open-Source-Software, sondern um nicht-lizensierungsfähige, rechtsfrei bestehende und für jedermann nutzbare Software. 

Um der Darlegungs- und Beweislast für die Schutzfähigkeit (insbesondere der Schöpfungshöhe) nachzukommen, müssten sowohl das Training als auch die Prompts penibel und umfassend dokumentiert werden. Nur so kann die bloße Assistenzarbeit des KI-Systems nachgewiesen werden.

Davor schützt auch nicht die umfassende Rechteeinräumung in den AGB oder Nutzungsbedingungen der KI-Anbieter an den Ausgaben, die das eingesetzte KI-System erzeugt. Ein Urheberrecht entsteht nur bei Vorliegen der gesetzlich zwingenden Voraussetzungen (Werk bzw. Computerprogramm oder Datenbank, persönlich geistige Schöpfung). Der Anbieter des KI-Systems kann einem Nutzer keine Rechte einräumen, übertragen oder lizensieren, die ihm selbst nicht zustehen oder rechtlich gar nicht bestehen.

Wie kann der Softwarecode sonst geschützt sein? 

Selbst wenn kein urheberrechtlicher Schutz gegeben ist, so kann sich die Werthaltigkeit der Softwarelösung jedoch daraus ergeben, dass die Umsetzung der Funktionalitäten im Quellcode nicht marktbekannt ist. Entsprechend dem Schutz von Know-How kann auch für nicht öffentlich bekannten Softwarecode Geheimnisschutz nach dem Gesetz zum Schutz von Geschäftsgeheimnissen (GeschGehG) bestehen. 

Ein Schutz von Softwarecode als Geschäftsgeheimnis setzt voraus, dass iSd § 2 Nr. 1 GeschGehG eine Information vorliegt, die von kommerziellem Wert und in der genauen Anordnung nicht allgemein bekannt oder ohne Weiteres zugänglich ist. Sofern der Softwarecode werthaltig ist und zusätzlich geheim gehalten wird, kann Geheimnisschutz für die vollständige Softwarelösung bestehen. 

Der Schutz setzt allerdings voraus, dass ein Vertrieb der Softwarelösung nicht unter Herausgabe des Quellcodes, sondern nur im rein maschinenlesbaren Objektcode erfolgt. In der Regel erfolgt der Vertrieb, jedenfalls von nur in geringem Grad individualisierter Standardsoftware von Software im Objektcode, da nur dieser für die Ausführung der Software durch den Kunden benötigt wird. 

Besteht Geheimnisschutz, so stehen der Zielgesellschaft / verkaufenden Gesellschaft zumindest nach dem Geheimnisschutzgesetz Ausschließlichkeitsrechte bezüglich des Zugriffes von Dritten nach § 4 in Verbindung mit §§ 6 ff. GeschGehG am Quellcode zu. 

Im Rahmen der Due Diligence ist also zu prüfen, ob ein lückenloser Schutz des Quellcodes aufgrund angemessener Geheimhaltungsmaßnahmen besteht und in der Vergangenheit bestanden hat. 

Risiken bei der Nutzung KI-generierten Codes 

Nun ergeben sich aus der Funktionsweise von KI-Systemen neben den etlichen Chancen auch rechtliche Problemfelder. 

KI-Systeme werden häufig mit großen Datenmengen von Datenanbietern trainiert, die ihre Daten wiederum durch sogenanntes Webscraping (Abgreifen und Speichern ungefilterter Informationen von unzähligen Webseiten) aus dem Internet gewonnen haben. Das Webscrapen ist zum Zwecke des Text- und Data Minings nach § 44b Abs. 1 UrhG zwar grundsätzlich erlaubt. Zum Text- und Data Mining zählt die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen. Ob das Training von KI-Systemen in der Gesamtheit der Schranke unterfällt, ist bislang nicht höchstrichterlich entschieden und ist in der juristischen Wissenschaft umstritten (Überblick über den Streitstand: Bomhard, in: BeckOK UrhR, 42. Ed. 15.2.2024, UrhG § 44b Rn. 11a-11b m.w.N.). Zumindest für die Erstellung des Trainingsdatensatzes zum KI-Training hat das LG Hamburg (Urteil v. 27. September 2024 – 310 O 227/23) die grundsätzliche Anwendbarkeit von § 44b Abs. 1 UrhG bejaht. 

Für eine Anwendbarkeit auf den weiteren Trainingsvorgang spricht, dass der europäische Gesetzgeber durch Art. 53 Abs. 1 lit. c) des AI Acts (Verordnung zur Festlegung harmonisierter Vorschriften für KI, VO EU 2024/1689) die Verpflichtung an KI-Modellanbieter richtet, die technische Möglichkeit der Erkennung eines maschinenlesbaren Opt-Outs nach § 44b III UrhG umzusetzen. Das setzt voraus, dass eine Anwendbarkeit von § 44b UrhG auf KI-Systeme besteht. Gleichzeitig umfasst der AI Act in Art. 53 Abs. 1 lit. a) und lit. d) die Verpflichtung zur technischen Dokumentation des Trainingsprozesses und eine zu veröffentlichende Zusammenfassung über die Daten, die für das Training genutzt wurden. 

Allerdings umfasst die Nutzung der Daten für das KI-Training nicht die Nutzung der Daten für den Output des KI-Systems. Selbst wenn nach § 44b Abs. 1 UrhG ein Trainieren des KI-Systems erlaubt ist, ist eine darüberhinausgehende Nutzung (z.B. als Teil des vom KI-System generierten Outputs) nicht vom Nutzungsrecht erfasst. 

Gerade weil KI-Systeme oft nicht näher darlegen, wie sie zu dem Output gekommen sind (sog. Reasoning), ist jedoch für den Nutzer nicht ersichtlich, ob es sich nicht doch um eine exakte Reproduktion von Teilen der Trainingsdatensätze handelt. Es kann nach derzeitigem Kenntnisstand beim Einsatz von KI-Systemen von Fremdanbietern nicht vollständig ausgeschlossen werden, dass sich die durch Webscraping erlangten Daten auch im Output des KI-Systems wiederfinden. Sofern allerdings nicht bereits der Prompt des Entwicklers einen urheberrechtlichen Verstoß enthält, ist das Risiko bei der Funktionsweise heutiger generativer KI-Systeme jedenfalls gering – zumindest soweit keine Manipulation des KI-Systems durch den Entwickler vorliegt (Käde, 2021, Kreative Maschinen und Urheberrecht, S. 74 f.). 

Enthält die durch die Zielgesellschaft oder verkaufende Gesellschaft entwickelte Softwarelösung eine exakte Reproduktion von Teilen der Trainingsdaten, die einem Webscraping entstammt, liegt (selbst bei Einhaltung der Regelung des § 44 b UrhG) für diese Codezeilen kein Nutzungsrecht vor. Wird die Softwarelösung nun durch die Zielgesellschaft oder erwerbende Gesellschaft als eigene vertrieben, stellt dies eine Urheberrechtsverletzung dar. 

Für die Regelung des § 44b Abs. 1 UrhG sieht § 44b Abs. 3 UrhG im Übrigen eine Opt-Out-Möglichkeit für den Urheber der Ausgangsdaten vor. Die Möglichkeit setzt das Einfügen eines ausdrücklichen und maschinenlesbaren Nutzungsvorbehalts auf der Webseite voraus und beschränkt die Erlaubnis des Text- und Data Minings. Auch hier ist höchstrichterlich noch ungeklärt, welchen Anforderungen die Vorbehaltserklärung für die Maschinenlesbarkeit entsprechen muss. Nach Auffassung des LG Hamburg (Urteil v. 27. September 2024 – 310 O 227/23). zeichnet sich ein weites Verständnis ab, dass eine Erkennbarkeit eines in natürlicher Sprache verfassten Nutzungsvorbehalts ausreichen lässt und keine darüberhinausgehende technische Umsetzung erfordert. 

Für den Entwickler der Zielgesellschaft bzw. der verkaufenden Gesellschaft ist zum einen nicht ersichtlich, ob der Anbieter des KI-Systems die Regelungen des § 44b UrhG eingehalten hat und zudem kann der Nutzer nicht verifizieren, dass es sich nicht um eine exakte Reproduktion von Trainingsdaten handelt.

Im Rahmen der Due Dilligence sollte daher geprüft werden, ob der Anbieter des KI-Systems Angaben dazu veröffentlicht, wie er die Trainingsdaten erlangt hat und wie er sicherstellt, dass es zu keiner Reproduktion der Trainingsdaten im Output kommt. 

Freistellungen von Urheberrechtsverstößen durch Anbieter der KI-Systeme

Einige Anbieter von KI-Systemen haben erkannt, dass die Möglichkeit von Urheberrechtsverletzungen gegeben und für Nutzer von KI-Systemen von steigender Bedeutung ist. Teilweise sehen die Anbieter daher in den Nutzungsbedingungen Freistellungsklauseln für etwaige Urheberrechtsverstöße durch das KI-System vor; der Anbieter des KI-Systems übernimmt beispielsweise die Kosten der Rechtsverteidigung gegen Urheberrechtsklagen durch Dritte. Allerdings sehen diese Freistellungen in vielen Fällen zahlreiche Ausnahmen vor, sodass sich Unternehmen hier keinesfalls auf eine vollständige Übernahme der Schäden und Aufwände verlassen sollten. Beispielsweise schließt bereits geringstes Mitverschulden des Nutzers bei der Nutzung des KI-Systems die Freistellung oft aus. Zudem wird die Freistellung oft nur gewerblichen Nutzern angeboten und betragsmäßig auf die innerhalb der Vertragslaufzeit für die Nutzung des KI-Systems gezahlten Gebühren begrenzt, wobei urheberrechtliche Verstöße diesen Betrag um ein Vielfaches übersteigen können. 

Fokus im Rahmen der Due Diligence

Von KI-Systemen generierter Softwarecode ist grundsätzlich gemeinfrei und nur gegen die Nutzung durch Dritte geschützt, sofern der Softwarecode angemessen Geheimhaltungsmechanismen unterliegt. Tritt jedoch eine hinreichende Beteiligung der Entwickler bei der Entwicklung oder in der Nachbearbeitung des Softwarecodes hinzu und ist das KI-System nur als Werkzeug des Entwicklers tätig, dann ist urheberrechtlicher Schutz möglich. 

Es verbleibt ein zwar geringes, jedoch ernstzunehmendes Risiko, dass der Softwarecode, der vom KI-System im Output herausgegeben wird, exakte Reproduktionen von Trainingsdaten enthält. Handelt es sich bei den Trainingsdaten in solchen Fällen um Daten, die einem Webscraping entstammen, so liegt in der Nutzung des Softwarecodes ein Urheberrechtsverstoß – erst recht, wenn die Voraussetzungen der Text- und Data Mining Regelungen in § 44b UrhG nicht eingehalten wurden. 

Zwar verweisen Anbieter von KI-Systemen auf Freistellungsklauseln, welche das ökonomische Risiko des fortlaufenden Urheberrechtsverstoßes zu einem gewissen Umfang eindämmen können. Allerdings sollten sich Unternehmen auf diese Klauseln wegen umfassender Ausschlüsse und Beschränkungen nicht verlassen. 

In der Due Diligence ist daher der Fokus darauf zu legen, welche KI-Systeme die Zielgesellschaft bzw. die verkaufende Gesellschaft im Rahmen der Softwareentwicklung genutzt hat. Bestenfalls wurde auf KI-Systeme zurückgegriffen, deren Trainingsdaten durch den Hersteller besonders zertifiziert und lizenziert sind. Einige Anbieter generativer KI-Systeme werben damit, dass sie das KI-System ausschließlich mit lizensierten Daten trainiert haben. Ein dahingehendes Angebot besteht am Markt also. 

Zudem ist zu prüfen, in welchem Umfang KI bei der Entwicklung eingesetzt wurde und ob der Softwareentwicklungsprozess insofern hinreichend dokumentiert wurde. Sind große Teile der Softwarelösung mit KI entwickelt worden, so kann die Wertigkeit der Softwarelösung in Frage stehen. Insbesondere sind in solchen Fällen die Geheimhaltungsmechanismen der Zielgesellschaft bzw. der verkaufenden Gesellschaft zu überprüfen. Nur wenn durch ausreichenden Schutz vor Kenntnisnahme durch Dritte ein angemessenes Geheimnisschutzniveau gewährleistet ist, besteht überhaupt Geheimnisschutz für die Codezeilen. Daher sind nicht nur Geheimhaltungsvereinbarungen der Zielgesellschaft / der verkaufenden Gesellschaft zu sichten, sondern es sollte auch das Vertriebssystem und die konkrete Bereitstellung der Software an Kunden im Detail überprüft werden. 

Insbesondere bietet sich für solche Fälle an, als Teil der Due Diligence einen Softwarecode-Scan durchzuführen, um jedenfalls die exakte Reproduktion von online frei zugänglicher Open-Source Software zu erkennen. Rahmen der Compliance-Prüfung mit Open-Source-Softwarelizenzen ist dieses Vorgehen in der Regel ohnehin geboten. 

In unserem CMS-Blog halten wir Sie in unserer Blog-Serie „Künstliche Intelligenz“ fortlaufend mit aktuellen Beiträgen zu diesen Themen auf dem Laufenden. Sie können diese Blog-Serie über den RSS-Feed abonnieren und werden von uns über neue Beiträge benachrichtigt. Im Rahmen dieser Blog-Serie sind bereits Beiträge erschienen zu Themen wie: Mithilfe Künstlicher Intelligenz plötzlich Urheber?OLG Köln: KI-Training mit Nutzerdaten ist zulässigOf Dice and Cheese – Zum Urheberrechtsschutz von KI-Erzeugnissen aus Sicht des U.S. Copyright OfficesKünstliche Intelligenz und der Journalismus der ZukunftEndspurt für die Regulierung von KIVerbotene Praktiken und Hochrisiko-KI-SystemeHochrisiko-KI-Systeme als regulatorischer SchwerpunktPflichten entlang der Wertschöpfungskette und für Anbieter von BasismodellenTransparenzpflichten, Rechte für Betroffene, AI Office und Sanktionen sowie Robo Advisor. Weitere Informationen finden Sie zudem auf unserer Insight-Seite: Implikationen für Künstliche Intelligenz und Recht | CMS Deutschland.

Haben Sie Anregungen zu weiteren Themen rund um KI, die in unserer Blog-Serie „Künstliche Intelligenz“ nicht fehlen sollten? Schreiben Sie uns gerne über blog@cms-hs.com.

* Gemeint sind Personen jeder Geschlechtsidentität. Um der leichteren Lesbarkeit willen wird im Beitrag die grammatikalisch männliche Form verwendet.

Tags: Code Due Diligence KI generiert künstliche Intelligenz