Praxisleitfaden für GPAI: Implikationen für die Urheberrechtsstrategie

Praxisleitfaden für GPAI: Implikationen für die Urheberrechtsstrategie

Am 14.11.2024 veröffentlichte die Europäische Kommission einen ersten Entwurf eines Praxisleitfadens für KI mit allgemeinem Verwendungszweck („General-Purpose AI Code of Practice“).

abrufbar unter <https://digital-strategy.ec.europa.eu/en/library/first-draft-general-purpose-ai-code-practice-published-written-independent-experts> (14.11.2024).

Dieser wurde von unabhängigen Experten sowie weiteren Stakeholdern ausgearbeitet und enthält eine Vielzahl von Maßnahmen, die speziell Anbieter von GPAI-Modellen adressiert. Die rechtliche Grundlage dafür bildet Art 56 KI-VO, der dem KI-Büro die Kompetenz einräumt, entsprechende Rechtsakte in die Wege zu leiten. Der Entwurf enthält zudem Ausnahmen, die auf kleine und mittlere Unternehmen (KMU) zugeschnitten sind, um deren besondere Bedürfnisse zu berücksichtigen.

Besonders hervorzuheben ist die Bedeutung des Leitfadens für die Umsetzung von Art 53 Abs 1 lit c KI-VO (iVm ErwGr 104 ff KI-VO). Diese Bestimmung verpflichtet GPAI-Modellanbieter dazu, eine „Urheberrechtsstrategie“ zu entwickeln. Der Leitfaden gibt dabei konkrete Anweisungen, welche Schritte die Anbieter ergreifen müssen, um Urheberrechte während des gesamten Lebenszyklus eines KI-Modells zu respektieren – von der Entwicklung über die Anwendung bis hin zu möglichen Modifikationen. Angesichts der hohen praktischen Relevanz dieser Vorgaben sowie des dringenden Bedarfs nach rechtlicher Klarheit und Sicherheit für alle Beteiligten (Urheber und GPAI-Anbieter) sollen die wesentlichen Inhalte des Leitfadens im Folgenden näher erläutert werden:

Maßnahme 3: Urheberrechts-Policy

Diese Maßnahme umfasst mehrere Stufen der urheberrechtlichen Compliance:

Untermaßnahme 3.1 – Ausarbeitung und Umsetzung einer Urheberrechtsrichtlinie: Diese Maßnahme verpflichtet Anbieter von GPAI-Modellen, eine interne Urheberrechts-Policy zu entwickeln, die sicherstellt, dass das Unionsrecht über Urheber- und verwandte Schutzrechte während der gesamten Lebensdauer der GPAI beachtet wird. Wird ein solches KI-Modell später verändert oder feinjustiert (also zB mit neuen Daten nachtrainiert), dann sollen sich die urheberrechtlichen Verpflichtungen der Anbieter nur auf diesen spezifischen Änderungsprozess oder die Feinabstimmung beschränken. Die Einhaltung urheberrechtlicher Vorgaben muss folglich für diese neue Datenquellen erneut geprüft werden.

Untermaßnahme 3.2 – Vorgelagerte Urheberrechts-Compliance: Bevor GPAI-Anbieter KI-Trainingsdatensätze von Dritten (zB LAION-Datasets) nutzen, müssen sie eine angemessene urheberrechtliche Due-Diligence-Prüfung durchführen. Insb müssen die Anbieter von diesen Dritten Nachweise über die Einhaltung urheberrechtlicher Nutzungsvorbehalte iSd Art 4 Abs 3 DSM-RL einfordern. Dies inkludiert die explizite Nachfrage, wie der Dritte diese „Opt-Outs“ der Rechteinhaber gegen Text- und Data-Mining (TDM) zum eigenen (kommerziellen) Gebrauch entsprechend dem Stand der Technik identifiziert und eingehalten hat.
[Anm: Diese Regel wurde in den MS der EU im jeweiligen nationalen Recht umgesetzt: ua in Österreich in § 42h Abs 6 UrhG. Gegen TDM zu Forschungszwecken (vgl § 42h Abs 1-5 UrhG) nützen aber keine Nutzungsvorbehalte. Allerdings dürfen hierfür gecrawlte und gescrapte Webinhalte nicht für kommerzielle Zwecke verwendet werden. TDM kann somit zwar als Rechtfertigungsgrund für die Erstellung von Trainingsdaten für KI-Modelle dienen, doch geht damit keine Legitimation für eine spätere kommerzielle Nutzung der durch TDM gewonnenen und analysierten Daten einher. Mit anderen Worten: Das eigentliche KI-Training per se wird wohl nicht durch TDM gedeckt, was zugegebenermaßen allerdings (noch) umstritten ist und einer abschließenden Klärung durch Gerichte bedarf. Anbieter von KI-Modellen sind daher auf die ausdrückliche Zustimmung der Rechteinhaber angewiesen oder müssen vertragliche Vereinbarungen (Lizenzierungen) eingehen, die idR eine Vergütungspflicht beinhalten (vgl hierzu auch Untermaßnahme 5.2)].

Untermaßnahme 3.3 – Nachgelagerte Urheberrechts-Compliance: Diese Maßnahme richtet sich an größere GPAI-Anbieter (KMU sind ausgenommen) und soll sicherstellen, dass keine KI-Systeme oder Anwendungen entwickelt werden, die urheberrechtsverletzende Inhalte generieren. GPAI-Anbieter werden darüber hinaus dazu angehalten, eine Überanpassung („Overfitting“) ihrer Modelle zu vermeiden. Überanpassung bedeutet, dass das Modell spezifische Details der Trainingsdaten so stark verinnerlicht, dass es beim Einsatz dazu neigt, sehr ähnliche oder sogar identische Inhalte zu den originalen Trainingsdaten zu reproduzieren. Das könnte urheberrechtlich geschützte Werke betreffen und das Risiko von Urheberrechtsverletzungen erhöhen. Wird ein KI-Modell an eine andere Organisation (Unternehmen) weitergegeben (zB über APIs), müssen die GPAI-Anbieter sicherstellen, dass der Empfänger (KI-Betreiber) Maßnahmen ergreift, um eine unrechtmäßige Nutzung oder Wiederholung geschützter Inhalte zu verhindern. Der Vertrag zwischen Anbieter und Betreiber kann dabei so gestaltet sein, dass die Bereitstellung des Modells an die Zusage gebunden ist, geeignete Schritte zur Vermeidung von Urheberrechtsverletzungen bei der Output-Generierung zu unternehmen.

Maßnahme 4: Compliance mit TDM

TDM erlaubt es, digitale oder digitalisierte Inhalte automatisch zu gewinnen und zu analysieren, sofern dies im Rahmen unionsrechtlichen Zielvorgaben erfolgt (Art 2 Z 2 DSM-RL iVm Art 3 f DSM-RL). GPAI-Anbieter müssen in diesem Kontext sicherstellen, dass sie – genau genommen durch den Einsatz von Webcrawlern und Webscrapern (Bots) – ausschließlich auf rechtmäßig zugängliche (Online-)Inhalte zugreifen. Gleichzeitig sind die Nutzungsvorbehalte der Rechteinhaber zu beachten. Zukünftig wird auch besonderes Augenmerk auf den „Drei-Stufen-Test“ (Art 5 Abs 5 InfoSoc-RL iVm Art 7 Abs 2 DSM-RL) zu richten sein, der als zusätzliche Verhältnismäßigkeitsprüfung im Einzelfall dient.

Untermaßnahme 4.1 – Respektierung von robots.txt: Die Anbieter verpflichten sich, nur solche Crawler zu verwenden, die die Vorgaben des Robots Exclusion Protocol (robots.txt) einhalten.
[Anm: Das REP gilt schon seit Langem als gängiger Standard, wenn es um die „maschinenlesbare“ Kommunikation von Nutzungsvorbehalten geht. Es ist grds positiv zu bewerten, dass mit dem REP anscheinend erstmals ein einheitlich anerkannter „Mindest“-Standard etabliert wurde (vgl Untermaßnahmen 4.3 und 4.4). Allerdings weist dieses auch erhebliche Schwächen auf: Es wird zu Recht kritisiert, dass damit die Vorgaben von Art 4 Abs 3 DSM-RL – insb hinsichtlich der geforderten Ausdrücklichkeit und Bestimmtheit – nicht ausreichend erfüllt werden. Ein zentrales Problem besteht darin, dass die in der robots.txt-Datei festgelegten „Allow“- und „Disallow“-Regeln oft zu allgemein oder unklar formuliert sind, um Nutzungsvorbehalte präzise auf den jeweiligen Einzelfall abzustimmen. Dies birgt die Gefahr, dass solche „pauschalen“ Vorbehalte möglicherweise als unzulässig eingestuft werden könnten – eine Frage, die wiederum erst von Gerichten geklärt werden müsste. Ein weiterer Schwachpunkt ist die Praxis: Moderne Bots ignorieren die Vorgaben der robots.txt-Datei häufig und lesen Inhalte dennoch aus. Dies macht zusätzliche technische Schutzmaßnahmen unverzichtbar. Zusätzlich zu robots.txt ist es daher ratsam, Nutzungsvorbehalte jedenfalls auch in den Metadaten der Website – und idealerweise sogar auf Werkebene – festzuhalten. Darüber hinaus sollten diese Vorbehalte in den AGB bzw im Impressum in klarer und auch menschenlesbarer („natürlicher“) Sprache (Englisch) ausgeführt werden].

Untermaßnahme 4.2 – Keine Auswirkungen auf die Auffindbarkeit: GPAI-Anbieter, die auch Suchmaschinenbetreiber sind (zB Google mit seinem Crawler GoogleBot und seiner GPAI Gemini) verpflichten sich, angemessene Maßnahmen zu ergreifen, um die Auffindbarkeit von Webseiteninhalten nicht negativ zu beeinflussen, insb wenn robots.txt-Einschränkungen existieren.
[Anm: Wenn bspw eine Regel wie User-agent: * Disallow: / implementiert wird, besteht das Risiko, dass die gesamte Website für alle Crawler gesperrt wird. Dies könnte dazu führen, dass die Seite überhaupt nicht mehr in Suchmaschinenergebnissen erscheint und dadurch für Nutzer praktisch unsichtbar wird. Um solche negativen Folgen zu vermeiden, sollte zumindest der Zugriff auf wichtige Bereiche wie Kontaktinformationen oder das Impressum explizit (nur) für Suchmaschinenbots erlaubt werden].

Untermaßnahme 4.3 – Bestmögliche Bemühungen bzgl anderer geeigneter Mittel: GPAI-Anbieter müssen sich nach besten Kräften und in Übereinstimmung mit weit verbreiteten Industriestandards bemühen, andere geeignete maschinenlesbare Mittel – neben robots.txt – zu ermitteln und einzuhalten, um einen Nutzungsvorbehalt auf (aggregierter) Quell- und/oder Werksebene auszudrücken.
[Anm: Solche Vorbehalte könnten sich also auf die Quellenebene (zB eine Website), die Werksebene (ein einzelnes geschütztes Werk, wie ein Bild oder Text) oder („aggregierte“) Gruppen oder Kategorien beziehen (zB alle Inhalte eines bestimmten Rechteinhabers oder einer Datenquelle). GPAI-Anbieter müssen aktiv nach derartigen Vorbehalten mit allen verfügbaren Mitteln suchen und diese auch einhalten].

Untermaßnahme 4.4 – Verpflichtung zur gemeinsamen Entwicklung von Standards für Nutzungsvorbehalte: Große GPAI-Anbieter (KMU sind grds ausgenommen) sollen in Zusammenarbeit mit Rechteinhabern und Normungsorganisationen interoperable maschinenlesbare und dem jeweiligen Stand der Technik entsprechende Standards für Rechtevorbehalte entwickeln.
[Anm: Neben dem REP gibt es bislang einige weitere Standards für Nutzungsvorbehalte, die in Betracht gezogen werden könnten (ua das TDM Reservation Protocol (TDMRep), das insb Metadaten (Meta-Tags) als Lösung vorschlägt, wobei technisch weniger versierte Urheber hier auf IT-Unterstützung angewiesen sein dürften. Vielleicht werden aber auch gänzlich neue Standards entwickelt. Meiner Ansicht nach wären Metadaten, die im HTML-Code verfasst und dabei auch in gewisser Weise „menschenlesbar“ sind, eine praktikable Lösung – va, wenn man eine reine maschinelle Kommunikation bevorzugt und Vorbehalte in „natürlicher Sprache“ ablehnen möchte. Allerdings würde dies wohl im Widerspruch zu ErwGr 18 DSM-RL stehen, der ausdrücklich davon ausgeht, dass Vorbehalte auch in AGB oder im Impressum formuliert werden können. Diese Frage wird erneut einer Klärung durch die Gerichte bedürfen. Das LG Hamburg hat jedoch im Urteil vom 27.9.2024 (310 O 227/23) im Fall Kneschke gegen LAION entschieden, dass Vorbehalte, die in natürlicher Sprache (in AGB) formuliert sind, als wirksam angesehen werden können].

Untermaßnahme 4.5 – Kein Crawling von Piraterie-Websites: GPAI-Anbieter müssen angemessene Maßnahmen ergreifen, um raubkopierte Quellen von ihren Crawling-Aktivitäten auszuschließen (zB durch den Ausschluss von Websites, die in der Überwachungsliste der EU-Kommission für Fälschungen und Piraterie aufgeführt sind: „Commission Counterfeit and Piracy Watch List“).

Maßnahme 5: Transparenz

GPAI-Anbieter müssen sich zuletzt zu angemessener Transparenz verpflichten, indem sie offenlegen, welche Maßnahmen sie ergreifen, um den Anforderungen des EU-Urheberrechts zu entsprechen.

Untermaßnahme 5.1 – Information der Öffentlichkeit über die Einhaltung von Nutzungsvorbehalten: GPAI-Anbieter müssen angemessene und leicht zugängliche Informationen auf ihrer Website bereitstellen, die in einer Sprache verfasst sind, die von möglichst vielen Unionsbürgern verstanden wird. Diese Informationen müssen die Einhaltung von Vorbehalten betreffen und regelmäßig aktualisiert werden.

Untermaßnahme 5.2 – Mindestinhalt der Information: GPAI-Anbieter müssen mindestens den Namen aller für die Entwicklung eines GPAI-Modells eingesetzten Crawler und deren relevante robots.txt-Funktionen öffentlich bekannt geben, insb auch zum Crawling-Zeitpunkt.
[Anm: Leider bleibt unklar, was genau unter der „Entwicklung“ eines GPAI-Modells verstanden wird. Einerseits könnte man davon ausgehen, dass TDM nur die Informationsgewinnung rechtfertigt, einschließlich der Erstellung von KI-Trainingsdatensätzen. Andererseits könnte dies auch so verstanden werden, dass auch das spätere KI-Training durch TDM erlaubt wird. Ferner wurde offenbar versäumt, die „relevanten“ robots.txt-Funktionen zu präzisieren. In diesem Kontext beziehen sich die robots.txt-Funktionen höchstwahrscheinlich auf die Verantwortung des KI-Anbieters, den Crawler-Bot so zu programmieren und einzusetzen, dass dieser die Anweisungen in der robots.txt-Datei ordnungsgemäß interpretiert und tatsächlich befolgt. Während die robots.txt-Datei vom Urheber der Website erstellt wird und (relativ unpräzise) festlegt, welche Inhalte gecrawlt werden dürfen, liegt der Fokus hier auf der Frage, wie der Crawler auf diese Anweisungen reagiert. Ein KI-Anbieter muss also sicherstellen, dass sein Crawler:

+ die robots.txt-Anweisungen überhaupt erkennt und respektiert: Die Programmierung des Bots muss darauf ausgerichtet sein, die robots.txt-Datei zu identifizieren und darin enthaltene Zugriffsrechte und -verbote zu befolgen. Dies schließt auch spezielle Anweisungen ein, die (nur) für bestimmte Crawler (zB GPTBot) gelten können;

+ spezifische Regeln der Datei korrekt interpretiert: Crawler müssen differenziert reagieren können (zB nur bestimmte Verzeichnisse anzusteuern oder von bestimmten Bereichen fernzubleiben);

+ zeitliche Vorgaben einhält: Der Crawler sollte regelmäßig die robots.txt-Datei neu laden, um mögliche Änderungen zu erkennen (grds wird die robots.txt-Datei nämlich nur bei der erstmaligen Serveranfrage durch den Bot abgefragt); und

+ auch Rate Limiting-Vorgaben berücksichtigt].

Untermaßnahme 5.3 – Zentrale Anlaufstelle und Beschwerdeverfahren: GPAI-Anbieter sollen eine direkte, schnelle und elektronische Anlaufstelle für Rechteinhaber und deren Vertreter– inkl kollektiver Verwertungsgesellschaften („collective management bodies“) – einrichten. Diese können dort auch Beschwerden über die Nutzung ihrer Werke oder anderer geschützter Gegenstände im Hinblick auf die Entwicklung der GPAI einreichen. GPAI-Anbieter müssen daher auch ein angemessenes Verfahren zur Bearbeitung von Beschwerden einführen.

Untermaßnahme 5.4 – Dokumentation von Datenquellen und Genehmigungen: Damit das KI-Büro überprüfen kann, ob GPAI-Anbieter ihrer Verpflichtung zur Entwicklung und Umsetzung einer Urheberrechtsstrategie nachgekommen sind, müssen die Anbieter Informationen bereitstellen. Diese betreffen die für Schulungen, Tests und Validierungen verwendeten Datenquellen. Darüber hinaus sind Angaben zu den Genehmigungen erforderlich, die den Zugang zu und die Nutzung von geschützten Inhalten für die Entwicklung einer GPAI betreffen. Diese Informationen müssen stets aktuell gehalten und dem KI-Büro auf Anfrage zur Verfügung gestellt werden.

Fazit: Der Entwurf des Praxisleitfadens für GPAI-Modellanbieter stellt einen anerkennenswerten Schritt in die richtige Richtung dar, wirkt jedoch angesichts der bereits weit fortgeschrittenen Entwicklung von GPAI-Technologien und der Nutzung urheberrechtlich geschützten Materialien eher wie ein verspäteter Versuch, ein altbekanntes Problem zu adressieren.
Während der Entwurf prinzipiell gut gemeinte Maßnahmen zur Wahrung der Urheberrechte und zur Förderung von Transparenz enthält, bleibt ungewiss, wie wirkungsvoll seine Vorgaben in der Praxis sind. Besonders kritisch erscheint dies angesichts der Tatsache, dass die meisten kommerziell verwertbaren GPAI-Modelle bereits trainiert wurden – häufig unter Verwendung von Materialien, deren Nutzung tatsächlich einer Einwilligung und Vergütung bedurft hätte.
Insgesamt handelt es sich bei dem Praxisleitfaden um ein längst überfälliges Vorgehen, das vor dem Hintergrund des bereits in vollem Gange befindlichen Einsatzes von GPAI-Modellen aber nicht mehr die grundlegende rechtliche Sicherheit für Urheber und KI-Anbieter bieten kann, die ursprünglich notwendig gewesen wäre.
Besonders die fehlenden Regelungen zur Auslegung von „relevanten“ robots.txt-Funktionen sowie die weiterhin offene Frage nach dem genauen – möglicherweise weitreichenden – Anwendungsbereich von TDM als Rechtfertigung für das KI-Training insgesamt werfen Zweifel an der Umsetzbarkeit des Leitfadens in seiner derzeitigen Form auf. Die zentrale Frage, wie Nutzungsvorbehalte konkret ausgestaltet werden müssen, um TDM zum Eigengebrauch wirksam auszuschließen, wurde abermals vertagt. Anstatt diese Herausforderung entschlossen anzugehen, einen (kombinierten) Standard festzulegen und konkrete Beispiele als Orientierungshilfe zu formulieren, wird erneut auf Konsultationen und vermutlich langwierige Diskussionen zwischen den Beteiligten gesetzt. Was bleibt, ist die Hoffnung, dass der teils erhebliche Klärungsbedarf in den kommenden Verhandlungsrunden bis April 2025 erfolgreich ausgeräumt wird.

Alexander Seyfried, 15.11.2024