Zwischen OpenAI, New York Times und anderen wichtigen Zeitungen läuft ein Rechtsstreit. OpenAI hat versehentlich wichtige Beweise gelöscht.
Große Sprachmodelle (LLMs), zu denen das von OpenAI entwickelte Modell ChatGPT gehört, basieren auf zahlreichen Trainingsdaten. OpenAI hat möglicherweise für das Training journalistische Inhalte genutzt. Daher ist ein Rechtsstreit zwischen New York Times, Daily Mail und OpenAI entbrannt. OpenAI soll einem Bericht von Wired zufolge versehentlich wichtige Beweisdaten gelöscht haben. Diese Beweisdaten sollten erklären, wie Zeitungsartikel der Medienunternehmen genutzt wurden, um die KI zu trainieren.
OpenAI-Anwälte sprechen von Panne
Die Anwälte von OpenAI sprechen bei der Löschung der Beweisdaten von einer Panne. Die Anwälte der New York Times sind ebenfalls der Meinung, dass nicht von einer absichtlichen Löschung der Daten auszugehen ist. OpenAI und die Anwälte des KI-Unternehmens erläuterten nicht, wie es zu einer Löschung dieser Daten kam. OpenAI hatte versucht, die KI-Trainingsdaten wiederherzustellen. Das Ergebnis ist unvollständig und nicht zuverlässig genug. Es reicht als Beweismittel nicht aus.
OpenAI konnte die Inhalte der Daten zwar wiederherstellen, doch die Anwälte argumentieren damit, dass die Daten nicht als Beweismittel geeignet sind. Die Dateinamen und Ordnerstrukturen konnten nicht wiederhergestellt werden.
In mehr als 150 Stunden durchsuchten die Rechtsteams der Zeitungen die Daten nach in den Nachrichtenartikeln enthaltenen Fällen. In den wiederhergestellten Informationen konnten die entsprechenden Stellen in den Trainingsdaten nicht gefunden werden.
Bereitstellung von virtuellen Maschinen durch OpenAI
OpenAI stellte den Anwälten und Teams der Zeitungen zwei virtuelle Maschinen bereit, mit denen sie die Trainingsdaten durchsuchen konnten. Die bereits durchsuchten und gesammelten Daten wurden auf einer dieser Maschinen gelöscht, wie die Anwälte der New York Times erläuterten. Aufgrund der fehlenden Dateinamen und Ordnerstrukturen bei den wiederhergestellten Daten musste das Rechtsteam die Arbeit neu beginnen.
OpenAI weist auf Fair-Use-Prinzipien hin
OpenAI bestreitet nicht, Inhalte von New York Times und Daily Mail genutzt zu haben. Das Unternehmen verteidigt die Nutzung der Inhalte damit, nach Fair-Use-Prinzipien gehandelt zu haben. Im US-amerikanischen Urheberrecht ist das eine Ausnahme, die das Zitieren von Werken erlaubt, wenn das zu einem bestimmten Zweck erfolgt, beispielsweise für kritische Auseinandersetzungen, journalistische Berichterstattung oder Satire. In den letzten Jahrzehnten wurde diese Regelung unterschiedlich ausgelegt. Wahrscheinlich bedarf es einer Klärung in mehreren Gerichtsverhandlungen, ob auch das Training von LLMs unter Fair Use fällt. Möglicherweise hätte OpenAI erst eine Lizenzierung beantragen müssen.
Verletzung von Urheberrechten in mehreren Fällen
Eine Verletzung von Urheberrechten wird OpenAI in mehreren Fällen vorgeworfen. Ein ehemaliger Forscher von OpenAI bekräftigte im Oktober 2024, dass OpenAI rücksichtslos Trainingsdaten gesammelt hat. OpenAI wird auch von der deutschen Verwertungsgesellschaft Gema verklagt, da OpenAI unlizenzierte Liedtexte genutzt hat.
Quellen: Wired, New York Times, Daily Mail, OpenAI, Gema, MacTechNews, Golem