Auteurs(trice)
Associé, Propriété intellectuelle, Vancouver
Associé, Propriété intellectuelle, Toronto
Associé, Technologie, Toronto
Associé, Propriété intellectuelle, Ottawa
Associé, Technologie, Toronto
Points à retenir
- Il faudra vraisemblablement plusieurs années pour arriver à un consensus international sur cette question : les modèles d’IA violent-ils le droit d’auteur?
- La Cour de Munich a conclu dans l’affaire GEMA c. OpenAI qu’OpenAI avait mémorisé des paroles de chansons, violant ainsi le droit d’auteur.
- Or, la Haute Cour de justice du Royaume-Uni a conclu à l’absence de violation dans l’affaire Getty Images v. Stability AI parce que le modèle n’enregistrait pas les images protégées par le droit d’auteur.
L’adoption rapide de l’IA a engendré une série de litiges qui forcent les tribunaux à répondre à la question suivante : les modèles d’IA entraînés avec des œuvres protégées par le droit d’auteur violent-ils le droit d’auteur? Deux décisions récentes révèlent l’absence de consensus international et suggèrent que l’issue de chaque affaire dépend de la preuve présentée, de la facilité de génération d’extrants contrefaits et du régime de droit d’auteur du lieu en question.
La Cour régionale de Munich a rendu récemment une décision importante dans l’affaire GEMA c. OpenAI. Elle a conclu qu’OpenAI avait violé le droit d’auteur parce que les paroles de chansons ayant servi à entraîner ses grands modèles de langage (GML) étaient mémorisées. Par conséquent, les modèles eux-mêmes étaient des œuvres contrefaites.
Cette décision tranche avec celle de la Haute Cour de justice du Royaume-Uni (la Haute Cour) dans l’affaire Getty Images v. Stability AI (voir notre récent bulletin d’actualités d’Osler), où la Haute Cour a conclu que le modèle de génération d’images de Stable Diffusion n’enregistrait et ne reproduisait pas d’œuvres protégées par le droit d’auteur; il utilisait plutôt des tendances et des caractéristiques acquises au fil du processus d’entraînement.
Plusieurs facteurs peuvent expliquer ces conclusions juridiques divergentes. D’abord et avant tout, la preuve entourant la possibilité de reproduire les œuvres ayant servi à l’entraînement au moyen de requêtes était très différente dans les deux affaires. Par ailleurs, le concept de « reproduction » en droit d’auteur n’est pas identique en Allemagne et au Royaume-Uni.
GEMA – facilité d’obtention d’une œuvre mémorisée au moyen d’une requête
Dans l’affaire GEMA, la facilité d’obtention d’œuvres contrefaites au moyen d’une requête a joué un rôle central.
GEMA, un collectif qui représente des titulaires de droits sur des œuvres musicales, poursuivait OpenAI pour violation du droit d’auteur sur des paroles de chansons. Il a fourni des exemples de requêtes simples qui amenaient le modèle d’OpenAI à générer, de façon reproductible, des extrants identiques ou quasi identiques aux paroles des chansons en question.
La Cour a conclu que ces extrants montraient que les paroles avaient été mémorisées par le modèle, de sorte que le modèle entraîné contenait lui-même des reproductions des œuvres protégées. Elle a rejeté l’hypothèse d’une simple coïncidence.
Soulignons que l’analyse de la Cour portait principalement sur les interactions avec les utilisateurs finaux et sur les extrants produits, plutôt que sur les caractéristiques techniques des modèles sous-jacents.
Or, la possibilité de générer des copies ou quasi-copies des œuvres ayant servi à l’entraînement, au moyen de requêtes simples, n’a pas été démontrée dans l’affaire Getty.
Reproduction par fixation sous une forme physique indirectement perceptible par l’humain
L’admissibilité d’extrants contrefaits comme preuve d’un modèle contrefait semble découler de l’interprétation du concept de « reproduction » en droit allemand. Constitue une reproduction toute fixation sous une forme physique qui rend l’œuvre directement ou indirectement perceptible par les sens humains.
En concluant que les GML violaient le droit d’auteur, la Cour a déclaré qu’il n’est pas nécessaire d’isoler des portions exactes des textes au sein des modèles pour prouver la fixation sous une forme physique.
Il suffit que des requêtes simples (p. ex., Quelles sont les paroles de [la chanson X]?) amènent le modèle à générer, de façon reproductible, des copies ou des quasi-copies des paroles en question. En l’espèce, il y avait une reproduction parce qu’il était possible d’identifier les paroles intégrées avec un degré de précision et d’objectivité suffisant.
Le concept de reproduction a été traité différemment dans l’affaire Getty. Dans cette affaire, la Haute Cour s’est penchée sur les données stockées dans le modèle sous forme de jetons et de coefficients de pondération. Elle a conclu que les coefficients utilisés n’enregistraient et ne reproduisaient pas les œuvres protégées; ces coefficients sont des éléments distincts créés pendant le processus d’entraînement.
L’exception pour fouille de textes et de données (TDM : text and data mining)
Malgré l’existence en droit allemand d’une exception pour TDM, la Cour a conclu qu’OpenAI ne pouvait pas s’en prévaloir.
Open AI soutenait que cette exception l’autorisait à effectuer des reproductions aux fins d’analyse subséquente. Oui, a répondu la Cour, avant de préciser que l’exception pour TDM ne permet pas la mémorisation subséquente – et donc la reproduction – des œuvres d’une manière nuisible aux intérêts d’exploitation des créateurs.
La Cour reconnaît que cette conclusion peut présenter un obstacle fondamental pour les entreprises de GML : à supposer que la mémorisation est inévitable dans l’état actuel de la technologie, l’exception pour TDM ne permet pas l’utilisation d’œuvres protégées par le droit d’auteur.
Conséquences pour les concepteurs d’IA
Comme on l’a vu, ces conclusions divergentes révèlent l’absence de consensus international sur la question suivante : les modèles d’IA violent-ils le droit d’auteur? Les tribunaux pourraient donc arriver à des réponses très différentes selon la preuve et le régime juridique applicable.
Les poursuites sur l’IA et le droit d’auteur en Allemagne et au Royaume-Uni seront vraisemblablement très intéressantes pour les concepteurs d’IA, les titulaires de droits d’auteur et les tribunaux du Canada et d’ailleurs. Il faudra sans doute du temps pour clarifier l’interprétation des lois sur le droit d’auteur, enchâssées dans le droit national, dans le contexte de l’entraînement et des extrants de l’IA.
D’ici là, les organisations qui entraînent des modèles d’IA devront envisager diverses mesures d’atténuation des risques, notamment des filtres d’intrants et d’extrants, une architecture soigneusement conçue et des possibilités de licence. Ensemble, ces mesures peuvent réduire les risques juridiques et contribuer à la gestion de l’incertitude pendant que le droit évolue.