Comment la liste de Midjourney a-t-elle révélé l'exploitation des artistes par l'IA ?

En janvier 2024, une erreur technique a exposé une liste interne contenant les noms et styles de 16 000 artistes, utilisés pour entraîner l'algorithme. Cette fuite a confirmé que leurs œuvres étaient ingérées sans consentement pour enseigner à la machine à reproduire leur style visuel.

Quel est le scandale du dataset Books3 impliquant Meta ?

Le dataset Books3 a révélé que Meta avait entraîné son modèle Llama à l'aide de 195 000 ouvrages téléchargés illégalement sur des bibliothèques pirates. Cette pratique a été qualifiée de double spoliation, touchant des auteurs comme Annie Ernaux ou Fred Vargas.

Quelles sont les revendications des créateurs français mobilisés contre l'IA ?

Réunis dans une tribune signée par plus de 34 000 personnes, les créateurs exigent le consentement explicite préalable pour l'utilisation de leurs œuvres. Ils ne s'opposent pas à l'innovation mais demandent que le respect du droit d'auteur s'applique également au monde numérique.

Quelles actions juridiques ont été engagées contre Meta en France ?

En mars 2025, trois organisations du monde du livre ont déposé une plainte auprès du tribunal de Paris pour contrefaçon et parasitisme économique. Elles demandent notamment l'inversion de la charge de la preuve pour obliger les entreprises à prouver qu'elles n'ont pas utilisé d'œuvres protégées.

Quelles sont les propositions législatives récentes de l'UE pour protéger les auteurs ?

La Commission JURI du Parlement européen exige la transparence sur les corpus d'entraînement, le consentement préalable des titulaires de droits et une rémunération juste. En France, une proposition de loi vise également à instaurer une présomption d'utilisation des œuvres par les sociétés d'IA.

IA générative : créateurs français contre le pillage

Imaginez des années de travail artistique réduites à de simples données, ingurgitées par des algorithmes sans votre accord. Pour des milliers d'artistes et d'auteurs français, ce cauchemar est devenu une réalité brutale en 2024. Leur style, leur voix littéraire, leur signature visuelle : tout a servi de carburant gratuit à des machines conçues en Californie. Ce qui n'était qu'un murmure d'inquiétude dans les ateliers et les maisons d'édition s'est transformé en une mobilisation sans précédent. Aujourd'hui, créateurs et institutions engagent une bataille juridique et politique de grande ampleur pour faire reconnaître ce qu'ils considèrent comme un pillage organisé.

Intelligence artificielle générative et droit d'auteur : la SAIF demande une intervention législative — (source)

La liste Midjourney : 16 000 artistes exposés

Le déclencheur de cette tempête est né d'une simple erreur informatique, mais ses conséquences ont secoué l'ensemble de la communauté créative mondiale. En janvier 2024, ce qui ressemblait à une fuite administrative anodine a brutalement exposé les coulisses de l'industrie de l'intelligence artificielle générative. Les artistes ont découvert avec stupeur que leurs noms et leurs styles figuraient sur une liste interne utilisée par l'un des outils d'IA les plus populaires du moment.

Une erreur technique aux conséquences monumentales

L'incident trouve son origine dans une négligence humaine chez Midjourney, l'entreprise californienne spécialisée dans la génération d'images par IA. Un développeur a partagé sur une plateforme collaborative un document contenant les noms de milliers de créateurs. Ce fichier, qui n'aurait jamais dû quitter les serveurs internes de l'entreprise, révélait l'existence d'un système sophistiqué de classification des styles visuels. La capture d'écran, rapidement relayée sur les réseaux sociaux, montrait une discussion entre ingénieurs évoquant l'ajout de nouveaux styles au corpus d'entraînement.

La mention apparaissait en toutes lettres : il s'agissait de la liste officielle des styles visuels intégrés au système. Pour les créateurs concernés, cette révélation a transformé une vague suspicion en certitude accablante. Leurs œuvres n'avaient pas été simplement consultées ou analysées de manière superficielle. Elles avaient fait l'objet d'une extraction méthodique, pixel par pixel, pour enseigner à la machine comment reproduire leurs caractéristiques distinctives.

Des légendes de l'art aux créateurs contemporains

L'ampleur de cette liste a de quoi donner le vertige. On y retrouve les grands noms de l'histoire de l'art comme Basquiat, Frida Kahlo ou encore Tim Burton. Mais surtout, elle contient une multitude d'artistes vivants et actifs qui n'ont jamais été sollicités. Des photographes reconnus comme Man Ray et Georgia O'Keeffe côtoient des maîtres de la bande dessinée tels que Hergé et Sempé. Le street artiste français C215 se retrouve ainsi catalogué aux côtés de H.R. Giger, le concepteur des créatures d'Alien.

Cette diversité prouve que l'opération de collecte n'était aucunement sélective. Tous les styles, toutes les époques, toutes les disciplines visuelles ont été aspirés dans une vaste entreprise de numérisation du patrimoine créatif mondial. Pour les artistes contemporains, cette découverte a été d'autant plus violente qu'elle les a placés sans leur consentement dans un panthéon virtuel aux côtés de leurs propres héros.

La réaction emblématique de Boulet

En France, l'auteur de bande dessinée Boulet est devenu le porte-voix involontaire de cette colère collective. Découvrant son nom entremêlé avec ceux de Miyazaki et Mœbius, il a exprimé une réaction qui a fait écho chez des milliers de ses confrères. Sa première réponse fut l'étonnement, presque l'honneur incident de se retrouver dans une telle compagnie. Puis rapidement, la réalité de l'exploitation commerciale a pris le dessus.

Sur les ondes de France Inter, le dessinateur a qualifié cette pratique de forme de prédation où des sociétés puissantes s'approprient le labeur de créateurs sans aucune forme de compensation. Son analyse a touché une corde sensible : celle du déséquilibre fondamental entre des artistes souvent précaires et des entreprises valorisées à des milliards de dollars. L'enquête menée conjointement par l'ADAGP et la SGDL en 2024 a par la suite chiffré cette fronde : près des deux tiers des artistes-auteurs interrogés se déclarent opposés à toute exploitation de leurs œuvres par l'IA, même moyennant une rémunération théorique.

Le scandale Books3 et l'aspiration par Meta

« Le risque, c'est que l'on ne puisse plus exercer » : 400 artistes se mobilisent contre l'utilisation de l'IA générative par cette ville — (source)

Le monde de l'image n'est pas le seul à subir cette prédation systématique. L'édition littéraire française a également été rattrapée par cette réalité brutale lorsque les enquêtes journalistiques ont mis au jour l'ampleur des pratiques de Meta. L'affaire Books3 a révélé un mécanisme que certains observateurs n'hésitent pas à qualifier de double spoliation, impliquant des milliers d'œuvres protégées par le droit d'auteur.

Le mécanisme du double détournement littéraire

Le processus identifié par les investigations médiatiques de début 2026 fonctionne en deux temps distincts. Dans un premier temps, des œuvres littéraires protégées sont téléchargées illégalement depuis des bibliothèques en ligne pirates qui prolifèrent aux marges du web. Ces plateformes, souvent hébergées dans des juridictions peu coopératives, proposent des catalogues immenses de livres numériques contrefaits.

Dans un second temps, ces fichiers piratés sont massivement ingérés dans un ensemble de données baptisé Books3. Ce dataset, qui comprend environ 195 000 ouvrages, a ensuite servi de matière première pour l'entraînement de Llama, le modèle de langage développé par Meta. L'entreprise aurait ainsi construit les fondations de son intelligence artificielle sur un socle de contenus obtenus sans l'accord de leurs créateurs. Lors d'une audition devant la Chambre des Lords britannique, les représentants d'OpenAI ont reconnu un fait troublant : développer des modèles d'IA sophistiqués sans recourir à des œuvres protégées apparaît techniquement impossible avec les méthodes actuelles.

Des prix Nobel aux auteurs du quotidien dans le corpus

Les victimes de ce système ne se limitent pas à quelques auteurs obscurs. Le dataset Books3 contient des œuvres de prix Nobel de littérature comme Annie Ernaux, dont l'écriture intime et maîtrisée représente des décennies de travail. Fred Vargas, reine incontestée du polar français, s'y trouve également, tout comme Amélie Nothomb et son style inimitable. Même Thomas Piketty, l'économiste dont les travaux sur les inégalités ont fait le tour du monde, a vu ses ouvrages intégrer cette base de données.

Le paradoxe est saisissant : ces auteurs passent des années à affiner leur voix littéraire, à construire des univers, à sculpter des phrases, pour se retrouver transformés en simples statistiques lexicales dans un algorithme. Le pire, selon les observateurs, réside dans l'ignorance totale des intéressés. Un auteur peut travailler des nuits entières sur un manuscrit sans jamais savoir que celui-ci est stocké quelque part dans les serveurs californiens, prêt à être régurgité sous forme de texte généré.

La responsabilité de la direction de Meta

Ce qui distingue cette affaire des habituels contentieux sur la propriété intellectuelle, c'est la chaîne de décision qui a été établie. Les éléments recueillis suggèrent que l'autorisation d'utiliser ce dataset controversé ne venait pas de techniciens isolés, mais émanait du sommet de l'entreprise. Mark Zuckerberg lui-même aurait validé cette stratégie d'entraînement, conscient des questions juridiques que cela pouvait soulever.

Cette implication personnelle change radicalement la nature du débat. On ne se trouve plus face à une maladresse technique ou à un dépassement de procédure, mais devant une décision stratégique délibérée au plus haut niveau. Pour les organisations d'auteurs qui ont engagé des poursuites, cette responsabilité individuelle renforce la gravité des accusations et justifie pleinement l'assignation en justice qui a suivi.

La directive européenne et ses failles juridiques

Comment des entreprises aux prétentions éthiques peuvent-elles justifier de telles pratiques ? La réponse réside dans l'exploitation habile d'un texte législatif européen qui, paradoxalement, visait initialement à protéger les créateurs. La directive adoptée en avril 2019 sur le droit d'auteur dans le marché unique numérique comportait des dispositions qui ont fini par devenir les armes juridiques des plateformes technologiques.

L'article 4 et l'exception Text and Data Mining

Le texte européen prévoit deux exceptions distinctes en matière d'exploration de données, techniquement appelée Text and Data Mining. La première, inscrite à l'article 3, encadre strictement l'extraction de données en la réservant aux organismes de recherche publique poursuivant des objectifs scientifiques. Ce cadre protecteur correspondait à l'esprit originel de la législation.

Le basculement s'opère avec l'article 4, qui ouvre grand les portes de l'exploitation commerciale. Celui-ci autorise l'exploration de données pour tout contenu accessible en ligne, peu importe l'usage final visé. Les géants de la technologie ont immédiatement saisi cette opportunité, arguant que les œuvres publiées sur le web relèvent de l'accès licite au sens du texte. Cette interprétation extensive transforme potentiellement tout l'internet en une immense réserve de données gratuites pour l'entraînement algorithmique.

L'échec du mécanisme de refus préalable

La directive prévoyait théoriquement une porte de sortie pour les créateurs récalcitrants. Le mécanisme de opt-out permettrait aux titulaires de droits d'exprimer leur refus d'exploitation via des procédés techniques lisibles par les machines d'indexation. En théorie, une balise correctement configurée devrait signaler aux robots d'aspiration que tel contenu ne doit pas être collecté.

Dans la pratique, ce système s'est révélé être une coquille vide. Les rapporteurs du Sénat français ont pointé l'inefficacité criante de ces dispositifs face aux crawlers ultraperformants déployés par les GAFAM. Ces programmes parcourent le web à une vitesse telle que les subtilités techniques des protocoles de refus sont simplement ignorées. Le résultat laisse les créateurs dans une situation d'impuissance totale : ils doivent devenir experts en configuration technique pour espérer voir leurs droits élémentaires respectés.

Le déséquilibre structurel entre créateurs et plateformes

Cette faille juridique met en lumière un problème plus profond de rapport de forces. D'un côté, des multinationales disposant d'armées d'avocats spécialisés, d'ingénieurs de pointe et de ressources financières considérables. De l'autre, des artistes et des auteurs souvent isolés, sans formation technique et sans les moyens de faire valoir leurs droits.

Le Sénat a souligné que le test en trois étapes censé limiter les dérives reste trop vaguement défini pour constituer une barrière efficace. L'interprétation de ce qui porte atteinte à l'exploitation normale d'une œuvre varie considérablement selon les parties concernées. Dans ce flou juridique entretenu, ce sont logiquement les acteurs les plus puissants qui imposent leur lecture des textes.

La mobilisation au Sommet de l'IA à Paris

Face à l'inertie législative et à l'arrogance perçue des plateformes, les créateurs ont choisi de passer de la défensive à l'offensive. Le rendez-vous était idéal : les 10 et 11 février 2025, Paris accueillait le Sommet mondial de l'intelligence artificielle, rassemblant décideurs politiques et dirigeants technologiques. Ce forum international allait devenir le théâtre d'une mobilisation sans précédent de la communauté artistique.

Manifestation contre l'intelligence artificielle Banque de photographies et d'images à haute résolution - Alamy — (source)

Une tribune transdisciplinaire sans équivalent

Six organisations majeures de gestion collective des droits ont uni leurs forces pour lancer une tribune historique. L'ADAGP pour les arts visuels, l'Adami pour les artistes-interprètes, la Sacem pour les auteurs-compositeurs, la Scam pour les créateurs multimédias, la SGDL pour les écrivains et la Spedidam pour les musiciens ont posé ensemble un acte politique fort.

Le résultat a dépassé toutes les attentes : plus de 34 000 signatures ont été recueillies en quelques jours. La diversité des signataires témoigne de l'ampleur du rassemblement. La rockeuse new-yorkaise Patti Smith côtoie l'icône de la chanson française Étienne Daho. Jean-Michel Jarre, pionnier de la musique électronique, apporte son soutien aux côtés de Zazie et Jacques Dutronc. Le monde du cinéma n'est pas en reste avec José Garcia, Julie Gayet et Agnès Jaoui. Cette coalition transgénérationnelle envoie un message clair : la défense du droit d'auteur dépasse les clivages artistiques habituels.

L'exigence du consentement préalable

Au-delà de l'impact médiatique des signatures prestigieuses, c'est le contenu du texte qui mérite attention. La revendication centrale peut se résumer en une formule devenue slogan du mouvement : aucun entraînement sans consentement explicite. Les créateurs ne réclament pas l'interdiction de l'intelligence artificielle ni un retour à des outils obsolètes.

Leur position est plus nuancée et constructive : l'innovation technologique doit respecter les mêmes règles éthiques que toute autre activité économique. Personne n'accepterait qu'une entreprise utilise le travail d'autrui sans accord préalable dans le monde physique. Pourquoi cet impératif disparaîtrait-il dès lors qu'il s'agit de données numériques ? Cette tribune a transformé une constellation de plaintes individuelles en un front commun doté d'une plateforme revendicative cohérente.

L'écho international de la protestation française

Cette mobilisation hexagonale s'inscrit dans un mouvement global de résistance des créateurs. Aux États-Unis, dès septembre 2023, plusieurs associations d'écrivains avaient déposé une plainte retentissante devant le tribunal fédéral de New York. Parmi les plaignants figurait George R.R. Martin, l'auteur du Trône de fer, accusant OpenAI d'avoir nourri ChatGPT avec ses œuvres sans autorisation ni rétribution.

Cette convergence transatlantique créait un précédent significatif. Les créateurs de tous horizons réalisaient qu'ils partageaient le même adversaire et les mêmes préoccupations. Les actions en justice se multipliaient, les tribunes se succédaient, créant une pression médiatique et politique croissante sur les géants de la tech.

La plainte historique contre Meta en France

La mobilisation verbale a fini par se traduire en actes juridiques concrets. En mars 2025, le contentieux a franchi un seuil décisif avec le dépôt d'une plainte formelle contre Meta devant le tribunal judiciaire de Paris. Cette procédure engagée par trois organisations majeures du monde du livre représente une première historique dans le paysage juridique français.

Des accusations juridiquement précises

Le Syndicat national de l'édition, le Syndicat national des auteurs et compositeurs et la Société des gens de lettres ont construit leur dossier sur deux fondements juridiques solides. La contrefaçon d'œuvres protégées constitue le premier chef d'accusation. Ce délit, bien connu des spécialistes de la propriété intellectuelle, sanctionne la reproduction non autorisée de créations originales.

Le second volet vise le parasitisme économique, une notion qui trouve ici une application particulièrement pertinente. Juridiquement, ce terme désigne le fait de s'enrichir en exploitant les efforts et les investissements d'autrui sans contribuer aux coûts de production. En l'espèce, Meta aurait bâti son modèle Llama sur des décennies de travail littéraire sans participer à la chaîne de création éditoriale. Ce procès pourrait établir une jurisprudence majeure pour l'ensemble du secteur de l'IA générative.

L'enjeu crucial de la charge de la preuve

Le point névralgique de cette bataille judiciaire concerne la répartition de l'obligation de prouver. Actuellement, les créateurs se heurtent à un mur : ils doivent démontrer que leurs œuvres spécifiques figurent dans les données d'entraînement des modèles. Cette tâche s'apparente à une mission impossible tant les algorithmes restent opaques.

Les organisations demandereses demandent au juge d'inverser cette logique. Ce seraient aux entreprises d'IA d'apporter la preuve qu'elles n'ont pas utilisé d'œuvres protégées dans leurs corpus d'entraînement. Une telle décision obligerait les développeurs à tenir des registres précis de leurs sources de données et modifierait profondément les pratiques de l'industrie.

Les conséquences potentielles pour l'écosystème tech

Un jugement favorable aux créateurs français aurait des répercussions considérables au-delà des frontières hexagonales. L'Union européenne représente un marché trop important pour que les géants technologiques puissent simplement s'en désintéresser. Si les modèles existants devaient être mis en conformité rétroactivement, les coûts techniques et financiers seraient substantiels.

Plus fondamentalement, cette procédure interroge la durabilité du modèle économique actuel de l'IA générative. Jusqu'à présent, ces entreprises se sont développées en assumant un accès libre et gratuit aux contenus en ligne. Une remise en cause de ce présupposé obligerait à repenser entièrement les stratégies d'acquisition de données d'entraînement.

Les réponses législatives du Sénat et de l'UE

La prise de conscience ne s'est pas limitée aux seuls créateurs. Les institutions politiques ont commencé à élaborer des réponses législatives adaptées à cette problématique inédite. Du côté français comme au niveau européen, plusieurs propositions visent à corriger les déséquilibres actuels et à restaurer les droits des titulaires de droits d'auteur.

La proposition de loi sénatoriale de décembre 2025

Un groupe de sénateurs emmené par Laure Darcos, Pierre Ouzoulias et Agnès Evren a déposé une proposition de loi ambitieuse. Le texte vise à instaurer ce que ses auteurs appellent une présomption d'utilisation des œuvres par les sociétés d'IA. Concrètement, si une entreprise commercialise un modèle capable de générer des contenus similaires à des œuvres existantes, la loi présumerait qu'elle a utilisé ces œuvres lors de l'entraînement.

Cette présomption renverserait l'obligation de preuve qui accable actuellement les créateurs. Les développeurs d'IA devraient soit démontrer l'absence d'utilisation de contenus protégés, soit justifier des autorisations obtenues. Cette proposition fait suite à l'échec des concertations avec les ministères de la Culture et de l'Économie, qui n'ont pas produit de solutions concrètes après six mois de discussions.

Les trois exigences de la Commission JURI européenne

Au niveau supranational, la Commission JURI du Parlement européen a adopté fin janvier 2026 un rapport d'initiative aux ambitions claires. Par 17 voix contre 3, les eurodéputés ont défini un triptyque non négociable pour l'autorisation de commercialisation des modèles d'IA dans l'Union.

La transparence sur les corpus d'entraînement constitue la première exigence. Les entreprises devront publier la liste complète des œuvres et contenus utilisés pour développer leurs algorithmes. Le consentement préalable des titulaires de droits forme le second pilier : plus d'exploitation par défaut, mais un accord explicite requis avant toute utilisation. Enfin, une rémunération juste, proportionnée et sectorielle doit être versée aux créateurs dont les œuvres ont nourri les modèles. Le rapporteur David Cormand a souligné que le droit d'auteur européen devait s'appliquer pleinement aux IA commercialisées sur le territoire de l'Union, indépendamment du lieu d'établissement des entreprises.

Conclusion : vers un nouvel équilibre entre création et innovation

Le combat mené par les créateurs français et européens ne vise pas à entraver le progrès technologique. Il s'agit d'une lutte pour la reconnaissance du travail humain comme fondement de toute création artistique, y compris celle assistée par la machine. Les décisions qui seront prises dans les mois et années à venir façonneront durablement le rapport entre intelligence artificielle et expression créative.

La mobilisation de ces 34 000 signataires, les poursuites engagées contre Meta et les initiatives législatives en cours dessinent les contours d'une possible réconciliation entre innovation et respect du droit d'auteur. Les trois principes défendus par la Commission JURI offrent une feuille de route cohérente : transparence des données utilisées, consentement des créateurs concernés et partage équitable de la valeur produite.

Pour la nouvelle génération de créateurs qui s'interroge sur l'avenir de ses métiers, ce mouvement de fond porte un message d'espoir. L'intelligence artificielle peut devenir un assistant précieux, un outil d'amplification des capacités humaines, à condition qu'elle ne se construise pas sur le pillage organisé du travail de ceux qui l'alimentent. Les créateurs l'ont prouvé par leur mobilisation : sans contenu original, sans voix artistiques authentiques, les modèles d'IA resteraient des coquilles vides incapables de générer quoi que ce soit de véritablement signifiant.

IA générative : les créateurs français réclament-ils leurs droits face au pillage de leurs œuvres ?

La liste Midjourney : 16 000 artistes exposés

Une erreur technique aux conséquences monumentales