3 000 dollars par livre : la société d’intelligence artificielle Anthropic verse 1,5 milliard de dollars à des auteurs dans le cadre d’un litige sur les droits d’auteur

Konrad Wolfenstein

Il y a 10 mois

3 000 $ par livre : la société d’IA Anthropic verse 1,5 milliard de dollars aux auteurs dans le cadre d’un litige relatif aux droits d’auteur – Image : Xpert.Digital

Anthropique et l'accord à un milliard de dollars : un changement de paradigme dans le droit d'auteur de l'IA

Que signifie l'affaire Anthropic pour l'industrie de l'IA ?

Pourquoi la société d'IA Anthropic a-t-elle accepté un accord à l'amiable de 1,5 milliard de dollars avec des auteurs, alors même que l'entraînement de modèles d'IA avec des œuvres protégées par le droit d'auteur est légal ? Cette question préoccupe actuellement l'ensemble du secteur technologique, car cette affaire pourrait marquer un tournant dans le conflit entre les développeurs d'IA et les détenteurs de droits d'auteur.

Cette affaire est particulièrement remarquable car Anthropic, fournisseur du chatbot Claude, n'a pas été poursuivi pour avoir utilisé des ouvrages protégés par le droit d'auteur afin d'entraîner son IA, mais plutôt pour la manière dont ces données ont été obtenues. Le tribunal américain a statué que si l'entraînement d'une IA avec des textes protégés par le droit d'auteur pouvait, dans certaines circonstances, relever de la doctrine américaine de l'utilisation équitable (fair use), le téléchargement de contenu à partir de sources illégales ne l'était pas. Point crucial, Anthropic avait manifestement connaissance de l'origine illégale des données.

En lien avec ceci :

Anthropique et l'IA : Claude : L'ascension au rang de géant de l'IA – évaluation, concurrence et visions éthiques

Comment cet accord historique a-t-il été conclu ?

Quelles étaient les accusations précises portées contre Anthropic ? Les auteurs accusaient l’entreprise d’avoir téléchargé sans autorisation environ 500 000 livres et textes à partir de deux bases de données en ligne portant atteinte aux droits d’auteur. Ces données auraient ensuite servi à entraîner le chatbot d’intelligence artificielle Claude, considéré comme l’un des principaux concurrents de ChatGPT d’OpenAI.

L'accord stipule qu'Anthropic versera environ 3 000 $ d'indemnisation pour chaque œuvre concernée, soit environ 2 500 €. Cette somme représente quatre fois le montant minimal des dommages-intérêts prévus par la loi américaine sur le droit d'auteur. De plus, Anthropic devra détruire les documents piratés et toutes leurs copies, mais conserve les droits sur les livres acquis et numérisés légalement.

Pourquoi Anthropic a-t-elle accepté cet accord ? L’entreprise souhaitait éviter un procès qui aurait pu lui valoir des amendes allant jusqu’à 150 000 $ par livre. Avec 500 000 ouvrages concernés, cela aurait représenté un montant potentiel de 75 milliards de dollars – une somme astronomique, même pour une entreprise qui avait récemment levé 13 milliards de dollars.

Quelles sont les différences entre la situation juridique aux États-Unis et en Allemagne ?

Comment une affaire similaire serait-elle jugée en Allemagne ? Contrairement au droit américain, le droit d’auteur allemand ne reconnaît pas la notion d’usage loyal permettant une appréciation au cas par cas. En effet, des limitations et exceptions spécifiques sont strictement définies pour des finalités particulières, restreignant ainsi les droits des titulaires de droits d’auteur.

Suite à la mise en œuvre de la directive européenne sur le droit d'auteur, l'Allemagne a créé l'article 44b de sa loi sur le droit d'auteur, qui réglemente l'exploration de textes et de données (ETD). Cette disposition autorise l'analyse automatisée de grands ensembles de données, qu'il s'agisse de textes ou d'images, afin d'en extraire des informations. L'entraînement des systèmes d'intelligence artificielle relève généralement de cette réglementation.

Quelles restrictions s'appliquent aux fournisseurs commerciaux ? La licence TDM présente un inconvénient majeur : les titulaires de droits d'auteur peuvent s'opposer à l'utilisation de leurs œuvres à des fins commerciales de TDM. Cette réserve d'utilisation doit être formulée sous une forme lisible par machine, par exemple dans les métadonnées ou les conditions d'utilisation d'un site web.

La directive européenne sur le traitement numérique des données (DSM) distingue deux types d'exploration de textes et de données : l'article 3 autorise l'exploration de textes et de données à des fins de recherche scientifique par les institutions de recherche et les institutions patrimoniales, à condition qu'elles aient un accès légal aux œuvres. Cette exception est obligatoire et ne peut être exclue par des clauses contractuelles. L'article 4, quant à lui, autorise l'exploration de textes et de données à des fins générales, y compris commerciales, mais sous réserve de l'existence d'une procédure d'opposition.

Quels aspects techniques interviennent dans l'évaluation juridique ?

Pourquoi les mécanismes techniques de l'entraînement de l'IA sont-ils si importants pour l'évaluation juridique ? Une étude récente de la Copyright Initiative, menée par les professeurs Tim W. Dornis et Sebastian Stober, lève le voile sur les aspects techniques de l'entraînement de l'IA. Les chercheurs concluent que, d'un point de vue technique, l'entraînement des modèles d'IA génératifs ne relève pas de l'exploration classique de textes et de données, mais constitue plutôt une forme de violation du droit d'auteur.

Que se passe-t-il concrètement lors de l'entraînement de modèles d'IA ? Le processus comprend plusieurs étapes liées au droit d'auteur : tout d'abord, les données sont collectées de manière systématique, ce qui constitue déjà une reproduction au sens du droit d'auteur. Ensuite, les données collectées sont stockées sur des serveurs et préparées pour l'entraînement. Enfin, le modèle d'IA analyse les données et en extrait des tendances, des styles et des informations.

Un point particulièrement crucial est la mémorisation : les données d’entraînement sont partiellement ou totalement mémorisées par les modèles génératifs actuels et peuvent donc être régénérées et ainsi reproduites par les utilisateurs finaux munis d’instructions appropriées. Cela va bien au-delà de la simple analyse, qui est au cœur de l’exploration de textes et de données classique.

Comment Claude se positionne-t-il face à la concurrence de ChatGPT ?

Quel impact le litige relatif aux droits d'auteur a-t-il sur la position d'Anthropic sur le marché ? Malgré les problèmes juridiques, Claude s'est imposé comme un concurrent sérieux de ChatGPT. Selon les analyses de marché actuelles, Anthropic détient désormais 32 % des parts de marché des grands modèles de langage pour entreprises, tandis qu'OpenAI occupe la deuxième place avec 25 %.

La position d'Anthropic est particulièrement forte dans le domaine de la programmation : avec 42 % de parts de marché, l'entreprise est de loin le premier fournisseur, soit plus du double d'OpenAI (21 %). Claude doit cette domination principalement à son impressionnante fenêtre de contexte de 200 000 jetons, qui permet le traitement de rapports d'activité complets en une seule passe.

Quels sont les atouts spécifiques de Claude par rapport à ChatGPT ? Claude est souvent salué pour son style de communication plus « humain » et sa compréhension nuancée des concepts complexes. L’engagement d’Anthropic en faveur d’un développement éthique et sécurisé de l’IA lui a permis de s’imposer comme un fournisseur de confiance pour les entreprises qui privilégient les pratiques responsables dans les applications sensibles.

Anthropic s'appuie sur l'IA constitutionnelle, une méthode qui intègre directement les principes éthiques dans ses modèles. Cela permet de prévenir les dépenses préjudiciables ou biaisées et de renforcer la confiance des utilisateurs. Bien qu'OpenAI soit également actif dans le domaine de la sécurité de l'IA, l'engagement explicite d'Anthropic en faveur du développement de modèles d'IA éthiques lui confère un avantage considérable.

Quels autres procès affectent le secteur de l'IA ?

L'affaire Anthropic n'est-elle que la partie émergée de l'iceberg ? En réalité, plus de 40 poursuites sont en cours aux États-Unis contre des fournisseurs de technologies d'IA pour violation de droits d'auteur. OpenAI, par exemple, a été poursuivi par le New York Times, et d'autres actions en justice sont en cours contre Anthropic suite à cet accord, notamment de la part d'éditeurs musicaux et de la plateforme en ligne Reddit.

Apple est également devenue récemment la cible de poursuites pour violation de droits d'auteur : des auteurs ont porté plainte contre la société technologique, l'accusant d'avoir utilisé illégalement leurs ouvrages protégés pour entraîner ses systèmes d'intelligence artificielle. Les plaignants reprochent à Apple d'avoir copié ces œuvres sans autorisation, sans mention de la source ni compensation.

En Allemagne, la GEMA est devenue la première société de gestion collective au monde à porter plainte contre OpenAI pour utilisation non autorisée d'œuvres musicales protégées par le droit d'auteur. La GEMA accuse OpenAI de reproduire des paroles de chansons d'auteurs allemands sans avoir acquis les licences nécessaires ni versé les droits d'auteur.

Comment évolue la question du droit de retrait ?

Que signifie concrètement la procédure de retrait pour les titulaires de droits ? En vertu de la loi allemande, les auteurs et les titulaires de droits peuvent formuler une réserve d’utilisation lisible par machine afin d’exclure leurs œuvres de toute utilisation par l’IA. Sony Music Group, par exemple, a publié une « Déclaration de retrait de l’entraînement par l’IA » pour protéger son contenu contre toute utilisation non autorisée par l’IA.

Cependant, la mise en œuvre pratique du mécanisme de retrait est complexe : les modalités exactes de déclaration de cette réserve, tant sur le plan technique que juridique, et la manière dont les développeurs d’IA doivent la gérer, restent à définir. On craint qu’un retrait largement utilisé ne restreigne considérablement les données d’entraînement des modèles d’IA en Europe.

Les entreprises spécialisées en IA doivent respecter ces restrictions d'utilisation et ne peuvent les contourner. Si une œuvre doit être intégrée au corpus de données d'entraînement malgré ces restrictions, le développeur doit entamer des négociations de licence avec le détenteur des droits. Ceci crée un nouveau marché des licences, qui n'est toutefois pas encore établi.

Une nouvelle dimension de la transformation numérique avec l'IA managée (Intelligence Artificielle) - Plateforme et solution B2B | Xpert Consulting

Une nouvelle dimension de la transformation numérique avec l'IA managée (Intelligence Artificielle) – Plateforme et solution B2B | Xpert Consulting - Image : Xpert.Digital

Vous découvrirez ici comment votre entreprise peut mettre en œuvre des solutions d'IA personnalisées rapidement, en toute sécurité et sans barrières à l'entrée élevées.

Une plateforme d'IA managée est votre solution clé en main pour l'intelligence artificielle. Fini les technologies complexes, les infrastructures coûteuses et les longs processus de développement : vous bénéficiez d'une solution clé en main, adaptée à vos besoins, fournie par un partenaire spécialisé – souvent en quelques jours seulement.

Les principaux avantages en un coup d'œil :

⚡ Mise en œuvre rapide : De l’idée à l’application prête à l’emploi en quelques jours, et non en plusieurs mois. Nous fournissons des solutions pratiques qui créent une valeur ajoutée immédiate.

🔒 Sécurité maximale des données : Vos données sensibles restent chez vous. Nous garantissons un traitement sécurisé et conforme à la réglementation, sans partage de données avec des tiers.

💸 Aucun risque financier : vous ne payez que pour les résultats. Les investissements initiaux importants en matériel, logiciels ou personnel sont totalement éliminés.

🎯 Concentrez-vous sur votre cœur de métier : nous prenons en charge l’intégralité de la mise en œuvre technique, de l’exploitation et de la maintenance de votre solution d’IA.

📈 Évolutif et à l'épreuve du temps : votre IA évolue avec vous. Nous assurons une optimisation et une évolutivité continues, et adaptons les modèles avec souplesse aux nouveaux besoins.

Plus d'informations ici :

Solution d'IA gérée - Services d'IA industrielle : la clé de la compétitivité dans les secteurs des services, de l'industrie et de l'ingénierie mécanique

Marché des licences pour les données d'IA : opportunité pour les éditeurs ou risque pour les startups ?

Quel rôle joue la réglementation européenne en matière d'IA ?

Quel est l’impact du nouveau règlement européen sur l’IA sur le droit d’auteur ? Bien que ce règlement ne contienne aucune nouvelle disposition relative aux exceptions au droit d’auteur, il précise que l’utilisation d’un contenu protégé par le droit d’auteur nécessite l’autorisation du titulaire des droits, sauf limitation applicable.

Tous les fournisseurs de modèles d'IA à usage général doivent se conformer à des exigences documentaires exhaustives. Celles-ci comprennent une description détaillée des données utilisées pour l'entraînement, notamment leur type, leur origine et les méthodes de traitement. Ils doivent en particulier garantir l'identification et le respect des réserves légales prévues par la directive DSM.

L'Office pour l'intelligence artificielle surveille le respect de ces dispositions, mais n'examine pas les violations de droits d'auteur œuvre par œuvre. En se référant à la directive DSM, le règlement sur l'IA précise que le législateur présume l'applicabilité de l'exception relative à l'exploration de textes et de données à l'entraînement des modèles d'IA génératifs.

En lien avec ceci :

Anthropic Claude Gov : Développements passionnants de l'IA pour la sécurité nationale américaine

En quoi les utilisations scientifiques et commerciales diffèrent-elles ?

Quelles sont les réglementations spécifiques applicables à la recherche scientifique ? Dans un arrêt faisant jurisprudence, le tribunal régional de Hambourg a décidé que les organismes de recherche peuvent, sous certaines conditions, utiliser des œuvres protégées par le droit d’auteur pour l’entraînement de l’intelligence artificielle. L’affaire concernait l’utilisation d’une image protégée par le droit d’auteur par un organisme de recherche ayant constitué un vaste ensemble de données image-texte pour l’entraînement de modèles d’IA générative.

Le tribunal a statué que la création d'un ensemble de données d'entraînement pour l'IA relève de la liberté de recherche, même si des entreprises commerciales utilisent ultérieurement les données ainsi obtenues. L'élément déterminant est que la création initiale de cet ensemble de données vise l'acquisition de connaissances. La notion de recherche scientifique est interprétée de manière extensive dans ce contexte.

L'article 60d de la loi allemande sur le droit d'auteur (UrhG) autorise l'exploration de textes et de données scientifiques par les institutions de recherche, telles que les universités, à des fins de recherche scientifique non commerciale. Le consentement des titulaires de droits d'auteur n'est pas requis. Ceci contraste avec l'utilisation commerciale, pour laquelle une procédure d'opposition est nécessaire.

Quelles sont les différences internationales ?

Comment les autres pays gèrent-ils la question du droit d'auteur en matière d'IA ? Le Japon, réputé pour son ouverture à l'innovation, a déjà modifié sa loi sur le droit d'auteur en 2018. L'article 30-4 de la loi japonaise sur le droit d'auteur introduit une exception souple pour les utilisations qui ne contribuent pas à la « jouissance » de l'œuvre. Cette exception est souvent interprétée comme incluant l'entraînement des modèles d'IA, dès lors que l'objectif est l'analyse des données et non la consommation de l'œuvre elle-même.

Depuis le Brexit, le Royaume-Uni a suivi sa propre voie. Des consultations ont été menées concernant les exemptions de droits d'auteur pour les développeurs d'IA, notamment pour TDM. Cependant, les propositions ont suscité de vives inquiétudes au sein des industries créatives, laissant planer l'incertitude quant à l'avenir du projet.

La Chine a modifié sa loi sur le droit d'auteur en 2020 et renforce globalement la protection de la propriété intellectuelle. Si la réglementation spécifique relative à la formation des systèmes d'IA est encore en cours d'élaboration, le pays reconnaît l'importance stratégique de l'IA et devrait rechercher des solutions pragmatiques.

Quelles sont les conséquences de cette affaire pour les autres entreprises spécialisées dans l'IA ?

Quelles leçons les autres entreprises d'IA peuvent-elles tirer du cas Anthropic ? La comparaison montre que l'origine des données d'entraînement est cruciale. Si l'entraînement avec des données acquises légalement peut être couvert par les limitations liées à l'utilisation équitable ou au traitement des données d'entraînement (TDM), l'utilisation de données obtenues illégalement peut entraîner des amendes considérables.

Les entreprises spécialisées en intelligence artificielle concluent de plus en plus d'accords de licence avec les détenteurs de droits d'auteur pour accéder aux contenus. OpenAI, par exemple, a signé des accords avec diverses entreprises de médias, et d'autres fournisseurs suivent son exemple. L'essai clinique d'Anthropic pourrait accélérer cette tendance et aboutir à un marché des licences établi.

Pour les fournisseurs de modèles et de systèmes d'IA, il est crucial de faire appel à des fournisseurs de confiance pour la génération des données d'entraînement, car ces derniers respectent la propriété intellectuelle d'autrui lors de la création de ces données. Même sans connaissance de violation de droits d'auteur, des conséquences juridiques peuvent survenir.

Comment va évoluer le marché des données d'entraînement pour l'IA ?

Un nouveau marché des licences pour les données d'entraînement de l'IA est-il en train d'émerger ? L'affaire Anthropic et d'autres procès similaires laissent penser qu'un marché structuré pour la licence de contenus destinés à l'entraînement de l'IA pourrait se développer. Les éditeurs, les auteurs et autres détenteurs de droits reconnaissent de plus en plus la valeur de leurs contenus pour le développement de l'IA.

Dans le même temps, les entreprises spécialisées en IA doivent relever le défi d'acquérir des données d'entraînement de haute qualité et conformes à la législation. Le coût de ces licences peut être considérable, notamment pour les petites entreprises qui ne disposent pas des ressources d'Anthropic ou d'OpenAI.

L'émergence de fournisseurs de données spécialisés qui créent et commercialisent des ensembles de données d'entraînement conformes à la législation est une conséquence logique de cette tendance. Ces fournisseurs pourraient servir d'intermédiaires entre les détenteurs de droits et les développeurs d'IA, garantissant ainsi le respect de toutes les obligations légales.

Quel impact cela aura-t-il sur l'innovation et la concurrence ?

Un cadre juridique plus strict freine-t-il l'innovation dans le développement de l'IA ? Cette question fait l'objet de nombreux débats. Les partisans de règles strictes en matière de droit d'auteur soutiennent que les créateurs et les titulaires de droits doivent être correctement rémunérés pour l'utilisation de leurs œuvres. Cependant, la grande quantité de données d'entraînement nécessaires et les coûts de licence associés pourraient entraîner une concentration du marché entre les mains de quelques grands fournisseurs.

Les petites entreprises et les startups pourraient ne pas avoir les moyens d'acquérir les licences nécessaires, ce qui limiterait leur capacité à développer des modèles d'IA compétitifs. Paradoxalement, cela pourrait freiner l'innovation et la concurrence, car seules les entreprises bien financées comme Anthropic, OpenAI ou Google peuvent réunir les ressources nécessaires.

En revanche, l'obligation de payer des droits de licence pourrait favoriser le développement de méthodes d'entraînement plus efficaces. Les développeurs d'IA pourraient investir davantage dans des techniques nécessitant moins de données ou utilisant des données synthétiques afin de réduire leur dépendance aux contenus sous licence.

Comment les détenteurs de droits et les professionnels de la création se positionnent-ils ?

Quelles stratégies les auteurs, les éditeurs et les autres titulaires de droits mettent-ils en œuvre ? La Copyright Initiative et des organisations similaires appellent à une meilleure prise en compte du droit d’auteur dans l’entraînement des IA. Elles affirment que l’utilisation d’œuvres protégées par le droit d’auteur sans consentement ni compensation par les entreprises d’IA constitue un « vol massif de propriété intellectuelle ».

De nombreux détenteurs de droits d'auteur s'appuient de plus en plus sur des mécanismes d'exclusion pour protéger leurs œuvres contre toute utilisation non désirée de l'IA. Parallèlement, ils explorent des pistes pour tirer profit du développement de l'IA grâce à des accords de licence. Il en résulte un mélange complexe de litiges et d'opportunités commerciales.

Le procès intenté par GEMA contre OpenAI montre que les sociétés de gestion collective jouent également un rôle actif dans ce conflit. En tant que collectifs, elles peuvent représenter les intérêts de leurs membres et mener des négociations de licences avec les entreprises d'IA.

Quelles sont les perspectives à long terme ?

Comment le paysage juridique pourrait-il évoluer dans les années à venir ? L’affaire Anthropic n’est peut-être que le prélude à une série d’accords et de décisions de justice qui redéfiniront les règles de l’apprentissage automatique en IA. Aux États-Unis, d’autres affaires pourraient clarifier la doctrine de l’utilisation équitable en matière d’IA, tandis qu’en Europe, l’application pratique des limitations liées à la prise de décision thérapeutique continue d’être affinée.

Le règlement européen sur l'IA devrait apporter des précisions supplémentaires concernant les exigences en matière de documentation et de respect du droit d'auteur. Il pourrait en résulter une harmonisation des pratiques au sein de l'UE, mais aussi des différences par rapport à d'autres juridictions.

Le développement technologique sera un facteur clé : si, à l’avenir, les modèles d’IA peuvent être entraînés efficacement avec moins de données ou avec des données synthétiques, cela pourrait atténuer les problèmes de droits d’auteur. Parallèlement, de nouvelles techniques de détection et d’indemnisation de l’utilisation de contenus protégés par le droit d’auteur pourraient être mises au point.

L'affaire Anthropic marque un tournant majeur dans le développement de l'industrie de l'IA. Elle démontre que le cadre juridique régissant l'entraînement des modèles d'IA n'est pas encore totalement clair et que les entreprises du secteur, tout comme les détenteurs de droits, doivent trouver de nouvelles solutions pour concilier leurs intérêts. L'accord à 1,5 milliard de dollars pourrait inaugurer une nouvelle ère où l'utilisation de contenus protégés par le droit d'auteur pour l'entraînement des IA se ferait de manière plus équitable et transparente.

Sécurité des données UE/DE | Intégration d'une plateforme d'IA indépendante et multi-sources pour tous les besoins de l'entreprise

Plateformes d'IA indépendantes : une alternative stratégique pour les entreprises européennes - Image : Xpert.Digital

L'IA révolutionne le secteur : la plateforme d'IA la plus flexible – des solutions sur mesure qui réduisent les coûts, améliorent vos décisions et augmentent l'efficacité

Plateforme d'IA indépendante : intègre toutes les sources de données pertinentes de l'entreprise

Intégration rapide de l'IA : des solutions d'IA sur mesure pour les entreprises, en quelques heures ou quelques jours au lieu de plusieurs mois
Infrastructure flexible : hébergement dans le cloud ou dans votre propre centre de données (Allemagne, Europe, emplacement libre)

Sécurité maximale des données : son utilisation dans les cabinets d'avocats en est la preuve irréfutable
Déploiement sur une grande variété de sources de données d'entreprise
Choix de modèles d'IA propres ou différents (DE, EU, USA, CN)

Plus d'informations ici :

Plateformes d'IA indépendantes ou hyperscalers : quelle solution est la plus adaptée ?

Nous sommes là pour vous - Conseil - Planification - Mise en œuvre - Gestion de projet

☑️ Accompagnement des PME en matière de stratégie, de conseil, de planification et de mise en œuvre

☑️ Création ou réalignement de la stratégie d'IA

☑️ Développement commercial pionnier

Konrad Wolfenstein

Je serais heureux de vous servir de conseiller personnel.

Vous pouvez me contacter en remplissant le formulaire de contact ci-dessous ou simplement m'appeler au +49 7348 4088 965 .

J'attends avec impatience notre projet commun.

Écris-moi

➡️ Demande d'appel vidéo 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital est un pôle industriel spécialisé dans la numérisation, le génie mécanique, la logistique/intralogistique et le photovoltaïque.

Grâce à notre solution de développement commercial à 360°, nous accompagnons des entreprises de renom, de la prospection à l'après-vente.

L'intelligence de marché, le marketing digital, l'automatisation du marketing, le développement de contenu, les relations publiques, les campagnes de publipostage, les médias sociaux personnalisés et la fidélisation des prospects font partie de nos outils numériques.

Vous trouverez plus d'informations sur : www.xpert.digital - www.xpert.solar - www.xpert.plus

Rester en contact