Un groupe d'hacktivistes affirme avoir copié la quasi-totalité du catalogue de Spotify, représentant environ 300 To de données
Spotify dénonce des pirates « extrémistes hostiles aux droits d’auteur »
Un groupe d'hacktivistes appelé Anna's Archive déclare avoir récupéré 86 millions de fichiers musicaux sur Spotify et 256 millions de lignes de métadonnées telles que les noms d'artistes et d'albums. En matière d'audience, Anna's Archive a déclaré que cela représente environ 99,6 % de toutes les écoutes sur Spotify. L'ensemble des données pèse un peu moins de 300 To et est distribué via des torrents à grande échelle, classés par popularité. Si ces chiffres sont exacts, il s'agirait de la plus grande base de données de métadonnées musicales accessible au public qui existe à l'heure actuelle. Ce piratage pourrait servir de sources de données pour l'industrie de l'IA.
Anna’s Archive est une plateforme d’archive numérique ou de bibliothèque fantôme (shadow library) créée en 2022 par une personne ou un groupe anonyme identifié(e) comme Anna Archivist. Il se présente comme un moteur de recherche et une bibliothèque en ligne open source, dont l’objectif déclaré est de cataloguer et rendre facilement disponibles des livres, articles scientifiques et autres documents numériques provenant de différentes sources.
La plateforme vient de faire l'une de ses déclarations les plus audacieuses à ce jour : elle a annoncé avoir sauvegardé une partie importante du catalogue de Spotify, y compris les métadonnées et les fichiers musicaux, dans ce qu'elle décrit comme une « archive de conservation » mondiale pour la musique.
Anna’s Archive se concentre généralement sur les livres, les magazines et les articles universitaires, qu'il récupère dans des bibliothèques parallèles, des collections officielles et d'autres sources, et qu'il met à disposition via des torrents. Mais aujourd'hui, le site s'intéresse à la musique, en commençant par Spotify. « Ce scraping de Spotify est notre modeste tentative de créer une telle « archive de préservation » pour la musique », a écrit Anna’s Archive.
« Bien sûr, Spotify ne contient pas toute la musique du monde, mais c'est un excellent début ». Selon l'annonce, Anna’s Archive a découvert il y a quelque temps comment extraire des données à grande échelle sur Spotify et a décidé qu'il était en mesure de créer une archive musicale de conservation.
Que contient cette archive de conversation créée par Anna’s Archive ?
Anna’s Archive affirme avoir archivé les métadonnées d'environ 256 millions de titres et les fichiers audio d'environ 86 millions de chansons. Selon la plateforme, cela représente environ 99,6 % de toutes les écoutes sur Spotify. L'ensemble des titres pèse un peu moins de 300 To et est distribué via des torrents, classés par popularité. Spotify, qui héberge plus de 100 millions de titres, a déclaré que la fuite ne concerne pas l'intégralité de son catalogue.
Les morceaux dont la popularité est mesurable ont été stockés dans le format OGG Vorbis 160 kb/s original de Spotify, tandis que les morceaux moins écoutés ont été réencodés dans des fichiers OGG Opus plus petits à 75 kb/s afin de réduire les besoins en stockage. Les archives hiérarchisent le contenu à l'aide de l'indicateur de « popularité » interne de Spotify, et les documents publiés après juillet 2025 peuvent être manquants ou incomplets.
Anna’s Archive souligne également l'ampleur de sa collection de métadonnées, précisant qu'elle comprend 186 millions d'ISRC uniques, bien plus que les bases de données publiques existantes telles que MusicBrainz. À l'heure actuelle, seules les métadonnées ont été entièrement publiées. Les fichiers musicaux sont distribués progressivement, en commençant par les morceaux les plus populaires. D'autres éléments sont prévus pour les étapes ultérieures.
Quelles sont les motivations du groupe de pirates Anna’s Archive ?
Ce site, qui a vu le jour il y a seulement trois ans, est déjà l'une des plateformes de piratage les plus ciblées en ligne, les détenteurs de droits ayant émis des centaines de millions de demandes de retrait à son encontre. Malgré cela, il est resté accessible via des miroirs et des domaines alternatifs. Traditionnellement axé sur les documents textuels, Anna's Archive affirme que les livres et les articles offrent la plus grande densité d'informations à préserver.
Mais le groupe affirme que sa mission plus large consiste à préserver les connaissances et la culture de l'humanité sur tous les types de supports. Ce projet a vu le jour après qu'il a découvert un moyen de récupérer les données de Spotify à grande échelle. « Avec votre aide, le patrimoine musical de l'humanité sera à jamais protégé contre la destruction causée par les catastrophes naturelles, les guerres, les coupes budgétaires et d'autres catastrophes ».
Dans son annonce, Anna’s Archive affirme que si la musique semble bien préservée grâce aux CD, aux ripages de vinyles et aux communautés privées de torrent, les efforts actuels ont tendance à privilégier les artistes les plus populaires et les formats de très haute qualité. Selon Anna's Archive, cette approche augmente les besoins en stockage et laisse la musique moins connue ou peu demandée mal partagée ou exposée au risque de disparition.
Une fuite massive qui pourrait servir les intérêts de l'industrie de l'IA
Selon certains observateurs, cette fuite pourrait donner un coup de pouce aux entreprises spécialisées dans l'IA qui recherchent des matériaux pour développer leur technologie. Ed Newton-Rex, compositeur et militant pour la protection des droits d'auteur des artistes, explique que la musique divulguée serait probablement utilisée pour développer des modèles d'IA. Les entreprises d'IA sont confrontées à la raréfaction des sources de données qualitatives.
« L'entraînement sur du matériel piraté est malheureusement courant dans l'industrie de l'IA, il est donc presque certain que cette musique volée finira par servir à entraîner des modèles d'IA. C'est pourquoi les gouvernements doivent insister pour que les entreprises d'IA divulguent les données d'entraînement qu'elles utilisent », a déclaré Ed Newton-Rex. Meta et Anthropic font face à des poursuites pour avoir entraîné leurs IA sur des livres piratés.
Le droit d'auteur est devenu un champ de bataille entre les artistes et les auteurs d'un côté, et les entreprises d'IA de l'autre. Les outils d'IA et les générateurs de musique sont entraînés à partir d'énormes quantités de données provenant du Web ouvert, y compris des œuvres protégées par le droit d'auteur.
Le site Anna's Archive fait référence à LibGen, une vaste archive en ligne de livres piratés qui aurait été utilisée par Meta, l'entreprise de Mark Zuckerberg, pour former ses modèles d'IA. Selon des documents judiciaires, Mark Zuckerberg, PDG de Meta, a approuvé l'utilisation de LibGen malgré les avertissements de l'équipe juridique, qui a alerté sur le fait qu'il s'agissait d'un ensemble de données qui contient essentiellement des « documents piratés ».
Meta a réussi à se défendre contre une plainte pour violation du droit d'auteur déposée par des auteurs, mais les plaignants dans cette affaire cherchent à modifier leur plainte. Les critiques ont également déclaré que les membres du public pourraient en théorie « créer leur propre version gratuite de Spotify ». Cela pourrait également permettre aux entreprises spécialisées dans l'IA de « s'entraîner gratuitement à grande échelle sur la musique moderne ».
Spotify réagit au piratage massif de sa plateforme et ouvre une enquête
Spotify a reconnu la situation et a déclaré à Android Authority qu'il enquête pour déterminer si Anna's Archive avait réellement récupéré des données à grande échelle sur sa plateforme. « Une enquête sur un accès non autorisé a révélé qu'un tiers avait récupéré des métadonnées publiques et utilisé des tactiques illicites pour contourner la DRM afin d'accéder à certains fichiers audio de notre plateforme. Nous enquêtons activement sur cet incident ».
On ne sait pas exactement la quantité de données de Spotify récupérée ni si la société envisage d'intenter une action en justice pour faire supprimer les torrents. Interrogé à ce sujet, un porte-parole de Spotify a déclaré à Ars que « Spotify a identifié et désactivé les comptes d'utilisateurs malveillants qui se sont livrés à des pratiques illégales de récupération de données ». La société a déclaré avoir mis en place des mesures ce type d'attaque.
« Nous avons mis en place de nouvelles mesures de protection contre ce type d'attaques anti-copyright et surveillons activement tout comportement suspect », a déclaré un porte-parole de Spotify à Ars. « Depuis le premier jour, nous nous sommes engagés aux côtés de la communauté artistique contre le piratage, et nous travaillons activement avec nos partenaires industriels pour protéger les créateurs et défendre leurs droits ».
Spotify a assimilé les hacktivistes à « des extrémistes anti-droit d'auteur qui ont déjà piraté du contenu sur YouTube et d'autres plateformes ». La déclaration de Spotify ne confirme pas l'ampleur du scraping décrit par Anna's Archive. Alors que la plateforme affirme que seuls « certains » de ses fichiers audio ont été consultés, Anna's Archive prétend avoir pu archiver 99,6 % de toutes les écoutes sur Spotify. Ce qui suscite beaucoup d'intérêts.
Les utilisateurs d'Anna’s Archive craignent les conséquences de ce piratage
Bien qu'Anna's Archive présente ce projet comme une initiative de préservation culturelle, sa légalité est très contestable. Spotify octroie des licences musicales dans le cadre d'accords stricts avec les maisons de disques et les détenteurs de droits, et l'extraction et la redistribution de fichiers audio via des torrents constituent très certainement une violation des conditions d'utilisation de Spotify et de la loi sur le droit d'auteur dans plusieurs juridictions.
Certains fans d'Anna's Archive, qui utilisent principalement le site pour trouver des livres, des articles, des magazines, ont été effrayés par la nouvelle du vol des données de Spotify. Sur Hacker News, certains utilisateurs d'Anna's Archive se sont demandé si ces données seraient utiles à quelqu'un d'autre qu'aux chercheurs en IA, car la recherche de chansons individuelles dans des torrents volumineux semblait peu pratique pour les fans de musique.
Un utilisateur a noté : « il existe déjà des outils permettant de localiser et de diffuser automatiquement et à la demande des contenus télévisés et cinématographiques piratés ». Mais d'autres utilisateurs se sont inquiétés du fait qu'Anna's Archive ait pu être incité à récupérer les données de Spotify, prenant ainsi des risques juridiques que les entreprises d'IA, enclines à dissimuler leurs sources de données d'entraînement, souhaitent probablement éviter.
« C'est complètement fou », a écrit l'un des principaux commentateurs. « Je me demande vraiment si cela répond à une demande des chercheurs/entreprises spécialisées dans l'IA qui souhaitaient disposer de ces données. Ou si les grandes maisons de disques ont déjà accordé des licences pour l'ensemble de leurs catalogues à des fins de formation à un prix suffisamment bas, de sorte que cela vise uniquement à préserver ces données ? »
Selon un autre internaute, Anna's Archive travaille clairement à soutenir les développeurs d'IA. « L'IA n'est peut-être pas leur motivation première, mais ils sont manifestement d'accord pour faciliter le piratage des laboratoires d'IA », a suggéré un troisième commentateur. Pendant ce temps, sur Reddit, certains utilisateurs d'Anna's Archive s'inquiétaient du fait que la plateforme ait pu se condamner elle-même en récupérant les données de Spotify.
Conclusion
La sauvegarde Spotify d'Anna's Archive reste l'une des initiatives de préservation les plus audacieuses jamais vues sur Internet. Qu'elle devienne un acte historique en matière de préservation numérique ou une provocation éphémère dépend désormais en grande partie de Spotify, des maisons de disques et des tribunaux. Cette nouvelle affaire illustre les tensions croissantes autour du contrôle des contenus culturels à l’ère des plateformes numériques.
Source : Anna's Archive
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous du piratage massif de la plateforme de Spotify par Anna's Archive ?
Selon vous, la préservation de la culture de l'humanité justifie-t-elle ce piratage à grande échelle ?
Certains utilisateurs pensent que le site Anna's Archive s'est condamné en piratant Spotify. Qu'en pensez-vous ?
Certains critiques accusent l'industrie de l'IA d'avoir incité Anna's Archive à pirater Spotify. Qu'en pensez-vous ?
Voir aussi
Des chercheurs ont découvert que le modèle d'IA GPT-4 d'OpenAI est capable de pirater des sites web et de voler des informations dans des bases de données en ligne sans aide humaine
"Les livres piratés utilisés par Meta ne valent rien individuellement", selon Meta AI qui a jugé que 7 millions de livres n'avaient aucune "valeur économique", après avoir formé son IA sur des œuvres protégées
Un juge rejette l'accord à 1,5 milliard de dollars conclu par Anthropic concernant un recours collectif sur les droits d'auteur de près d'un demi-million de livres piratés pour former des chatbots










Quel est votre avis sur le sujet ?
Répondre avec citation










Partager