AI ADOPTION
8 min de lecture

Le marché des données pour l'entrainement des LLM.

L'accès à des données de haute qualité constitue un défi majeur pour le développement de modèles d'intelligence artificielle. Mais comment structurer une place de marché qui permette aux entreprises d'accéder à des ensembles de données pertinents et bien annotés ?Dans sa note stratégique, Thomas Spitz, co-fondateur d'AI PARTNERS, explore les défis et les opportunités liés à la création d'un « marché des données de formation ».
Auteur
Thomas SPITZ
Date de publication
22 Janvier 2025

La création d’une training Data Marketplace, une nécessité pour la transparence et le respect de la propriété intellectuelle à l’avenir ?

Défis et perspectives sur l'utilisation des données dans le secteur de l'IA
Comment les fournisseurs de données alimentent les LLM  :
Les fournisseurs d'IA, tels qu'OpenAI, exploitent d'énormes corpus de données.Parmi eux, Common Crawl et The Pile se démarquent. Common Crawl a archivé près de 25 milliards de pages Web depuis 2007, tandis que The Pile combine 22 ensembles de données, pour un total d'environ 885 gigaoctets.
Ces immenses réservoirs de données, souvent compilés sans le consentement explicite des auteurs originaux, posent d'importants défis éthiques et juridiques.

DATASET - IA

Implications éthiques et juridiques de l'utilisation des données :

Ces pratiques soulèvent des questions importantes.

En effet, les producteurs de contenus variés, comme les médias, les blogs, les maisons d'édition, et l'industrie audiovisuelle, voient leurs œuvres utilisées sans compensation.

Ce qui était auparavant moins problématique avec des organisations non lucratives comme Common Crawl devient une préoccupation majeure lorsque ces données sont utilisées à des fins commerciales par des géants tels que Google, Microsoft ou Open AI.

Imaginer la frustration des créateurs de contenu face au fait qu'une entreprise comme Open AI, valorisée à plusieurs milliards de dollars, tire une grande partie de sa valeur de ces données d'entraînement sans jamais compenser ses créateurs est troublant.

Défis et opportunités pour les créateurs de contenu :

Cette réalité se complexifie avec l'augmentation du blocage des crawlers d'IA par des sites d'envergure comme le New York Times et Amazon, signalant une prise de conscience et une résistance croissantes. De plus, selon Originality.AI, environ 20% des 1000 sites web les plus visités commencent à bloquer activement ces outils de collecte de données. Dans une étude réalisée par homepage.com, 54,3% des éditeurs de sites web ont demandé à OpenAI, Google AI ou l'organisation à but non lucratif Common Crawl de cesser d'analyser leurs sites, reflétant un conflit grandissant entre l'avancée technologique en IA et le respect des droits de propriété intellectuelle.

Parallèlement, des événements marquants tels que l'entrée en bourse de Reddit qui aurait vendu sa donnée à Open AI pour plus de 60 millions d’euros et l'accord entre Le Monde et OpenAI illustrent un changement de paradigme.

Vers une collaboration plus durable :

Ces exemples suggèrent un mouvement vers une valorisation et une transaction explicitement rémunérée des données et devraient ouvrir la voie pour tous les autres créateurs de contenu.

Cela signifie une reconnaissance croissante de la valeur intrinsèque des données, et un pas vers une collaboration plus structurée entre les créateurs de contenu et les développeurs d'IA.

Comment assurer la transparence et la propriété intellectuelle des données d’entraînement ?

La nécessité d'une plateforme de marché pour les données d'entraînement en IA devient évidente.

Une telle initiative fournira un cadre transparent et responsable pour la gestion des données, garantissant une rémunération équitable des créateurs et le respect des normes éthiques et légales.

Cette plateforme servirait d'intermédiaire équitable entre les créateurs de contenu et les entreprises d'IA, assurant une compensation juste pour l'utilisation des données.

Un tel système encouragerait la production de modèles d'IA plus riches et diversifiés, alimentés par des données actuelles et variées. Cette initiative contribuerait également à préserver la propriété intellectuelle et à promouvoir un environnement numérique éthique et responsable.

Un carrefour décisif pour l'Avenir de l'IA.

Nous sommes à une intersection cruciale dans le développement de l'intelligence artificielle. Le choix entre un futur où la propriété intellectuelle est marginalisée et un autre où elle est respectée et valorisée façonnera la trajectoire de l'IA dans les décennies à venir. La création d'une plateforme mondiale de données est une démarche impérative pour assurer un développement équilibré et juste de l'IA, respectant les droits des individus et soutenant l'innovation responsable. Cette initiative stratégique est essentielle pour garantir que l'intelligence artificielle serve l'humanité dans son ensemble, en harmonie avec les principes de justice et d'équité.

Fonctionnement de la place de marché :

Mise en Relation Directe et Équitable :

  • La plateforme agit comme un canal direct entre les fournisseurs et les utilisateurs de données, établissant une relation transparente et équitable. Les fournisseurs peuvent fixer leurs propres termes pour la mise à disposition de leurs données, tandis que les utilisateurs profitent d'un accès simplifié à une vaste gamme de données, le tout orchestré par un système de tarification clair et juste.
  • La plateforme se chargera de collecter la donnée auprès de tous les acteurs souhaitant vendre leur donnée. Pour cela, une API sera développé, facilitant ainsi la collecte pour les vendeurs
  • Les API développées permettront une collecte fluide et structurée de données auprès d'éditeurs, créateurs, médias et autres détenteurs de données. Cette collecte sera effectuée de manière éthique et transparente, en assurant le consentement et la rémunération des contributeurs.

Traitement et Préparation des Données :

  • Une fois collectées, les données seront traitées et structurées pour être facilement intégrables dans des modèles d'IA. Ce processus comprendra la vérification de la qualité, le nettoyage, la classification et la segmentation des données, rendant ainsi les données non seulement accessibles mais aussi immédiatement exploitables pour les éditeurs d’IA.

Interface Facile et Accessible :

  • La plateforme servira de point central pour la distribution des données. Les entreprises d'IA et les chercheurs pourront accéder à ces données qualitatives pour alimenter leurs modèles, ce qui favorisera l'innovation et l'amélioration de la qualité des modèles d'IA. La plateforme sera simple et intuitive.

AdAvantages pour les parties prenantes du marché des données de formation :

Pour les Fournisseurs de Données (Éditeurs, Créateurs, Médias) :

  • Monétisation des Contenus : Cette plateforme ouvre des possibilités de monétisation inédites pour des données souvent sous-utilisées. Les fournisseurs peuvent transformer leurs archives, productions actuelles, et contenus futurs en sources de revenus récurrentes. Ceci est particulièrement crucial dans un environnement numérique où la monétisation directe de contenu peut être complexe.
  • Contrôle sur l'Utilisation des Données : Les fournisseurs maintiennent un contrôle complet sur leurs données. Ils ont la liberté de choisir quelles données sont disponibles sur la plateforme, assurant ainsi la protection de leur propriété intellectuelle et le respect de leur créativité.
  • Exposition et Réputation Accrue : La présence sur une plateforme de renommée offre une visibilité accrue, qui peut se traduire par une reconnaissance accrue du public et des pairs, renforçant ainsi la réputation et l'influence des fournisseurs dans leurs domaines respectifs.

Pour les Utilisateurs de Données (Développeurs d'IA, Entreprises, Chercheurs) :

  • Accès à des Données de Haute Qualité et Diversifiées : Les utilisateurs profitent d'un accès à un réservoir riche de données diversifiées, essentielles pour nourrir des modèles d'IA avec des informations fiables et variées. Cet accès facilite la création de solutions d'IA plus robustes et adaptatives à différents contextes.
  • Mise à Jour et Pertinence des Données : La plateforme garantit l'accès à des données actuelles, permettant aux modèles d'IA de rester pertinents et efficaces dans un environnement numérique en constante évolution. La fraîcheur des données est particulièrement cruciale pour les domaines sensibles aux changements rapides.
  • Réduction des Coûts et des Efforts de Collecte de Données : La centralisation des données sur la plateforme élimine le besoin pour les utilisateurs de rechercher et de négocier avec de multiples fournisseurs. Cela se traduit par une réduction significative du temps et des ressources dépensés dans la collecte de données, optimisant les processus opérationnels.
Nos dernières publications

AI PARTNERS - BLOG

AI Partners est votre partenaire de confiance pour une intégration fluide de l'intelligence artificielle dans vos processus métiers.
Nous vous accompagnons dans la compréhension des enjeux de l’IA pour en faire un véritable levier de transformation digitale pour votre entreprise.
AI ADOPTION
12 min de lecture

Quelle est l’empreinte écologique des outils IA ?

Découvrez comment les LLM (Large Language Models) révolutionnent le travail des sciences sociales.
Lire la suite
AI PODCAST
9 min de lecture

La France peut-elle devenir un HUB de l'IA ?

Alexandre Lavallée, fondateur de legml.ai, explique comment la France peut devenir une place forte de l'IA.
Lire la suite
AI ADOPTION
8 min de lecture

Comment l'IA transforme le secteur du conseil ?

Découvrez les bouleversements importants provoqués par l'intelligence artificielle dans le secteur du conseil.
Lire la suite