La Stichting Brein met hors ligne une grande quantité de données illégales pour la formation en IA

Cet article a été mis à jour pour la dernière fois le août 24, 2024

La Stichting Brein met hors ligne une grande quantité de données illégales pour la formation en IA

Stichting Brein

La Stichting Brein met hors ligne une grande quantité de données illégales pour la formation en IA

L’organisation de droits d’auteur Stichting Brein a mis hors ligne un ensemble de données néerlandais, une collection de données, destinée à la formation de l’intelligence artificielle (IA). Selon l’organisation, c’est la première fois que cela se produit aux Pays-Bas.

Brein lui-même parle d’un « vaste ensemble de données » qui, selon l’organisation, se compose de copies illégales de dizaines de milliers de livres, de millions de lignes d’articles de presse provenant de sites Web tels que Nu.nl et de sous-titres d’innombrables films et séries télévisées provenant de sites illégaux. sources. Le réalisateur Bastiaan van Ramshorst dit également connaître l’identité du créateur, mais ne peut pas le dire pour des raisons de confidentialité.

Utiliser un ensemble de données

L’ensemble de données est destiné à former ce qu’on appelle un modèle de langage, dans le jargon on l’appelle de grands modèles de langage. Le créateur de l’ensemble de données a promis par écrit à Brein de ne plus l’utiliser et a également fourni des informations sur la personne qui l’a reçu. La fondation vérifie désormais si les données ont réellement été utilisées par des modèles d’IA. Si tel est le cas, les parties seront tenues responsables.

Le matériel portant atteinte au droit d’auteur constitue un problème majeur lors de la formation de l’IA. Récemment, des recherches ont clairement montré que les œuvres des créateurs d’images néerlandais ont été utilisées sans leur autorisation pour former des générateurs d’images d’IA bien connus, notamment DALL-E et Midjourney.

Aux États-Unis, un procès est actuellement en cours entre le New York Times et OpenAI, le créateur de ChatGPT. Le journal accuse l’entreprise d’utiliser des quantités massives d’articles de journaux pour former l’IA sans autorisation. OpenAI estime que l’utilisation des données est autorisée.

Fondation Brein

Partager avec des amis

Soyez le premier à commenter

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée.


*