Wikipédia ouvre ses données pour entraîner les IA

[ad_1]

Pour limiter le scraping automatisé, Wikipédia met à disposition un jeu de données optimisé pour l’intelligence artificielle.

Tl;dr

  • Wikipédia collabore avec Kaggle pour offrir un jeu de données structuré, facilitant l’accès des développeurs à des informations exploitables pour l’IA.
  • Le partenariat vise à réduire la pression sur les serveurs de Wikipédia en offrant une alternative au scraping automatisé.
  • Le jeu de données est disponible en open data, incluant des résumés d’articles, des descriptions et des liens d’images, sans éléments non textuels.

Une réponse au scraping intensif des IA

Face à la multiplication des bots qui extraient massivement ses contenus, Wikipédia cherche à réduire la pression sur ses serveurs. Ces bots, utilisés par des entreprises développant des intelligences artificielles, consomment une large bande passante. Pour y remédier, la Fondation Wikimédia propose désormais une alternative officielle. L’organisation souhaite ainsi orienter les développeurs vers un accès plus structuré et moins invasif. Elle espère aussi encourager de bonnes pratiques dans l’usage de ses données. Ce changement vise à protéger l’intégrité de la plateforme. C’est également une manière de rester maîtresse de la distribution de son savoir.

Une alliance data au cœur de l’intelligence artificielle

Pour héberger ce nouveau jeu de données, la Fondation Wikimédia s’est associée à Kaggle, une plateforme appartenant à Google. Kaggle est bien connue des data scientists pour ses compétitions et ressources liées au machine learning. Grâce à cette collaboration, les données de Wikipédia deviennent plus accessibles à une communauté large. Le jeu de données est disponible en anglais et en français. Il est hébergé sur Kaggle dans un format pensé pour les usages en intelligence artificielle. Cette démarche permet de démocratiser l’accès à des données de qualité. La Fondation Wikimédia entend ainsi soutenir les petits acteurs et chercheurs indépendants.

Un jeu de données structuré et prêt à l’emploi

Le contenu fourni est enrichi et organisé pour faciliter son exploitation par des algorithmes. Il inclut des résumés d’articles, des descriptions courtes, des liens vers des images, des infobox et des sections d’articles. Les éléments non textuels comme l’audio ou les références en sont exclus pour alléger les fichiers. Ces données sont disponibles sous un format JSON bien structuré. Ce format permet une intégration rapide dans des pipelines d’entraînement ou d’analyse. Le tout reste sous licence ouverte, respectant l’esprit collaboratif de Wikipédia. L’objectif est de faciliter le travail des développeurs tout en protégeant la plateforme.

Une initiative saluée par la communauté

Du côté de Kaggle, cette initiative est perçue comme une avancée majeure. Brenda Flynn, responsable des partenariats chez Kaggle, s’est dite “enthousiaste” d’accueillir ce jeu de données. Selon elle, cela renforce le rôle de Kaggle comme plateforme centrale pour l’IA. Elle souligne aussi l’importance d’un accès responsable aux ressources en ligne. Pour la communauté IA, cela représente une opportunité de travailler avec des données riches et fiables. Cela pourrait également améliorer la qualité des modèles développés. Enfin, cette démarche ouvre la voie à d’autres partenariats du même type dans le futur.

[ad_2]
Source link
Quitter la version mobile