{"id":97575,"date":"2025-04-19T12:12:23","date_gmt":"2025-04-19T12:12:23","guid":{"rendered":"http:\/\/www.tunimedia.tn\/fr\/wikipedia-ouvre-ses-donnees-pour-entrainer-les-ia\/"},"modified":"2025-04-19T12:12:23","modified_gmt":"2025-04-19T12:12:23","slug":"wikipedia-ouvre-ses-donnees-pour-entrainer-les-ia","status":"publish","type":"post","link":"https:\/\/tunimedia.tn\/fr\/wikipedia-ouvre-ses-donnees-pour-entrainer-les-ia\/","title":{"rendered":"Wikip\u00e9dia ouvre ses donn\u00e9es pour entra\u00eener les IA"},"content":{"rendered":"<p> [ad_1]\n<\/p>\n<div>\n<p class=\"chapo\">Pour limiter le scraping automatis\u00e9, Wikip\u00e9dia met \u00e0 disposition un jeu de donn\u00e9es optimis\u00e9 pour l\u2019intelligence artificielle.<\/p>\n<div class=\"tldr\">\n<h2 id=\"Tldr\" class=\"adn_sommaire\">Tl;dr<\/h2>\n<ul>\n<li>Wikip\u00e9dia collabore avec Kaggle pour offrir un jeu de donn\u00e9es structur\u00e9, facilitant l\u2019acc\u00e8s des d\u00e9veloppeurs \u00e0 des informations exploitables pour l\u2019IA.<\/li>\n<li>Le partenariat vise \u00e0 r\u00e9duire la pression sur les serveurs de Wikip\u00e9dia en offrant une alternative au scraping automatis\u00e9.<\/li>\n<li>Le jeu de donn\u00e9es est disponible en open data, incluant des r\u00e9sum\u00e9s d\u2019articles, des descriptions et des liens d\u2019images, sans \u00e9l\u00e9ments non textuels.<\/li>\n<\/ul>\n<\/div>\n<h2 id=\"Une-reponse-au-scraping-intensif-des-IA\" class=\"adn_sommaire\">Une r\u00e9ponse au scraping intensif des IA<\/h2>\n<p>Face \u00e0 la multiplication des bots qui extraient massivement ses contenus, <a href=\"https:\/\/www.begeek.fr\/les-crawlers-ia-deviennent-un-casse-tete-pour-wikipedia-413646\">Wikip\u00e9dia<\/a> cherche \u00e0 r\u00e9duire la pression sur ses serveurs. Ces bots, utilis\u00e9s par des entreprises d\u00e9veloppant des intelligences artificielles, consomment une large bande passante. Pour y rem\u00e9dier, la Fondation Wikim\u00e9dia propose d\u00e9sormais une alternative officielle. L\u2019organisation souhaite ainsi orienter les d\u00e9veloppeurs vers un acc\u00e8s plus structur\u00e9 et moins invasif. <strong>Elle esp\u00e8re aussi encourager de bonnes pratiques dans l\u2019usage de ses donn\u00e9es. Ce changement vise \u00e0 prot\u00e9ger l\u2019int\u00e9grit\u00e9 de la plateforme. C\u2019est \u00e9galement une mani\u00e8re de rester ma\u00eetresse de la distribution de son savoir.<\/strong><\/p>\n<h2 id=\"Une-alliance-data-au-coeur-de-lintelligence-artificielle\" class=\"adn_sommaire\">Une alliance data au c\u0153ur de l\u2019intelligence artificielle<\/h2>\n<p>Pour h\u00e9berger ce nouveau <a href=\"https:\/\/fr.wikipedia.org\/wiki\/Jeu_de_donn\u00e9es\">jeu de donn\u00e9es<\/a>, la Fondation Wikim\u00e9dia s\u2019est associ\u00e9e \u00e0 Kaggle, une plateforme appartenant \u00e0 Google. Kaggle est bien connue des data scientists pour ses comp\u00e9titions et ressources li\u00e9es au machine learning. Gr\u00e2ce \u00e0 cette collaboration, les donn\u00e9es de Wikip\u00e9dia deviennent plus accessibles \u00e0 une communaut\u00e9 large. Le jeu de donn\u00e9es est disponible en anglais et en fran\u00e7ais. Il est h\u00e9berg\u00e9 sur Kaggle dans un format pens\u00e9 pour les usages en intelligence artificielle. Cette d\u00e9marche permet de d\u00e9mocratiser l\u2019acc\u00e8s \u00e0 des donn\u00e9es de qualit\u00e9. La\u00a0Fondation Wikim\u00e9dia entend ainsi soutenir les petits acteurs et chercheurs ind\u00e9pendants.<\/p>\n<h2 id=\"Un-jeu-de-donnees-structure-et-pret-a-lemploi\" class=\"adn_sommaire\">Un jeu de donn\u00e9es structur\u00e9 et pr\u00eat \u00e0 l\u2019emploi<\/h2>\n<p>Le contenu fourni est enrichi et organis\u00e9 pour faciliter son exploitation par des algorithmes. Il inclut des r\u00e9sum\u00e9s d\u2019articles, des descriptions courtes, des liens vers des images, des infobox et des sections d\u2019articles. Les \u00e9l\u00e9ments non textuels comme l\u2019audio ou les r\u00e9f\u00e9rences en sont exclus pour all\u00e9ger les fichiers. Ces donn\u00e9es sont disponibles sous un format JSON bien structur\u00e9. Ce format permet une int\u00e9gration rapide dans des pipelines d\u2019entra\u00eenement ou d\u2019analyse. Le tout reste sous licence ouverte, respectant l\u2019esprit collaboratif de Wikip\u00e9dia. L\u2019objectif est de faciliter le travail des d\u00e9veloppeurs tout en prot\u00e9geant la plateforme.<\/p>\n<h2 id=\"Une-initiative-saluee-par-la-communaute\" class=\"adn_sommaire\">Une initiative salu\u00e9e par la communaut\u00e9<\/h2>\n<p>Du c\u00f4t\u00e9 de Kaggle, cette initiative est per\u00e7ue comme une avanc\u00e9e majeure. Brenda Flynn, responsable des partenariats chez Kaggle, s\u2019est dite \u201centhousiaste\u201d d\u2019accueillir ce jeu de donn\u00e9es. Selon elle, cela renforce le r\u00f4le de Kaggle comme plateforme centrale pour l\u2019IA. Elle souligne aussi l\u2019importance d\u2019un acc\u00e8s responsable aux ressources en ligne. Pour la communaut\u00e9 IA, cela repr\u00e9sente une opportunit\u00e9 de travailler avec des donn\u00e9es riches et fiables. Cela pourrait \u00e9galement am\u00e9liorer la qualit\u00e9 des mod\u00e8les d\u00e9velopp\u00e9s. Enfin, cette d\u00e9marche ouvre la voie \u00e0 d\u2019autres partenariats du m\u00eame type dans le futur.<\/p>\n<\/div>\n[ad_2]\n<br \/><a href=\"https:\/\/www.begeek.fr\/wikipedia-ouvre-ses-donnees-pour-entrainer-les-ia-414185\">Source link <\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>[ad_1] Pour limiter le scraping automatis\u00e9, Wikip\u00e9dia met \u00e0 disposition un jeu de donn\u00e9es optimis\u00e9 pour l\u2019intelligence artificielle. Tl;dr Wikip\u00e9dia collabore avec Kaggle pour offrir un jeu de donn\u00e9es structur\u00e9, facilitant l\u2019acc\u00e8s des d\u00e9veloppeurs \u00e0 des informations exploitables pour l\u2019IA. Le partenariat vise \u00e0 r\u00e9duire la pression sur les serveurs de Wikip\u00e9dia en offrant une &hellip;<\/p>\n","protected":false},"author":1,"featured_media":97576,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_seopress_robots_primary_cat":"0","_seopress_titles_title":"","_seopress_titles_desc":"","_seopress_robots_index":"","_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[16,335,19,349,239],"tags":[],"class_list":["post-97575","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-high-tech","category-tie-games","category-mode","category-tech-net","category-web"],"jetpack_featured_media_url":"https:\/\/tunimedia.tn\/fr\/wp-content\/uploads\/2025\/04\/Wikipedia.jpg","jetpack_sharing_enabled":true,"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/posts\/97575","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/comments?post=97575"}],"version-history":[{"count":0,"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/posts\/97575\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/media\/97576"}],"wp:attachment":[{"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/media?parent=97575"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/categories?post=97575"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/tunimedia.tn\/fr\/wp-json\/wp\/v2\/tags?post=97575"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}