OpenAI lance son webcrawler GPTBot et les instructions pour le bloquer

[ad_1]

OpenAI a lancé un webcrawler pour améliorer ses modèles d’intelligence artificielle comme GPT-4. Baptisé GPTBot, le système navigue sur le web pour s’entraîner et améliorer les capacités de son IA. Selon un post de blog d’OpenAI, utiliser GPTBot a le potentiel d’améliorer les modèles d’IA existants en ce qui concerne la précision et la sécurité.

OpenAI lance son webcrawler GPTBot et les instructions pour le bloquer

“Les pages web récupérées avec le user agent GPTBot peuvent potentiellement être utilisées pour améliorer de futurs modèles et être filtrées pour retirer des sources qui nécessitent un accès payant, qui sont connues pour rassembler des informations personnelles identifiables (PII) ou qui contiennent des textes qui enfreignent nos politiques”, peut-on notamment lire dans le post.

Les sites web peuvent cependant choisir de restreindre l’accès à ce robot et empêcher GPTBot d’accéder à leurs sites, que ce soit de manière partielle ou totale. OpenAI explique que les administrateurs des sites peuvent interdire le crawler en bloquant son adresse IP ou via le fichier robots.txt.

OpenAi a déjà suscité la controverse pour la manière dont il collecte les données et pour des infractions relatives au droit d’auteur ou encore pour des failles de sécurité. En juin, la plateforme a même été attaquée en justice pour “vol” de données personnelles visant à entraîner ChatGPT.

Des fonctions pour ne pas participer à ces programmes d’amélioration ont été implémentées récemment, permettant notamment de désactiver l’historique des conversations, donnant aux utilisateurs davantage de contrôle sur leurs données personnelles.

ChatGPT 3.5 et 4 ont été entraînés sur des données en ligne et des textes remontant à septembre 2021 pour les plus récents. Il n’y a actuellement aucun moyen de retirer du contenu de cet ensemble de données.

Selon OpenAI, vous pouvez désactiver GPTBot en ajoutant quelques lignes au fichier Robots.txt de votre site. Ce fichier sert déjà précisément à donner des directives aux web crawlers, à indiquer ce à quoi ils peuvent ou non accéder.

Vous pouvez personnaliser ce qu’un tel robot peut utiliser, autoriser certaines pages et en interdire d’autres.

User-agent: GPTBot

Allow: /mon-dossier-1/

Disallow: /mon-dossier-2/

pour autoriser la collecte de contenu dans /mon-dossier-1/ et l’interdire dans /mon-dossier-2/. Avec Disallow: /, vous interdisez l’accès complet à votre site.

[ad_2]
Source link

09/08/2023

82 Temps de lecture 1 minute

Afficher plus

OpenAI lance son webcrawler GPTBot et les instructions pour le bloquer

Ansu Fati au PSG, c'est validé

Manchester City met le paquet sur Paqueta

Articles similaires

Comparatif Samsung Galaxy S25 Ultra vs iPhone 17 Pro : lequel choisir en 2026 ?

Découvrez les meilleures applications mobiles pour gérer votre budget en 2026 : suivi des dépenses, économies automatiques, conseils financiers et outils gratuits pour reprendre le contrôle de vos finances.

Les grandes tendances technologiques de 2026 : intelligence artificielle, 5G et cybersécurité

Chris Pratt aurait pu incarner Superman selon James Gunn, mais un obstacle l’en a empêché

Adblock détecté