L’organisme à but non lucratif responsable de la base de données LAION-5B l’a retirée par mesure de prudence.
Tl;dr
- Des chercheurs de Stanford dévoilent du matériel d’abus sexuel d’enfants dans le dataset d’IA LAION
- LAION suspend temporairement l’accès à ses datasets pour vérification
- Plusieurs techniques utilisées par les chercheurs pour détecter le CSAM
- Google et Stability AI ont également été formés à partir de ce dataset
Dataset compromis au Stanford Internet Observatory
Parmi les analyses récentes de la Stanford Internet Observatory, une a fait émerger une problématique majeure : “un dataset utilisé pour éduquer des outils de génération d’images par IA contient au moins 1 008 instances validées de contenu pédopornographique (CSAM)”.
La réaction de LAION
Face à cette situation, le non-profit LAION, créateur du dataset en question, a fait part de sa politique de tolérance zéro pour le contenu illégal. 404 Médias a rapporté la déclaration de LAION, dans laquelle l’organisation assure qu’elle prendra les mesures nécessaires pour assurer la vérification et la sécurité de ses datasets avant de les remettre à disposition.
Les outils de vérification du CSAM
En raison de l’illégalité de la visualisation de CSAM pour vérification aux États-Unis, les chercheurs ont dû recourir à plusieurs techniques pour son identification. Parmi ces méthodes, “la détection basée sur le hash perceptuel, la détection basée sur le hash cryptographique et l’analyse des plus proches voisins exploitant les intégrations d’images dans le dataset lui-même”.
Utilisation du dataset par Google et Stability AI
Google et Stability AI, ayant été formées à partir d’un sous-ensemble des données de LAION-5B, ont été mentionnées dans les conclusions de cette recherche. Stability AI a souligné, en réaction à ce rapport, son interdiction stricte de l’utilisation de ses systèmes pour des fins illégales, comme la création ou la modification de CSAM.
Source link