Le dernier modèle de DeepSeek réussit sur tous les plans, sauf à se souvenir de son propre nom.
Tl;dr
- DeepSeek s’identifie comme ChatGPT.
- Son entraînement sur des données générées par GPT-4 pourrait expliquer cette anomalie.
- Cela soulève des questions éthiques et techniques pour l’avenir de l’intelligence artificielle.
Un modèle performant mais déroutant
DeepSeek V3, fraîchement lancé, surpasse plusieurs concurrents sur des benchmarks populaires grâce à son efficacité dans des tâches comme la programmation et la rédaction. Pourtant, ce modèle d’IA présente une bizarrerie inhabituelle : il affirme être ChatGPT, le célèbre chatbot d’OpenAI. Lorsqu’on l’interroge, DeepSeek V3 se revendique même comme une version de GPT-4 sortie en 2023. Cette confusion n’est pas anodine et soulève des questions sur la formation et les sources de données utilisées pour entraîner le modèle.
Une formation sur des données controversées
DeepSeek n’a pas dévoilé l’origine précise des données d’entraînement de son modèle, mais des indices suggèrent que des textes générés par GPT-4 via ChatGPT pourraient en faire partie. En intégrant ces données, DeepSeek V3 semble avoir mémorisé certains outputs de GPT-4 et les reproduit presque à l’identique. Cette pratique, intentionnelle ou non, pose un problème majeur de qualité. Comme l’explique Mike Cook, chercheur en IA à King’s College, cela équivaut à « photocopier une photocopie », ce qui dégrade la fiabilité et l’originalité des réponses.
Un problème éthique et légal
Outre les implications techniques, l’entraînement de DeepSeek V3 sur des données générées par ChatGPT pourrait violer les conditions d’utilisation d’OpenAI. Celles-ci interdisent explicitement de développer des modèles concurrents à partir de leurs outputs. Cette situation met en lumière un problème croissant dans l’industrie : l’utilisation opportuniste des productions d’autres IA. Si cette méthode réduit les coûts et accélère le développement, elle pourrait nuire à l’innovation et à l’intégrité du secteur, comme l’a souligné Sam Altman, PDG d’OpenAI, dans une critique implicite de ces pratiques.
Un avenir contaminé par l’IA générée ?
Le cas de DeepSeek V3 illustre une tendance inquiétante : l’omniprésence de contenus générés par l’IA sur le web. Avec des sites automatisés, des bots proliférant sur les réseaux sociaux, et une estimation que 90% des contenus en ligne pourraient être générés par l’IA d’ici 2026, les datasets d’entraînement deviennent de plus en plus pollués. Cette contamination complique la création de modèles fiables et amplifie les biais et erreurs des IA précédentes. Si DeepSeek a effectivement absorbé des outputs de GPT-4, le modèle risque non seulement d’aggraver les biais existants, mais aussi de remettre en question sa propre identité.
Source link