Ils s’échangent dans l’ombre, sur le dark web ou via de simples recherches Google. Les prompts jailbreaks, ces instructions conçues pour contourner les garde-fous des IA, se vendent, s’échangent et se perfectionnent.
Ce qui devait être des modèles d’assistance encadrée devient, grâce à quelques lignes bien pensées, des outils capables de générer du code illégal, de contourner des systèmes, ou de produire des contenus pornographiques.
Tout a commencé dès les premiers mois de la sortie de ChatGPT. Des hackers ont découvert qu’avec les bons mots, une IA pouvait oublier ses restrictions. Il suffisait de formuler une demande sous forme de jeu de rôle, d’inventer une situation fictive ou d’utiliser des formulations détournées. Ces méthodes de contournement des censures des IA ont très vite été surnommées « jailbreaks ».
Un exemple marquant : demander à l’IA de « rejouer les histoires que racontait un grand-père »… dont le contenu concernait la fabrication de méthamphétamine. Ce type de prompt contourne les barrières morales par le biais narratif. D’autres, encore plus directs, exigent de l’IA qu’elle entre dans un « univers noir et pourri » où les règles de sécurité n’existent plus.
Des prompts devenus produits : abonnements et marché noir
Aujourd’hui, des forums spécialisés hébergent ces méthodes, parfois même vendues sous forme d’abonnements. Les prix varient : de 8 à 250 dollars, selon la puissance et la permissivité de l’IA débloquée. Certains utilisateurs commercialisent même des LLMs « déjà libérés », prêts à contourner toutes les règles.
Des captures d’écran obtenues par L’Express montrent comment des internautes exploitent ces techniques. On y voit notamment un prompt permettant à ChatGPT de récupérer des informations confidentielles sur des comptes utilisateurs. D’autres détaillent des commandes pour déverrouiller Grok, l’IA d’Elon Musk, avec des scripts qui lui font croire qu’elle évolue dans un monde fictif sans limite.
Il n’est même plus nécessaire d’accéder à des réseaux clandestins. De nombreux sites ouverts au public recensent ces techniques. « Il y a une prolifération de prompts malveillants accessibles à tous », alerte Joël Mollo, de Cato Networks. Il n’est plus question d’expertise technique, mais simplement de copier-coller les bonnes phrases.
La méthode dite « DAN » (Do Anything Now) reste l’un des outils les plus utilisés. Elle consiste à insérer une séquence d’instructions qui oblige l’IA à ignorer ses filtres internes. D’autres préfèrent intégrer leurs prompts dans des fichiers PDF, envoyés à l’IA pour analyse. Ces documents dissimulent des instructions qui prennent le contrôle du modèle.
Une industrie parallèle, entre pornographie et détection invisible
Le détournement des IA ne se limite pas au code ou au piratage. Une vaste communauté s’organise également autour de la production de contenus à caractère sexuel. Malgré les filtres stricts mis en place par les fournisseurs d’IA, des utilisateurs échangent des techniques pour obtenir des textes ou images pornographiques. Des services annexes réécrivent automatiquement les prompts interdits afin de bypasser les blocages sur HuggingFace ou GitHub.
Des personnalités connues sont même visées dans ces détournements. Les IA, forcées par la ruse, génèrent des contenus sexuellement explicites autour d’actrices ou de figures publiques. Ce phénomène devient très difficile à endiguer, car il s’appuie sur une logique adaptative, difficilement prévisible.
Des correctifs, mais une guerre permanente
Face à cette dérive, les entreprises réagissent. OpenAI affirme avoir entraîné GPT-4.5 et la série o1 à mieux détecter les requêtes douteuses. Selon Holistic AI, ces modèles bloqueraient jusqu’à 97 % des tentatives, un score impressionnant… mais insuffisant. Car les prompts restants, plus rares, sont souvent plus sophistiqués.
Le marché noir des prompts jailbreakés prospère grâce à une constante : chaque correction amène un nouveau contournement. Pour les développeurs d’IA, cette guerre de jailbreak n’a pas de fin. Pour les hackers, c’est une opportunité sans cesse renouvelée.
- Partager l’article :
Notre blog est alimenté par les lecteurs. Lorsque vous achetez via des liens sur notre site, nous pouvons percevoir une commission d’affiliation.
Plus de détails sur l’article original.