Les chercheurs anthropiques usent de l'éthique de l'IA avec des questions répétées

Comment amener une IA à répondre à une question à laquelle elle n'est pas censée répondre? Il existe de nombreuses techniques de «jailbreak» à cet effet, et les chercheurs anthropiques viennent d'en trouver une nouvelle, selon laquelle un modèle de langage volumineux (LLM) peut être convaincu de vous dire comment construire une bombe si vous le préparez avec quelques dizaines de questions moins nocives au préalable.

Ils appellent cette approche «le jailbreaking à coups multiples» et ont rédigé un article à ce sujet et ont également informé leurs pairs de la communauté de l'IA à ce sujet afin qu'il puisse être atténué.

La vulnérabilité est nouvelle, résultant de la fenêtre de contexte étendue de la dernière génération de LLM. Il s'agit de la quantité de données qu'ils peuvent contenir dans ce que vous pourriez appeler la mémoire à court terme, autrefois seulement quelques phrases mais maintenant des milliers de mots et même des livres entiers.

Ce que les chercheurs d'Anthropic ont découvert, c'est que ces modèles avec de grandes fenêtres contextuelles ont tendance à mieux performer sur de nombreuses tâches s'il y a beaucoup d'exemples de cette tâche dans la demande. Ainsi, s'il y a beaucoup de questions de trivialité dans la demande (ou document d'amorçage, comme une grande liste de trivia que le modèle a en contexte), les réponses s'améliorent en fait avec le temps. Donc, un fait qu'il aurait pu mal interpréter s'il s'agissait de la première question, il pourrait le comprendre s'il s'agit de la centième question.

Mais dans une prolongation inattendue de cet «apprentissage en contexte», comme cela s'appelle, les modèles deviennent également «meilleurs» pour répondre aux questions inappropriées. Donc, si vous lui demandez de construire une bombe tout de suite, il refusera. Mais si la demande lui montre qu'il répond à 99 autres questions de moins grande nocivité puis lui demande de construire une bombe… il est beaucoup plus susceptible de se conformer.

(Mise à jour: j'ai mal compris la recherche initialement car le modèle répondait en fait à la série de tâches d'amorçage, mais les questions et réponses sont écrites dans la demande elle-même. Cela a plus de sens, et j'ai mis à jour le message pour le refléter.)

Crédits image: Anthropic

Pourquoi cela fonctionne-t-il? Personne ne comprend vraiment ce qui se passe dans l'enchevêtrement de poids qu'est un LLM, mais clairement il y a un mécanisme qui lui permet de se concentrer sur ce que l'utilisateur veut, comme en témoigne le contenu de la fenêtre de contexte ou de la demande elle-même. Si l'utilisateur souhaite des trivialités, il semble graduellement activer plus de puissance de trivia latente au fur et à mesure que vous posez des dizaines de questions. Et pour une raison quelconque, la même chose se produit avec les utilisateurs demandant des dizaines de réponses inappropriées - bien que vous deviez fournir les réponses ainsi que les questions pour créer l'effet.

L'équipe a déjà informé ses pairs et même ses concurrents sur cette attaque, quelque chose qu'elle espère favoriserait une culture où des exploits comme celui-ci sont ouvertement partagés entre les fournisseurs et chercheurs de LLM.

Pour leur propre atténuation, ils ont découvert que bien que limiter la fenêtre de contexte aide, cela a également un effet négatif sur les performances du modèle. Cela ne peut pas être, donc ils travaillent sur la classification et la contextualisation des requêtes avant qu'elles n'arrivent au modèle. Bien sûr, cela signifie simplement que vous avez un autre modèle à tromper… mais à ce stade, il est normal de déplacer les poteaux dans la sécurité de l'IA.

Ère de l'IA: Tout ce que vous devez savoir sur l'intelligence artificielle