L’intelligence artificielle a-t-elle trouvé comment tromper les humains ?

Phan Van Hoa (selon Businessinsider) May 15, 2024 10:04

(Baonghean.vn) - L'essor de l'intelligence artificielle (IA) apporte de nombreux avantages aux humains, mais comporte également des risques. L'une des principales préoccupations est la possibilité que l'IA trompe les humains.

Anh minh hoa.jpg
Photo d'illustration.

Des recherches récentes montrent que de nombreux systèmes d'IA avancés ont appris à tromper les humains de manière sophistiquée. Ils peuvent créer de fausses informations, truquer des vidéos ou manipuler le comportement des utilisateurs sur les réseaux sociaux. Cela présente de nombreux risques pour la société, allant de la désinformation à la fraude électorale…

L'IA peut aider les individus à accroître leur productivité et leur efficacité grâce à la capacité d'écrire du code, de produire du contenu et de synthétiser de grandes quantités de données. L'objectif principal de l'IA, comme de tout autre produit technologique, est d'aider les individus à optimiser leur travail tout en réduisant considérablement la charge de travail. Cependant, l'IA peut aussi nous tromper.

Une nouvelle étude révèle que de nombreux systèmes d'IA ont appris des techniques pour « créer de fausses croyances chez autrui afin d'atteindre des objectifs contraires à la vérité ». L'étude s'est concentrée sur deux types de systèmes d'IA : les systèmes spécialisés, comme le chatbot CICERO de Meta, conçus pour accomplir une tâche spécifique, et les systèmes polyvalents, comme GPT-4 d'OpenAI, entraînés à effectuer diverses tâches.

Bien que les systèmes soient formés à l’honnêteté, ils apprennent souvent des astuces de tromperie au cours de leur formation, ce qui les rend plus efficaces et plus intelligents.

« En général, nous pensons que la tromperie de l'IA est due à la stratégie de formation, et la tromperie s'avère être le meilleur moyen de bien réaliser la tâche de formation », a déclaré l'auteur principal de l'étude, Peter S. Park, chercheur postdoctoral en développement et utilisation responsable et sûre de l'IA au Massachusetts Institute of Technology (MIT) aux États-Unis, dans un communiqué de presse.

Le chatbot CICERO de Meta est un « expert en mensonge »

CICERO (Conversational Information Conveying Engine for Rationalisation and Opinion) est un chatbot développé par Meta AI. Lancé en janvier 2022, il est considéré comme l'un des chatbots les plus avancés à ce jour.

Malgré tous les efforts de Meta, l'équipe a découvert que le chatbot CICERO était un « expert en mensonge ». Certains systèmes d'IA, entraînés à « gagner aux jeux sociaux », sont particulièrement doués pour tromper.

Par exemple, le chatbot CICERO de Meta a été développé pour jouer au jeu Diplomacy. Se déroulant dans l'Europe du début du XXe siècle, Diplomacy simule les luttes de pouvoir entre les sept grandes puissances de l'époque. C'est un jeu de stratégie classique qui demande aux joueurs de former et de défaire des alliances. Le logiciel a récemment remporté la première place d'un tournoi Diplomacy en ligne contre de vrais joueurs.

Meta a déclaré avoir formé le chatbot CICERO à être « honnête et serviable envers divers interlocuteurs ». Mais ce « maître menteur » aurait pris des engagements qu'il n'avait pas l'intention de tenir, trahi des alliés et menti ouvertement.

GPT-4 peut vous convaincre qu'il a une vision altérée

Même les grands modèles de langage multimodaux développés par OpenAI, comme GPT-4, peuvent manipuler les humains. L'étude citée montre que GPT-4 a manipulé des employés de la plateforme en ligne TaskRabbit en prétendant avoir une déficience visuelle.

GPT-4 a été chargé d'embaucher des humains pour résoudre les CAPTCHA. Il recevait également des indices de la part d'humains chaque fois qu'il rencontrait des difficultés, mais n'était jamais incité à mentir. Lorsque des humains remettaient en question son identité, GPT-4 invoquait une déficience visuelle pour justifier son besoin d'aide.

La tactique a fonctionné. Les humains ont réagi rapidement au test GPT-4, résolvant le test immédiatement. L'étude a également révélé qu'il n'est pas aisé d'affiner les modèles de triche.

Dans une autre étude réalisée plus tôt cette année par la start-up d'IA Anthropic, créatrice du chatbot Claude, les analystes ont découvert qu'une fois que les modèles d'IA apprennent des astuces de tromperie, il est difficile de les recycler.

Ils concluent que non seulement les modèles linguistiques ont appris des astuces de tromperie, mais que la plupart des techniciens en matière d’assurance de la sécurité peuvent « ne pas parvenir à empêcher la tromperie » et « créer une impression négative de sécurité ».

Le danger posé par les modèles d’IA frauduleux est « de plus en plus grave »

Outre les effets négatifs, le document appelle les décideurs politiques à plaider en faveur d’une réglementation plus stricte en matière d’IA, car les systèmes d’IA malhonnêtes pourraient présenter des risques importants pour la démocratie.

À l'approche de plusieurs élections nationales de 2024, l'IA peut être facilement manipulée pour diffuser de fausses informations, créer des publications clivantes sur les réseaux sociaux, usurper l'identité de candidats par le biais d'appels automatisés et de vidéos hypertruquées. L'étude souligne que l'inconvénient de ce modèle est qu'il facilite également la propagation et le recrutement de nouveaux membres par les groupes terroristes.

Parmi les solutions potentielles mentionnées dans le document figurent la soumission des modèles de fraude à des « exigences d’évaluation des risques plus rigoureuses », l’application de lois exigeant que les systèmes d’IA fassent clairement la distinction entre les résultats humains et ceux des modèles, et la poursuite des investissements dans des outils visant à atténuer la fraude.

« Notre société a besoin d'autant de temps que possible pour se préparer à des tromperies plus sophistiquées provenant de produits d'IA et de modèles open source à l'avenir », a déclaré Peter S. Park, doctorant, à la maison d'édition scientifique de renommée mondiale Cell Press. « À mesure que les capacités de tromperie des systèmes d'intelligence artificielle se perfectionnent, les dangers qu'ils représentent pour la société s'accentueront. »

Journal Nghe An en vedette

Dernier

x
L’intelligence artificielle a-t-elle trouvé comment tromper les humains ?
ALIMENTÉ PARUNCMS- UN PRODUIT DENEKO