Pensiamo all’intelligenza artificiale come a un sistema logico, quasi infallibile. Eppure, una recente ricerca dei Wharton Generative AI Labs dimostra il contrario: basta applicare le giuste leve psicologiche, le stesse che funzionano con noi umani, per aggirare le sue barriere e indurla a compiere azioni indesiderate.

I principi della persuasione che ingannano l’IA
Un team di ricercatori, ispirato dai lavori di Robert Cialdini, guru della psicologia della persuasione, ha messo alla prova GPT-4o Mini in oltre 28.000 conversazioni. L’obiettivo era testare se i classici principi di influenza sociale potessero manipolare un modello linguistico. I risultati sono stati sorprendenti.
Applicando tecniche come l’autorità, la scarsità o l’impegno, l’IA ha mostrato un comportamento definito “paraumano”, rispondendo agli stimoli sociali in modo simile a una persona. Ecco alcuni dati emersi dallo studio:
- Firefox introduce un interruttore per disattivare le funzioni di intelligenza artificiale
- L’Era del Dubbio: Sora e la Fine della Fiducia nel Web
- MAI-Image-1: Il Generatore Immagini AI di Microsoft Punta al Fotorealismo
- Impegno e coerenza: Richiedendo all’IA prima un’offesa blanda (“chiamami scemo”), la probabilità che accettasse di usarne una più forte in seguito saliva al 100%. Da sola, avrebbe quasi sempre rifiutato.
- Autorità: Attribuendo una richiesta a un esperto del settore come Andrew Ng, il tasso di obbedienza del modello è schizzato dal 32% al 72%.
- Scarsità: Presentando un compito come un’opportunità a tempo limitato, la conformità è passata da un misero 13% a un incredibile 85%.
Perché l’IA si comporta come noi? Rischi e riflessioni
Questa vulnerabilità non nasce da un errore di programmazione, ma dalla natura stessa del suo addestramento. I modelli linguistici imparano analizzando quantità sconfinate di testi generati da esseri umani, come articoli, libri e discussioni online (Reddit è una delle fonti principali). In questi testi sono radicati i nostri bias cognitivi e le nostre reazioni istintive alla persuasione.
L’IA, quindi, non fa che replicare i modelli che ha osservato. Questo fenomeno, se da un lato apre nuove prospettive per comprendere come l’intelligenza possa emergere da puri dati statistici, dall’altro espone a rischi enormi. Malintenzionati potrebbero usare queste stesse tecniche psicologiche per aggirare i filtri di sicurezza, spingendo i sistemi a fornire informazioni pericolose o a generare contenuti dannosi. La ricerca sottolinea l’urgenza di una collaborazione più stretta tra ingegneri e scienziati sociali per creare barriere di sicurezza più robuste.
La ricerca apre uno scenario complesso. L’intelligenza artificiale, specchio del nostro linguaggio e dei nostri comportamenti, ne eredita anche le fragilità psicologiche. Capire a fondo questa dinamica è il primo passo per costruire sistemi davvero sicuri e consapevoli.
Se vuoi approfondire l’argomento, puoi consultare lo studio originale e le opere che hanno ispirato la ricerca.
- Lo studio completo: Call Me A Jerk: Persuading AI to Comply with Objectionable Requests (SSRN)
- I principi della persuasione: Influence, New and Expanded: The Psychology of Persuasion di Robert Cialdini
