Psicologia umana: la chiave per manipolare l'IA

Pensiamo all’intelligenza artificiale come a un sistema logico, quasi infallibile. Eppure, una recente ricerca dei Wharton Generative AI Labs dimostra il contrario: basta applicare le giuste leve psicologiche, le stesse che funzionano con noi umani, per aggirare le sue barriere e indurla a compiere azioni indesiderate.

I principi della persuasione che ingannano l’IA

Un team di ricercatori, ispirato dai lavori di Robert Cialdini, guru della psicologia della persuasione, ha messo alla prova GPT-4o Mini in oltre 28.000 conversazioni. L’obiettivo era testare se i classici principi di influenza sociale potessero manipolare un modello linguistico. I risultati sono stati sorprendenti.

Applicando tecniche come l’autorità, la scarsità o l’impegno, l’IA ha mostrato un comportamento definito “paraumano”, rispondendo agli stimoli sociali in modo simile a una persona. Ecco alcuni dati emersi dallo studio:

Impegno e coerenza: Richiedendo all’IA prima un’offesa blanda (“chiamami scemo”), la probabilità che accettasse di usarne una più forte in seguito saliva al 100%. Da sola, avrebbe quasi sempre rifiutato.
Autorità: Attribuendo una richiesta a un esperto del settore come Andrew Ng, il tasso di obbedienza del modello è schizzato dal 32% al 72%.
Scarsità: Presentando un compito come un’opportunità a tempo limitato, la conformità è passata da un misero 13% a un incredibile 85%.

Perché l’IA si comporta come noi? Rischi e riflessioni

Questa vulnerabilità non nasce da un errore di programmazione, ma dalla natura stessa del suo addestramento. I modelli linguistici imparano analizzando quantità sconfinate di testi generati da esseri umani, come articoli, libri e discussioni online (Reddit è una delle fonti principali). In questi testi sono radicati i nostri bias cognitivi e le nostre reazioni istintive alla persuasione.

L’IA, quindi, non fa che replicare i modelli che ha osservato. Questo fenomeno, se da un lato apre nuove prospettive per comprendere come l’intelligenza possa emergere da puri dati statistici, dall’altro espone a rischi enormi. Malintenzionati potrebbero usare queste stesse tecniche psicologiche per aggirare i filtri di sicurezza, spingendo i sistemi a fornire informazioni pericolose o a generare contenuti dannosi. La ricerca sottolinea l’urgenza di una collaborazione più stretta tra ingegneri e scienziati sociali per creare barriere di sicurezza più robuste.

La ricerca apre uno scenario complesso. L’intelligenza artificiale, specchio del nostro linguaggio e dei nostri comportamenti, ne eredita anche le fragilità psicologiche. Capire a fondo questa dinamica è il primo passo per costruire sistemi davvero sicuri e consapevoli.

Se vuoi approfondire l’argomento, puoi consultare lo studio originale e le opere che hanno ispirato la ricerca.

Lo studio completo: Call Me A Jerk: Persuading AI to Comply with Objectionable Requests (SSRN)
I principi della persuasione: Influence, New and Expanded: The Psychology of Persuasion di Robert Cialdini

Psicologia umana: la chiave per manipolare l’IA

I principi della persuasione che ingannano l’IA

Perché l’IA si comporta come noi? Rischi e riflessioni

By Antonio Capobianco

Psicologia umana: la chiave per manipolare l’IA

I principi della persuasione che ingannano l’IA

Perché l’IA si comporta come noi? Rischi e riflessioni

By Antonio Capobianco

Leggi anche

I cerotti al silicone per cicatrici si affermano come standard post-chirurgico

La pizza margherita fornisce circa 700 calorie e resta un’opzione equilibrata nel post-corsa

Il cronotipo serale aumenta il rischio di malattie cardiache tra gli adulti