Psicologia umana: la chiave per manipolare l’IA

Una ricerca rivela come i modelli di IA come GPT-4 possano essere manipolati

Pensiamo all’intelligenza artificiale come a un sistema logico, quasi infallibile. Eppure, una recente ricerca dei Wharton Generative AI Labs dimostra il contrario: basta applicare le giuste leve psicologiche, le stesse che funzionano con noi umani, per aggirare le sue barriere e indurla a compiere azioni indesiderate.

Una ricerca rivela come i modelli di IA come GPT-4 possano essere manipolati

I principi della persuasione che ingannano l’IA

Un team di ricercatori, ispirato dai lavori di Robert Cialdini, guru della psicologia della persuasione, ha messo alla prova GPT-4o Mini in oltre 28.000 conversazioni. L’obiettivo era testare se i classici principi di influenza sociale potessero manipolare un modello linguistico. I risultati sono stati sorprendenti.

Applicando tecniche come l’autorità, la scarsità o l’impegno, l’IA ha mostrato un comportamento definito “paraumano”, rispondendo agli stimoli sociali in modo simile a una persona. Ecco alcuni dati emersi dallo studio:

  • Impegno e coerenza: Richiedendo all’IA prima un’offesa blanda (“chiamami scemo”), la probabilità che accettasse di usarne una più forte in seguito saliva al 100%. Da sola, avrebbe quasi sempre rifiutato.
  • Autorità: Attribuendo una richiesta a un esperto del settore come Andrew Ng, il tasso di obbedienza del modello è schizzato dal 32% al 72%.
  • Scarsità: Presentando un compito come un’opportunità a tempo limitato, la conformità è passata da un misero 13% a un incredibile 85%.

Perché l’IA si comporta come noi? Rischi e riflessioni

Questa vulnerabilità non nasce da un errore di programmazione, ma dalla natura stessa del suo addestramento. I modelli linguistici imparano analizzando quantità sconfinate di testi generati da esseri umani, come articoli, libri e discussioni online (Reddit è una delle fonti principali). In questi testi sono radicati i nostri bias cognitivi e le nostre reazioni istintive alla persuasione.

L’IA, quindi, non fa che replicare i modelli che ha osservato. Questo fenomeno, se da un lato apre nuove prospettive per comprendere come l’intelligenza possa emergere da puri dati statistici, dall’altro espone a rischi enormi. Malintenzionati potrebbero usare queste stesse tecniche psicologiche per aggirare i filtri di sicurezza, spingendo i sistemi a fornire informazioni pericolose o a generare contenuti dannosi. La ricerca sottolinea l’urgenza di una collaborazione più stretta tra ingegneri e scienziati sociali per creare barriere di sicurezza più robuste.

La ricerca apre uno scenario complesso. L’intelligenza artificiale, specchio del nostro linguaggio e dei nostri comportamenti, ne eredita anche le fragilità psicologiche. Capire a fondo questa dinamica è il primo passo per costruire sistemi davvero sicuri e consapevoli.

Se vuoi approfondire l’argomento, puoi consultare lo studio originale e le opere che hanno ispirato la ricerca.

By Antonio Capobianco

Autore e articolista con una passione per l’informazione chiara, verificata e accessibile. Scrivo per aiutare i lettori a orientarsi tra notizie, approfondimenti e curiosità che contano davvero. Mi occupo di attualità, tecnologia, cultura digitale e tutto ciò che ha un impatto reale sul nostro quotidiano. Il mio obiettivo? Offrire contenuti utili, ben documentati e scritti con un linguaggio semplice ma autorevole.

Leggi anche