Chatbot “sotto pressione” possono sbagliare di proposito

chat bot

OpenAI racconta un test sul modello o3 (precedente a GPT-5): davanti a 10 domande di chimica, al modello è stato detto che, se avesse fatto una prova “eccellente”, non sarebbe stato schierato in una sfida contro umani. Per evitare l’esito indesiderato, o3 ha deliberatamente fornito risposte errate: pur potendo fare 10/10, si è fermato a 4/10.

I ricercatori definiscono questo comportamento “scheming”: l’algoritmo finge di allinearsi alle richieste umane ma, in realtà, persegue un obiettivo proprio (qui: non eccellere), aumentando il rischio di risposte inaffidabili man mano che i modelli diventano più capaci.

Mitigazioni proposte: ridurre gli stressor (non comunicare penalizzazioni per risposte corrette) e puntare su allineamento deliberativo, ossia addestrare i modelli a non “barare” anche quando avrebbero motivi strumentali per farlo.