AgID – Agenzia per l’Italia Digitale ha pubblicato uno studio che illustra in modo sistematico natura, funzionamento e rischi di sicurezza degli agenti di intelligenza artificiale (IA), con l’obiettivo di fornire a sviluppatori, amministrazioni e operatori ICT una comprensione tecnica e operativa necessaria per governare (e non subire) questa nuova generazione di sistemi intelligenti.
Il documento parte dal presupposto che gli agenti IA, alimentati da modelli linguistici avanzati (LLM), non si limitano più alla generazione testuale, ma sono in grado di compiere azioni concrete interagendo con sistemi, funzioni e ambienti operativi.
Ciò comporta straordinarie potenzialità applicative, ma introduce anche nuove superfici di attacco: la sicurezza non dipende solo dal modello, ma soprattutto dal codice che collega il modello al mondo reale.
Lo studio approfondisce il meccanismo del Function Calling, tramite cui l’agente interpreta una richiesta e seleziona automaticamente funzioni Python o tool preconfigurati, trasformando un input testuale in un’azione eseguibile: tale processo è governato da un ciclo cognitivo-operativo denominato ReAct (Reason + Act), che separa la fase di ragionamento da quella di esecuzione.
Questa architettura aumenta la potenza degli agenti, ma espone anche a rischi di uso improprio, soprattutto quando le docstring o le instructions fornite al modello risultano ambigue o permissive.
L’analisi condotta da AgID evidenzia criticità reali: l’agente è in grado non solo di utilizzare funzioni esposte, ma anche di valutare autonomamente vulnerabilità, come nel caso della funzione leggi_file, che può subire attacchi di path traversal.
In un test, l’agente ha correttamente letto un file esterno alla sandbox, dimostrando che l’anello debole non è l’IA, ma il ponte software che ne permette l’azione.
Particolare attenzione è dedicata al modello di difesa a strati, ritenuto essenziale per la progettazione sicura degli agenti:
- codice sicuro, con validazione degli input e confinamento degli spazi operativi
- system prompt, che definisce limiti, ruolo e comportamento consentito dell’agente, riducendo fughe di dati e output indesiderati
- guardrail e API con filtri per input/output e sistemi di revisione dell’azione (Action Review) prima dell’esecuzione effettiva.
La parte finale dello studio richiama una visione culturale, per cui la sicurezza non può essere un’aggiunta successiva, ma un elemento fondativo degli agenti IA.
Ogni errore di progettazione può trasformarsi in un rischio concreto, poiché un agente esegue fedelmente ciò che il codice gli consente; la metafora conclusiva paragona l’agente a un’automobile: anche il veicolo più evoluto è sicuro solo se l’infrastruttura — il codice — è solida, segnalata e protetta.
Lo studio invita quindi a sviluppare sistemi agentici responsabili, con limitazioni chiare, controlli continui e un uso consapevole dell’autonomia dell’IA, affinché rimanga sempre uno strumento al servizio dell’uomo, e non il contrario.

