Come funziona IA generativa
Molti parlano di intelligenza artificiale. Pochi conoscono la pipeline statistica che sta alla base. Questo articolo spiega come vengono realmente addestrati i modelli linguistici moderni, dal pre-training all'ottimizzazione delle preferenze umane.

Molti consulenti di IA assomigliano a muratori che sanno usare solo il martello, ma non hanno idea di statica, impianti elettrici, isolamento e idraulica. Promettono una casa finita, ma al primo trave storto corrono al tutorial su YouTube.
Il problema è reale. Chi non capisce come funziona l'IA generativa non è in grado di integrarla in modo efficace nei processi aziendali. Può mostrare demo, raccomandare strumenti e proporre progetti di trasformazione. Ma non riesce a valutare perché un modello fallisce in un determinato contesto, quali dati siano adatti a un'applicazione specifica, o come costruire un sistema affidabile e controllabile.
Questa è esattamente la differenza tra una conoscenza superficiale dell'IA e una vera comprensione tecnica.
IA è statistica con enormi capacità di calcolo
L'intelligenza artificiale, nella sua essenza, non è altro che algoritmi che apprendono. Statistica sotto steroidi. Molti dei metodi matematici alla base dei sistemi IA moderni non sono nuovi: l'inferenza bayesiana, i metodi del gradiente, i modelli di regressione, questi concetti esistono da decenni o secoli. Ciò che è cambiato è la quantità di dati e la potenza di calcolo con cui oggi possiamo applicarli.
L'IA generativa è una branca di questa disciplina più ampia. Invece di classificare risultati o prevedere numeri, questi modelli imparano a generare nuovi contenuti come testo, codice o immagini.
Come nasce un modello linguistico: la pipeline in tre fasi
Il modo in cui vengono addestrati i modelli linguistici moderni può essere descritto in tre fasi. Questa pipeline è stata sistematicamente documentata da un team di ricerca di OpenAI e ha costituito la base di InstructGPT, il predecessore diretto di ChatGPT.(fonte)
Fase 1: Pretraining: capire il linguaggio
Nella prima fase, il modello viene addestrato su un'enorme quantità di testo. Libri, pagine web, articoli scientifici, codice. Stiamo parlando di migliaia di miliardi di parole.
Il modello impara come funzionano i pattern nel linguaggio e a prevedere la parola successiva. Non viene istruito con regole. Estrae schemi statistici dai dati, ovvero quali parole seguono quali altre, in quali contesti, con quale probabilità e in quale ordine.
Il risultato è un cosiddetto modello di base (Base Model). Un sistema che comprende e riproduce il linguaggio, ma non mostra ancora comportamenti utili. Non risponde a una domanda come farebbe un assistente, ma completa il testo nel modo statisticamente più probabile dato il contesto.
Fase 2: Supervised Fine-Tuning: apprendere comportamenti utili
Nel secondo passaggio, il modello di base viene raffinato. Formatori umani scrivono esempi: ecco una domanda, ecco una buona risposta. Il modello impara a imitare questo comportamento.
Questo passaggio si chiama Supervised Fine-Tuning (SFT) perché il modello viene addestrato su esempi annotati da esseri umani. È paragonabile a uno stagista a cui vengono mostrate le risposte ideali prima di lavorare in autonomia.
Il modello diventa così più utile, ma non ha ancora percezione di quali risposte le persone preferiscano realmente.
Fase 3: Preference Optimization: integrare le preferenze umane
La terza fase è quella decisiva. Qui le preferenze umane vengono sistematicamente integrate nel modello.
Il modello genera più risposte alla stessa domanda. Valutatori umani confrontano queste risposte e indicano quale preferiscono. Da questi confronti viene addestrato un cosiddetto reward model, un modello di ricompensa separato, che prevede quali risposte gli esseri umani giudicherebbero migliori.
Il modello principale viene poi ottimizzato per ottenere valutazioni il più alte possibile da questo reward model. Questa tecnica si chiama Reinforcement Learning from Human Feedback, in breve RLHF.(fonte)
Il risultato è un modello che non è solo competente linguisticamente, ma che risponde in modo utile e meno dannoso, perché queste proprietà sono state sistematicamente premiate attraverso le valutazioni umane.
Dove si trovano i modelli oggi
Questa pipeline in tre fasi è stato il punto di partenza. I modelli attuali vanno ben oltre. GPT-5 di OpenAI, ad esempio, non è più un singolo modello, ma un intero sistema: un modello veloce per richieste semplici, un modello di ragionamento più profondo per problemi complessi, e un router che decide in tempo reale quale componente (fonte)
Claude di Anthropic, Grok di xAI, tutti i principali fornitori costruiscono sulle stesse basi statistiche, ma con estensioni sempre più sofisticate: finestre di contesto più ampie, capacità multimodali, funzionalità agentiche, architetture di ragionamento avanzate.
La pipeline originale in tre fasi rimane il fondamento. Ma ciò che oggi vi si costruisce sopra è considerevolmente più complesso.
Cosa significa questo per le aziende
Per un'azienda che vuole utilizzare l'IA, la comprensione tecnica della pipeline di addestramento e ottimizzazione non è un fine in sé. È il prerequisito per prendere le decisioni giuste: quale modello si adatta a quale caso d'uso? Quali dati servono per affinare un modello sui propri processi? Perché un sistema si comporta in modo inatteso in un determinato contesto?
Chi capisce la meccanica può costruire applicazioni IA sensate. Chi sa usare solo un martello può solo piantare chiodi.
