WALTER QUATTROCIOCCHI LLM (Large Language Models): ChatGpt, Gemini ecc. Come funzionano davvero, parte 2

La nostra scuola, 4 settembre 2025

Per la prima serie di riflessioni, leggi qui

Embedding – I computer non capiscono parole, elaborano numeri. Per questo ogni parola viene trasformata in un elenco di numeri chiamato vettore. Se due parole compaiono spesso nello stesso contesto (“gatto” e “cane”), i loro vettori saranno vicini; se non compaiono mai insieme (“gatto” e “trattore”), saranno lontani. È una mappa statistica, non un dizionario di significati. Nessun concetto, solo distanze in uno spazio di numeri.

Tokenizzazione – Il modello non legge il testo come facciamo noi. Spezza le frasi in piccoli pezzi chiamati token. A volte una parola è un token intero, altre volte viene spezzata: “incredibile” può diventare “in”, “credi”, “bile”. Il modello lavora solo con questi pezzi, non con concetti o frasi intere. Non c’è un “pensiero” sotto: solo pezzi da ricomporre.

Positional Encoding – Perché l’ordine delle parole non si perda, a ogni token viene aggiunta un’informazione sulla sua posizione nella frase. È così che il modello distingue tra “l’uomo morde il cane” e “il cane morde l’uomo”. Non è grammatica: è solo un trucco matematico per non confondere l’ordine. Coordinate, non regole sintattiche.

Fine-tuning e RLHF – Dopo l’addestramento di base, il modello viene “educato” con dati più mirati o con istruzioni di esseri umani (RLHF = Reinforcement Learning with Human Feedback). Qui gli umani dicono: “questa risposta va bene, questa no”. È così che il modello impara a rispondere in modo più chiaro e cortese, ma resta statistica, non personalità. Premi e punizioni, non comprensione.

Context window – Un modello non ricorda all’infinito. Ha una “finestra di contesto” che stabilisce quante parole può considerare alla volta. Se è troppo piccola, dimentica l’inizio della conversazione. Oggi i modelli più avanzati hanno finestre molto ampie e possono “tenere a mente” testi enormi in un’unica volta. Ma sempre con memoria a breve termine: finita la finestra, sparisce tutto.

Prompt engineering – Dare istruzioni chiare migliora le risposte. Non perché il modello “capisca”, ma perché guidi meglio la scelta delle parole. Domanda confusa = risposta confusa. Niente magia: solo input più mirati.

Decoding – Dopo aver calcolato la probabilità di ogni parola possibile, il modello deve sceglierne una.

Greedy decoding: prende sempre quella più probabile → testo corretto ma noioso.

Sampling: pesca a caso seguendo le probabilità → più varietà, ma rischia di dire sciocchezze.

Beam search: valuta più frasi in parallelo e sceglie la migliore → più lento ma di qualità. Non c’è ispirazione: solo diverse strategie di scelta.

Temperature e top-k – Sono le “manopole dello stile”.
Temperature regola la creatività: bassa = frasi prevedibili, alta = frasi fantasiose (a volte troppo).
Top-k dice al modello: “considera solo le k parole più probabili”.

Tutto qui: numeri, probabilità, un po’ di informatica. Tantissimi dati e tanta potenza di calcolo.
Niente coscienza. Niente magia. Niente filosofia dei termosifoni.

L	M	M	G	V	S	D
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Condividi:

Correlati