LLM

Large Language Model

È un acronimo utilizzato per indicare un modello linguistico di grandi dimensioni che è reso possibile dal AI accelerator (sistemi informatici progettati per accelerare le applicazioni di intelligenza artificiale e apprendimento automatico) che sono in grado di elaborare grandi quantità di dati di testo.

Gli LLM sfruttano le ANN (Artificial Neural Network) cioè dei modelli di apprendimento automatico costruiti utilizzando i principi di organizzazione neuronale basati sulle reti neurali biologiche dei cervelli animali.

Queste reti neurali artificiali possono contenere da un miliardo a un trilione di pesi e sono (pre)addestrate utilizzando l’apprendimento autosupervisionato e l’apprendimento semi-supervisionato dei modelli linguistici.

I modelli linguistici funzionano prendendo un testo di input e prevedendo ripetutamente il token o la parola successiva. Utilizzando una modifica della codifica della coppia di byte, nel primo passaggio, tutti i caratteri univoci (inclusi spazi e segni di punteggiatura) vengono trattati come un insieme iniziale di n-grammi (ovvero insieme iniziale di uni-grammi).

Successivamente con la coppia più frequente di caratteri adiacenti si crea un bigramma (unione di due token) e tutte le istanze della coppia vengono sostituite da esso.

Tutte le occorrenze di coppie adiacenti di n-grammi (precedentemente uniti) che si verificano più frequentemente insieme vengono unite ripetutamente in n-grammi ancora più lunghi fino a ottenere un vocabolario della dimensione prescritta.

Un n-gramma è una sottosequenza di n elementi di una data sequenza (ad esempio fonemi, sillabe, lettere e le parole) e alcuni modelli del linguaggio costruiti a partire da n-grammi sono catene di Markov di ordine n-1.

Il vocabolario dei token è costituito da numeri interi, che va da zero fino alla dimensione del vocabolario token. Le nuove parole possono sempre essere interpretate come combinazioni dei token e degli unigrammi (n-gramma di lunghezza 1) impostati inizialmente.

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

Large Language Model​

Large Language Model