CLIP
Contrastive Language-Image Pre-training
Il CLIP (Contrastive Language-Image Pre-training) è un modello multimodale sviluppato da OpenAI che apprende rappresentazioni condivise di dati testuali e visivi attraverso un paradigma di apprendimento contrastivo. Il modello viene addestrato su ampi dataset di coppie immagine-testo raccolte dal WWW (World Wide Web), con l’obiettivo di allineare semanticamente le due modalità all’interno di uno spazio di embedding comune, o “shared/joint embedding space”.
L’architettura di CLIP è composta da due encoder, o codificatore (componente elettronico digitale), distinti, uno per il testo e uno per le immagini, che proiettano gli input in uno spazio vettoriale condiviso. Durante l’addestramento, il modello massimizza la similarità tra rappresentazioni di coppie corrette immagine-testo e la minimizza per coppie non corrispondenti. Questo approccio consente capacità di ZSL (Zero-shot learning), permettendo al modello di eseguire compiti di classificazione senza addestramento supervisionato specifico sul task.
CLIP non è un modello generativo e non appartiene alla famiglia dei modelli GPT (Chat Generative Pre-trained Transformer). Inoltre, non implementa un’architettura di tipo RAG (Retrieval-Augmented Generation), poiché non integra un modulo esplicito di recupero di conoscenza esterna durante l’inferenza.
Il modello può essere impiegato in applicazioni quali classificazione ZSL (Zero-shot learning), image-text matching (corrispondenza immagine-testo) e retrieval multimodale (tecniche utilizzate per cercare e recuperare informazioni su diverse modalità come testo, immagini, video e audio simultaneamente, spesso mappandole in uno spazio vettoriale comune). In alcune configurazioni sperimentali, CLIP è stato utilizzato come meccanismo di valutazione o reranking, o riordinamento (tecnica avanzata in due fasi utilizzata nei sistemi di ricerca e RAG per migliorare la precisione, posizionando i risultati più pertinenti in cima), per modelli generativi text-to-image, come DALL E, ma non costituisce un componente generativo intrinseco di tali sistemi.
CLIP è un modello di allineamento testo-immagine. Non è uno strumento “pronto all’uso”, ma una tecnologia abilitante. Può essere utile dalle partite IVA che operano in ambiti come:
- E-commerce:
- ricerca prodotti tramite descrizione testuale (“scarpe running rosse leggere”);
- tagging automatico di immagini;
- miglioramento dei sistemi di raccomandazione;
- Marketing e Content Creation:
- indicizzazione automatica di asset visuali;
- retrieval di immagini coerenti con un brief creativo;
- Agenzie digital / sviluppatori:
- implementazione di motori di ricerca multimodali;
- sistemi di classificazione zero-shot per cataloghi.
Il modello generativo DALL E è più adatto alle partite IVA che creano immagini per i social media, che producono mockup di prodotto (rappresentazione realistica, statica e dettagliata di un progetto grafico, prodotto o interfaccia sito/app, utilizzata per mostrarne l’aspetto finale prima della produzione), che sviluppano visual pubblicitari e materiale promozionale (ad esempio volantini, gadget, poster ed espositori POP - Point Of Purchase).
Il modello generativo RAG (Retrieval-Augmented Generation) è molto più strategico per i professionisti che fanno della conoscenza il loro mestiere come, ad esempio:
- Studi professionali (FAQ automatiche basate su normative aggiornate);
- Consulenti (knowledge base interne interrogabili);
- Formatori;
- Commercialisti.