Passa al contenuto principale

CLIP

Contrastive Language-Image Pre-training

Il CLIP (Contrastive Language-Image Pre-training) è un modello multimodale sviluppato da OpenAI che apprende rappresentazioni condivise di dati testuali e visivi attraverso un paradigma di apprendimento contrastivo. Il modello viene addestrato su ampi dataset di coppie immagine-testo raccolte dal WWW (World Wide Web), con l’obiettivo di allineare semanticamente le due modalità all’interno di uno spazio di embedding comune, o “shared/joint embedding space”.

L’architettura di CLIP è composta da due encoder, o codificatore (componente elettronico digitale), distinti, uno per il testo e uno per le immagini, che proiettano gli input in uno spazio vettoriale condiviso. Durante l’addestramento, il modello massimizza la similarità tra rappresentazioni di coppie corrette immagine-testo e la minimizza per coppie non corrispondenti. Questo approccio consente capacità di ZSL (Zero-shot learning), permettendo al modello di eseguire compiti di classificazione senza addestramento supervisionato specifico sul task.

CLIP non è un modello generativo e non appartiene alla famiglia dei modelli GPT (Chat Generative Pre-trained Transformer). Inoltre, non implementa un’architettura di tipo RAG (Retrieval-Augmented Generation), poiché non integra un modulo esplicito di recupero di conoscenza esterna durante l’inferenza.

Il modello può essere impiegato in applicazioni quali classificazione ZSL (Zero-shot learning), image-text matching (corrispondenza immagine-testo) e retrieval multimodale (tecniche utilizzate per cercare e recuperare informazioni su diverse modalità come testo, immagini, video e audio simultaneamente, spesso mappandole in uno spazio vettoriale comune). In alcune configurazioni sperimentali, CLIP è stato utilizzato come meccanismo di valutazione o reranking, o riordinamento (tecnica avanzata in due fasi utilizzata nei sistemi di ricerca e RAG per migliorare la precisione, posizionando i risultati più pertinenti in cima), per modelli generativi text-to-image, come DALL E, ma non costituisce un componente generativo intrinseco di tali sistemi.

CLIP è un modello di allineamento testo-immagine. Non è uno strumento “pronto all’uso”, ma una tecnologia abilitante. Può essere utile dalle partite IVA che operano in ambiti come:

  • E-commerce:
    • ricerca prodotti tramite descrizione testuale (“scarpe running rosse leggere”);
    • tagging automatico di immagini;
    • miglioramento dei sistemi di raccomandazione;
  • Marketing e Content Creation:
    • indicizzazione automatica di asset visuali;
    • retrieval di immagini coerenti con un brief creativo;
  • Agenzie digital / sviluppatori:
    • implementazione di motori di ricerca multimodali;
    • sistemi di classificazione zero-shot per cataloghi.

Il modello generativo DALL E è più adatto alle partite IVA che creano immagini per i social media, che producono mockup di prodotto (rappresentazione realistica, statica e dettagliata di un progetto grafico, prodotto o interfaccia sito/app, utilizzata per mostrarne l’aspetto finale prima della produzione), che sviluppano visual pubblicitari e materiale promozionale (ad esempio volantini, gadget, poster ed espositori POP - Point Of Purchase).

Il modello generativo RAG (Retrieval-Augmented Generation) è molto più strategico per i professionisti che fanno della conoscenza il loro mestiere come, ad esempio:

  • Studi professionali (FAQ automatiche basate su normative aggiornate);
  • Consulenti (knowledge base interne interrogabili);
  • Formatori;
  • Commercialisti.