Chameleon è il nuovo modello di intelligenza artificiale sviluppato dal Chameleon Team, capace di comprendere e generare immagini e testi in qualsiasi sequenza arbitraria. Questa famiglia di modelli early-fusion token-based rappresenta un passo significativo nell’unificazione dei documenti multimodali, dimostrando capacità ampie e generali che la posizionano al vertice della tecnologia attuale.
Il Chameleon Team ha messo a punto un approccio di addestramento stabile sin dall’inizio, accompagnato da una ricetta di allineamento e da una parametrizzazione architettonica specifica per l’ambiente early-fusion, token-based e multimodale. Il modello è stato valutato su un’ampia gamma di compiti, tra cui il visual question answering, la didascalia di immagini, la generazione di testi, la generazione di immagini e la generazione multimodale a lungo termine.
I risultati sono impressionanti: Chameleon ha ottenuto prestazioni all’avanguardia nelle attività di didascalia di immagini, superando Llama-2 nei compiti esclusivamente testuali e competendo con modelli avanzati come Mixtral 8x7B e Gemini-Pro. Inoltre, è in grado di eseguire una generazione di immagini non banale, il tutto con un unico modello. In una nuova valutazione della generazione multimodale a lungo termine, Chameleon ha eguagliato o superato le prestazioni di modelli molto più grandi, come Gemini Pro e GPT-4V, secondo giudizi umani su documenti che contengono sequenze miste di immagini e testo.
Chameleon non solo ridefinisce le capacità dei modelli multimodali, ma dimostra anche l’efficacia di un approccio unificato nella gestione di documenti complessi, aprendo la strada a nuove applicazioni e miglioramenti nell’intelligenza artificiale.