Google ha presentato TPU v4, il quinto progetto di architettura specifica per il machine learning (DSA) e il terzo supercomputer di Google dedicato ai modelli di machine learning. TPU v4 è stato sviluppato in risposta alle innovazioni nei modelli di machine learning e ai cambiamenti nelle esigenze di produzione.
TPU v4 include Optical Circuit Switches (OCSes), che permettono di riconfigurare dinamicamente la topologia di interconnessione del sistema per migliorare la scalabilità, l’affidabilità, l’utilizzo, la modularità, la distribuzione, la sicurezza, l’efficienza energetica e le prestazioni. Gli utenti possono scegliere una topologia a toroide tridimensionale se lo desiderano.
OCS è molto più economico, consuma meno energia e risulta più veloce di Infiniband. Gli OCS e i componenti ottici sottostanti costituiscono meno del 5% del costo del sistema e meno del 3% della potenza del sistema. Ogni TPU v4 include SparseCores, processori di flusso di dati che accelerano i modelli che si basano sugli embeddings di 5x-7x ma utilizzano solo il 5% della superficie del chip e della potenza.
Deployed dal 2020, TPU v4 supera TPU v3 di 2.1x e migliora le prestazioni/Watt di 2.7x. Il supercomputer TPU v4 è 4x più grande con 4096 chip e quindi ~10x più veloce complessivamente, il che, insieme alla flessibilità degli OCS, aiuta i grandi modelli di lingua. Per sistemi delle stesse dimensioni, è ~4.3x-4.5x più veloce dell’IPU Bow di Graphcore ed è 1.2x-1.7x più veloce e utilizza 1.3x-1.9x meno energia dell’Nvidia A100.
I TPU v4 all’interno dei computer di scala di magazzino ottimizzati per l’energia di Google Cloud utilizzano ~3x meno energia e producono ~20x meno CO2e rispetto ai DSA contemporanei in un tipico data center in loco.
Con TPU v4, Google ha creato un supercomputer di livello mondiale per il machine learning, che offre prestazioni straordinarie con costi di gestione ridotti. Questa nuova soluzione di Google può rivoluzionare il modo in cui i dati vengono analizzati e processati a livello globale.