OpenAI ha rilasciato un rapporto dettagliato sull’interruzione che ha colpito ChatGPT, Sora e diverse API il 26 dicembre 2024. L’incidente, iniziato alle 10:40 PST, ha causato tassi di errore superiori al 90% per la maggior parte dei servizi, con un ripristino completo avvenuto solo diverse ore dopo.
La causa principale è stata identificata in un’interruzione di corrente presso un data center di un provider cloud, che ha avuto un impatto prolungato su servizi critici come i database. Nonostante la replica globale dei database di OpenAI, il processo di failover a livello regionale ha richiesto un intervento manuale da parte del provider, allungando i tempi di mitigazione a causa della scala dei sistemi di OpenAI.
L’azienda ha collaborato con il provider per eseguire il failover di alcuni database in altre regioni, ma il ripristino completo è stato possibile solo con il ripristino della regione da parte del provider. OpenAI ha annunciato un’importante iniziativa infrastrutturale per le prossime settimane, con l’obiettivo di rendere i suoi sistemi più resilienti a future interruzioni, implementando un livello di indirezione tra le applicazioni e i database cloud per un failover più rapido.
OpenAI si è scusata per l’impatto dell’interruzione sugli utenti e ha promesso di dare priorità alle misure preventive per migliorare l’affidabilità dei suoi servizi.
Punti chiave:
- Interruzione: ChatGPT, Sora e diverse API di OpenAI hanno subito una significativa interruzione il 26 dicembre 2024.
- Causa: Interruzione di corrente in un data center di un provider cloud.
- Impatto: Tassi di errore superiori al 90% per la maggior parte dei servizi.
- Ripristino: Il ripristino completo è avvenuto diverse ore dopo l’inizio dell’incidente.
- Soluzione: Failover manuale dei database con la collaborazione del provider cloud.
- Prevenzione: OpenAI implementerà nuove misure infrastrutturali per un failover più rapido in futuro.