Gli EchoSpeech sono occhiali che sembrano comuni, ma in realtà nascondono una tecnologia avanzata di riconoscimento vocale che sfrutta l’intelligenza artificiale per leggere il silenzio. La loro interfaccia di riconoscimento, che si basa su movimenti delle labbra e della bocca, può riconoscere fino a 31 comandi non vocalizzati.
Gli occhiali EchoSpeech, sviluppati dal laboratorio Cornell Smart Computer Interfaces for Future Interactions (SciFi), richiedono solo pochi minuti di addestramento dell’utente prima di riconoscere i comandi e possono essere utilizzati su uno smartphone. Ruidong Zhang, uno studente di dottorato dell’istituto, sarà il primo autore della ricerca intitolata “EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing”, che sarà presentata alla conferenza dell’Association for Computing Machinery su Human Factors in Computing Systems (CHI) questo mese ad Amburgo, in Germania.
La tecnologia EchoSpeech potrebbe essere utile a persone che non possono vocalizzare il suono, in quanto questa tecnologia di riconoscimento silenzioso potrebbe essere un’eccellente soluzione per un sintetizzatore vocale. Inoltre, con EchoSpeech si può comunicare tramite smartphone in luoghi dove il parlare è scomodo o inappropriato, come in un ristorante rumoroso o in una biblioteca silenziosa.
Gli occhiali EchoSpeech possono essere abbinati a uno stilo e utilizzati con software di progettazione come CAD, eliminando completamente la necessità di una tastiera e un mouse. Grazie a un algoritmo di deep learning, sviluppato anche dai ricercatori di SciFi Lab, il sistema di riconoscimento vocale silenzioso analizza questi profili di eco in tempo reale, con un’accuratezza del 95%.
Secondo Cheng Zhang, professore associato di informatica presso il Cornell Ann S. Bowers College of Computing and Information Science e direttore del SciFi Lab, “Stiamo portando il sonar sul corpo. Siamo molto entusiasti di questo sistema perché spinge davvero il campo delle prestazioni e della privacy in avanti. È piccolo, a basso consumo e rispettoso della privacy, che sono tutte importanti caratteristiche per la distribuzione di nuove tecnologie indossabili nel mondo reale”.
La tecnologia di riconoscimento silenzioso come EchoSpeech rimuove la necessità di telecamere indossabili e, poiché i dati audio sono molto più piccoli dei dati immagine o video, richiedono meno larghezza di banda da elaborare e possono essere trasmessi in tempo reale a uno smartphone via Bluetooth.
La durata della batteria migliora notevolmente anche grazie alla tecnologia di riconoscimento acustico: dieci ore con l’uso di EchoSpeech, contro i 30 minuti.