Common Voice: dona la tua voce per addestrare il software di riconoscimento vocale di Mozilla
La maggior parte del software e dei dati vocali che alimentano gli assistenti personali presenti nei nostri dispositivi intelligenti, appartiene ad aziende e organizzazioni di tipo privato.
Ottenere l’accesso a dati di buona qualità richiede tempo e denaro: di conseguenza, il costo dello sviluppo del riconoscimento vocale e di altri software che si basano sui dati vocali è diventato proibitivo, dando ad alcune aziende il monopolio di questi servizi. Da parte di queste aziende, c’è anche poca trasparenza su quali dati sono stati utilizzati per sviluppare gli assistenti personali intelligenti, il che significa che alcune popolazioni possono rimanere indietro per quel che riguarda la quantità e l’affidabilità dei servizi basati sul riconoscimento vocale (come Amazon Alexa o Google Home, giusto per citare i più diffusi). Queste limitazioni rendono la tecnologia meno efficace per alcuni gruppi, come i non madrelingua con accenti o per le lingue parlate da piccole popolazioni.
Puoi ascoltare il contenuto di questo articolo su Spreaker
Cos’è Common Voice
Le principali tecnologie vocali del mercato sono alimentate da algoritmi di deep learning, che possono richiedere fino a 10.000 ore di dati convalidati per procedere con l’addestramento.
Common Voice è un’iniziativa di Mozilla, che affronta questa sfida sviluppando il primo set di dati vocali open source al mondo e un motore di riconoscimento vocale, chiamato DeepSpeech. Si tratta di un motore open source di sintesi vocale integrato (la prima versione di Deep Speech è stata rilasciata da Mozilla nel 2017) che può essere eseguito in tempo reale su dispositivi che vanno da un Raspberry Pi 4 fino ad arrivare ad un server GPU ad alta potenza. Tutti la documentazione relativa al progetto DeepSpeech può essere consultata a questo link.
Ma come funziona in dettaglio Common Voice? Il concetto è semplice: Common Voice raccoglie contributi vocali attraverso una piattaforma online in cui gli utenti sono invitati a leggere alcune brevi frasi che compaiono sullo schermo, registrando le parole pronunciate. Tutte le frasi provengono da testi che sono sotto una licenza Creative Commons, per garantire che possano essere liberamente riutilizzate in futuro da ricercatori e imprenditori.
Gli utenti possono anche ascoltare e convalidare i contributi registrati da altri membri della comunità, per garantire che i dati siano di qualità sufficientemente elevata per addestrare un algoritmo di intelligenza artificiale.
Dal punto di vista numerico, nel momento di scrittura di questo articolo il sito ufficiale riporta che la comunità italiana ha registrato più di 200 ore di materiale (di cui circa 160 ore convalidate).
Quali sono gli obiettivi di Common Voice?
Lo scopo del progetto Common Voice è garantire che i dati utilizzati per addestrare gli strumenti di riconoscimento vocale rappresentino la piena diversità delle voci di persone reali.
Ogni data entry contiene un file audio con il testo collegato, così come tutti i metadati associati al contributore, se disponibile. Rendendo i set di dati aperti, Mozilla sta creando opportunità per lo sviluppo di tecnologie vocali che possano coinvolgere una gamma più ampia di ricercatori, sviluppatori e attori del settore pubblico.
Questa maggiore accessibilità può aiutare ad incentivare l’innovazione e stimolare una sana competizione per lo sviluppo di strumenti migliori.
Intervista a Damiano, volontario di Mozilla Italia
Per capire di più sul contributo italiano al progetto Common Voice, abbiamo fatto alcune domande a Damiano Gualandri, volontario di Mozilla Italia.