Le motivazioni che giustificano lo sviluppo delle applicazioni vocali nascono dalla considerazione che la tecnologia debba agevolare e semplificare le interazioni computer-uomo, e quale miglior modo se non l’uso della voce per veicolare queste interazioni?

Una applicazioni vocale ci offre, infatti, la possibilità di usare un telefono per accedere ai nostri dati, alla nostra posta elettronica, richiedere informazioni, fare acquisti e molto altro.. il tutto dialogando con un operatore automatico usando un linguaggio naturale.

Alcune delle applicazioni che posso essere “rese vocali” sono: e-mail, oroscopo, servizi anagrafici di pubbliche amministrazioni, software di CRM, gestione ordini, etc.. e possono essere sia servizi rivolti al pubblico, che alla realizzazione di intranet aziendali.

Diversi linguaggi per applicazioni vocali sono stati sviluppati a partire dal 1995 presso AT&T ed altre aziende (IBM, Lucent e Motorola, etc..) che, riunitesi nel 1998 nel VoiceXML Forum per definire un linguaggio standard, hanno sviluppato la prima release del VoiceXML.

Il linguaggio in seguito è stato adottato dal W3C, che proprio in questi giorni ha approvato la versione 2.0.

VoiceXML è l’acronimo di Voice eXtensible Markup Language: un linguaggio che consente la realizzazione di interfaccie “vocali”, utili in applicazioni web che interagiscono con gli utenti mediante il linguaggio parlato: in particolare, consente di realizzare dialoghi audio in applicazioni che utilizzano riconoscimento vocale, dialogo sintetizzato, audio digitalizzato, voce preregistrata, conversazioni miste.

Vi sono diverse fasi che intervengono nella comunicazione tra un utente dotato di telefono e l’applicazione web riconoscimento vocale (ASR), verifica sintattica del linguaggio (utilizzo di grammatiche), comprensione semantica (sempre attraverso le grammatiche).

Le informazioni vengono veicolate, a questo punto, alla applicazione web attraverso il protocollo http, che risponderà generando un output.
Questo output può essere di due tipologie: o generato a partire da un testo (attraverso un TTS) o mediante la riproduzione di un messaggio pre-registrato