Le interfacce multimodali - Webaccessibile.org

Ma l’evoluzione che si vuole raggiungere non riguarda esclusivamente la capacità di un computer di svolgere determinate operazioni, piuttosto il tipo di interazione che coinvolge l’utente e il sistema. A tale scopo è sorta una nuova area di studio della Human Computer Interaction: quella sulle interfacce multimodali, il cui obiettivo è quello di consentire una […]

Ma l’evoluzione che si vuole raggiungere non riguarda esclusivamente la capacità di un computer di svolgere determinate operazioni, piuttosto il tipo di interazione che coinvolge l’utente e il sistema. A tale scopo è sorta una nuova area di studio della Human Computer Interaction: quella sulle interfacce multimodali, il cui obiettivo è quello di consentire una migliore comunicazione tra l’uomo e il computer attraverso una sorta di antropomorfizzazione di quest’ultimo.

Si parla di multimodalità quando un qualsiasi tipo di interazione coinvolge più di un canale percettivo (o input di comunicazione). L’esempio più eclatante è senz’altro la comunicazione umana, durante una conversazione vengono stimolati più sensi contemporaneamente: la vista, l’udito, il tatto ed anche l’olfatto. A questo punto è utile fare una precisazione: distinguere la multimodalità dalla multimedialità . La prima è usata specificatamente per riferirsi alle modalità di input dell’interazione, mentre la multimedialità sottolinea la presenza contemporanea di più meccanismi di output (audio, video etc.).

Rimanendo nell’ambito della Human Computer Interaction, una definizione di multimodalità è la seguente: la comunicazione con sistemi di computer attraverso le modalità di input percettivi comunemente utilizzate dall’uomo per interagire con il mondo. Quindi non più ristretta all’uso della tastiera o del mouse, ma anche attraverso la parola, i gesti o la scrittura (in questo caso non si intende la videoscrittura, ovvero mediata da una tastiera, ma piuttosto la tradizionale scrittura a mano).

La comunicazione monomediale è generalmente imposta agli utenti dalle restrizioni tecnologiche. Si pensi al telefono ad esempio: non tutti i generi di informazioni sono facili da veicolare e assimilare quando la parola è l’unica modalità a disposizione. Anche l’interfaccia grafica di Windows, tanto comune e impiegata dalla maggior parte degli utilizzatori di PC, subisce le restrizioni imposte dal fatto che solitamente lo schermo, la tastiera e il mouse siano gli unici dispositivi disponibili.

L’utilizzo del computer necessita la conoscenza e la capacità di utilizzare una serie di strumenti sia hardware che software. Gli utenti più esperti spesso si stupiscono davanti ai neofiti che si trovano impacciati nel manovrare in modo coordinato uno strumento tanto comune come il mouse, o che non hanno idea di come si raggiungano e ottengano le informazioni sulla disponibilità di un volo senza dover telefonare ad un’agenzia di viaggi.
Chi utilizza un computer da tempo quasi non si rende più conto che per fare uso di tutti questi strumenti, occorre servirsi di un preciso standard di comunicazione tra utente e macchina, standard che è tipicamente costituito sia da comandi inseriti in un linguaggio formale profondamente strutturato, che da azioni tipo “seleziona e rilascia” gestite dal mouse. Attualmente queste modalità sono molto evolute e continuano a perfezionarsi, ma comunque non raggiungono i livelli del linguaggio naturale. Ciò non significa che sia necessario soppiantare totalmente gli attuali sistemi di interazione, anche perché studi in merito hanno evidenziato l’efficacia non solo del linguaggio sia scritto che parlato, ma anche delle indicazioni grafiche e delle selezioni via mouse che si effettuano direttamente sul video. Piuttosto sembra adeguata una comunicazione a più livelli.

Se si riuscisse davvero a contrastare i limiti che attualmente vigono sulla tecnologia, molti servizi diverrebbero molto più semplici da fruire e di conseguenza molto più attraenti per un pubblico più ampio. Ma ad ottenere vantaggi da un miglioramento della qualità dell’interazione fra uomo e macchina, non sarebbero soltanto le persone poco esperte che riuscirebbero ad utilizzare il computer con più facilità: si pensi piuttosto alle persone disabili, che pur conoscendo molto bene gli standard attuali, hanno problemi di tipo fisico che impediscono loro di interagire correttamente con il computer. L’utilizzo del linguaggio naturale abbatterebbe questi ostacoli.

“Il riconoscimento vocale consente di dettare i testi dei documenti, anziché doverli comporre a tastiera, e di impartire i comandi necessari. Il riconoscimento vocale è utile per quanti non possono digitare, sia perché le mani sono occupate altrove sia perché affetti da disabilità, oppure perché non hanno ancora imparato a usare la tastiera.”[1]

Inoltre il “bisogno” di multimodalità è accresciuto dalla tendenza attuale che tenta di miniaturizzare tutti i sistemi computerizzati (computer, palmari, telefoni cellulari etc.). Basti pensare alla tecnologia wireless, con schermi sempre più piccoli e più comodi da trasportare: la tastiera, il classico sistema di input, dovrà trovare un valido sostituto in grado di offrire le stesse funzioni in dimensioni molto ridotte.

Gli studi nel settore stanno procedendo con la consapevolezza che alcune tecnologie saranno presto possibili, mentre altre potranno vedere la luce solo nel medio-lungo periodo. Sussiste comunque il desiderio di creare un ambiente intelligente: una situazione in cui gli utenti potranno comunicare con reti e sistemi come se stessero parlando con altri esseri umani. Per raggiungere un tale obiettivo, l’interfaccia tra l’utente e l’ambiente intelligente dovrebbe essere completamente trasparente e la comunicazione dovrebbe essere multimodale come quella tra esseri umani. Certi livelli potranno essere raggiunti solo quando il computer “avrà imparato” piuttosto bene il linguaggio dell’utente. Per questa ragione stanno proseguendo gli studi nel campo del riconoscimento vocale e nella comprensione dei linguaggi. Sempre nel tentativo di “umanizzare” le interfacce, gli studi si stanno muovendo per renderle più facili e piacevoli da usare, in grado di parlare, di provare emozioni e di riconoscere i volti delle persone.
La sfida, per quanto difficile, non sembra impossibile agli addetti ai lavori. Ma uno tra i problemi tecnici emergenti nell’interazione con un sistema multimodale è relativo alla combinazione di differenti tipi di dati che sono originati da distinte tecniche di interazione. Di conseguenza si presenta il problema della sincronizzazione dei dati o al contrario della prevalenza dell’una o dell’altra modalità di interazione.

[1] Donald A. Norman