L'INTERFACCIA VOCALE
a cura di Diego "Tug" Cacchiarelli


"…computer?…salve computer…". Scotty guarda demoralizzato verso Leonard "Bones" Mc Coy, una stiratina ai muscoli delle dita e via, con mesta rassegnazione a digitare la formula dell'alluminio trasparente. Questa è una delle scene più buffe che Star Trek IV - Rotta verso la Terra e l'ingegner Montgomery Scott ci hanno offerto al cinema qualche anno fa.
In essa si metteva in evidenza il disagio di Scotty, ingegnere dell'Enterprise, nell'avere a che fare con un computer talmente antiquato da non possedere neppure l'interfaccia vocale. La realtà di oggi non è tanto diversa.
Il rapporto uomo/computer è stato sempre condizionato da problemi oggettivi di… comunicazione. L'inserimento di informazioni (input) e le risposte del computer (output) hanno avuto, con gli anni, diverse modalità: schede perforate, nastri magnetici, video e stampa. Tuttavia la forma più efficace e naturale di comunicazione, quella verbale, è di fatto l'ultima arrivata. Perché?
Sostanzialmente i perché sono tanti. Cerchiamo di andare per ordine. Inizialmente due sono stati i motivi principali: il primo è la scarsa potenza elaborativa delle macchine di qualche decennio fa, il secondo - conseguenza del primo - è che per quanto strano possa sembrare, non ce n'era bisogno. In altre parole i primi computer, a causa della loro scarsa potenza, erano utilizzati per lavori di puro calcolo. In quest'ambito non era certo necessario interloquire.
Anni passando e processori evolvendo, la potenza è aumentata e così anche i campi applicativi dell'elaboratore. Da questo punto in poi (siamo negli anni '80) tutti i passi in campo hardware, ma soprattutto software, si sono quindi concentrati in direzione di un utilizzo sempre più "friendly" del computer. L'invenzione del mouse, la nascita di sistemi operativi con interfacce grafiche e quant'altro si è visto in questi ultimi decenni, tutto è stato fatto in nome della comunicazione utente/computer.
Ed è proprio nell'ultimo decennio che il lavoro per dotare questa macchina oramai velocissima e potentissima della parola ha iniziato a dare i suoi frutti.
Ma quali ragioni hanno spinto programmatori e ingegneri a progettare computers e programmi che permettessero di dialogare a voce con il computer? Credo che i motivi principali siano tre: il primo è la ricerca di un mezzo di comunicazione che sia utilizzabile anche da chi normalmente non userebbe un computer, il secondo è la limitatezza degli attuali sistemi e il terzo è l'attenzione verso coloro che per motivi diversi non hanno la possibilità di usare i tradizionali mezzi di comunicazione con il computer.
Analizziamoli un po' più a fondo. Abbiamo detto che il primo motivo è la ricerca di un'ulteriore facilità d'uso. Quest'aspetto è davvero importante. Oramai gli oggetti che possiedono al loro interno un processore sono davvero tantissimi: computers, impianti stereo, strumenti musicali, frigoriferi, telefoni e quant'altro ancora. È però un dato di fatto che la loro gestione risulta spesso problematica. L'utente ha difficoltà ad utilizzare il prodotto in quanto non è capace di dialogare con esso. Nella più ovvia logica commerciale, lo strumento più facile da usare sarà anche quello più facile da vendere (prezzo e qualità saranno ovviamente gli altri metri di scelta).
Parlare di evoluzione tecnologica e metterla in relazione con una bieca ottica commerciale potrebbe sembrare inadeguato o addirittura scandaloso, ma non lo è. Anzi, la tecnologia in larga parte deve molto alla voglia di vendere. Un esempio: perché "inventare" i CD musicali quando esistevano già ottime incisioni su vinile? E il vinile perché è stato utilizzato quando dell'ottima musica si poteva già ascoltare agli inizi del secolo scorso su bellissimi rulli di cera? La voglia (o la necessità?) di vendere ha costretto l'uomo ad inventare e a migliorare. I risultati sono continuamente sotto i nostri occhi e tutti ne godiamo.
Ma veniamo alla seconda motivazione che ha spinto la tecnologia verso il mondo dei "computers parlanti". Si è accennato alla limitatezza insita negli attuali sistemi di interazione col computer: vediamo di approfondire. Pensiamo ad un tipico utente: egli avrà sul suo desktop una serie di oggetti (icone) le quali corrispondo ad applicazioni o documenti. Ma cosa succede se ciò che cerca non è lì? Molto semplicemente dovrà cercare ed aprire altre sezioni o menù, fino a quando non avrà trovato quanto desidera. L'interfaccia vocale elimina tutto questo, rende il computer un'entità bidimensionale, dove tutto è accessibile con medesima velocità e semplicità. Inoltre la possibilità di "parlare al computer" permette di esprimere concetti articolati con condizionali o altro. Un esempio calzante potrebbe essere un comando di questo tipo: "Se la cartella PROVA contiene più di 10 documenti di dimensioni superiori a 50 k, allora sposta tali documenti nella cartella APPUNTI". Quanti passaggi occorrerebbero per codificare questa frase all'interno dei sistemi tradizionali? Il vantaggio, come si può capire bene, è notevole!
Ed eccoci alla terza motivazione: la tecnologia in esame permette l'utilizzo del computer e comunque di tutti gli strumenti dotati di tale interfaccia, ad individui che sono impossibilitati ad utilizzare gli arti superiori o ad utenti non vedenti. I portatori di handicap rappresentano una grande fetta di questa utenza. Uno strumento di questo tipo permetterà loro di essere più utili a loro stessi e meno vincolati nella scelta del lavoro. Tutto questo è assolutamente importante. Come è importante non dimenticare che questa non è l'unica categoria che ne trarrebbe giovamento. Solo per fare un paio di esempi: i guidatori potrebbero fare un check up del mezzo senza togliere lo sguardo dalla strada, strumenti di utilità medica potrebbero essere usati da utenti bisognosi con facilità e a domicilio, senza l'ausilio di personale che in questo settore è sempre carente.
Motivazioni come queste ci fanno ben comprendere come l'impegno in questo settore si sta potenziando; e gli effetti si possono già apprezzare.

L'attuale situazione:
L'utenza familiare e lo small office sono da tempo abituate ai prodotti di riconoscimento vocale. IBM Via Voice è un esempio abbastanza calzante. Il programma ha acquisito tra l'altro una discreta capacità di ricevere comandi "naturali". Anche Dragon System, il precursore, si sta muovendo in questo campo con buona agilità. Va anche detto che comunque questi software di riconoscimento vocale sono destinati ad un'utenza non professionale. Nec dal canto suo si sta invece adoperando per creare qualcosa di maggiormente potente ed utilizzabile, in poche parole sta costruendo un po' di futuro.
Vediamo qualche dettaglio in più. L'attuale sistema Nec ha la capacità di gestire un vocabolario molto vasto (100.000 parole) che viene appreso in maniera velocissima (basta pronunciare la parola una sola volta) indipendentemente dal parlatore. Il sistema tollera anche un elevato rumore ambientale, il che lo rende già idoneo ad un utilizzo su mezzi di trasporto. La tecnologia messa a punto da Nec funziona con la tecnica delle semi-sillabe. Una semi-sillaba è la metà di una sillaba, divisa prendendo la vocale come punto di riferimento. Visto che le parole vengono rappresentate come una combinazione di semi-sillabe, le parole da riconoscere posso essere registrate semplicemente descrivendone la pronuncia. Inoltre il sistema viene addestrato da parlatori diversi il che, come si è già detto, permette poi il riconoscimento a prescindere da chi parla. L'utente potrà addestrare il sistema con pochissime parole, giusto per dare la possibilità al sistema di sviluppare un modello da correlare all'utente stesso. Dulcis in fundo, la tecnologia sviluppata da Nec opera anche il riconoscimento per parole chiave, il che significa che una domanda o una frase potrà essere posta con modalità diverse e il sistema capirà comunque il senso di ciò che si è detto (fonte: Elettronica oggi - Riconoscimento vocale: l'obiettivo è il dialogo, di Michele D'Amico).

Le prospettive:
Non è difficile prevedere che la potenza dei processori e i grandi sforzi delle case produttrici di software porteranno a breve termine ad una grande diffusione di questo strumento. L'interfaccia vocale non è che una parte della macchina del futuro, ma di certo sarà una componente che farà la differenza, che permetterà di inaugurare una vera "nuova generazione" tecnologica. Basti pensare al fatto che l'assenza di tastiera già di per sé consente una riduzione drastica delle dimensioni dello strumento da utilizzare.

Nel prossimo numero si prenderà in considerazione il cammino evolutivo dei monitors ed il loro possibile futuro.


Se volete commentare questo articolo scrivete a
Warp Mail