"…computer?…salve
computer…". Scotty guarda demoralizzato verso Leonard "Bones" Mc Coy,
una stiratina ai muscoli delle dita e via, con mesta rassegnazione a
digitare la formula dell'alluminio trasparente. Questa è una delle scene
più buffe che Star Trek IV - Rotta verso la Terra e l'ingegner
Montgomery Scott ci hanno offerto al cinema qualche anno fa.
In essa si metteva in evidenza il disagio di Scotty, ingegnere dell'Enterprise,
nell'avere a che fare con un computer talmente antiquato da non possedere neppure
l'interfaccia vocale. La realtà di oggi non è tanto diversa.
Il
rapporto uomo/computer è stato sempre condizionato da problemi oggettivi
di… comunicazione. L'inserimento di informazioni (input) e le risposte
del computer (output) hanno avuto, con gli anni, diverse modalità: schede
perforate, nastri magnetici, video e stampa. Tuttavia la forma più efficace
e naturale di comunicazione, quella verbale, è di fatto l'ultima arrivata.
Perché?
Sostanzialmente
i perché sono tanti. Cerchiamo di andare per ordine. Inizialmente due
sono stati i motivi principali: il primo è la scarsa potenza elaborativa
delle macchine di qualche decennio fa, il secondo - conseguenza del
primo - è che per quanto strano possa sembrare, non ce n'era bisogno.
In altre parole i primi computer, a causa della loro scarsa potenza,
erano utilizzati per lavori di puro calcolo. In quest'ambito non era
certo necessario interloquire.
Anni
passando e processori evolvendo, la potenza è aumentata e così anche
i campi applicativi dell'elaboratore. Da questo punto in poi (siamo
negli anni '80) tutti i passi in campo hardware, ma soprattutto software,
si sono quindi concentrati in direzione di un utilizzo sempre più "friendly"
del computer. L'invenzione del mouse, la nascita di sistemi operativi
con interfacce grafiche e quant'altro si è visto in questi ultimi decenni,
tutto è stato fatto in nome della comunicazione utente/computer.
Ed
è proprio nell'ultimo decennio che il lavoro per dotare questa macchina
oramai velocissima e potentissima della parola ha iniziato a dare i
suoi frutti.
Ma quali ragioni hanno spinto programmatori e ingegneri a progettare computers
e programmi che permettessero di dialogare a voce con il computer? Credo che
i motivi principali siano tre: il primo è la ricerca di un mezzo di comunicazione
che sia utilizzabile anche da chi normalmente non userebbe un computer, il secondo
è la limitatezza degli attuali sistemi e il terzo è l'attenzione verso coloro
che per motivi diversi non hanno la possibilità di usare i tradizionali mezzi
di comunicazione con il computer.
Analizziamoli
un po' più a fondo. Abbiamo detto che il primo motivo è la ricerca di
un'ulteriore facilità d'uso. Quest'aspetto è davvero importante. Oramai
gli oggetti che possiedono al loro interno un processore sono davvero
tantissimi: computers, impianti stereo, strumenti musicali, frigoriferi,
telefoni e quant'altro ancora. È però un dato di fatto che la
loro gestione risulta spesso problematica. L'utente ha difficoltà ad
utilizzare il prodotto in quanto non è capace di dialogare con esso.
Nella più ovvia logica commerciale, lo strumento più facile da usare
sarà anche quello più facile da vendere (prezzo e qualità saranno ovviamente
gli altri metri di scelta).
Parlare di evoluzione tecnologica e metterla in relazione con una bieca ottica
commerciale potrebbe sembrare inadeguato o addirittura scandaloso, ma non lo
è. Anzi, la tecnologia in larga parte deve molto alla voglia di vendere. Un
esempio: perché "inventare" i CD musicali quando esistevano
già ottime incisioni su vinile? E il vinile perché è stato utilizzato quando
dell'ottima musica si poteva già ascoltare agli inizi del secolo scorso su bellissimi
rulli di cera? La voglia (o la necessità?) di vendere ha costretto l'uomo ad
inventare e a migliorare. I risultati sono continuamente sotto i nostri occhi
e tutti ne godiamo.
Ma
veniamo alla seconda motivazione che ha spinto la tecnologia verso il
mondo dei "computers parlanti". Si è accennato alla limitatezza insita
negli attuali sistemi di interazione col computer: vediamo di approfondire.
Pensiamo ad un tipico utente: egli avrà sul suo desktop una serie di
oggetti (icone) le quali corrispondo ad applicazioni o documenti. Ma
cosa succede se ciò che cerca non è lì? Molto semplicemente dovrà cercare
ed aprire altre sezioni o menù, fino a quando non avrà trovato quanto
desidera. L'interfaccia vocale elimina tutto questo, rende il computer
un'entità bidimensionale, dove tutto è accessibile con medesima velocità
e semplicità. Inoltre la possibilità di "parlare al computer" permette
di esprimere concetti articolati con condizionali o altro. Un esempio
calzante potrebbe essere un comando di questo tipo: "Se la cartella
PROVA contiene più di 10 documenti di dimensioni superiori a 50 k, allora
sposta tali documenti nella cartella APPUNTI". Quanti passaggi occorrerebbero
per codificare questa frase all'interno dei sistemi tradizionali? Il
vantaggio, come si può capire bene, è notevole!
Ed eccoci alla terza motivazione: la tecnologia in esame permette l'utilizzo
del computer e comunque di tutti gli strumenti dotati di tale interfaccia, ad
individui che sono impossibilitati ad utilizzare gli arti superiori o ad utenti
non vedenti. I portatori di handicap rappresentano una grande fetta di questa
utenza. Uno strumento di questo tipo permetterà loro di essere più utili a loro
stessi e meno vincolati nella scelta del lavoro. Tutto questo è assolutamente
importante. Come è importante non dimenticare che questa non è l'unica categoria
che ne trarrebbe giovamento. Solo per fare un paio di esempi: i guidatori potrebbero
fare un check up del mezzo senza togliere lo sguardo dalla strada, strumenti
di utilità medica potrebbero essere usati da utenti bisognosi con facilità e
a domicilio, senza l'ausilio di personale che in questo settore è sempre carente.
Motivazioni come queste ci fanno ben comprendere come l'impegno in questo settore
si sta potenziando; e gli effetti si possono già apprezzare.
L'attuale situazione:
L'utenza
familiare e lo small office sono da tempo abituate ai prodotti di riconoscimento
vocale. IBM Via Voice è un esempio abbastanza calzante. Il programma
ha acquisito tra l'altro una discreta capacità di ricevere comandi "naturali".
Anche Dragon System, il precursore, si sta muovendo in questo
campo con buona agilità. Va anche detto che comunque questi software
di riconoscimento vocale sono destinati ad un'utenza non professionale.
Nec dal canto suo si sta invece adoperando per creare qualcosa
di maggiormente potente ed utilizzabile, in poche parole sta costruendo
un po' di futuro.
Vediamo qualche dettaglio in più.
L'attuale
sistema Nec ha la capacità di gestire un vocabolario molto vasto (100.000
parole) che viene appreso in maniera velocissima (basta pronunciare
la parola una sola volta) indipendentemente dal parlatore. Il sistema
tollera anche un elevato rumore ambientale, il che lo rende già idoneo
ad un utilizzo su mezzi di trasporto. La tecnologia messa a punto da
Nec funziona con la tecnica delle semi-sillabe. Una semi-sillaba è la
metà di una sillaba, divisa prendendo la vocale come punto di riferimento.
Visto che le parole vengono rappresentate come una combinazione di semi-sillabe,
le parole da riconoscere posso essere registrate semplicemente descrivendone
la pronuncia.
Inoltre
il sistema viene addestrato da parlatori diversi il che, come si è già
detto, permette poi il riconoscimento a prescindere da chi parla. L'utente
potrà addestrare il sistema con pochissime parole, giusto per dare la
possibilità al sistema di sviluppare un modello da correlare all'utente
stesso. Dulcis in fundo, la tecnologia sviluppata da Nec opera anche
il riconoscimento per parole chiave, il che significa che una domanda
o una frase potrà essere posta con modalità diverse e il sistema capirà
comunque il senso di ciò che si è detto (fonte: Elettronica oggi
- Riconoscimento vocale: l'obiettivo è il dialogo, di Michele
D'Amico).
Le prospettive:
Non è difficile prevedere che la potenza dei processori e i grandi sforzi delle
case produttrici di software porteranno a breve termine ad una grande diffusione
di questo strumento. L'interfaccia vocale non è che una parte della macchina
del futuro, ma di certo sarà una componente che farà la differenza, che
permetterà di inaugurare una vera "nuova generazione" tecnologica. Basti pensare
al fatto che l'assenza di tastiera già di per sé consente una riduzione
drastica delle dimensioni dello strumento da utilizzare.
Nel prossimo numero si prenderà in considerazione il cammino evolutivo dei monitors
ed il loro possibile futuro.
Se volete commentare questo articolo scrivete a
Warp
Mail