Tecnologías de reconocimiento de voz: la identidad a distancia
Las nuevas
tecnologías del habla permiten una interacción casi natural con sistemas
que reconocen la identidad e intención de las voces humanas.
En esta entrevista Guillermo Brinkmann,
responsable de estrategias en comunicación unificada y reconocimiento de
voz de Avaya, cuenta los fascinantes pormenores de su funcionamiento.
La voz de una persona es única e
inconfundible, incluso por teléfono. La expresión cotidiana “no te
reconocí la voz”, surge de lo usual que resulta identificar el
interlocutor a partir de su sonoridad única. Los grandes
cantantes crean su obra alrededor del “inconfundible estilo” de sus
tonos, y el público reconoce a sus ídolos a partir de la sonoridad de
sus palabras. La voz puede, en definitiva, ser una imagen indeleble
grabada a fuego en la memoria de los demás. Este principio de identidad
está en la base de lo que Guillermo Brinkmann denomina las
tecnologías del habla, que permiten naturalizar la interacción con
las máquinas, al reconocer el estilo y la intención de una voz
humana.
¿Es cierto que la voz tiene la
particularidad de ser como una huella digital?
Exactamente, es tan única o más que
una huella digital, porque es un patrón, cuando se representa el sonido
en el espectro aparece una figura con características únicas. Hay
aplicaciones para acceso de usuarios que por lo general se asocian a
recursos para seguridad, pero hay un montón de otras, relacionadas con
servicios personalizados ¿Cómo se identifica al cliente que llama a un
empresa? Por el número de teléfono, pero desde el mismo número pueden
llamar distintas personas, o sea que no se trata de una persona sino de
aquellas que tiene acceso a ese número. Lo mismo pasa con la clave de
acceso de una página web, no se sabe quién entró sino aquellos que
tienen conocimiento de la clave. Supongamos que la gente de Direct TV
quiera sacar un perfil mío, la clave para alquilar películas es una
sola, pero alquilo yo, mi mujer, mi suegro, algún amigo de la familia,
entonces el perfil va a ser medio raro, infantiles, de acción, dramas.
Ahí no se produce la identificación de la personal real sino de un
código que se asocia a un nombre ingresado en la base. A través del
reconocimiento de la voz sedefine un perfil de forma mucho más precisa.
¿Y estos desarrollos cuánto tiempo
tienen?
En investigación unos 50 años, en
aplicación real y efectiva no más de tres o cuatro, pero nosotros
creemos que va a tener un crecimiento exponencial en los próximos años.
¿De qué factores depende?
Del dispositivo, hay lectores de iris,
scaners de retina, lectores de huellas digitales, pero cuántos hay en
una empresa, o en el estado, o en los hogares familiares, ninguno.
Ahora, cuánto teléfonos hay, miles, millones. Lo poderoso es su
capacidad remota y móvil. El dispositivo para la identificación
biométrica por voz es el teléfono, que es universal. Además, la voz es
infalsificable. Podrán decir que se puede grabar, y es cierto, pero si
se hacen preguntas ramdom nadie puede tener grabadas con anterioridad
las miles que se pueden hacer, por ejemplo, un acceso que pide “diga el
titular del diario Clarín de hoy”. Nadie puede preverlo.
¿Qué utilidades se está dando a
esta tecnología?
Por ejemplo para asistencia en
identificación positiva, en las tarjetas de crédito, todas esas
preguntas que te hacen para identificar tu identidad, dónde recibe su
resumen de cuentas, cuándo cumple años su mujer, dónde vive, preguntas
que son bastante intrusivas, muy personales; bueno, con esta tecnología
es mucho menos intrusivo y más rápido, más efectivo, tiene una cantidad
de beneficios importante. Mucha gente consulta sus movimientos bancarios
con frecuencia pero no quiere que otras personas se enteren, o ni
siquiera quieren tener contacto con otra persona por una cuestión
meramente práctica ¿Por qué no dar ese servicio con una máquina que
prácticamente habla?
¿Cómo funciona la verificación
biométrica?
Se inicia con la elaboración del
proyecto y con la concientización de la empresa que va a instalar la
tecnología. Después, para el usuario lo primero es enrolar su voz para
que el sistema tenga grabado el patrón biométrico vocal, así como si
quiero tener tus huellas digitales, en algún momento la persona tiene
que tocar el pianito. Una vez registrado, el patrón se guarda en una
base de datos, y acá viene una aclaración importante, ese patrón no es
audio sino datos, números, que resultan de una representación espectral
del audio primitivo, características físicas, prosodia, entonación,
ritmo. A nivel de espacio esto no ocupa casi nada. Cuando el usuario
ingresa al servicio, por ejemplo, con las tarjetas de crédito. El
sistema pide el número de tarjeta y el D.N.I, y luego se dispone a
comprobar que esos datos corresponden a la persona, y le pregunta,
“buenos días señor López, por favor, diga qué día es hoy”.
Prácticamente se simula un diálogo
humano
Estas tecnologías cambian el paradigma
de la relación hombre máquina, es una interacción totalmente distinta a
la que estás acostumbrado en un IVR convencional , que es muy rígido,
niveles y opciones, no hay otra. Además, es posible complementar la
verificación con el reconocimiento de voz, y hacer diálogos mucho más
humanos, mucho más naturales. Visto desde acá el IVR es tremendamente
limitativo, no tiene más de 9 opciones, sin tener en cuenta que está
comprobado que una persona no registra más de 3 o 4 opciones. Lo dicen
los estudios de usability. Cualquiera al que lo hagan llamar por primera
vez a una empresa donde hay muchas opciones las va a escuchar todas
porque, por más que aquella que necesita esté en el segundo lugar, le va
a quedar la duda de si no queda una más precisa más adelante, y una vez
que escuchó todo no va a recordar con precisión cuál era la correcta, y
va a volver a empezar.
¿Sirve para cualquier
circunstancia?
Te comunicás con una máquina en lo que
se llama diálogo natural, lo que en inglés es NLSR, Nautal Language
Speech Recognition; es natural, lo que no implica que sea libre, está
todo sujeto a ciertas gramáticas, y éstas a su vez están atadas a un
contexto. Al hablar con una aplicación de reserva de líneas aéreas el
usuario va a poder decir quiero viajar mañana a Santiago en bussines
class, quiero hacer una reserva, cosas así, pero cualquier frase tipo
“qué tal soy Perez quiero que me reconozcan las millas”, no, eso no. Eso
es otra tecnología en la que tenés capacidad de procesar lenguajes
totalmente abiertos, pero sólo para rutear, la máquina te pregunta ¿qué
necesita? y sobre las probabilidades de respuestas el sistema
interpreta, se llama Estatistical Language Processing, también es
reconocimiento de voz pero distinto a la NLSR, se aplica a otra
estrategia, para un principal ruteo. A partir del número único, el
concepto del One Number, en lugar de dar un 0800 para cada cosa, con
esta tecnología se puede dar uno solo que rutea al sistema a distintas
áreas.
¿En qué lugares ya se incorporó
esta tecnología?
En Estados Unidos y Europa se usa
muchísimo el reconocimiento de voz, nosotros desde acá manejamos Cono
Sur, tenemos aplicaciones en Brasil y en Bolivia instalamos una
aplicación de reconocimiento para un Contact Center de códigos de áreas
internacional para una Telco, en la que se ve las limitaciones que tiene
el IVR tradicional que pone 1, 2, 3, 4 ....porque con la interfaz por
tono hay cosas imposibles de automatizar y este es un claro ejemplo de
eso. En los C.C. de operadores manuales cada vez que una persona quiere
llamar a una ciudad extranjera tiene que hacer un contacto previo para
averiguar el código ¿Cómo lo automatizas? Primero hay muchos países y
dentro de cada país la cantidad de ciudades es enorme, es imposible.
Nosotros automatizamos este C.C. donde la máquina le dice: Buenos días
¿necesita un código nacional o internacional? Diga a qué país quiere
llamar, diga a qué ciudad, etc. Esto automatiza el 80% de las
transacciones. A mí por ejemplo, me gusta ver películas y el Video Club
me queda a 8 cuadras, a veces no sé si ir en auto o caminando. Cuando
llego resulta que la película que quería no está y termino viendo lo que
hay ¿por qué no poner este sistema? Llamás y te dice, buenos días ¿qué
película quiere ver? El señor de los anillos uno, me quedan dos en stock
¿quiere que le reserve una?
¿Con voz sobre IP también funciona
bien?
Si, funciona muy bien, tanto la
verificación como el reconocimiento. Yo te haría una acotación, te diría
Telefonía IP, con calidad de servicio, ancho de banda serio y medido, no
vas a tener problemas. En esto es cuestión de tener imaginación, como
con todas las tecnologías novedosas, cuando se entiende que funciona
aparecen las miles de cosas que se pueden automatizar y mejorar.
Fuente: Noticias.com
23.08.05
Noticias relacionadas:
*
Suplemento
temático: Biometría