Belt Ibérica S.A. Analistas de Prevención

- Menú -

HOME

Noticias...
Se busca...
Eventos...
Legislación...
Bibliografía...
Artículos...

> MAPA del WEB <

Su opinión...

Envíenos la noticia o el comentario que desee.

 

 

Noticias Profesionales

  

Noticias

Miércoles, 7 de septiembre de 2005


Seguridad Corporativa y Protección del Patrimonio

Tecnologías de reconocimiento de voz: la identidad a distancia

Las nuevas tecnologías del habla permiten una interacción casi natural con sistemas que reconocen la identidad e intención de las voces humanas.

 

En esta entrevista Guillermo Brinkmann, responsable de estrategias en comunicación unificada y reconocimiento de voz de Avaya, cuenta los fascinantes pormenores de su funcionamiento.

La voz de una persona es única e inconfundible, incluso por teléfono. La expresión cotidiana “no te reconocí la voz”, surge de lo usual que resulta identificar el interlocutor a partir de su sonoridad única. Los grandes cantantes crean su obra alrededor del “inconfundible estilo” de sus tonos, y el público reconoce a sus ídolos a partir de la sonoridad de sus palabras. La voz puede, en definitiva, ser una imagen indeleble grabada a fuego en la memoria de los demás. Este principio de identidad está en la base de lo que Guillermo Brinkmann denomina las tecnologías del habla, que permiten naturalizar la interacción con las máquinas, al reconocer el estilo y la intención de una voz humana.

¿Es cierto que la voz tiene la particularidad de ser como una huella digital?

Exactamente, es tan única o más que una huella digital, porque es un patrón, cuando se representa el sonido en el espectro aparece una figura con características únicas. Hay aplicaciones para acceso de usuarios que por lo general se asocian a recursos para seguridad, pero hay un montón de otras, relacionadas con servicios personalizados ¿Cómo se identifica al cliente que llama a un empresa? Por el número de teléfono, pero desde el mismo número pueden llamar distintas personas, o sea que no se trata de una persona sino de aquellas que tiene acceso a ese número. Lo mismo pasa con la clave de acceso de una página web, no se sabe quién entró sino aquellos que tienen conocimiento de la clave. Supongamos que la gente de Direct TV quiera sacar un perfil mío, la clave para alquilar películas es una sola, pero alquilo yo, mi mujer, mi suegro, algún amigo de la familia, entonces el perfil va a ser medio raro, infantiles, de acción, dramas. Ahí no se produce la identificación de la personal real sino de un código que se asocia a un nombre ingresado en la base. A través del reconocimiento de la voz sedefine un perfil de forma mucho más precisa.

¿Y estos desarrollos cuánto tiempo tienen?

En investigación unos 50 años, en aplicación real y efectiva no más de tres o cuatro, pero nosotros creemos que va a tener un crecimiento exponencial en los próximos años.

¿De qué factores depende?

Del dispositivo, hay lectores de iris, scaners de retina, lectores de huellas digitales, pero cuántos hay en una empresa, o en el estado, o en los hogares familiares, ninguno. Ahora, cuánto teléfonos hay, miles, millones. Lo poderoso es su capacidad remota y móvil. El dispositivo para la identificación biométrica por voz es el teléfono, que es universal. Además, la voz es infalsificable. Podrán decir que se puede grabar, y es cierto, pero si se hacen preguntas ramdom nadie puede tener grabadas con anterioridad las miles que se pueden hacer, por ejemplo, un acceso que pide “diga el titular del diario Clarín de hoy”. Nadie puede preverlo.

¿Qué utilidades se está dando a esta tecnología?

Por ejemplo para asistencia en identificación positiva, en las tarjetas de crédito, todas esas preguntas que te hacen para identificar tu identidad, dónde recibe su resumen de cuentas, cuándo cumple años su mujer, dónde vive, preguntas que son bastante intrusivas, muy personales; bueno, con esta tecnología es mucho menos intrusivo y más rápido, más efectivo, tiene una cantidad de beneficios importante. Mucha gente consulta sus movimientos bancarios con frecuencia pero no quiere que otras personas se enteren, o ni siquiera quieren tener contacto con otra persona por una cuestión meramente práctica ¿Por qué no dar ese servicio con una máquina que prácticamente habla?

¿Cómo funciona la verificación biométrica?

Se inicia con la elaboración del proyecto y con la concientización de la empresa que va a instalar la tecnología. Después, para el usuario lo primero es enrolar su voz para que el sistema tenga grabado el patrón biométrico vocal, así como si quiero tener tus huellas digitales, en algún momento la persona tiene que tocar el pianito. Una vez registrado, el patrón se guarda en una base de datos, y acá viene una aclaración importante, ese patrón no es audio sino datos, números, que resultan de una representación espectral del audio primitivo, características físicas, prosodia, entonación, ritmo. A nivel de espacio esto no ocupa casi nada. Cuando el usuario ingresa al servicio, por ejemplo, con las tarjetas de crédito. El sistema pide el número de tarjeta y el D.N.I, y luego se dispone a comprobar que esos datos corresponden a la persona, y le pregunta, “buenos días señor López, por favor, diga qué día es hoy”.

Prácticamente se simula un diálogo humano

Estas tecnologías cambian el paradigma de la relación hombre máquina, es una interacción totalmente distinta a la que estás acostumbrado en un IVR convencional , que es muy rígido, niveles y opciones, no hay otra. Además, es posible complementar la verificación con el reconocimiento de voz, y hacer diálogos mucho más humanos, mucho más naturales. Visto desde acá el IVR es tremendamente limitativo, no tiene más de 9 opciones, sin tener en cuenta que está comprobado que una persona no registra más de 3 o 4 opciones. Lo dicen los estudios de usability. Cualquiera al que lo hagan llamar por primera vez a una empresa donde hay muchas opciones las va a escuchar todas porque, por más que aquella que necesita esté en el segundo lugar, le va a quedar la duda de si no queda una más precisa más adelante, y una vez que escuchó todo no va a recordar con precisión cuál era la correcta, y va a volver a empezar.

¿Sirve para cualquier circunstancia?

Te comunicás con una máquina en lo que se llama diálogo natural, lo que en inglés es NLSR, Nautal Language Speech Recognition; es natural, lo que no implica que sea libre, está todo sujeto a ciertas gramáticas, y éstas a su vez están atadas a un contexto. Al hablar con una aplicación de reserva de líneas aéreas el usuario va a poder decir quiero viajar mañana a Santiago en bussines class, quiero hacer una reserva, cosas así, pero cualquier frase tipo “qué tal soy Perez quiero que me reconozcan las millas”, no, eso no. Eso es otra tecnología en la que tenés capacidad de procesar lenguajes totalmente abiertos, pero sólo para rutear, la máquina te pregunta ¿qué necesita? y sobre las probabilidades de respuestas el sistema interpreta, se llama Estatistical Language Processing, también es reconocimiento de voz pero distinto a la NLSR, se aplica a otra estrategia, para un principal ruteo. A partir del número único, el concepto del One Number, en lugar de dar un 0800 para cada cosa, con esta tecnología se puede dar uno solo que rutea al sistema a distintas áreas.

¿En qué lugares ya se incorporó esta tecnología?

En Estados Unidos y Europa se usa muchísimo el reconocimiento de voz, nosotros desde acá manejamos Cono Sur, tenemos aplicaciones en Brasil y en Bolivia instalamos una aplicación de reconocimiento para un Contact Center de códigos de áreas internacional para una Telco, en la que se ve las limitaciones que tiene el IVR tradicional que pone 1, 2, 3, 4 ....porque con la interfaz por tono hay cosas imposibles de automatizar y este es un claro ejemplo de eso. En los C.C. de operadores manuales cada vez que una persona quiere llamar a una ciudad extranjera tiene que hacer un contacto previo para averiguar el código ¿Cómo lo automatizas? Primero hay muchos países y dentro de cada país la cantidad de ciudades es enorme, es imposible. Nosotros automatizamos este C.C. donde la máquina le dice: Buenos días ¿necesita un código nacional o internacional? Diga a qué país quiere llamar, diga a qué ciudad, etc. Esto automatiza el 80% de las transacciones. A mí por ejemplo, me gusta ver películas y el Video Club me queda a 8 cuadras, a veces no sé si ir en auto o caminando. Cuando llego resulta que la película que quería no está y termino viendo lo que hay ¿por qué no poner este sistema? Llamás y te dice, buenos días ¿qué película quiere ver? El señor de los anillos uno, me quedan dos en stock ¿quiere que le reserve una?

¿Con voz sobre IP también funciona bien?

Si, funciona muy bien, tanto la verificación como el reconocimiento. Yo te haría una acotación, te diría Telefonía IP, con calidad de servicio, ancho de banda serio y medido, no vas a tener problemas. En esto es cuestión de tener imaginación, como con todas las tecnologías novedosas, cuando se entiende que funciona aparecen las miles de cosas que se pueden automatizar y mejorar.

Fuente: Noticias.com
23.08.05

Noticias relacionadas:

* Suplemento temático: Biometría

© BELT.ES  Copyright. Belt Ibérica, S.A. Madrid - 2004. belt@belt.es