Todas las publicaciones dicen que 2019 es el año de los asistentes de voz. Titulares grandilocuentes que hablan de la «revolución», «del regalo de estas navidades», de la alta penetración en hogares, sobre cual escoger, y de paso colar un link a alguna oferta en alguna tienda online más o menos conocida. Pero más allá del gadget, ¿Qué podemos hacer con ellos? ¿Me entenderán si tengo acento de Murcia profunda? ¿Y si soy tartamudo? No es broma. Son cuestiones totalmente verídicas. Reciente he tenido la oportunidad de trabajar como freelance en dos proyectos de asistentes de voz, y en uno y otro me he encontrado con estos y otro problemas.

Los dos tipos de asistentes mediante voz

Actualmente los asistentes de voz permiten la interacción de dos formas: Con apoyo visual (con pantalla) y sin apoyo visual.

Con pantalla

Caso asistentes de voz en móviles, ordenadores, teles. El uso principal es el control mediante la voz, con una interface gráfica que nos permite recibir feedback de manera extendida. La interacción se realiza entonces de dos maneras: mediante voz y mediante interface gráfica tradicional (pantalla, teclado). Esto nos da un patrón de uso más amplio. Podemos preguntar por un producto y recibir varias opciones por pantalla, seleccionando una mediante voz o pulsando. En caso de confusión o necesidad de desambiguación, la experiencia es más amable. Este es un “pain point” con solución: basta con escribir o pulsar para que la acción se complete y evitar una experiencia de usuario frustrada.

Sin pantalla

Hablamos principalmente de altavoces inteligentes. Lo que se conoce como VUI. La interacción únicamente se produce mediante la voz. Hablamos y escuchamos. A la hora de usar comandos sencillos («pon la radio», «enciende la luz”) cumple perfectamente. Es lo más parecido a una interacción con una persona. Tendemos al lenguaje natural, y esperamos ser contestados de la misma forma. Solo podemos hablar y escuchar. Es lo más parecido a estar con una operadora por teléfono, con lo que esperamos la asistencia.

Los pain points comienza a la hora de realizar búsquedas y procesos complejos. La necesidad de una respuesta rápida limitan el número de opciones que se le pueden dar al usuario, así que normalmente será la primera en los resultados de búsqueda, sea o no pertinente.

La tecnología detrás de los asistentes.

Existen dos ligas:
Los Grandes. Google (Google Assistant), Amazon (Alexa), Apple (Siri). Microsoft (Cortana) los sigue de lejos. Estos grandes llevan más de 10 años desarrollando esta tecnología e invirtiendo gran cantidad de recursos (Siri se lanzó en 2010, cuando ya llevaba varios años de desarrollo). Y aún hay limitaciones en su uso y la penetración en el día es relativa. Su uso se ha incrementado en los últimos años, pero su uso se suele circunscribir a tareas simples y rápidas: consultas de predicción meteorológica, estado del tráfico, calendarios, alarmas.

Los pequeños. Todos los demás. Aunque existen muchos partners tecnológicos, su know-how y capacidad de desarrollo no puede equipararse a la de los grandes. Sin embargo, son la principal opción para la mayoría de las grandes empresas. La clave está en los datos.

Los grandes players ofrecen su tecnología “gratis”, pero se quedan con los datos que recopilan. Esto es especialmente sensible en sectores como el bancario o aseguradoras, donde algunas de los grandes ya están sondeando los mercados para introducirse. La estrategia es clara: convertirte en un estudio de mercado.

Los pequeños players (por ejemplo IBM con Watson) ofrecen confidencialidad y “protección” de los datos sensibles frente a los competidores. ¿Puedo realizar operaciones bancarias con con mi Echo? A día de hoy, no. Si bien algunos bancos están presentes en Alexa y Google Assistant, solo permiten consultas de valores de acciones, divisas, y ofertan productos.

¿Los asistentes son inteligente?

No. Realizan tareas simples, pero aún están lejos de lo que los usuarios consideran «inteligentes». La realización de un proceso mediante voz es lo más parecido a interactuar con una persona. Es la metáfora del interventor del banco que te atiende. Puede sugerirte operaciones recientes, habituales, pero no comprende o no es capaz de realizar tareas complejas, o dar soluciones que no estén dentro de sus ajustes preestablecidos. No pueden buscar una solución alternativa a tu problema de manera creativa, como puede hacer una persona. Y no entienden del todo el contexto, con lo que si estás realizando un proceso y te desvías del dialogo marcado, no serán capaces de desambiguar la cuestión. Tampoco comprenden la ironía o el doble sentido.

Problemas que se dan a día de hoy

La tecnología no está tan evolucionada para los pequeños players. Por ejemplo Amazon tiene granjas de personas escuchando grabaciones para alimentar la base de uterancias.
La AI no entiende frases complejas. Si reconoce frases cortas, directas, de uterancias previamente marcadas, pero no entiende cuando se incluyen nombres personalizados, alias, nombres propios, lenguaje coloquial, o se da un intent con varios parámetros.
Desambiguar. Por pantalla es fácil. Sólo con voz puede dar lugar a muchas casuística. Al realizar una búsqueada me responderá con el primer resultado que encuentre (me valga o no).

Si el usuario desconoce el nombre técnico de su requerimiento, la máquina no puede entender la descripción del usuario. En definitiva, no entiende el lenguaje natural, y puede tener dificultades para adaptarse al contexto. Y como tal, no es capaz de responder con lenguaje natural.

Que funciona bien a día de hoy

Instrucciones básicas. One-step tasks. Simples y concisas. “Encender la luz”, “Apagar la música”, “Pon a Pink Floyd”.
Multistep tasks. Tareas guiadas por pasos. Dar opciones, elegir una, y así sucesivamente, sin dar margen a la improvisación. Es controlable por voz, pero no deja mucho margen a la improvisación y al lenguaje natural.
Hands free para control de dispositivos. Mención especial el nuevo OS Catalina de Apple, que promete un avance tremendo en accesibilidad y control del dispositivo (Ordenador o móvil) sólo con la voz.

En resumen

La usabilidad es limitada. El uso del lenguaje natural para interactuar aún está poco maduro. Y la mayoría solo responde a uterancias bien bien definidas y predefinidas. Si le hablas con acento, con algo en la boca, con localismos, no te entenderá. De todos modos, ya sabemos que las grandes compañías tienen granjas de gente escuchando cómo le hablas al aparato para aprender.
La experiencia UX es mala para tareas complejas. Procesos largos o que incluyan una elección entre múltiples opciones puede convertirse en una pesadilla.
La experiencia UX es buena para tareas hand-free. Por ejemplo, dar instrucciones al navegador del coche cuando estás conduciendo.

Mi asistente no me entiende. Experiencia de Usuario en asistentes de voz