¿Qué es la IA conversacional?
- por Editor Streetflow - 6 de mayo de 2020

Según los desarrolladores de NVIDIA, La verdadera Inteligencia Artificial (IA) conversacional es un asistente de voz que puede entablar un diálogo humano, capturar el contexto y proporcionar respuestas inteligentes. Tales modelos de IA deben ser masivos y altamente complejos.
Pero cuanto más grande es un modelo, mayor es el retraso entre la pregunta de un usuario y la respuesta de la IA. Las brechas de más de dos décimas de segundo pueden sonar poco naturales.
Con las GPU NVIDIA y las bibliotecas CUDA-X AI , los modelos de lenguaje masivos y de vanguardia se pueden entrenar y optimizar rápidamente para ejecutar inferencias en solo un par de milisegundos, milésimas de segundo, un paso importante para poner fin a la compensación entre un modelo de IA que es rápido versus uno que es grande y complejo.
Estos avances ayudan a los desarrolladores a construir e implementar las redes neuronales más avanzadas hasta el momento, y nos acercan al objetivo de lograr una IA verdaderamente conversacional.
Los modelos de comprensión del lenguaje optimizados para GPU se pueden integrar en aplicaciones de inteligencia artificial para industrias tales como la atención médica, los servicios minoristas y financieros, lo que potencia a los asistentes de voz digital avanzados en altavoces inteligentes y líneas de servicio al cliente. Estas herramientas de IA conversacional de alta calidad pueden permitir a las empresas de todos los sectores proporcionar un estándar de servicio personalizado previamente inalcanzable cuando se relacionan con los clientes.
¿Qué tan rápido tiene que ser la IA conversacional?
La brecha típica entre las respuestas en una conversación natural es de aproximadamente 200 milisegundos . Para que una IA reproduzca una interacción similar a la humana, podría tener que ejecutar una docena o más de redes neuronales en secuencia como parte de una tarea de varias capas, todo dentro de esos 200 milisegundos o menos.
La respuesta a una pregunta implica varios pasos: convertir el discurso de un usuario en texto, comprender el significado del texto, buscar la mejor respuesta para proporcionar en contexto y proporcionar esa respuesta con una herramienta de texto a voz. Cada uno de estos pasos requiere ejecutar múltiples modelos de IA, por lo que el tiempo disponible para que cada red individual se ejecute es de alrededor de 10 milisegundos o menos.
Si se tarda más en ejecutar cada modelo, la respuesta es demasiado lenta y la conversación se vuelve discordante y poco natural.
Al trabajar con un presupuesto de latencia tan ajustado, los desarrolladores de las herramientas actuales de comprensión del lenguaje tienen que hacer concesiones. Un modelo complejo de alta calidad podría usarse como chatbot, donde la latencia no es tan esencial como en una interfaz de voz. O bien, los desarrolladores pueden confiar en un modelo de procesamiento de lenguaje menos voluminoso que ofrece resultados más rápidamente, pero carece de respuestas matizadas.
¿Cómo sonará la futura IA conversacional?
Las interfaces de voz básicas, como los algoritmos del árbol telefónico (con indicaciones como "Para reservar un nuevo vuelo, decir 'reservas'") son transaccionales y requieren un conjunto de pasos y respuestas que mueven a los usuarios a través de una cola preprogramada. A veces, solo el agente humano al final del árbol telefónico puede comprender una pregunta matizada y resolver el problema de la persona que llama de manera inteligente.
Los asistentes de voz en el mercado actual hacen mucho más, pero se basan en modelos de lenguaje que no son tan complejos como podrían ser, con millones en lugar de miles de millones de parámetros. Estas herramientas de IA pueden detenerse durante las conversaciones al proporcionar una respuesta como "déjame buscar eso por ti" antes de responder una pregunta planteada. O mostrarán una lista de resultados de una búsqueda web en lugar de responder a una consulta con lenguaje conversacional.
Una IA verdaderamente conversacional iría un paso más allá. El modelo ideal es uno lo suficientemente complejo como para comprender con precisión las consultas de una persona sobre los resultados de su extracto bancario o informe médico, y lo suficientemente rápido como para responder casi instantáneamente en un lenguaje natural perfecto.
Las aplicaciones para esta tecnología podrían incluir un asistente de voz en el consultorio de un médico que ayuda a un paciente a programar una cita, o una IA de voz para minoristas que explica a una persona frustrada por qué se retrasa el envío de un paquete y ofrece un crédito en la tienda .
La demanda de herramientas de IA de conversación avanzadas está en aumento: se estima que el 50 por ciento de las búsquedas se realizarán con voz para 2020 y, para 2023, habrá 8 mil millones de asistentes de voz digitales en uso.