top of page
  • Foto del escritorStreetflow

¿Qué es la IA conversacional?

Actualizado: 8 jun 2022

Según los desarrolladores de NVIDIA, La verdadera Inteligencia Artificial (IA) conversacional es un asistente de voz que puede entablar un diálogo humano, capturar el contexto y proporcionar respuestas inteligentes. Tales modelos de IA deben ser masivos y altamente complejos.




Pero cuanto más grande es un modelo, mayor es el retraso entre la pregunta de un usuario y la respuesta de la IA. Las brechas de más de dos décimas de segundo pueden sonar poco naturales.

Con las GPU NVIDIA y las bibliotecas CUDA-X AI , los modelos de lenguaje masivos y de vanguardia se pueden entrenar y optimizar rápidamente para ejecutar inferencias en solo un par de milisegundos, milésimas de segundo, un paso importante para poner fin a la compensación entre un modelo de IA que es rápido versus uno que es grande y complejo.

Estos avances ayudan a los desarrolladores a construir e implementar las redes neuronales más avanzadas hasta el momento, y nos acercan al objetivo de lograr una IA verdaderamente conversacional.

Los modelos de comprensión del lenguaje optimizados para GPU se pueden integrar en aplicaciones de inteligencia artificial para industrias tales como la atención médica, los servicios minoristas y financieros, lo que potencia a los asistentes de voz digital avanzados en altavoces inteligentes y líneas de servicio al cliente. Estas herramientas de IA conversacional de alta calidad pueden permitir a las empresas de todos los sectores proporcionar un estándar de servicio personalizado previamente inalcanzable cuando se relacionan con los clientes.

¿Qué tan rápido tiene que ser la IA conversacional?

La brecha típica entre las respuestas en una conversación natural es de aproximadamente 200 milisegundos . Para que una IA reproduzca una interacción similar a la humana, podría tener que ejecutar una docena o más de redes neuronales en secuencia como parte de una tarea de varias capas, todo dentro de esos 200 milisegundos o menos.

La respuesta a una pregunta implica varios pasos: convertir el discurso de un usuario en texto, comprender el significado del texto, buscar la mejor respuesta para proporcionar en contexto y proporcionar esa respuesta con una herramienta de texto a voz. Cada uno de estos pasos requiere ejecutar múltiples modelos de IA, por lo que el tiempo disponible para que cada red individual se ejecute es de alrededor de 10 milisegundos o menos.

Si se tarda más en ejecutar cada modelo, la respuesta es demasiado lenta y la conversación se vuelve discordante y poco natural.

Al trabajar con un presupuesto de latencia tan ajustado, los desarrolladores de las herramientas actuales de comprensión del lenguaje tienen que hacer concesiones. Un modelo complejo de alta calidad podría usarse como chatbot, donde la latencia no es tan esencial como en una interfaz de voz. O bien, los desarrolladores pueden confiar en un modelo de procesamiento de lenguaje menos voluminoso que ofrece resultados más rápidamente, pero carece de respuestas matizadas.

4 visualizaciones0 comentarios
bottom of page