Diálogos realistas, sin subtítulos: Google presenta un conjunto de datos de capacitación de asistente virtual

investigadores de Google Universidad de Rochesterel Universidad de CaliforniaY Universidad de Colombia entré en un nuevo conjunto de datos A partir de más de 550.000 conversaciones multilingües entre humanos y asistentes virtuales en diferentes contextos, permitiendo entrenar un modelo más realista para mejorar el rendimiento del modelo lingüístico. Google también anunciar El nuevo conjunto de datos en una entrada de blog.

Con la adopción generalizada de asistentes virtuales como Google Assistant, Alexa y Siri, los investigadores se han interesado en estudiar el diálogo orientado a tareas; Sin embargo, la falta de conjuntos de datos que capturen una amplia gama de puntos débiles de los usuarios ha limitado el impacto de la investigación académica en esta área.

Aunque se han generado algunos conjuntos de datos personalizados, no contienen los fenómenos de voz típicos que se necesitan para el entrenamiento de modelos, lo que genera modelos de bajo rendimiento e insatisfacción con las interacciones de los asistentes.

El nuevo conjunto de datos, escrito por PRESTO y publicado el 17 de marzo de 2023, cubre seis idiomas diferentes (alemán, inglés, español, francés, hindi y japonés) y contiene una variedad de desafíos que ocurren en la comprensión del lenguaje natural del mundo real. (NLU), incluidos aspectos de Deficiencias (p. ej., frases repetitivas y palabras de relleno), intercambios de códigos o mezcla de códigos (p. ej., alternar o mezclar palabras de dos idiomas) y revisiones de usuarios (p. ej., revisar pedidos debido a errores o cambiar o cancelar pedidos).

Conversaciones solo de hablantes nativos

Lo que diferencia a PRESTO de otros conjuntos de datos es que solo incluye conversaciones dadas por hablantes nativos del idioma sin traducción. Como explican los autores del artículo que presentó el conjunto de datos, los grandes conjuntos de datos multilingües anteriores contienen conversaciones que no están en inglés obtenidas al traducir conversaciones en inglés a otros idiomas, «lo que lleva a expresiones sintácticas y antinaturales que es poco probable que sean habladas por hablantes nativos». idioma distinto del inglés”.

READ Frostpunk 2 traerá nieve al soleado julio cuando se lance para PC

Portada del Informe del mercado de la industria lingüística 2022

Informe de mercado de la industria del lenguaje Slator 2022

Un informe maestro de 100 páginas sobre el tamaño del mercado, los segmentos de compradores, el panorama competitivo, las perspectivas de ventas y marketing, la tecnología lingüística y más.

El usuario promedio interactúa con asistentes virtuales en un mundo virtual (es decir, contexto) que puede contener objetos estructurados, como una lista de contactos en el teléfono del usuario, una lista de compras o una lista de tareas pendientes. Según los autores, PRESTO «es el único conjunto de datos de análisis de conversaciones generado por humanos a gran escala que proporciona un contexto estructurado, como contactos de usuarios y listas para cada ejemplo».

Explicaron que dependiendo de la consulta, este contexto puede o no ser necesario para interpretar correctamente las declaraciones del usuario. Los paradigmas de análisis semántico a menudo tienen dificultades para determinar qué parte del contexto (si es que hay alguna) es apropiada para una expresión determinada. Por lo tanto, los autores enfatizaron que «las soluciones de modelado deben tener la capacidad de modelar (y descartar) esta información estructurada».

Dichos realistas y complejos.

El lanzamiento de este conjunto de datos destaca la necesidad de palabras realistas y complejas para mejorar el rendimiento de los asistentes virtuales y brinda a los investigadores una herramienta para explorar nuevos modelos y algoritmos que pueden enfrentar mejor los desafíos asociados con los diálogos orientados a tareas. En general, la creación de PRESTO es un importante paso adelante en el avance del procesamiento del lenguaje natural (NLP) y el desarrollo de asistentes virtuales, según los autores.

«Al publicar este conjunto de datos, abrimos más preguntas de las que respondemos, y esperamos que la comunidad de investigación progrese en declaraciones que estén más en línea con lo que los usuarios encuentran todos los días», dijeron.

READ Revelando el futuro de los automóviles: el motor del metaverso

Autores: Rahul Goel, Waleed Amar, Aditya Gupta, Siddharth Vashishtha, Motoki Sanu, Faiz Surani, Max Chang, Hyun Jeong Choi, David Green, Kyle Hee, Ratima Netisaroj, Anna Trukhina, Shashi Paul, Pararth Shah, Roshen Shah, Zhou Yu

Vinicio Terrazas

«Food ninja. Freelance pop culture fanatic. Wannabe zombie maven. Twitter aficionado.»

Diálogos realistas, sin subtítulos: Google presenta un conjunto de datos de capacitación de asistente virtual

Conversaciones solo de hablantes nativos

Informe de mercado de la industria del lenguaje Slator 2022

Dichos realistas y complejos.

China, Rusia y Corea del Norte aceleran el uso de IA en ciberataques, alerta Google

El Galaxy Watch Ultra 2025 de Samsung baja a su precio más bajo hasta la fecha

Saros saca partido a una de las funciones más infrautilizadas de PS5

Corridas Generales de Bilbao 2026: ya tienen fechas oficiales para la próxima Aste Nagusia

La Vía Láctea sobrevivió a una violenta batalla galáctica contra todo pronóstico científico

Amazon pone a la venta una casa prefabricada expandible de dos plantas con hasta seis dormitorios por menos de 12.000 euros

La NASA prueba helicópteros supersónicos para futuras misiones en Marte

Entradas recientes

Conversaciones solo de hablantes nativos

Informe de mercado de la industria del lenguaje Slator 2022

Dichos realistas y complejos.

Deja una respuesta Cancelar la respuesta

More Stories

China, Rusia y Corea del Norte aceleran el uso de IA en ciberataques, alerta Google

El Galaxy Watch Ultra 2025 de Samsung baja a su precio más bajo hasta la fecha

Saros saca partido a una de las funciones más infrautilizadas de PS5

You may have missed

Corridas Generales de Bilbao 2026: ya tienen fechas oficiales para la próxima Aste Nagusia

La Vía Láctea sobrevivió a una violenta batalla galáctica contra todo pronóstico científico

Amazon pone a la venta una casa prefabricada expandible de dos plantas con hasta seis dormitorios por menos de 12.000 euros

La NASA prueba helicópteros supersónicos para futuras misiones en Marte