Revista El Color del Dinero

Bienvenidos a Spain News Today.

Los investigadores de Microsoft presentan una reformulación: un algoritmo de muestreo iterativo que busca recetas de cadena de pensamiento (CoT) para una tarea determinada sin intervención humana.

Los investigadores de Microsoft presentan una reformulación: un algoritmo de muestreo iterativo que busca recetas de cadena de pensamiento (CoT) para una tarea determinada sin intervención humana.

https://arxiv.org/abs/2305.09993

Recientemente, Language Large Models (LLM) ha desarrollado y transformado el procesamiento del lenguaje natural con sus técnicas motivacionales de tiro bajo. Estos modelos han ampliado la usabilidad en casi todas las áreas, desde la traducción automática, la comprensión del lenguaje natural, la finalización de texto, el análisis de sentimientos, el reconocimiento de voz, etc. Con un enfoque motivacional de tiro bajo, el LLM recibe algunos ejemplos de una tarea determinada, junto con algunas instrucciones en lenguaje natural y el uso de estas; Son capaces de adaptarse y aprender a realizar la tarea correctamente. Las tareas que requieren pasos iterativos y la propagación de restricciones vienen con varias limitaciones cuando se utilizan estas técnicas de estimulación para superar cualquier nuevo enfoque introducido.

Un equipo de investigadores de Microsoft Research, Redmond, EE. UU., presentó recientemente un nuevo método llamado Reprompting, que aborda todas las limitaciones asociadas con las técnicas de estimulación. Este enfoque busca automáticamente algunos indicadores de Cadena de ideas (CoT) útiles y efectivos. La dirección en cadena ayuda a mejorar la capacidad lógica de los modelos de lenguaje grandes y les ayuda a realizar tareas de razonamiento complejas. Para ello, se presentan como modelos algunas cadenas de pensamiento declarativo durante el estímulo. Encuentra la reversión de la estimulación CoT de manera muy eficiente sin ninguna intervención humana.

Los investigadores utilizaron una técnica de muestreo iterativa conocida como muestreo de Gibbs en su algoritmo de repetición. Enmarca el problema como una muestra de la distribución común de los epítetos de CoT. Dado que la distribución es difícil de caracterizar directamente, se utilizó el muestreo de Gibbs como método de aproximación. Este método de muestreo ayuda a determinar la mejor instrucción probando diferentes instrucciones y seleccionando la mejor.

El algoritmo Repromprompting comienza con el muestreo de recetas de CoT sin procesar con la ayuda de un mensaje de respuesta cero, donde no se proporciona información inmediata. Las indicaciones de disparo cero permiten que el LLM genere respuestas de tareas sin capacitación previa. Luego, el algoritmo prueba iterativamente nuevas recetas utilizando soluciones previamente muestreadas como indicaciones para padres, y estas nuevas recetas se utilizan para resolver otros problemas de entrenamiento, con el objetivo de encontrar un conjunto de estímulos que compartan indicaciones similares de CoT.

El algoritmo se evaluó en las Cinco Grandes Tareas (BBH) que requieren un pensamiento de varios pasos. BBH se enfoca en tareas que cree que están más allá de las capacidades y capacidades de los paradigmas lingüísticos actuales. ChatGPT e InstructGPT se utilizaron como LLM para evaluar el algoritmo. Cuando se evaluó, se demostró que la reactivación funciona mejor que las técnicas de estimulación CoT escritas por humanos.

El remuestreo también mostró un gran potencial en la combinación de modelos utilizando diferentes LLM para inicializar y probar nuevas recetas. Puede ayudar a transferir conocimientos de un modelo más fuerte a un modelo más débil, lo que da como resultado un rendimiento significativamente mejor demostrado por el modelo más débil. La repromptación funcionó mejor que las tareas de BBH inducidas por CoT escritas por humanos en hasta 17 puntos. Los investigadores afirmaron que las recetas de CoT que funcionan bien en un modelo pueden no funcionar bien en otro, destacando la necesidad de optimizar el CoT de cada modelo para hacer comparaciones más justas.

En resumen, el Algoritmo de Reprompting es un excelente método automatizado para encontrar reclamos efectivos de CoT para LLM sin intervención humana. Es un enfoque valioso para abordar las limitaciones de los métodos actuales y lograr un rendimiento superior en tareas que requieren un pensamiento de varios pasos.


escanear el papel. No olvides unirte Sub Reddit de 21k+MLY canal de discordiaY Y Boletín electrónico, donde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más. Si tiene alguna pregunta sobre el artículo anterior o si nos hemos perdido algo, no dude en enviarnos un correo electrónico a [email protected]

READ  Esta computadora Apple te costará $ 1.5 millones

🚀 Echa un vistazo a las herramientas de IA de 100 en el club de herramientas de IA

Tania Malhotra está en el último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, cursando un BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Le apasiona la ciencia de datos y tiene un buen pensamiento analítico y crítico, además de un gran interés en adquirir nuevas habilidades, liderar grupos y administrar el trabajo de manera organizada.