Nvidia y Microsoft anunciaron su modelo de lenguaje transformador monolítico más grande hasta la fecha, un modelo de inteligencia artificial con 530 mil millones de parámetros que desarrollaron juntos, denominado modelo Megatron-Turing Natural Language Generation.
El MT-NLG es más poderoso que los sistemas anteriores basados en conmutadores que entrenaron las dos compañías, a saber, el modelo Turing-NLG de Microsoft y el Megatron-LM de Nvidia. MT-NLG consta de tres veces los parámetros distribuidos en 105 capas, y es mucho más grande y complejo. A modo de comparación, OpenAI Modelo GPT-3 175 mil millones de profesores y Google adaptador de interruptor La demostración contiene 1,6 billones de parámetros.
Más grande es generalmente mejor cuando se trata de redes neuronales. Requiere que absorban más datos de entrenamiento. MT-NLG es mejor en una variedad de tareas de lenguaje natural, como autocompletar oraciones, preguntas y respuestas, lectura e inferencia que sus predecesores. También puede realizar estas tareas con poco o ningún ajuste fino, lo que se conoce como aprendizaje de bajo impacto o aprendizaje sin disparo.
A medida que estos modelos de lenguaje se hacen más grandes, los investigadores e ingenieros de IA necesitan idear todo tipo de técnicas y trucos para entrenarlos. Requiere un formato preciso: el modelo y sus datos de entrenamiento deben almacenarse y procesarse en muchos chips al mismo tiempo.
El MLT-NLG se entrenó utilizando la supercomputadora de aprendizaje automático Selene de Nvidia, un sistema que consta de 560 servidores DGX A100 y cada servidor contiene ocho GPU A100 de 80 GB. Selene también funciona con la CPU EPYC 7v742 de AMD y se estima que cuesta más de $ 85 millones. de acuerdo a a la siguiente plataforma.
Las 4480 GPU utilizan NvLink y NVSwitch para comunicarse entre sí. Cada uno era capaz de ejecutar más de 113 teraflops por segundo. Estos modelos son increíblemente costosos de entrenar, e incluso si se ejecutan en hardware de alta gama, requieren hacks de software para reducir los tiempos de entrenamiento. Utilice Nvidia y Microsoft DeepSpeed, una biblioteca de aprendizaje profundo que contiene código PyTorch que permitió a los ingenieros acumular más datos a través de muchas canalizaciones en paralelo.
«Al combinar la división de tensores y la conexión en paralelo con tuberías, podemos ejecutarlas dentro del sistema donde son más efectivas», dijo Paresh Kharia, director senior de gestión de productos y marketing de Accelerated Computing en NVIDIA, y Ali Alvi, gerente de programas grupales de Microsoft. Turing Team, explicado en un Entrada en el blog.
Más específicamente, el sistema usa el corte tensorial de Megatron-LM para escalar el modelo dentro de un nodo y usa el paralelismo de la tubería de DeepSpeed para escalar el modelo a través de los nodos.
Por ejemplo, para el modelo de 530 mil millones, cada réplica abarca 280 GPU NVIDIA A100, con un tensor de 8 vías que corta dentro de un nodo y un paralelismo de canalización de 35 vías entre los nodos. Luego, usamos el paralelismo de datos de DeepSpeed para escalarlo a miles. de unidades de procesamiento de gráficos.
MT-NLG se entrenó en un conjunto de datos gigante conocido como pila. Compilado por Eleuther AI, un grupo de investigadores e ingenieros de inteligencia artificial que lideran un esfuerzo de base para grandes modelos de lenguaje de código abierto, se compone de múltiples conjuntos de datos más pequeños que suman un total de 825 gigabytes de texto extraído de Internet de fuentes como Wikipedia y repositorios Revistas académicas , clips de noticias.
Tratar con cantidades tan grandes de texto significa que un conjunto de datos no puede limpiarse de lenguaje tóxico. Desafortunadamente, esto significa que MT-NLG puede generar resultados ofensivos que pueden ser racistas o sexistas.
“Nuestra observación con MT-NLG es que el modelo recoge estereotipos y sesgos de los datos que se están entrenando”, dijeron Kharya y Alvi.
Microsoft y NVIDIA están comprometidos a trabajar para solucionar este problema. Alentamos la investigación continua para ayudar a determinar el alcance del sesgo del modelo … Además, cualquier uso de MT-NLG en escenarios de producción debe garantizar que se implementen las medidas adecuadas para mitigar y minimizar el daño potencial a los usuarios ”. ®
«Food ninja. Freelance fanático de la cultura pop. Wannabe zombie maven. Aficionado a Twitter».
More Stories
La red social Butterflies AI añade una función que te convierte en un personaje de inteligencia artificial
Edición del vigésimo aniversario de Hautlence HLXX: redefiniendo el tiempo con minutos que retroceden y horas saltantes
Un marco para resolver ecuaciones diferenciales parciales equivalentes puede guiar el procesamiento y la ingeniería de gráficos por computadora