Nvidia y Microsoft lanzaron un modelo de inteligencia artificial por valor de 530 mil millones de variables • The Register

Nvidia y Microsoft anunciaron su modelo de lenguaje transformador monolítico más grande hasta la fecha, un modelo de inteligencia artificial con 530 mil millones de parámetros que desarrollaron juntos, denominado modelo Megatron-Turing Natural Language Generation.

El MT-NLG es más poderoso que los sistemas anteriores basados en conmutadores que entrenaron las dos compañías, a saber, el modelo Turing-NLG de Microsoft y el Megatron-LM de Nvidia. MT-NLG consta de tres veces los parámetros distribuidos en 105 capas, y es mucho más grande y complejo. A modo de comparación, OpenAI Modelo GPT-3 175 mil millones de profesores y Google adaptador de interruptor La demostración contiene 1,6 billones de parámetros.

Más grande es generalmente mejor cuando se trata de redes neuronales. Requiere que absorban más datos de entrenamiento. MT-NLG es mejor en una variedad de tareas de lenguaje natural, como autocompletar oraciones, preguntas y respuestas, lectura e inferencia que sus predecesores. También puede realizar estas tareas con poco o ningún ajuste fino, lo que se conoce como aprendizaje de bajo impacto o aprendizaje sin disparo.

A medida que estos modelos de lenguaje se hacen más grandes, los investigadores e ingenieros de IA necesitan idear todo tipo de técnicas y trucos para entrenarlos. Requiere un formato preciso: el modelo y sus datos de entrenamiento deben almacenarse y procesarse en muchos chips al mismo tiempo.

El MLT-NLG se entrenó utilizando la supercomputadora de aprendizaje automático Selene de Nvidia, un sistema que consta de 560 servidores DGX A100 y cada servidor contiene ocho GPU A100 de 80 GB. Selene también funciona con la CPU EPYC 7v742 de AMD y se estima que cuesta más de $ 85 millones. de acuerdo a a la siguiente plataforma.

READ Revisión de la tercera semana: Samsung anuncia Exyno 2200, las filtraciones del Galaxy S22 continúan

Las 4480 GPU utilizan NvLink y NVSwitch para comunicarse entre sí. Cada uno era capaz de ejecutar más de 113 teraflops por segundo. Estos modelos son increíblemente costosos de entrenar, e incluso si se ejecutan en hardware de alta gama, requieren hacks de software para reducir los tiempos de entrenamiento. Utilice Nvidia y Microsoft DeepSpeed, una biblioteca de aprendizaje profundo que contiene código PyTorch que permitió a los ingenieros acumular más datos a través de muchas canalizaciones en paralelo.

«Al combinar la división de tensores y la conexión en paralelo con tuberías, podemos ejecutarlas dentro del sistema donde son más efectivas», dijo Paresh Kharia, director senior de gestión de productos y marketing de Accelerated Computing en NVIDIA, y Ali Alvi, gerente de programas grupales de Microsoft. Turing Team, explicado en un Entrada en el blog.

Más específicamente, el sistema usa el corte tensorial de Megatron-LM para escalar el modelo dentro de un nodo y usa el paralelismo de la tubería de DeepSpeed para escalar el modelo a través de los nodos.

Por ejemplo, para el modelo de 530 mil millones, cada réplica abarca 280 GPU NVIDIA A100, con un tensor de 8 vías que corta dentro de un nodo y un paralelismo de canalización de 35 vías entre los nodos. Luego, usamos el paralelismo de datos de DeepSpeed para escalarlo a miles. de unidades de procesamiento de gráficos.

MT-NLG se entrenó en un conjunto de datos gigante conocido como pila. Compilado por Eleuther AI, un grupo de investigadores e ingenieros de inteligencia artificial que lideran un esfuerzo de base para grandes modelos de lenguaje de código abierto, se compone de múltiples conjuntos de datos más pequeños que suman un total de 825 gigabytes de texto extraído de Internet de fuentes como Wikipedia y repositorios Revistas académicas , clips de noticias.

READ Akshay Kumar ha hecho una pausa en Bollywood para anunciar una versión beta del modo Team Death Match de FAU-G

Tratar con cantidades tan grandes de texto significa que un conjunto de datos no puede limpiarse de lenguaje tóxico. Desafortunadamente, esto significa que MT-NLG puede generar resultados ofensivos que pueden ser racistas o sexistas.

“Nuestra observación con MT-NLG es que el modelo recoge estereotipos y sesgos de los datos que se están entrenando”, dijeron Kharya y Alvi.

Microsoft y NVIDIA están comprometidos a trabajar para solucionar este problema. Alentamos la investigación continua para ayudar a determinar el alcance del sesgo del modelo … Además, cualquier uso de MT-NLG en escenarios de producción debe garantizar que se implementen las medidas adecuadas para mitigar y minimizar el daño potencial a los usuarios ”. ®

Vinicio Terrazas

«Food ninja. Freelance pop culture fanatic. Wannabe zombie maven. Twitter aficionado.»

Nvidia y Microsoft lanzaron un modelo de inteligencia artificial por valor de 530 mil millones de variables • The Register

China, Rusia y Corea del Norte aceleran el uso de IA en ciberataques, alerta Google

El Galaxy Watch Ultra 2025 de Samsung baja a su precio más bajo hasta la fecha

Saros saca partido a una de las funciones más infrautilizadas de PS5

Corridas Generales de Bilbao 2026: ya tienen fechas oficiales para la próxima Aste Nagusia

La Vía Láctea sobrevivió a una violenta batalla galáctica contra todo pronóstico científico

Amazon pone a la venta una casa prefabricada expandible de dos plantas con hasta seis dormitorios por menos de 12.000 euros

La NASA prueba helicópteros supersónicos para futuras misiones en Marte

Entradas recientes

Deja una respuesta Cancelar la respuesta

More Stories