Microsoft y Nvidia lanzan Megatron-Turing, "el modelo de lenguaje más potente del mundo", con el triple de parámetros que GPT-3

13/10/2021
Artículo original

Microsoft y Nvidia lanzan Megatron-Turing,

Microsoft y NVIDIA acaban de anunciar el modelo de generación de lenguaje natural Megatron-Turing (MT-NLG), impulsado por sus tecnologías DeepSpeed y Megatron. Es un modelo monolítico de lenguaje transformado que, según las empresas fabricantes destaca por ser "el mayor y más potente modelo monolítico de lenguaje transformado entrenado hasta la fecha".

NVIDIA y Microsoft, han logrado una eficiencia de entrenamiento con su nuevo lenguaje. Entre sus puntos fuertes encontramos que se unen una infraestructura de entrenamiento acelerada por una GPU de última generación con una pila de software de aprendizaje distribuido. En el siguiente gráfico, las empresas han hecho una comparativa entre Megatron-Turing y otros modelos, como es el principal conocido hasta ahora, el GPT-3:

Model Size Graph 1024x661

Como sucesor de Turing NLG 17B y Megatron-LM, MT-NLG tiene el triple de parámetros que el mayor modelo existente de este tipo lo que le ofrece mayor precisión en un amplio conjunto de tareas de lenguaje natural. Tiene la capacidad de predicción para finalizar palabras, comprensión de lectura, razonamiento de sentido común, inferencias en lenguaje natural y desambiguación del sentido de las palabras.

Desde Nvidia explican que habrá que ver cómo la MT-NLG dará forma a los productos del futuro y motivará a la comunidad para ampliar los límites del procesamiento del lenguaje natural (PLN). Los modelos lingüísticos con un gran número de parámetros, más datos y más tiempo de entrenamiento adquieren una comprensión más rica y matizada del lenguaje, por ejemplo, adquiriendo la capacidad de resumir libros e incluso código de programación completo.

El software que se ha unido

De acuerdo con Nvidia, la colaboración unió el software de NVIDIA Megatron-LM y Microsoft DeepSpeed, para crear un sistema paralelo 3D eficiente y escalable capaz de combinar el paralelismo basado en datos, pipeline y tensor-slicing para resolver estos problemas.

El sistema utiliza el tensor-slicing de Megatron-LM para escalar el modelo dentro de un nodo y utiliza el paralelismo de tuberías de DeepSpeed para escalar el modelo entre nodos.

Por ejemplo, para el modelo de 530.000 millones, cada réplica del modelo abarca 280 GPUs NVIDIA A100, con tensor-slicing de 8 vías dentro de un nodo y paralelismo de pipeline de 35 vías entre nodos.

Para entrenar MT-NLG, Microsoft y Nvidia afirman haber creado un conjunto de datos de entrenamiento con 270 mil millones de tokens de sitios web en inglés. Los tokens, una forma de separar partes de texto en unidades más pequeñas en lenguaje natural, pueden ser palabras, caracteres o partes de palabras.

El conjunto de datos que se han usado para este desarrollo procede en gran medida de The Pile, una colección de 835 GB de 22 conjuntos de datos más pequeños creada gracias a la Inteligencia Artificial de código abierto EleutherAI. "The Pile" abarca fuentes académicas (como Arxiv, PubMed), comunidades (StackExchange, Wikipedia), repositorios de código (Github), etc.

Comparación con GPT-3

microsoft

Para hacernos una idea de su potencia, este modelo Megatron-Turing (MT-NLG), incluye 530.000 millones de parámetros, el triple que el mayor modelo existente hasta ahora, el GPT-3. Hay que recordar que el GPT-3 ha sido creado por OpenAI, la famosa organización sin ánimo de lucro enfocada en la investigación sobre inteligencia artificial fundada por Elon Musk, y en la que empresas como Microsoft han invertido cientos de millones de dólares.

El modelo de lenguaje llamado GPT-3 es capaz de programar, diseñar y hasta conversar sobre política y economía. La herramienta fue ofrecida al público como una API open source.

En su lanzaamiento el pasado año, GPT-3 supuso el modelo de lenguaje más poderoso creado hasta la fecha. Es una inteligencia artificial, un modelo de machine learning que analiza texto o datos para ofrecer predicciones de palabras en función de todas las palabras anteriores. Es lo que se usa en aplicaciones de procesamiento natural del lenguaje o PNL.

{"videoId":"x81q7ad","autoplay":true,"title":"Qué es la inteligencia artificial"}
(function() { window._JS_MODULES = window._JS_MODULES || {}; var headElement = document.getElementsByTagName('head')[0]; if (_JS_MODULES.instagram) { var instagramScript = document.createElement('script'); instagramScript.src = 'https://platform.instagram.com/en_US/embeds.js'; instagramScript.async = true; instagramScript.defer = true; headElement.appendChild(instagramScript); } })();