CambioDigital-OL

0

NVIDIA tiene como objetivo unificar la IA y la HPC

La plataforma para servidores HGX-2 de Nvidia es un elemento fundamental en torno al cual los fabricantes pueden ensamblar sistemas afinados para diferentes necesidades de IA y computación de alto rendimiento.

La plataforma para servidores HGX-2 de Nvidia es un elemento fundamental en torno al cual los fabricantes pueden ensamblar sistemas afinados para diferentes necesidades de IA y computación de alto rendimiento.

En la plataforma de servidores HGX-2.

Nvidia está refinando su discurso hacia el desempeño y eficiencia del centro de datos con una nueva plataforma de servidores, la HGX-2, diseñada para aprovechar el poder de 16 GPU Tesla V100 Tensor Core para satisfacer los requerimientos de la Inteligencia Artificial (IA) y de las cargas de trabajo de la computación de alto rendimiento (HPC, por sus siglas en inglés).

Los fabricantes de servidores para centros de datos Lenovo, Supermicro, Wiwynn y QCT afirmaron que despacharán los sistemas HGX-2 para finales de año. Algunos de los clientes más grandes de los sistemas HGX-2 probablemente sean los proveedores de hiperescala, por lo que no es sorpresa que se espere que Foxconn, Inventec, Quanta y Wistron fabriquen servidores que usen la nueva plataforma para los centros de datos de nube.

El HGX-2 se construye usando dos placas madre para GPU que enlazan las GPU Tesla a través de la infraestructura de interconexión NVSwitch. Las baseboards de los HGX-2 manejan ocho procesadores cada una, para un total de 16 GPU. El HGX-1, anunciado hace un año, maneja solamente ocho GPU.

Nvidia describe al HGX-2 como un “elemento fundamental” en torno al cual los fabricantes de servidores pueden construir sistemas que pueden ser afinados para diferentes tareas. Es la misma plataforma para sistemas sobre la cual se basa el siguiente DGX-2 de Nvidia. La noticia aquí es que la compañía está poniendo la plataforma a disposición de los fabricantes de servidores junto con una arquitectura de referencia para que los sistemas puedan enviarse a fin de año.

El CEO de Nvidia, Jensen Huang, realizó el anuncio en la GPU Technology Conference de la compañía en Taiwán, el miércoles.

Nvidia ha afirmado que los sistemas de evaluación del HGX-2 han logrado velocidades récord de entrenamiento en IA de 15.500 imágenes por segundo en el benchmark de entrenamiento NesNeet-50, y pueden reemplazar hasta 300 servidores que solo usan CPU que en conjunto costarían millones de dólares.

Los GPU han encontrado un nicho en los conjuntos de datos de entrenamiento -esencialmente creando modelos de redes neuronales- para las aplicaciones de aprendizaje automático. La enormemente paralela arquitectura de los GPU los hace particularmente adecuados para el entrenamiento en IA.

La ventaja del HGX-2 es que puede ser configurado tanto para el entrenamiento en IA como para las inferencias: Colocando a las redes neuronales en posición de usarse en situaciones de la vida real. El HGX-2 también está dirigido a las aplicaciones HPC para computación científica, rendering de imagen y video, y simulaciones.

“Creemos que el futuro de la computación requiere de una plataforma unificada”, afirmó Paresh Kharya, gerente de marketing de producto de grupo para IA y computación acelerada de Nvidia. “Lo que es realmente único sobre el HGX-2 son sus capacidades de computación de multiprecisión”.

Kharya afirmó que la plataforma permite cálculos de gran precisión usando hasta FP64 (aritmética de 64 bits o de punto flotante de doble precisión) para la computación científica y simulaciones, y ofrece a la vez FP16 (aritmética de 16 bits o de punto flotante de media precisión) e Int8 (aritmética completa de 8 bits) para las cargas de trabajo de IA.

Cada baseboard HGX-2 aloja seis NVSwitches que son non-blocking switches completos con 18 puertos, de tal forma que cada puerto se pueda comunicar con cualquier otro puerto a una velocidad NVLink completa, afirmó Nvidia. NVLink es la tecnología de interconexión de la propia Nvidia, que ya ha sido licenciada por IBM.

La topología de sistemas HGX-2 basados en GPU de Nvidia permite que todos los 16 GPU V100 Tensor Core estén completamente conectados al mismo tiempo.

La topología de sistemas HGX-2 basados en GPU de Nvidia permite que todos los 16 GPU V100 Tensor Core estén completamente conectados al mismo tiempo.

Las dos baseboards en cada plataforma HGX-2 se comunican a través de 48 puertos NVLink. La topología permite que todos los 16 GPU (ocho en cada baseboard) se comuniquen con cualquier otro GPU simultáneamente a una velocidad NVLink completa de 300GB por segundo, afirmó Nvidia.

“Estamos rompiendo muchas barreras clásicas con este sistema”, afirmó Kharya. “Estamos empujando los límites de lo que puede hacer un solo sistema de 10 kilovatios de energía”.

Nvidia también anunció que está ofreciendo ocho clases de plataformas para servidores aceleradas mediante GPU cada una de las cuales usa procesadores duales Xeon para los CPU, pero con diferentes cantidades de núcleos de GPU y configuradas de forma diferente para diferentes necesidades de IA y HPC. En la gama alta, la HGX-T2 de Nvidia se basa en el HGX-2, con 16 GPU Tesla V100 y afinada para entrenar gigantescas redes neuronales de aprendizaje automático multinivel. En la gama baja, Nvidia está ofreciendo la SCX-E1, con dos GPU Tesla V100, que incorpora tecnología de interconexión PCIE; estos sistemas utilizan 1.200 vatios y están dirigidos a la computación HPC de nivel de entrada.

En la nomenclatura de Nvidia, los sistemas HGX-T son para el entrenamiento en IA, los sistemas HGX-I para la inferencia en IA y los sistemas SCX son para la HPC y la computación científica.

Marc Ferranti, Network World

Ordenado por: A.I. Tags: ,

TOT

 

 

Contenidos recomendados...

Comparta esta publicación

Artículos relacionados

Escriba su comentario

Ud. tiene que estar conectado para publicar comentarios.

Red de publicaciones IDG en Latinoamérica: Computerworld Ecuador - Computerworld Colombia - CIO Perú // Contáctenos
© 3164 Computerworld Venezuela - All rights reserved ---- WordPress - Tema adaptado por GiorgioB