El motor detrás de las fábricas de IA para la era del razonamiento de IA, ahora en plena producción.
Explore los avances innovadores que la arquitectura NVIDIA Blackwell aporta a la IA generativa y a la computación acelerada. Desarrollada sobre la base de generaciones de tecnología NVIDIA, NVIDIA Blackwell define el próximo capítulo de la IA generativa con un desempeño, una eficiencia y una escala incomparables.
Las GPU con la arquitectura NVIDIA Blackwell contienen 208 mil millones de transistores y se fabrican mediante un proceso TSMC 4NP personalizado. Todos los productos NVIDIA Blackwell cuentan con dos matrices limitadas por retículos, con una interconexión de chip a chip de 10 terabytes por segundo (TB/s) en una sola GPU unificada
El motor Transformer de segunda generación usa la tecnología NVIDIA Blackwell Tensor Core personalizada combinada con las innovaciones de NVIDIA TensorRT™-LLM y NeMo™ Framework para acelerar la inferencia y el entrenamiento de grandes modelos de lenguaje (LLM) y modelos de mezcla de expertos (MoE). Los núcleos Tensor NVIDIA Blackwell agregan nuevas precisiones, incluidos nuevos formatos de microescala definidos por la comunidad, lo que brinda una alta precisión y facilita el reemplazo para precisiones más grandes.
Los Núcleos Tensor NVIDIA Blackwell Ultra están potenciados con dos veces más aceleración en la capa de atención y 1,5 veces más FLOPS de computación de IA, en comparación con las GPU NVIDIA Blackwell. El Transformer Engine de NVIDIA Blackwell usa técnicas de escalado fino, llamadas escalado de micro-tensores, para optimizar el desempeño y la precisión, haciendo posible el despliegue de una IA de punto flotante de 4 bits (FP4). Esto duplica el desempeño y el tamaño de los modelos de última generación que la memoria puede admitir, al tiempo que mantiene una alta exactitud.
NVIDIA Blackwell incluye NVIDIA Confidential Computing, que protege datos confidenciales y modelos de IA del acceso no autorizado por medio de sólidos protocolos de seguridad basados en hardware. NVIDIA Blackwell es la primera GPU con ambientes de ejecución confiables (TEE-I/O) de la industria, y ofrece la solución de computación confidencial de mayor rendimiento con hosts capaces de TEE-I/O y protección en línea a través de NVIDIA NVLink™. La Computación Confidencial NVIDIA Blackwell ofrece un rendimiento de transferencia casi idéntico al de los modos no cifrados. Ahora las empresas pueden proteger incluso los modelos más grandes de manera eficiente, además de salvaguardar la propiedad intelectual (IP) de IA y permitir de forma segura el entrenamiento de IA, la inferencia y el aprendizaje federado.
El aprovechamiento de todo el potencial de la computación a exaescala y los modelos de IA de billones de parámetros depende de la capacidad de garantizar una comunicación rápida y fluida entre todas las GPU dentro de un clúster de servidores. La interconexión NVLink de NVIDIA de quinta generación puede escalar hasta 576 GPU para liberar un desempeño acelerado para modelos de IA de billones de parámetros.
El chip de conmutadores NVIDIA NVLink permite 130 TB/s de ancho de banda de GPU en un dominio NVLink de 72 GPU (NVL72) y ofrece una eficiencia en el ancho de banda cuatro veces mayor con compatibilidad con el Protocolo de Agregación y Reducción Jerárquica Escalable (SHARP)™ FP8. El chip de conmutadores NVLink de NVIDIA admite clústeres más allá de un solo servidor con la misma impresionante interconexión de 1,8 TB/s. Los clústeres de múltiples servidores con NVLink escalan las comunicaciones de GPU al ritmo del aumento de nuestra capacidad de computación, por lo que NVL72 puede admitir un rendimiento de GPU nueve veces más eficiente que un solo sistema de ocho GPU.
El análisis de datos y los workflows de bases de datos se han basado tradicionalmente en las CPU para la computación. La ciencia de datos acelerada puede aumentar drásticamente el desempeño del análisis integral, lo que acelera la generación de valor a la vez que reduce los costos. Bases de datos como Apache Spark desempeñan papeles críticos en el manejo, el procesamiento y el análisis de grandes volúmenes de datos.
El motor de descompresión de NVIDIA Blackwell y la capacidad de acceder a cantidades masivas de memoria en la CPU NVIDIA Grace™ a través de un enlace de alta velocidad (900 gigabytes por segundo (GB/s) de ancho de banda bidireccional) aceleran todo el Pipeline de consultas de bases de datos para lograr el más alto desempeño en análisis de datos y ciencia de datos, con compatibilidad con los últimos formatos de compresión, como LZ4, Snappy y Deflate.
NVIDIA Blackwell aumenta la resiliencia inteligente con un motor de Confiabilidad, Disponibilidad y Capacidad de Servicio (Reliability, Availability, and Serviceability, RAS) dedicado a identificar fallas potenciales que pueden ocurrir desde el principio y minimizar el tiempo de inactividad. Las capacidades de administración predictiva impulsadas por la IA de NVIDIA monitorean continuamente miles de puntos de datos en el hardware y el software para predecir e interceptar fuentes de tiempo de inactividad e ineficiencia. Esto permite una resiliencia inteligente que ahorra tiempo, energía y costos de computación.
El motor de Confiabilidad, Disponibilidad y Capacidad de Servicio (Reliability, Availability, and Serviceability, RAS) de NVIDIA proporciona información de diagnóstico detallada que puede identificar áreas de preocupación y ayudar a planificar el mantenimiento. El motor RAS reduce el tiempo de respuesta al localizar rápidamente la fuente de los problemas y minimiza el tiempo de inactividad al facilitar una remediación efectiva.
Descubra cómo la nueva cuantificación NVFP4 de 4 bits de NVIDIA para el preentrenamiento ofrece enormes mejoras en el entrenamiento de LLM a escala y en la eficiencia general de la infraestructura.