Jen-Hsun Huang, CEO de NVIDIA, anuncio el nuevo NVIDIA Tesla P100, el acelerador mas avanzado jamas construido. Basado en el nuevo GPU NVIDIA Pascal GP100 y potenciado por nuevas tecnologías, Tesla P100 entrega un desempeño sin igual para HPC, computo técnico, aprendizaje profundo y muchas otras aplicaciones computacionalmente intensivas dentro de servidores.


P100_SXM2 P100_SXM2_back-500x290

La arquitectura de GPU ha sido modificada y ahora cada Streaming Multiprocesor de Pascal tendrá 64 núcleos CUDA (Maxwell tenia 128) ademas hay 60 SMx en GP100 con lo que se hace un total de 3840 CUDA Cores. Cada SM tiene 4 TMU (Texture Mapping Unit) lo que nos entrega 240 TMUs.

Cada SM tiene un radio 2:1 de unidades FP32 a FP64. Esto significa que el rendimiento FP64 ha sido enormemente mejorado comparado con Kepler y Maxwell.

gp100_SM_diagram

El GPU esta hecho en el nodo de fabricacion Fin-FET de 16nm. GP100 entregará soporte para 16GB de memoria HBM2, el procesador tiene ocho controladores de memoria de 512-bit con un total de 4096-bit de ancho. El ancho de banda maximo reportado fue de 720GB/s.

GP100-Block-Diagram

 

Tambien cabe señalar de que Tesla P100 no está utilizando el chip completo.

Caracteristicas principales de GP100:

  • Desempeño extremo – Potenciando HPS, Deep Learning y muchas áreas de computo de GPU
  • NVLink – El nuevo interconector de NVIDIA de alta velocidad para máxima escalabilidad de aplicaciones
  • HBM2 – Una arquitectura de memoria estacable de GPU  mas rápida, de mas tamaño y extremadamente eficiente
  • Memoria Unificada y Computo Preferente – Modelo de programación significativamente mejorado.
  • 16nm FinFET – Activa mas características, mejor desempeño y una eficiencia energética superior.

 

Especificaciones NVIDIA GP100
Tesla Products Tesla K40 Tesla M40 Tesla P100
GPU GK110 (Kepler) GM200 (Maxwell) GP100 (Pascal)
SMs 15 24 56
TPCs 15 24 28
FP32 CUDA Cores / SM 192 128 64
FP32 CUDA Cores / GPU 2880 3072 3584
FP64 CUDA Cores / SM 64 4 32
FP64 CUDA Cores / GPU 960 96 1792
Base Clock 745 MHz 948 MHz 1328 MHz
GPU Boost Clock 810/875 MHz  1114 MHz 1480 MHz
FP64 GFLOPs 1680 213 5304
Texture Units 240 192 224
Memory Interface 384-bit GDDR5 384-bit GDDR5 4096-bit HBM2
Memory Size Up to 12 GB Up to 24 GB 16 GB
L2 Cache Size 1536 KB 3072 KB 4096 KB
Register File Size / SM 256 KB 256 KB 256 KB
Register File Size / GPU 3840 KB 6144 KB 14336 KB
TDP 235 Watts 250 Watts 300 Watts
Transistors 7.1 billion 8 billion 15.3 billion
GPU Die Size 551 mm² 601 mm² 610 mm²
Manufacturing Process 28-nm 28-nm 16-nm

 

Capacidades de Computo

La Capacidad de Computo ha sido actualizada a 6.0.

Capacidad de Computo
GPU Kepler GK110 Maxwell GM200 Pascal GP100
Compute Capability 3.5 5.3 6.0
Threads / Warp 32 32 32
Max Warps / Multiprocessor 64 64 64
Max Threads / Multiprocessor 2048 2048 2048
Max Thread Blocks / Multiprocessor 16 32 32
Max 32-bit Registers / SM 65536 65536 65536
Max Registers / Block 65536 32768 65536
Max Registers / Thread 255 255 255
Max Thread Block Size 1024 1024 1024
CUDA Cores / SM 192 128 64
Shared Memory Size / SM Configurations (bytes) 16K/32K/48K 96K 64K

 

NVIDIA blog:

La Arquitectura Pascal GP100: Rápida en todas las formas.

Con cada nueva arquitectura de GPU, NVIDIA introduce mejoras substanciales en el desempeño y eficiencia energética. El corazón del computo en los GPUs Tesla es el SM, o Streaming Multiprocessor. El SM, crea, administra, programa y ejecutar instrucciones de varios hilos en paralelo.

Como en anteriores GPUs Tesla, GP100 está compuesto de un arreglo de GPCs (Graphic Processing Clusters), SMs (Streaming Multiprocessors) y controladores de memoria. GP100 logra su rendimiento colosal al entregar seis GPCs, hasta 60 SMs y ocho canales de memoria de 512-bit cada uno dando un total de 4096-bit. La arquitectura computacional Pascal es más que fuerza bruta: aumenta su desempeño no solo agregando mas SMs que en GPUs anteriores, si no que también hace que cada SM sea más eficiente. Ahora, cada SM tiene 64 núcleos CUDA y cuatro unidades de textura, para un total de 3840 CUDA Cores y 240 unidades de textura.

Entregar alto desempeño y mejorar la eficiencia energética son los dos factores principales para una nueva arquitectura de GPU. Un numero de cambios en los SM de la arquitectura Maxwell hizo que se mejorara la eficiencia comparada con Kepler. Pascal se basa en esto e incorpora mejoras adicionales que aumentan el desempeño por watt incluso mas allá que Maxwell. Mientras que el proceso de manufactura de TSMC en 16nm Fin-FET juega un rol importante, muchas modificaciones arquitectónicas en el GPU fueron implementadas para reducir el consumo de energía y mantener el alto desempeño. La siguiente

2016-04-05-19_23_53-NVIDIA-Events-on-USTREAM_-For-more-than-two-decades-NVIDIA-has-pioneered-visual

Pascal-HBM2

NVIDIA-P100

Fuente: Blog de NVIDIA