AMD se prepara para lanzar dos nuevas arquitecturas en las próximas semanas y ambas tienen algo en común. AMD Llano es el primer APU de alto rendimiento basado en K10.5, junto a una gráfica HD 5500. AMD Bulldozer, por otro lado, es una arquitectura diseñada desde cero, conteniendo en su interior 8 núcleos físicos de alto rendimiento. Ambas arquitecturas entregarán lo suyo para que este 2012 nazca el APU Trinity.

Llano y Bulldozer

Las dos nuevas arquitecturas de CPU y APU son de vital importancia para AMD para lo que será “Trinity” este 2012. Trinity es el APU que reemplazará a Llano e integrará GPU DX 11 y CPU x86. Su CPU se basará en los núcleos de Bulldozer, pero reducidos en cantidad. Trinity cogerá la experiencia obtenida con Llamo de unir GPU y CPU más la experiencia de un CPU de alto rendimiento como Bulldozer, consagrando el proceso de manufactura en 32 nm.

Para saber a grandes rasgos de qué se compondrá Trinity repasemos las características de Llano y Bulldozer:

AMD Llano integra en su interior núcleos x86, controlador de memoria (NB) y GPU DX 11 en un proceso de manufactura de 32 nm. AMD no colocó tantas cosas juntas partiendo desde cero, sino que usó su experiencia en fabricación de GPUs tomando el núcleo Redwood de 400 SP y lo juntó con el diseño de sus actuales núcleos K10.5 ( “Propus”), que pasaron a ser llamados “Husky”, reorganizó los circuitos y los integró en un proceso de 32 nm. Con ello pudo reducir tamaño y costos, y a la vez elevar eficiencia y rendimiento. El núcleo Redwood actualmente, y por sí solo, ocupa 107 mm² con un total de 627 millones de transistores en su interior. A su vez, un núcleo de los actuales K10.5 (Propus) posee un tamaño de 169 mm² y cuenta con 300 millones de transistores.  Juntar ambas tecnologías no iba a ser muy fructífero al resultar un núcleo cercano a los 300 mm², tamaño muy grande para chip de gama media. Por ello es vital el paso a los 32 nm para la arquitectura de AMD Llano, aparte de muchas otras mejoras.

AMD Llano
Transistores ~440M (CPU+NB) +
~650M (GPU)
= 1.000M aprox.
Cores 4
Módulos N/A
Cache L2 4 MB
Cache L3 N/A
GPU HD 6550
Manufactura (nm) 32 nm
Tamaño (mm²) ~90 mm² (GPU 40%)
~64 mm² (CPU 28%)
~76 mm² (NB 33%)
228 mm²


Núcleo Llano APU (verde= núcleos Husky; parte baja GPU)

La segunda parte necesaria para conocer y armar AMD trinity esta en los módulos de Bulldozer.

AMD pensó en una nueva arquitectura creada desde cero no solo para el alto rendimiento. Bulldozer tiene como principio integrar más núcleos, transistores y circuitos en mucho menos espacio y con menos consumo, todo esto para contrarrestar el adelantamiento tecnológico de Intel y su rápido paso entre procesos de manufactura, como también para hacerle el peso a su arrollador rendimiento. Bulldozer es una arquitectura que lleva más de tres años de desarrollo y supone la base de AMD para renovar toda su gama de CPUs de alto rendimiento. La base física de Bulldozer estó en los módulos, cada uno de ellos con 2 cores. Cada módulo, en términos de rendimiento, es un 180% de eficiente, o sea, trabaja casi como si se tratase de dos núcleos físicos (200%). La diferencia está en que los núcleos en un módulo son mucho más pequeños y hacen posible la existencia de Bulldozer en su versión de 8 núcleos en menor espacio que un Thuban x6 (Bulldozer: 294 mm² v/s Thuban: 346 mm²). Un módulo de Bulldozer, como dijimos, está compuesto por dos cores, pero además integra 2 MB de caché L2 compartida. Estas piezas (1 módulo + caché L2 2 MB) totalizan 30,9 mm², que si lo multiplicamos por 4 completan menos de la mitad del tamaño total de Bulldozer. Todos los demás componentes se basan principalmente en el controlador de memoria integrado y la caché L3. El total de circuitos integrados en el die de Bulldozer asciende por sobre el billón de transistores.

AMD Bulldozer
Transistores >1.000M
Cores 8
Módulos 4
Cache L2 8
Cache L3 8
GPU N/A
Manufactura (nm) 32 nm
Tamaño (mm²) 294,4 mm²

Núcleo Bulldozer (Zambezi para desktop)

La mitad de Bulldozer está compuesta por 2 módulos y 4 núcleos, cantidad de componentes que tendrá la parte CPU del APU Trinity. Pero el GPU que integrará aún se desconoce oficialmente.

Si Trinity corresponde a un CPU del mercado de entrada o mercado medio (hasta medio-alto), debería poseer un tamaño muy similar al del APU Llano (228 mm²), por lo que no debería superar los 220 mm² para Trinity. Además, su GPU debería ser dominante en el encapsulado y representar case el 50% del die, tal como lo hace el GPU de Llano, sobre todo si es que AMD quiere seguir demostrando que las gráficas ya toman un valor importante en los procesos internos del chip.

 

Pero, ¿qué opciones de GPU tiene AMD para integrar en Trinity? Repasemos…

Las opciones gráficas

En primera instancia, el actual núcleo Redwood usado en Llano puede continuar usando frecuencias mayores, pero su potencial se verá muy reducido en un año más cuando haga la aparición Ivy bridge con sus EU cores gráficos potenciados en cantidad. En la escalera le sigue el núcleo Juniper que posee 166 mm² bajo su construcción en 40 nm, con casi el doble de transistores y potencia gráfica que Redwood. Le sigue Barts, un núcleo gráfico mucho más grande pero a la vez mucho más potente..

“Redwood” “Juniper” “Barts”
Transistores 627M 1.040M 1.700M
Manufactura (nm) 40 nm 40 nm 40 nm
Tamaño (mm²) 107 mm² 166 mm² 255 mm²

.

Redwood ya traspasado a 32 nm utilizaría cerca de 90 mm², y podría experimentar un aumento en sus frecuencias, pero el verdadero salto está en el aumento de los SP (shaders processors) de la arquitectura. Barts es un núcleo muy poderoso para estar representando un GPU integrado. Para AMD no sería muy conveniente contar con algo tan poderoso en un encapsulado tan barato, sin haberle sacado real partido como núcleo de VGA. Por último, se encuentra el núcleo Juniper (presente en la HD 5770 y en la HD 6770), el cual cuenta con 800 SP y más de 1 billón de transistores integrados en 166 mm². El salto gráfico es realmente importante desde una serie HD 5500 a una HD 5700, por lo que en terminos de rendimiento Juniper representa un buen ejemplar para ser integrado en Trinity.

.

GPUs en 32nm “Redwood” “Juniper” “Barts”
Manufactura (nm) 32nm 28nm 28nm
Tamaño (mm2) ~90 mm2 aprox. ~130 mm2 arpox. ~200 mm aprox.

.

El núcleo necesario para Trinity debería estar cercano al 50% del total del tamaño del chip final, (o por lo menos debiese ser así si AMD quiere continuar dando énfasis a sus gráficos), por eso Juniper parece ser un candidato ideal. El traspaso de este núcleo a 32 nm le haría tener un tamaño de 130 mm² aproximadamente, algo aun muy grande para caber en un chip con parecidas dimensiones a las de Llano. Pero, ¿que hay de la arquitectura VLIW4 presentada en los núcleos Cayman (6970/6950)?

Esta reorganización de la arquitectura VLIW5 de Cypress le permitió a AMD integrar muchos más transistores en mismo espacio y aparte incrementar el rendimiento.  VLIW4 representa una reducción del 6% del chip manteniendo mismos transistores e incrementando su rendimiento.

.

VLIW5 “Cypress” VLIW4 “Cayman”
Transistores 2.150M 2.640M
Manufactura (nm) 40 nm 40 nm
Tamaño (mm2) 334 mm² 389 mm²
Transistores por mm2 6,43M ~6,78M
Porcentaje (%) 100 % ~105,5%

.

Con la integración de esta arquitecura en el núcleo de Juniper se puede obtener un núclo mucho más pequeño y menor a los 120 mm², por lo que sería un candidato destacable para integrar el APU Trinity.

Trinity

Finalmente llegamos a Trinity, el próximo APU de AMD. Trinity se lanzará el 2012, probablemente después de Intel Ivy Bridge, por lo que vendrá a competir directamente con estos CPUs de Intel. Intel Ivy Bridge también prepara sus cambios en la parte gráfica, y su aumento de un 33% en sus EU cores supondría un peligro para el poderío gráfico de Llano. AMD depende en gran medida de su potencia gráfica, por lo que si Ivy Bridge lo llegase a superar o se acercara en este apartado, haría que para Trinity tome mayor relevancia su rendimiento gráfico. Como comentamos, el núcleo ideal es el de Juniper potenciado con la arquitectura VLIW4. Este núcleo puesto en Trinity no debería superar los 120 mm², para dejar espacio a los módulos Bulldozer junto a los demás componentes. Estos módulos Bulldozer serán dos, conformando 4 núcleos con un tamaño de alrededor de 62 mm². Estos dos módulos solo deberían contar con caché L2 y dejar el espacio de la caché L3, presente en el núcleo original, para el GPU Juniper. Solo faltaría contabilizar el espacio para el controlador de memoria que debería ser un poco menor al espacio de los módulos. Esto totaliza un chip cercano a los 220 mm², espacio necesario para permitirle al APU Trinity ser competente económicamente al fabricarlo. Este espacio aún es bastante mayor al que ocuparía Ivy Bridge, con 169 mm².

Como el núcleo Juniper posee más de 1 billón de transistores, su paso a VLIW4 le hará poseer más, y los módulos Bulldozer representan cerca de 500 millones de transistores extra, por lo que el die de Trinity deberá poseer más de 1,5 billones de transistores, esto sin contar la cantidad de transistores dedicados al controlador de memoria, por lo que fácilmente el APU trinity debería estar cercano a los 2 billones de transistores.

.

 

AMD Trinity
Transistores >600M (CPU+NB) +
>1.000M (GPU)
= 1.600M – 2.000M
Cores 4
Modulos 2
Cache L2 8 MB
Cache L3 N/A
GPU HD 6770 (VLIW4)
Manufactura (nm) 32 nm
Tamaño (mm²) ~120mm² (GPU – 54%)
~62 mm² (CPU – 27%)
~40 mm² (NB – 18%)
= ~220 mm²

 

.

Con tal complejidad de chip Trinity se convertirá en un muy buen rival para Ivy Bridge y sus transistores tri-gate 3D. Por otro lado, poseer gráficos tan potentes en su interior lo hará mantener el éxito de los actuales APU y al que supuestamente Llano ya está encaminado.

Posible die de Trinity con sus 4 núcleos (2 módulos) y una parte negra representando la porción de GPU.

AMD conformaría una bestia del rendimiento gráfico integrado, en la cual posiblemente la brecha gráfica con Ivy bridge sería mayor a la que Llano le representa a Sandy Bridge. Como AMD no puede destacar mucho en los demás aspectos, no le queda más que seguir firme en su demostración de poderío gráfico, ya que aun teniendo los núcleos Bulldozer con mejor fabricación al mejorar los yields y optimización de arquitectura es probable que no pueda alcanzar a Intel en lo que a rendimiento de CPU respecta. Sin duda Trinity puede representar otro salto cuántico para AMD al unir sus nuevos núcleos CPUs junto a poderosos gráficos 3D, claro está, solamente si la experiencia de unir GPU+CPU es fructífera y si los núcleos Bulldozer rinden como prometen.

AMD debe centrarse en seguir demostrando su experiencia en construir núcleos gráficos, porque puede ser ésta la única ventaja que posea ahora y en el futuro contra la maquina tecnológica de Intel.

Comenta este artículo en nuestro foro.