AMD-Phenom-X4-Prozessoren im Test

Prozessoren | 21.06.2008, 13:45 | Seite 4


Phenom, ein K8-Refresh und seine Neuerungen



Wenn AMD über Phenom spricht, darf natürlich nie der Hinweis fehlen, dass es sich bei AMDs Verständnis eines Quad Cores ausschließlich um "native" Quad-Cores dreht. Darunter ist zu verstehen, dass alle Rechenkerne sich auf einem zusammenhängenden Stück Silizium befinden, was einen ganz entscheidenden Vorteil hat, aber auch einen ganz entscheidenden Nachteil. Der Vorteil findet sich in der einfacheren Kommunikation der einzelnen Teile des Prozessors miteinander. Der Nachteil dagegen liegt in der problematischeren Fertigung. Während Multi-Chip-Packages, wie die Quad-Cores seitens Intel aus zwei selektierten Dual-Cores zusammengesetzt werden können, die nur jeweils halb so groß sind, müssen für den monolithischen Quad-Core alle Rechenwerke funktionieren, damit er als Quad-Core fungieren kann. Zwar kann man im Defektfall einen solchen Prozessor immer noch als Triple-Core verkaufen, doch kann das nicht das Ziel sein. Dabei gilt: Mit steigender Chipfläche sinkt die Ausbeute exponentiell. Dazu müssen alle Kerne nahezu die identischen Eigenschaften haben, da sie nicht passend zueinander ausgewählt werden können.
Doch fokussieren wir uns hier auf die Eigenschaften, die ein monolithisches Quad-Core Design ermöglicht, im speziellen AMDs K10-Architektur. AMD selbst umreisst die neuen Features der Phenom-Prozessoren mit acht Eckpunkten, neben dem "Nativen" sind dies der gemeisame L3-Cache, Hyper Transport 3.0, DDR2-1066, durchgehende Fertigung in 65 nm und verbesserte Energiesparoptionen.

Bild: AMD-Phenom-X4-Prozessoren im Test

Die vier Rechenkerne sowie der Speichercontroller gruppieren sich um einen überarbeiteten und mächtigeren Crossbar-Switch. Der Crossbar-Switch ist in der Lage bis zu fünf Punkt-zu-Punkt-Verbindungen zwischen einzelnen Cores, Speichercontroller und Hypertransport simultan zu schalten. Durch seine Möglichkeit, bis zu acht "Master" zu verwalten, ist damit auch die Option von bis zu acht Rechenkernen möglich.

Alle einzelnen Cores enthalten im Phenom einen eigenen exklusiven L2-Cache. Dazu gibt es je Kern 64 kB Instruction- und 64 kB Daten Level-1-Caches. Ergänzt werden diese durch einen gemeinsam von allen genutzen 3rd-Level-Cache, der 2 MB groß ist. Die Kerne selbst wurden punktuell überarbeitet. Hervorzuheben sind die nun durchgehend (auch SSE) 128 Bit breiten Floating-Point-Units sowie Optimierungen an der Sprungvorhersage, die laut AMD bessere Performance für C++ und Java bringt.

Dabei werden Instruktionen bzw. Daten beim Zugriffsversuch der Recheneinheiten sowohl im L1-, L2- und L3-Caches als auch in den Caches der anderen Kerne gesucht. Sofern sie nicht im eigenen L1- oder L2-Cache liegen, kommt der zentral angeordnete Memory-Controller ins Spiel, der mit seinem 32 Byte großen Prefetcher die Daten zum jeweils anfordernden Rechenkern leitet. Da AMD die Kommunikation innerhalb der CPU vollständig über das System-Request-Interface abwickeln kann, entfallen bei diesem Transfervorgang Latenzen eines eventuellen FSB. Beim Verschieben aus der zweiten Cache-Ebene L2 in die erste wird die Cacheline im L2 als ungültig erklärt und schafft somit Platz für neue Daten. Im L3 bleiben sie für andere Kerne vorhanden. Cache-Informationen werden bei Nichtbenutzung nacheinander in den nächsten Level verschoben, bis sie schließlich vollständig verworfen werden.

Bild: AMD-Phenom-X4-Prozessoren im Test

Der Speichercontroller kann seinerseits bis zu vier Cachelines zwischenspeichern, um Write-Commands in den Hauptspeicher zu verzögern und Read-Commands aus dem Speicher Vorrang zu gewähren. Geboten werden dabei zwei Modi: ganged und unganged, welche DDR2-Speicher bis zu einer Nennung von DDR2-1066 verwalten können.

Von bisherigen K8-Prozessoren war man gewohnt, dass der Speichertakt durch einen Teiler aus dem Prozessortakt abgeleitet wurde, was bei DDR2 zu niedrigen und "ungeraden" Takten führte. In der K10-Architektur leitet AMD den Speichertakt nun über einen Multiplikator vom Referenztakt ab, so dass unabhängig vom Prozessortakt die korrekte DDR2-Geschwindigkeit vorherrschen sollte. Abermals stellt der Speichercontroller in den AMD-Prozessoren einen wichtigen Faktor dar, welchen wir in einem eigenständigen Kapitel separat beleuchten werden.

Hyper Transport 3.0 verbreitert den Kommunikationspfad des Prozessors mit der Aussenwelt. Die 32 Bit breite Datenverbindung taktet auf AM2+-Mainboards mit 3,6 GT/s (1,8 GHz in DDR-Technologie), was 14,4 GB/s Bandbreite entspricht.

Als weitere, wesentliche Neuerung bei den K10-CPUs hat AMD sein Feature Cool’n’Quiet mit Versionsnummer 2 beigepackt. Auch hierauf wollen wir noch einmal separat eingehen. Die erwähnten Features wie HT 3.0 oder Cool’n’Quiet 2 sind jedoch nur auf AM2+-Platinen vorhanden – an dieser Stelle ist also keine Abwärtskompatibilität zum Sockel AM2 gegeben.