
Freitag, den 13. April 2007
|
|
|
AMD gibt Details zur K10-Architektur für Server, Mobile und Desktop bekannt
Im Rahmen einer Presseveranstaltung zeigte AMD heute neue Details zur im Laufe des zweiten Halbjahrs erwarteten K10-Architektur. Dabei fokussierte sich Giuseppe Amato, Technical Director, Sales and Marketing EMEA vor allem auf die zuerst erwartete Opteron-Variante, die unter dem Namen "Barcelona" firmiert. Vorweg gab es eine Kampfansage. Schon heute seien AMDs Dual-Core Opterons schneller als Intels Xeons - zumindest in bestimmten Bereichen beim Handling großer Datenmengen, z.B. in datenbankorientierten Systemen, was bei Servern ja keine Seltenheit ist. Doch AMD wollte heute zeigen, warum mit K10 die Performancekrone wieder überall zu AMD wechseln soll.
AMDs K10-Design setzt im Gegensatz zu Intels Core Mikroarchitektur nach wie vor auf dedizierte 2nd Level Caches von je 512 kB für jeden Kern. Dazu gibt es je Kern 64 kB Instruction- und 64kB Daten Level1-Caches. Ergänzt werden diese durch einen gemeinsam von allen genutzen 3rd Level Cache, der 2 MB groß ist. Dabei werden Instruktionen bzw. Daten beim Zugriffsversuch der Recheneinheiten sowohl im L1, L2 und L3 als auch in den Caches der anderen Kerne gesucht. Sofern sie nicht im eigenen L1 oder L2 liegen kommt der zentral angeordnete Memory-Controller ins Spiel, der mit seinem 32 Byte großen Prefetcher die Daten zum jeweils anfordernden Rechenkern leitet. Da AMD die Kommunikation innerhalb der CPU vollständig über das System Request-Interface abwickeln kann, entfallen bei diesem Transfervorgang Latenzen eines eventuellen FSB. Beim Verschieben aus dem L2 in den L1 wird die Cacheline im L2 als ungültig erklärt und schafft somit Platz für neue Daten. Im L3 bleiben sie für andere Kerne vorhanden. Cache-Informationen werden bei Nichtbenutzung nacheinander in den nächsten Level verschoben, bis sie schließlich vollständig verworfen werden. Der Memory-Controller kann bis zu vier Cachelines zwischenspeichern, um Write-Kommandos in den Hauptspeicher zu verzögern und Read-Kommandos aus dem Speicher Vorrang zu gewähren.
Der Speichercontroller ist im Barcelona als Dual-Channel DDR2-667 ausgelegt. Wie bei Serversystemen üblich bietet jeder Kanal 72 Bit Breite. Die Kanäle lassen sich mit unterschiedlichen Kapazitäten bestücken ohne die Dual-Channel Fähigkeiten zu verlieren. Wenn es vom Systemhersteller gewünscht wird lassen sich die beiden Kanäle auch zusammenlegen und 144Bit-DIMMs bedienen.
 Der Crossbar-Switch ist in der Lage bis zu fünf Punkt-zu-Punkt Verbindungen zwischen einzelnen Cores, Speichercontroller und Hypertransport simultan zu schalten. Durch seine Möglichkeit, bis zu acht "Master" zu verwalten ist damit auch die Option von bis zu acht Rechenkernen möglich - der für 2008 angekündigte Nachfolger "Shanghai" könnte es sein, offiziell genannt wurde es so aber nicht, es war lediglich von "Evolution" die Rede. Die Cores als solche haben Überarbeitungen erfahren, beispielhaft seien die 128 Bit breiten SSE-Einheiten genant.
Speziell vorteilhafte Implementierungen nannte Amato bei Features, die mit Virtualisierung zu tun haben. So wurde mit "Device Exclusion Vector" ein zusätzliches Bit in der Liste der je Virtueller Maschine (VM) verwalteten Speicherseiten eingeführt, mit der der Virtualisierungs-Hypervisor direkt von der CPU mitgeteilt bekommt, ob eine VM auf eine angeforderte Page zugreifen darf oder nicht. Ein Umweg über einen Softwarelayer entfällt. Ein weiteres Bit gibt es bei der den Tabellen der Translation Lookaside Buffer, die virtuelle Speicheradressen physikalischen zuordnen. Auch hier werden die Tabelleneinträge den VMs zugeordnet, so dass ein ständiges Entleeren und Neubefüllen mit den jeweils für die aktive VM bestimmten Tabelleneinträgen entfällt, weil sie beständig alle vorgehalten werden. Dazu hat AMD die Anzahl an Tabellen um den Faktor 2 vergrößert.
Auch auf die neuen Energiesparfunktionen wies Amato noch einmal hin. So kann das K10-Design die P-States für jeden Core separat, je nach Auslastung regeln. Die Cores können also unabhängig voneinander den Arbeitstakt und damit den Energieverbrauch an die Arbeitslast anpassen. Lediglich noch die Betriebsspannung orientiert sich am höchsten verwendeten P-State aller Cores und gilt für alle vier Cores. Mit einem Augenzwinkern und unter Verweis auf die Garantiebedingungen sprach man auch die OC-Möglichkeiten an: Durch die Möglichkeit die Takte je Core einzustellen könnte es bei Single-Threaded Applikationen, die die anderen drei Cores kaum auslasten möglich sein den einen verwendeten Core umso stärker zu übertakten - de Speichercontroller wird von einer eigenen PLL getaktet und ist unabhängig.
Zum weiteren Energiesparen wird aggressives Clock-Gating verwendet, also ganze Funktionsblöcke - reichend von einzelnen Flipflops bis hin zu ganzen Makroblöcken wie FPUs - bei Nichtbenutzung von der Taktleitung abgeklemmt und damit Energie gespart. Damit stellt AMD sicher, dass auch die Quad-Cores ohne Verkleinerung der Strukturen unter 65 nm noch in das gewohnte TDP-Raster von 95 bzw. 68 Watt (fürr EE-Versionen) passen. 45 nm-Nodes erteilte man in diesem Zusammenhang mit der Anmerkung "noch unnötig" damit eine klare Absage.

Doch beim Fit in die bestehenden TDP-Klassen kommen wir zu den Sockeln. AMDs kommende K10-CPUs sind sockelkompatibel zu den bestehenden Plattformen. Sowohl für den Sockel F bei Servern als auch beim Sockel AM2 für Desktops benötigt es lediglich ein BIOS-Update, um die neuen Quad-Cores zu betreiben. Zwar werden die neuen "Stars" Desktop-CPUs (die alle Namen von Sternen, wie Agena oder Kuma) tragen, den Sockel AM2+ bringen. Dieser unterscheidet sich vom Sockel AM2 der "Cities"-Codenamen darin, dass er für die Northbridge eine zweite Spannungs-Leitung liefert. Diese ist aber nicht zwingend notwendig, so dass die Sockel per se pinkompatibel sind und sowohl "neue" CPUs in "alte" Sockel passen als auch umgekehrt. Der Upgradepfad bleibt also - sofern die Mainboardhersteller passende BIOS-Versionen bieten - offen.
Im Mobilsektor bleibt es vorerst bei zwei Cores, die 65 nm "Hawk"-Turions zusammen mit der Mobilvariante des AMD 690-Chipsatzes stellt die aktuelle AMD-Plattform dar. In 2008 gibt es dann eine überarbeitete Plattform, die auch als komplettes Design an OEMs (wohl ähnlich dem Centrino-Konzept) gehen soll. Dort gibt es dann "Griffin"-CPUs mit weiteren Energiesparoptionen, DirectX 10 und Universal Video Decoding, womit unter vollständiger Entlastung der CPU HD-Videos dekodiert werden können.
Alles in allem war eine Überarbeitung der K8-Architektur bitter nötig, um gegen den starken Platzhirschen Intel wieder konkurrenzfähig zu werden. Gerade die Ideen im Bereich der Virtualisierung machen einen vernünftigen Eindruck, und aufgrund der Tatsache, dass das Design unverändert bei Servern, Desktop und im Mobilsektor zum Einsatz kommt, läßt uns gespannt ins zweite Halbjahr blicken. Wir sind gespannt, ob sich die optimistischen AMD-Äußerungen auch auf dem Teststand wiederfinden lassen. Zu wünschen wäre es AMD und auch dem Kunden. [tm]
Weitere Schlagzeilen | 
|