SunDay: Neues aus dem Hause Sun

Mittwoch, 7. November 2007

Am 6.11. gab sich die Firma Sun am Rechenzentrum die Ehre, die neuen Produktlinien vorzustellen und einen kleinen Ausblick auf die weitere Entwicklung zu geben. Nach einem Überblick über die verfügbaren Rackmount- und Bladecenter-Ausführungen der neuen Server, wurde die Constellation-48 samt dem größten derzeit verfügbaren IB-Switch vorgestellt. Bei den Prozessor-Architekturen bietet Sun alle Server wahlweise mit Intel Xeons, AMD Opterons oder der hauseigenen UltraSPARC T2 (Codename: Niagara 2) an.
Die neuen UltraSPARCs waren dann auch Zentrum meines Interesses. Wie schon beim Vorgänger spendierte Sun dem Prozessor 8 Cores, die wiederum 8 Threads handlen können, 2 davon parallel. Das SMT-Scheduling findet dabei, wie beim Vorgänger, pro Takt statt und mitigiert so die durch den Umstieg auf FB-DIMMs leicht erhöhte Latenz beim Speicherzugriff. Im Vergleich zum Vorgänger wurde die Zahl der FPUs von 1 auf 8 erhöht, so dass jetzt jeder Core über eine eigene Fließkommaeinheit verfügt. Der zusätzlich auf dem Chip vorhandene Platz wird von einem PCI-E Port und zwei 10/1 GB Ethernet-Chips, sowie einem kryptographischen Coprozessor beansprucht, der unter anderem mit Unterstützung für DSA, AES und ECC glänzt. Besonders stolz ist Sun auf die mit 65 – 125W überschaubare Leistungsaufnahme, bei einer Prozessortaktung von 900 MHz – 1,4 GHz.
Die HPC-Gruppe des Rechenzentrums hatte, dank der freundlichen Unterstützung der RWTH Aachen, Gelegenheit, einige Benchmarks auf der Niagara 2 zu fahren. Die durchweg gelungene Präsentation der Benchmarkergebnisse zeigte dabei, dass eine Parallelisierung bis 32 Threads sehr gut skaliert, eine weitere Parallelisierung auf bis zu 64 Threads dabei nur einen geringen Anstieg der Saturierung bringt. Ebenfalls interessant war die Untersuchung der beobachteten Einbrüche der ersten Benchmarks. Diese traten, wie zu erwarten, bei einer ungünstigen Speicherbelegung auf, da hierbei viele Speicherzugriffe durch wenige Memory-Controller mussten. Sehr gute Ergebnisse brachte dabei die Verschiebung einzelner Vektoren um Vielfache von 128 Byte. Ebenfalls messbar waren die Durchsatzeinbrüche bei Store-Operationen bedingt durch RFO. Diese treten an den kritischen Punkten auf, an denen Cache-Lines aufgrund gleicher Mappings in den 16-fach assoziativen Cache invaldiert werden müssen.