Обзор архитектуры суперкомпьютеров серии RS/6000 SP корпорации IBM
Александр Андреев (alexander@vvv.srcc.msu.su),
Лаборатория Параллельных Информационных Технологий НИВЦ МГУ
Содержание документа
- Общая архитектура суперкомпьютеров серии RS/6000 SP
- Типы узлов
- Системное ПО
- Архитектура высокопроизводительного коммутатора
- Данные IBM по производительности коммутатора
Архитектура суперкомпьютеров серии RS/6000 SP
Суперкомпьютер SP корпорации IBM - масштабируемая массивно- параллельная вычислительная система "общего назначения", представляющая собой набор рабочих станций RS/6000, соединенных высокопроизводительным коммутатором.
В узлах SP (SP nodes) в качестве ЦП в настоящее время используются RISC-процессоры POWER2, P2SC и PowerPC c различными тактовыми частотами (66, 77, 112, 120 и 135MHz). Каждый узел имеет от 64 мегабайт оперативной памяти, "локальный" жесткий диск, слоты расширения стандарта Micro Channel и, как правило, оснащен адаптером высокопроизводительного коммутатора (high perfomance switch, или SP switch).
Типы узлов SP
Существует несколько типов узлов, основными отличиями между которыми являются тип и тактовая частота ЦП, размер кэш-памяти данных первого уровня (L1), разрядности системных шин ЦП/кэш-память и кэш- память/оперативная память (см. табл.). High-узлы имеют SMP-архитектуру и содержат от 2 до 8 процессоров PowerPC 604.
Характеристики узлов SP в основном соответствуют характеристикам эквивалентных моделей рабочих станций RS/6000, приводимых в таблице.
SP node type | CPU | Nodes per frame | L1 caches, K (code/data) | Buses, bits (CPU-L1/L1-RAM) | RS/6000 equivalent |
Thin | POWER2 66MHz | 16 | 32/64 | 128/64 | 390 |
Thin2 | POWER2 66MHz | 16 | 32/128 | 256/128 | 39H |
Wide (2 cards) | POWER2 66MHz | 8 | 32/128 | 256/128 | 590 |
Wide (4 cards) | POWER2 66MHz | 8 | 32/128 | 256/256 | N/A |
Wide 2 | POWER2 77MHz | 8 | 32/128 | 256/256 | 591 |
P2SC Thin | P2SC 120MHz | 8 | 32/128 | 256/256 | N/A |
P2SC Wide | P2SC 135 MHz | 8 | 32/128 | 256/256 | 595 |
SMP High
(2,4,6,8-way) |
PowerPC 604 112MHZ | 4 | 16/16 (per CPU) | 256/256 | J40 |
В настоящее время корпорация IBM поставляет только P2SC Thin, P2SC Wide и SMP High - узлы; тем не менее среди инсталлированных сейчас систем наиболее распространенным типом узла является Thin.
Стойки (frames) содержат до 16 узлов и специальные коммутирующие платы (switch boards). Доступны конфигурации SP от 2 до 128 узлов (и до 512 по специальному заказу).
Системное ПО
Каждый узел работает под управлением ОС AIX и другого стандартного системного ПО для RS/6000; все ПО устанавливается отдельно на каждом узле. Кроме того, вместе с SP поставляется набор ПО под общим названием Parallel Systems Support Programs (PSSP), облегчающий инсталляцию, конфигурирование и администрирование системы. Параллельные приложения исполняются под управлением Parallel Operating Environment (POE). Корпорация IBM также предоставила разработчикам собственную реализацию библиотеки Message Passing Interface (MPI), оптимизированную к архитектуре RS/6000 SP.
Архитектура высокопроизводительного коммутатора
Коммуникационая сеть SP имеет многостадийную (multistage), или непрямую (indirect), структуру и основана на коммутации пакетов. Базовыми аппаратными составляющими сети являются: (1) коммуникационный адаптер (HPS Adapter), устанавливаемый в слот Micro Channel в каждом узле и (2) коммутирующая плата (switch board) в каждой стойке. На рис. 1 представлена схема сети для системы из 80 узлов или 5 стоек: коммутирующие платы непосредственно связаны каждая с каждой, причем 4 линками. Для связи большего количества узлов необходимы промежуточные коммутирующие платы (увеличивается стадийность сети). (рис. 1) (рис. 2)
На рис. 2 показана структура коммутирующей платы, состоящей из 8 коммутирующих элементов. Плата обслуживает все узлы в одной стойке; на рисунке 2 это 16 узлов типа Thin, обозначенных как P0,P1,...P15. Каждый из линков, обозначенных на рис.2 стрелками, состоит из двух физических каналов; что означает, что коммутатор поддерживает на аппаратном уровне двунаправленные обмены. Длина маршрута между любыми двумя узлами не превышает стадийности сети; это гарантирует малые величины латентности. Кроме того, между любыми двумя узлами существует по крайней мере 4 непересекающихся кратчайших пути, что существенно повышает пропускную способность, а также позволяет сети функционировать даже в случае неисправности некоторых элементов. HPS-адаптер поддерживает два протокола верхнего уровня: Internet Protocol (IP) и User Space (US). Адаптер доступен нескольким процессам в режиме IP и только одному - в режиме US. При этом пропускная способность в режиме User Space оказывается примерно в 4 раза лучше, что достигается за счет прямого доступа к памяти пользовательского процесса.
Данные IBM
Корпорация IBM предоставила такие данные по пиковой производительности аппаратного обеспечения коммутатора:
Total nodes in SP | Latency | Bi-directional bandwidth | Uni-directional |
up to 80 | 1.2 | 300 | 150 |
80 to 512 | 2.0 | 300 | 150 |
Здесь двунаправленная передача данных ровно в 2 раза быстрее однонаправленной; латентность же возрастает при увеличении стадийности сети. Оба факта вытекают из архитектуры высокопроизводительного коммутатора.
В этом же документе приводятся следующие данные по латентности и пропускной способности при использовании MPI для режимов User Space и UDP/IP высокопроизводительного коммутатора и четырех типов узлов.
Node type | Latency, US | Latency, IP | Bi-directional,US | Uni-directional,US | Bi-directional,IP | Uni-directional,IP |
Thin | 44.2 | 340 | 51.8 | 47.1 | 17.7 | 12.6 |
Thin2 | 40.7 | 293 | 86.5 | 80.5 | 23 | 15.3 |
Wide | 40.1 | 298 | 103 | 97.2 | 23.6 | 15.6 |
Wide2 | 36.7 | 255 | 112.9 | 102.9 | 28.8 | 18.8 |
Уже отсюда легко видеть, что (при использовании наиболее производительного режима - User Space) пропускные способности на различных типах узлов отличаются в 2 раза и более; величины же латентности отличаются не столь значительно.
© Лаборатория Параллельных информационных технологий НИВЦ МГУ