Обзор архитектуры многопроцессорных серверов HP 9000 V-class
Александр Андреев (alexander@vvv.srcc.msu.su),
Лаборатория Параллельных Информационных Технологий НИВЦ МГУ
19 августа 1998
Содержание документа
- Системная архитектура сервера HP 9000 V-Class.
- Архитектура PA-RISC и процессор PA-8200
- Системное ПО серверов HP 9000.
Системная архитектура сервера HP 9000 V-Class
Cервера серии HP 9000 обеспечивают все преимущества высокопроизводительных масштабируемых систем, поддерживая при этом традиционную модель программирования. Эта модель позволяет разработчикам, компиляторам и приложениям рассматривать сервер как MIMD-систему или набор процессоров, разделяющих большую физическую память и набор высокоскоростных портов ввода/вывода.
В настоящий момент существуют две модели класса V: V2200 и V2250. Модель V2200 (анонсирована в Ноябре 1997 г.) поставляется с процессорами PA 8200/200MHz, а модель V2250 (анонсирована в Марте 1998 г.) - с процессорами на частоте 240MHz.
Сервер HP 9000 V-class содержит:
- До 16 (на настоящий момент) процессоров PA-8200, (с 240MHz-процессором пиковая производительность системы достигает 15.36 Gflops).
- До 16GB оперативной памяти (cуммарная скорость обменов с памятью составляет 15.3 GB/sec).
- До 24 контроллеров В/В стандарта PCI (пропускная способность каналов В/В достигает 1.9 GB/sec).
Основные компоненты системы
На следующем рисунке показаны основные компоненты системы класса V
рис.2
16-процессорная система класса V состоит из следующих основных компонент
- 8 базовых процессорных блоков (Processing Resource Blocks), каждый из которых включает в себя 2 процессора PA-8200, вместе с модулями кэш-памяти первого уровня и устройство транспортировки данных (DataMover)
- Коммутатор (Hyperplane crossbar),соединяющий процессорные блоки и каналы B/B с памятью
- 2 или 8 плат памяти, построенных на микросхемах SDRAM
- 8 каналов B/B стандарта PCI, каждый из которых может обслуживать до 3 PCI-контроллеров
Коммутатор Hyperplane
Подсистема памяти основана на коммутаторе (Hyperplane crossbar), который обеспечивает очень высокую скорость обменов с памятью. Архитектура коммутатора позволяет осуществлять доступ из множества параллельно работающих процессоров и каналов ввода/вывода к платам памяти без блокировок. Использование коммутатора позволяет не допускать падения производительности с ростом числа процессоров, неизбежного в случае систем с общей шиной.
8 портов коммутатора обслуживают до 8 процессорных блоков (через агенты транспортировки данных) и 8 "противоположных" портов подключены к платам памяти (через контроллеры памяти).
Коммутатор работает на частоте 120MHz. Ширина пути между агентом и контроллером памяти составляет 64 бит. Таким образом, пропускная способность одного порта коммутатора по каждому направлению составляет 960 MB/sec. Коммутатор работает без блокировок, т.е. все 8 портов могут передавать и принимать информацию одновременно (если при этом два агента не обращаются к одному контроллеру памяти). Таким образом, пиковая пропускная способность всего коммутатора составляет 15.36 GB/sec.
Организация памяти
В серверах HP 9000 V-class память организована в единый массив - в этом отличие архитектуры Exemplar, например, от архитектуры S2MP SGI Origin, в которой у каждого процессора имеется собственная локальная память.
Высокая производительность подсистемы памяти обеспечивается тем, что память составляется из модулей, которые реализованы по технологии DIMM (Double In-line Memory Module). Эти модули, ориентированные на 64-разрядные процессоры, имеют большее число контактов (168) по сравнению со стандартными для ПК модулями типа SIMM, и существенно более высокую производительность. Память собирается из базовых 128-Мегабайтных модулей DIMM, которые равно распределены между контроллерами памяти. На каждой плате памяти может быть установлено до 4 модулей DIMM, и на каждый контроллер приходится 128, 256, 384 или 512 Мегабайт памяти.
Степень расслоения памяти определяется количеством плат памяти, а не числом модулей DIMM. Каждый контроллер памяти дает 4-кратное расслоение, так что в полной конфигурации с 8 контроллерами получается 32-кратное расслоение, которое не зависит от реального объема имеющейся памяти.
© Лаборатория Параллельных информационных технологий НИВЦ МГУ