Высокопроизводительный Linux-кластер на базе коммуникационной сети SCI. Описание конфигурации и другая техническая информация.


Введение

За основу для построения кластера взято интегрированное кластерное решение Wulfkit, разработанное компаниями Dolphin Interconnect Solutions и Scali Computer (Норвегия). В 1999 году это решение было апробировано в московском НИЦЭВТе (Научно-исследовательском Центре Электронно-вычислительной техники, Москва), который и был пионером использования технологии SCI для построения параллельных систем в России.

Кластер состоит из двухпроцессорных узлов с процессорами Pentium III. Узлы объединяются в двухмерную решетку с помощью высокоскоростной сети SCI. В качестве служебной сети используется Fast Ethernet. Дополнительно установлен однопроцессорный компьютер, используемый в качестве головной машины для загрузки задач на кластер, а также файл-сервер с RAID-массивом. Установлена рабочая станция, ориентирована на задачи визуализации.

Примерная стоимость одного узла кластера на время покупки (начало 2000 года) составляла 3200 у.е., из которых примерно половину составляла стоимость коммуникационного оборудования Wulfkit.

На узлах и файл-сервере установлена свободно-распространяемая ОС Linux (дистрибутив - RedHat Linux 7.2). Коммуникационного среда SCI работает под управлением програмного обеспечения Scali Software Platform 2.1.

16 узлов кластера объединены в двухмерную решетку 4x4 и имеют символические имена вида sciX-Y, где X - номер по горизонтали и Y - номер по вертикали (X,Y = 1..4).

Логическая схема кластера на 18 узлов (GIF, 25 Кбайт).

Каждый узел имеет однонаправленную связь со следующим по горизонтали и по вертикали (последний имеет связь с первым). Таким образом, каждый узел присутствует в двух однонаправленных кольцах, за организацию обменов по которым отвечают основная и дочерняя карты SCI. SCI-контроллеры в составе Wulfkit обеспечивают маршрутизацию между кольцами на аппаратном уровне. В случае выхода одного из узлов из строя, обеспечивается автоматическая перенастройка маршрутизации и вся остальная сеть продолжает работать.


Аппаратное обеспечение

Конфигурация узла

  • Материнская плата ASUS P2B-D, чипсет 440BX, системная шина 100 МГц;
  • 2 процессора Pentium III/500 МГц, кэш второго уровня 512 Кбайт (на новых узлах - 550 МГц);
  • 1 Гбайт оперативной памяти SDRAM (4 модуля DIMM по 256 Мбайт);
  • Жесткий диск IDE 4.3 Гбайт Quantum (на новых узлах 10 Гбайт Fujitsu);
  • Видео-контроллер S3 3D VIRGE;
  • Адаптер Fast Ethernet - Intel Pro/100+ management adapter;
  • Основная и дочерняя карты SCI (D311/D312), два кабеля SCI.

Сетевая инфраструктура

  • 24-портовый коммутатор Fast Ethernet - SuperStack II 3300.

Дополнительная аппаратура

  • Электронный переключатель для монитора/клавиатуры на 6 позиций каждый
  • 5 механических переключателей для монитора/клавиатуры на 4 узла каждый.
  • Три металлических стеллажа для установки узлов.
  • Источники бесперебойного питания Powercom - 3 штуки SmartKing 2000A и 1 штука 800A.