Документ подготовлен 18 апреля 2005 г.

Здесь собраны данные по производительности 160-процессорного кластера Ant на процессорах AMD Opteron, полученные в марте-апреле 2005 года.


Содержание


Конфигурация кластера ANT

Характеристика Кластер ANT
Процессор AMD Opteron 248
Тактовая частота процессора 2200 МГц
Процессоров на узле 2
Объем памяти на узле 4 Гбайт
Узлов в кластере 80
Коммуникационная сеть Mellanox Infiniband Switch 84-Port
Транспортная сеть Gigabit Ethernet: ProCurve Switch 4160gl 100-Port
Сервисная сеть Fast Ethernet: HP ProCurve Switch 2524 24-Port

Использованное программное обеспечение

Была использована общедоступная параллельная реализация теста LINPACK - HPL 1.0a, которая реализована на языке Си, причем обмены между процессорами выполняются через процедуры интерфейса MPI, а вычисления на каждом процессоре - с помощью вызовов процедур BLAS. В наших экспериментах на кластере Ant в качестве BLAS использовалась библиотека ATLAS 3.6.0, откомпилированная с использованием компилятора GCC, а в качестве реализации MPI для сети Infiniband - библиотека mvapich.


Производительность процессора

На тесте LINPACK с размером матрицы 15000x15000 была получена производительность одного процессора AMD Opteron/2.2 ГГц, равная 3.8 Gflop/s (86.4% пиковой производительности).


Производительность кластера

На кластере Ant была получена максимальная производительность равная 512 Gflop/s (72.7% пиковой производительности) при решении задачи размером 160000x160000 на всех 160 процессорах. Это примерно в 134.7 раз лучше производительности на одном процессоре Opteron/2.2 ГГц (на задаче размером 15000x15000).

Результаты тестирования кластера Ant на тесте Linpack приведены на следующем графике. Здесь самый верхний график ("пик") показывает пиковую производительность кластера, второй ("идеал") - производительность при идеальной масштабируемости, последующие графики - реальную производительность кластера при соответствующих размерах задачи.


Как изменяется производительность при увеличении размера задачи?


Чему равна эффективность использования кластера?

Графики эффективности приводятся для задачи размером 15000x15000 и для размеров задач, на которых получены максимальные значения.

Из этого графика видно, что при фиксированном размере задачи эффективность падает c увеличением числа процессоров от 1 до 128. Если же одновременно увеличивать и размер задачи, то эффективность использования кластера удается существенно увеличить и удерживать на уровне примерно 90%.