Суперкомпьютер Inspur TianHe-2A

Вальков П. И.,
ВМК МГУ,
Москва, 2018


Общая информация

TianHe-2A (TH-2A, иногда «Milkyway») - вычислительная система, расположенная в Национальном суперкомпьютерном центре в Гуанчжоу. Была спроектирована в 2013 году китайским национальным университетом оборонных технологий (NUDT) и компанией Inspur, представляет собой модернизацию системы TianHe-2 (TH-2). Являлся самым быстрым суперкомпьютером в мире в рейтинге TOP500 с июня 2013 года по ноябрь 2015 года[1].

Архитектура

Обзор модернизированной архитектуры TianHe-2А[2] стоит начать со сравнения с её предыдущей версией, TianHe-2(информацию о которой можно найти в [3]). Ниже в таблице представлены основные характеристики этих архитектур:

Компоненты

TianHe-2

TianHe-2A

Узлы и производительность

16,000 узлов с

Intel CPUs + KNC

 

17,792 узлов с

Intel CPUs + Matrix-2000

54.9 Pflop/s

 

94.97 Pflop/s

Интерконнект

10 Gb/s, 1.57 us

 

14 Gb/s, 1 us

Оперативная память

1.4 PB

 

3.4 PB

Память

12.4 PB, 512 GB/s

 

19 PB, 1 TB/s

Энергоэффективность

17.8 MW, 1.9 Gflop/s за Ватт

16.9 MW, 5 Gflop/s за Ватт

ПО

MPSS для Intel KNC

OpenMP/OpenCL для Matrix-2000

Таблица 1 Сравнение TianHe-2 и TianHe-2A

Вычислительный узел

Ключевым отличием модернизированной версии вычислительной системы TianHe-2A от её старой версии 2015 года заключается в замене ускорителей Xeon Phi на сопроцессоры собственного производства -  Matrix-2000[4]. Связано это изменение в связи с запретом властей США на поставку процессоров Intel китайским суперкомпьютерным центрам[5]. Таким образом, каждый из 17 792 вычислительных узлов TH-2A использует два процессора Intel Ivy Bridge (12 ядер с тактовой частотой 2,2 GHz) и два новых ускорителя Matrix-2000(128 ядер). Каждый узел имеет 192 GB памяти и пиковую производительность 5,3376 Tflop/s. Результатом этой комбинации является вычислительная система с 35 584 процессорами Ivy Bridge, 35 584 ускорителями Matrix-2000 и в общей сложности содержит 4 981 760 вычислительных ядра.

Каждое из 12 вычислительных ядер Intel Ivy Bridge может выполнять 8 (64-битных) FLOP за такт, что дает общую пиковую производительность 211,2 Gflop/s на процессор (12 ядер × 8 FLOP на такт × 2,2 GHz тактовой частоты). Каждое из 128 вычислительных ядер Matrix-2000 может выполнять 16 FLOP с двойной точностью за такт, что дает общую пиковую производительность 2,4576 Tflop/s для каждого ускорителя (128 ядер × 16 FLOP на такт × 1,2 GHz тактовой частоты). Энергопотребление ускорителя составляет около 240 Вт, а его размеры - 66 на 66 мм. Ускоритель поддерживает восемь каналов DDR4-2400 и имеет RISC архитектуру, расширенную набором команд ISA.

Интерконнект

Вся сетевая логика была реализована в двух специализированных интегральных схемах (ASIC): сетевой карте (NIC) и чипе сетевого маршрутизатора (NRC). Сетевая карта содержит интерфейс ×16 PCI Express 3.0 и подключается к портам, имеющим 8-полосный интерфейс SerDes 14 Gbit/s. Пропускная способность одного чипа NRC составляет 5,37 Tbit/s.

Программный стек

Модернизация TH-2A потребовала разработки и реализации стека программного обеспечения для ускорителя Matrix-2000. Этот программный стек предоставляет среду компиляции и выполнения для OpenMP 4.5 и OpenCL 1.2. В режиме ядра имеется облегченная операционная система на основе Linux со встроенным драйвером ускорителя, работающая на Matrix-2000, которая обеспечивает управление ресурсами устройства и обмен данными с центральным процессором через соединение PCI Express. ОС управляет вычислительными ядрами с помощью тщательно разработанного механизма пула потоков, который позволяет планировать задачи с низкими издержками и высокой эффективностью. В режиме пользователя имеется библиотека симметричной связи, предоставляющая такие функции как соединение (установление сокет-соединений между процессами на разных узлах сети), обмен сообщениями (обмен короткими сообщениями, чувствительными к задержке, такими как команды и операции синхронизации), и операции RMA (для передачи больших объемов данных, оптимизированные для задач, чувствительных к пропускной способности).

Результаты производительности на бенчмарке Linpack

Рисунок 1 Прогон теста HPL на суперкомпьютере TianHe-2A на разном числе узлов

Производительность суперкомпьютера на ноябрь 2018 года по информации из списка Top500[1]:

·      Теоретическая производительность: 100,679 TFlop/s

·      Реальная производительность: 61,444.5 TFlop/s

Ссылки

1.     Информация о TianHe-2A на сайте top500: https://www.top500.org/system/177999

2.     Обзор TianHe-2A от Jack Dongarra: http://www.icl.utk.edu/files/publications/2017/icl-utk-970-2017.pdf

3.     Обзор TianHe-2 от Jack Dongarra: https://www.netlib.org/utk/people/JackDongarra/PAPERS/tianhe-2-dongarra-report.pdf

4.     Обзор ускорителя Matrix-2000: https://en.wikichip.org/wiki/nudt/matrix-2000

5.     Информация о TianHe-2A: http://i.cons-systems.ru/u/73/9379d22eba11e5ab71f9a9cda70bf5/-/Tianhe-2.pdf