Новости: Лучший доклад конференции SC'99 подтверждает эффективность архитектуры Tera MTA
Лучший доклад конференции SC'99 подтверждает эффективность архитектуры Tera MTA
Премию за лучший доклад (Best Paper) на конференции SC'99 получила работа, озаглавленная "Parallelization of a Dynamic Unstructured Application using Three Leading Paradigms". Ее авторы, Leonid Oliker (NERSC) и Rupak Biswas (MRJ Technology Solutions,NASA Ames), рассказывают о параллельных реализациях вычислительного кода с динамической адаптацией сеток на трех ведущих суперкомпьютерных архитектурах - Cray T3E, SGI Origin 2000 и Tera MTA. Авторы сравнивают как производительность кода, так и дополнительные требования к оперативной памяти и удобство программирования этих систем.
Для массивно-параллельной системы T3E приложение было реализовано в парадигме передачи сообщений с помощью MPI, для ccNUMA-системы Origin2000 - как с помощью MPI, так и с использованием парадигмы общей памяти (директивы компилятора SGI), для Tera MTA - с использованием "родной" для этой платформы многопоточной парадигмы. Для сравнения был реализован последовательный код для процессора MIPS R10000, который работал 6.4 секунды.
Краткие результаты работы сведены в следующей таблице:
Система | Лучшее время, сек. | Увеличение кода | Масштабируемость | Переносимость |
---|---|---|---|---|
R10000, послед. код. | 6.4 (P=1) | 0% | Отсутствует | Высокая |
T3E, MPI | 3.0 (P=160) | 100% | Средняя | Высокая |
Origin2000, MPI | 5.4 (P=64) | 100% | Средняя | Высокая |
Origin2000, общая память | 39.6 (P=8) | 10% | Низкая | Средняя |
Tera MTA | 0.35 (P=8) | 2% | Высокая | Низкая |
Согласно результатам их исследования, наиболее эффективной для решения задач подобного класа оказалась многопоточная архитектура Tera MTA. Наибольших усилий потребовало создание MPI-версии кода, но такой код является наиболее переносимым. Создание многопоточной версии для Tera MTA оказалось наименее трудоемким, но этот код практически непереносим на другие платформы.
В данных экспериментах использовалась 8-процессорная система Tera MTA, установленная в суперкомпьютерном центре Сан-Диего. Каждый из процессоров аппаратно поддерживает до 128 потоков, каждый из которых включает счетчик команд и набор из 32 регистров. Оперативная память системы, распределенная по множеству банков памяти, доступна всем процессорам через трехмерную тороидальную сеть. Размещение данных по памяти абсолютно прозрачно для пользователей. Процессор переключается между активными потоками на каждом такте. Если какой-то поток еще не получил необходимых ему данных их памяти, процессор переключается на следующий активный поток. Такая схема оказывается более эффективной для сглаживания задержек доступа к памяти, чем использование кэшей. Кроме того, система автоматически распределяет вычислительную нагрузку по нескольким доступным процессорам. |
В следующей таблице приведены времена работы приложения при запуске различного числа потоков на 1,2,4,8 процессорах системы Tera MTA.
Процессоров | Потоков | ||||
---|---|---|---|---|---|
100 | 80 | 60 | 40 | 1 | |
1 | 2.04 | 2.22 | 2.72 | 3.82 | 150.1 |
2 | 1.06 | 1.15 | 1.40 | 1.98 | 150.1 |
4 | 0.59 | 0.64 | 0.74 | 1.01 | 150.1 |
8 | 0.35 | 0.37 | 0.41 | 0.55 | 150.1 |
Джим Роттсолк (Jim Rottsolk), президент и CEO компании Tera Computer отметил, что данная наиболее успешная работа 1999 года в области суперкомпьютинга является хорошей проверкой архитектуры Tera MTA.
В настоящее время Tera начинает перевод своих процессоров на полупроводниковую CMOS-технологию с технологии на базе Арсенида Галлия. Кроме того, в начале 2001 компания обещает предложить 64-процессорную систему Tera MTA.
Более подробная информация:
- Tera Computer Company's MTA System Stand-out Performance Subject of "Best Paper of SC99" (пресс-релиз Tera от 7 декабря).
Смотрите также:
© Лаборатория Параллельных Информационных Технологий, НИВЦ МГУ