Основная информация по работе на суперкомпьютере "Чебышёв"

На суперкомпьютере используется система управления очередями Cleo, информацию об основных командах смотрите ниже. Узлы суперкомпьютера разделены на несколько разделов (очередей). Основная очередь - regular. Есть раздел test, предназначенный для отладки приложений. Список очередей на кластере "Чебышёв" можно посмотреть на странице "Текущая конфигурация кластера"

Ваш домашний каталог является сетевым и доступен на вычислительных узлах.

На суперкомпьютере используется пакет mpi-selector для управления окружением компиляции и запуска. Перед началом работы  Вам необходимо выбрать компилятор и реализацию MPI из списка доступных. После этого нужно открыть новую сессию на суперкомпьютер. Ваш выбор будет сохранён между сессиями.

Например, для компиляции программы компилятором Intel с IntelMPI, выполните команду:

mpi-selector --set intel_mpi_intel64-4.0.1.007

Обратите внимание, точные имена профилей могут отличаться.

Получить список активных подулей можно командой mpi-selector --list.

Запуск (точнее, постановка в очередь) осуществляется командой cleo-submit или mpirun. Команда cleo-submit настроена по умолчанию на запуск mvapich-приложений, если вы используете mpich, OpenMPI, IntelMPI или не используете MPI, укажите ключ -as mpich, -as openmpi, -as intel или -as single соответственно.

По умолчанию во всех командах используется очередь, указанная в переменной QS_QUEUE. Значение этой переменной можно изменить в файле ~/.bash_profile командой "export QS_QUEUE=queue_name".

Например, запуск MPI-приложения на 1024 ядра:

cleo-submit -np 1024 path/to/my/application

Часто используемые ключи команды cleo-submit:

-np NNN - число требуемых ядер (MPI-процессов)

-t ppn=NNN - число MPI-процессов на узел

-q NAME - имя раздела (очереди)

-maxtime MINS - лимит времени работы задачи в минутах

-stdout/-stderr/-stdin - перенаправление ввода/ошибок/вывода в файл

Например, если вам необходимо запустить задачу гибридную MPI+OpenMP программу на 512 ядер, но на каждом узле запустить только 2 MPI-процесса, используйте ключи -np 512 -t ppn=2. Для запуска в очереди test используйте ключ -q test.

Просмотр задач в очереди - командой tasks. С ключом -l будет выдана более подробная информация. Снять задачу со счёта или из очеред можно командой tasks с ключом -d. Подробнее о командах можно узнать в документации командой man имя_команды.

Если ваша задача требует немного временя для счёта, укажитя явно лимит её работы ключом -maxtime. В этом случае, задача может быть запущена до того, как она дойдёт до начала очереди, если ожидаемое время запуска других задач существенно не изменится.

Например, пусть на кластере свободно 8 процессоров, а в очереди уже стоит задача на 32 процессора (но все 32 процессора в ближайшие 7 часов не освободятся). Тогда если поставить в очередь короткую 4-процессорную задачу, указав максимальное время:

    mpirun -np 4 -maxtime 10 program

то эта задача сразу пойдет на счет. Таким образом, вычислительные ресурсы будут распределяться более оптимально.

После постановки задачи в очередь пользователь может отключиться от терминала, а затем в любой момент подключиться к системе и просматривать результаты прежде запущенных задач. Командой cleo-attach можно подключиться к виртуальному терминалу задачи, как если бы она была запущена в этом терминале напрямую - это может быть нужно для интерактивных задач.

Просмотр результатов

По окончании работы задачи пользователю выдается сообщение на терминал (в дальнейшем будет организовано также оповещение по электронной почте). Выдача программы помещается в файл в рабочей директории с именем <задача>.out-<номер>. Кроме того, создается файл отчета <задача>.rep-<номер>, где указываются следующие данные: командная строка при запуске задачи, число процессоров, код возврата, имя выходного файла, рабочая директория, астрономическое время работы программы, имена узлов, на которых была запущена программа.