Проект: ИФП СО РАН/Живучесть

Обеспечение отказоустойчивого функционирования масштабируемых вычислительных систем с массовым параллелизмом.

Основные разработчики

Институт физики полупроводников СО РАН,
сектор отказоустойчивых вычислительных систем и сетей.

Ведущий научный сотрудник, д.т.н Юрий Константинович Димитриев,
Зав. сектором, к.т.н Анатолий Филиппович Задорожный,
Старший научный сотрудник, к.т.н Михаил Сергеевич Тарков,
Старший научный сотрудник, к.т.н Виктор Александрович Мелентьев.

Тип проекта
Теория и программные системы.
Краткое описание

Разработка модели отказоустойчивой параллельной программной системы и ее воплощение в архитектуре вычислительной системы (ВС) с массовым параллелизмом.

Параллельной программной системой (ППС) называем совокупность программных средств опе-рационной системы, интерфейсов и инструментальных средств, ориентированных на эффектив-ные подготовку и исполнение прикладных параллельных программ. Отказоустойчивость как свойство ППС достигается использованием особых средств на разных уровнях - от выбора алгоритма до проектирования системы.

Теория:

  1. Разработка модели представления и организации исполнения параллельной программы, адап-тирующейся к изменению выделенных ей ресурсов. Методы и алгоритмы децентрализованного динамического управления программными и аппаратными ресурсами вычислительной системы, осуществляемого в условиях потока отказов и восстановлений ее элементов. Создаваемая модель параллельной программной системы базируется на предлагаемой концеп-ции виртуальной подсистемы (ВП). Виртуальная подсистема представляет собой часть вычис-лительного комплекса (процессоры, оперативная память, периферийные устройства и т.п.), вы-деленную для выполнения параллельной программы.
  2. Разработка диагностической модели ВС, обеспечивающей автоматическое определение тех-нического состояния системы при наличии множественных отказов, когда единицей диагности-рования являются отдельные обрабатывающие модули. Исследование диагностических свойств структур ВС. Методы и алгоритмы синтеза и анализа диагностических структур; методы и де-централизованные алгоритмы самодиагностирования и самовосстановления живучих ВС (ВС с деградацией призводительности).
  3. Разработка показателей и методов оценки структурной живучести ВС в динамике изменения ее технического состояния. Методы анализа структурной живучести и многокритериальной ди-намической оптимизации структуры ВС. Алгоритмы машрутизации, основанные на использо-вании введенных показателей структурной живучести.
  4. Разработка технологии и средств параллельного программирования для масштабируемых жи-вучих ВС, поддерживающих предлагаемую модель вычислений. Технология базируется на ис-пользовании средств для описания структуры целевого программного комплекса и для его ди-намической адаптации к структуре выделенных ему физических ресурсов.

Программные системы:

Воплощение предложенной модели параллельной программной системы в средствах програм-мирования и в операционной системе, позволяющих параллельной программе в каждый момент времени оптимально использовать все исправные ресурсы системы и динамически настраивать-ся на измененные вследствие отказов ресурсы ВС.

  1. Создание распределенной операционной системы (РОС), реализующей концепцию отказо-устойчивой виртуальной подсистемы. Создание комплекса программ, обеспечивающих от-казоустойчивое выполнение совокупности совместно реализуемых виртуальных подсистем. Используемые для реализации РОС средства управления процессами и ресурсами основаны на обобщении семафоров Дейкстры.
  2. Создание комплекса программ, обеспечивающих децентрализованное диагностирование и реконфигурацию виртуальных подсистем в условиях множественных отказов на системном уровне.
  3. Создание языков параллельного программирования путем расширения соответствующих языков последовательного программирования примитивами управления процессами и ре-сурсами, образующими ядро РОС.
Область применения

Системы безаварийного управления крупными объектами, длительно протекающими научными экспериментами и долгосрочными технологическими процессами; системы глобального мониторинга; системы предсказания погоды и климатических изменений; бортовые системы различного назначения; вычислительные системы массового параллелизма.

Завершенность проекта

Элементы архитектуры отказоустойчивой параллельной ВС, реализующей концепцию вирту-альной подсистемы, апробированы при создании авторами проекта экспериментальной мульти-микропроцессорной системы МИКРОС. Разработаны и частично апробированы на системе МИКРОС средства параллельного программирования и элементы ядра базовой РОС.

Созданы языки параллельного программирования Си-С и Фортран-С.

В настоящее время модель ППС реализуется на базе мульти-транспьютерной системы ИФП СО РАН. Создается распределенная операционная система, обеспечивающая живучее функционирование, и средства параллельного программирования для мульти-транспьтерной ВС. Первая очередь проекта предполагает сдачу ВС в экспериментальную эксплуатацию и обеспечение свободного телекоммуникационного доступа к системе.

Контакты, ссылки на доп. информацию

630090 Новосибирск, проспект акад. М.А. Лаврентьева, 13, ИФП СО РАН
Димитриев Юрий Константинович;
Тел. 8-3832-333689 (раб.), 8-3832-321076 (дом), факс 8-3832-33-27-71.
e-mail dimi@isp.nsc.ru


© Лаборатория Параллельных Информационных Технологий, НИВЦ МГУ
Rambler's Top100