Моделирование протеинов
Применение суперкомпьютеров для моделирования процесса образования белковых молекул (протеинов)
Понимание процесса сворачивания белковых молекул (протеинов) сможет открыть новые неограниченные возможности в науке и медицине. Однако моделирование процесса формирования протеина требует огромных ресурсов. Специалист в вычислительной химии Рональд Леви (Ronald Levy) создал вычислительные методы, существенно сокращающие время моделирования.
Если складывание из бумаги журавликов представляется Вам затруднительным, попробуйте проделать то же с протеинами. Как в искусстве оригами, для конструирования длинной цепи аминокислот клетки используют информацию, закодированную в генах. Затем цепь сжимается в сложную комбинацию полос, петель и спиралей.
Уникальное геометрическое строение протеинов позволяет им взаимодействовать с другими молекулами и осуществлять включение и выключение генов - например, при формировании плода или при регулировании пищеварения. Благодаря сложности их строения, моделирование свертывания, образования протеинов и взаимодействия их с другими молекулами представляет собой одну из тяжелейших задач вычислительной биологии.
Используя установленный в NCSA суперкомпьютер SGI Origin 2000, химик Рональд Леви и его коллеги в Rutgers University (Piscataway, шт. Нью-Джерси), разрабатывают намного более быстрые и точные, чем ранее, методы моделирования поведения протеинов в родной для них среде - воде.
Эти усовершенствованные модели могут понадобиться, когда проект Human Genome Project завершит расшифровку всех 100 тысяч (по приблизительным оценкам) генов человека. Сторонники генного проекта считают, что эта "Книга жизни" произведет революцию в медицине и биологии. Однако сперва ученые должны научиться ее читать. Levy надеется, что его вычислительные модели сделают генетический код ключом к разгадке структуры и функций недавно обнаруженных протеинов.
Моделирование протеинов на уровне атомов имеет свои минусы и плюсы. При этом рассчитываются силы взаимодействия атомов в протеине между собой, а также с окружающим раствором. Подобная точность приводит к большим затратам: моделирование процесса свертывания небольшого протеина на отрезке времени всего лишь в одну миллионную долю секунды может потребовать месяцы вычислений даже на современных высокопроизводительных компьютерах.
Однако учет влияния раствора довольно важен для моделирования. Молекулы воды ослабляют силы электростатического взаимодействия между атомами протеина, - силы, которые обычно гораздо больше. "В присутствии воды эти силы становятся в сто раз меньше", - объясняет Леви. - "Если пренебречь электростатикой, то можно получить неверную картину". Для того, чтобы действительно воссоздать микрокосмос протеина, модель должна учитывать эффект влияния раствора, при этом не увеличивая время вычислений. Один из путей решения этой проблемы - просто уменьшить объем вычислений путем учета взаимодействия атомов только на определенном расстоянии. "Это называется методом отсечки, но он противоречит законам физики" - говорит Леви. "Обычно отсечка таких взаимодействий происходит между 10 и 15 ангстремами, однако существенные эффекты взаимодействия существуют и на расстояниях, в десять раз больших. Включение взаимодействий на больших расстояниях дает более точное моделирование сложных систем."
Альтернативный метод, который использовал Леви, называется Periodic Fast Multipole Method ("быстрый многополевой метод"), а первоначально он был разработан в 1980-ых годах для моделирования взаимодействия звезд на больших расстояниях. "Вместо расчетов взаимодействия между каждой парой атомов, вы можете сгруппировать их вместе - и тогда нужно рассчитать взаимодействия, на основе силы, которая действует на них как на одно целое" - говорит Леви. Группировка уменьшает объем необходимых вычислений при сохранении точности.
Но даже с новым методом, учет каждого отдельного атома в растворителе все еще замедляет вычисления. Леви увеличивает скорость моделирования за счет использования "континуальной" модели растворителя, которая не учитывает каждую из молекул воды по отдельности.
Для построения континуальной модели раствора, Леви предварительно провел полномасштабный расчет, включающую каждую молекулу воды. Для крупных протеинов (10000 атомов протеина связанных с 40000 атомами воды) этот расчет занимает от 7 до 10 дней.
Леви и его сотрудники Линда Жанг (Linda Zhang) и Эмилио Галиччио (Emilio Gallicchio) описывают использование континуальной модели растворителя в трудах научной конференции Американского института физики (декабрь 1999).
Ученые смоделировали связывание молекулы MHC из иммунной системы с чужеродным протеином, что является важным этапом в процессе защиты организма от инфекции.
Вначале группа использовала 25-процессорную конфигурацию Origin 2000 для проведения полномасштабных вычислений с полной моделью растворителя. Это заняло 8 дней, но расчет мог бы длиться и 200 дней, если бы не возможности параллельной обработки. На основе результатов этих вычислений была создана более быстрая континуальная модель, которая помогла уменьшить время на последующие вычисления с 8 дней до двух минут.
Леви и его коллега Брюс Берн (Bruce Berne) из Колумбийского университета надеются еще больше ускорить вычисления путем комбинации данного метода с другим повышающим эффективность алгоритмом под названием Multiple Time Step Integrator ("Многошаговый интегратор"). Этот алгоритм использует тот факт, что при сворачивании или взаимодействии протеина с другими молекулами силы взаимодействия между атомами протеина изменяются в различной степени. Алгоритм постоянно перевычисляет изменения сил взаимодействия с большой частотой только для тесно связанных атомов. Однако для атомов со слабой связью изменения в силе взаимодействия менее существенны, поэтому столь большая частота перевычислений не требуется. Леви и Берн планируют использование этого метода для просмотра более чем 100000 потенциальных лекарств - чтобы определить блокирующее действие тромбина - вещества, участвующего в свертывании крови.
Леви надеется, что континуальная модель растворителя поможет сделать моделирование протеина полезным инструментом в биоинформатике - науке по выделению биологической информации из последовательности генных структур. Участники проекта Human Genome Project недавно заявили, что к концу 2001 года они опубликуют рабочий вариант расшифрованной генетической последовательности человека. Он будет включать в себя тысячи генов для протеинов, роль которых в организме человека в большей части еще неизвестна.
Использование для исследований стандартной техники, такой как кристалография и ядерный магнитный резонанс (NMR), может стоить около 100 тысяч долларов в расчете на один протеин. Ученым необходимы более быстрые и менее дорогие методы, и компьютерное моделирование - одно из решений этой проблемы. "Вопрос в том, какое количество информации можно получить для каждой новой последовательности и за какой период времени?" - говорит Леви.
Подробнее об этих исследованиях:
- NCSA: The Protein Solution.
Читайте другие статьи серии Суперкомпьютерные технологии рядом с нами.
© Лаборатория Параллельных Информационных Технологий, НИВЦ МГУ