1

Моделирование третичной структуры белка

Data Analysis

There are no translations available.

Приветствую вас дорогие пользователи и это моя первая статья по биоинформатике, надеюсь, что она окажется для вас полезной.

Моделирование третичной (пространственной) структуры белка — одна из наиболее важных задач биоинформатики. Со времен возникновения биохимии, ученым удалось установить множество закономерностей, благодаря которым стало возможным вычислять строение и структуру белков. Однако химические и биологические свойства белков изучаются эмпирически (путем проведения лабораторных экспериментов). До сих пор, четкая корреляция между строением белковых молекул и их свойствами не выявлена. 3D-модели в будущем помогут эффективно сопоставлять теоретические и эмпирические данные, чтобы создавать искусственные белки с необходимым набором свойств.

О СТРУКТУРАХ БЕЛКОВ

На сегодняшний день, известно об официальном существовании первичной, вторичной, третичной (глобулой) и четвертичной структурах белков. Однако четвертичную структуру можно отнести к взаимодействиям между различными глобулами, поэтому она будет интересовать нас в меньшей мере.

Известно 20 видов аминокислот, которые в строительстве всех белков живых организмов.

В большинстве литературы можно встретить трехбуквенное обозначение название аминокислоты, но в биоинформатике принято использовать однобуквенную номенклатуру (FASTA-формат) для работы с наиболее перспективными программами.

A alanine
B aspartate or asparagine
C cystine
D aspartate
E glutamate
F phenylalanine
G glycine
H histidine
I isoleucine
K lysine
L leucine
M methionine
N asparagine
P proline
Q glutamine
R arginine
S serine
T threonine
U selenocysteine
V valine
W tryptophan
Y tyrosine
X any
Z glutamate or glutamine
* translation stop
- gap of indeterminate length

Обратите внимание! Несмотря на то, что количество аминокислот 20, для FASTA-формата работают все буквы английского алфавита (кроме O и J), а также два специальных символа (* и -).
B — либо аспарагин, либо аспарагиновая кислота (аспартат) в случае неопределенности;
U — селеноцистеин;
X — любая аминокислота в случае неопределенности;
Z — либо глутамин, либо глутаминовая кислота (глутамат) в случае неопределенности.

Процесс моделирования

Главной сложностью в моделировании белков является, безусловно, не построение самой трехмерной модели, а определение истинной конформации исследуемого белка. Дело в том, что в 1968 году Сайрус Левинталь вычислил, что для белка, который имеет 100 аминокислотных остатков существует приблизительно 100 в сотой степени конформаций. При это за ничтожное время (10 в -13 степени секунды), аминокислотная цепь формирует наиболее энергетически выгодный вариант. Данное явление до сих пор не находит объяснения, что является основным камнем преткновения в моделировании беловых молекул. Именно по этому, построение производится на основании гомологов из базы данных, 3D структуры которых выявлены эмпирически. Однако даже сравнение со всеми гомологами требует огромного количества времени и скорости работы системы. Именно поэтому, выгодно использовать для перебора возможных конформаций специальные сервисы, которые работают через суперкомпьютеры, предназначенные для выполнения подобных задач.

Построение модели третичной структуры белка на примере пермеазы rhodobacter sphaeroides

Пермеазы — ферментоподобные белки бактерий, участвующие в транспорте метаболитов, находятся в периплазме микробной клетки. Эти белки участвуют в облегчённой диффузии веществ в клетку бактерии. Этим путём в клетку поступает ограниченное количество соединений. Выбранный мною белок является переносчиком гидроксамата железа в клетке Rhodobacter sphaeroides.

Для построения использовался сервис I-TASSER

Работа производилась следующим образом:
1) Поиск белка по базе NCBI дал информацию о его последовательности:


MSRPAQLALAGVGLLAAALWAWAAVGLLPPGSWPSLPFRAEAMSLEQILLAFGLMPRGTVALLAGAALGLSGALLQTVLRNPVADPTTLGISSGAQLALVLSTIFAPTLLVDGRWPVAMAGAALAAALVLAVGARRAFAPVTMVIVGMLVGLTSSAIATALTLAQGEYLLSLVIWNGGSLVQQDWSGVRALALVLASGGLAAALLARPLRVLSLGAEGAASLGLRVAAVRLAGIAVAVILAGSVSAELGLIGFVGLAGPALARSLGARTIPERLMLSSLIGALLLSLCDGVVLTVAGASGEMFPTGALTGLIGGPLLIWLLPRLRGSTPPGTEAAEGPAVRLARPRPVLLALAATLVAVSLALVWIGRVPGGWVILDTQSFADFLPMRLPRLIAAASAGAALATAGALLQRLTGNPLASPEVLGVSGGAALGYALAIYLVAAPTAPLLHGATMAGGVIALALVAAYLLRREMPAERILLAGIAVSALASAVLSAMMASGDARSWAVLAWLSGSSSAVLMPGALALAAVALTLWAAALATARWLAILPLGPGVAGGLGLPLRRARVALILLAGLATGAATVLVGPLSFVGLMAPHMARRAGLARPAHHVTGAALIGALLMLLADFGARVAGFPYELPLGLFASLIGAPWLLWLLMRANR

2) Последовательность была загружена на сайт, где она анализировалась суперкомпьютерами сервиса в течение 86 часов;
3) В результате был получено 5 файлов наиболее вероятной третичной структуры данного белка, представленных в иерархическом порядке в формате pdb (Protein Date Bank). Он содержал информацию о каждой аминокислоте, об их электроотрицательности, энергии связей и т.д.;
4) С помощью специальных программ, такие как: Jmol, QuteMol, Unipro UGENE и т.д. можно было увидеть модель, составленную на основе полученного файла в формате pdb.

Вот так выглядит модель третичной структуры этого белка:



5) Кроме того, на сервисе http://zhanglab.ccmb.med.umich.edu/I-TASSER существует возможность определить элементы вторичной структуры уже в построенной глобуле.

Результат данной работы:


Заключение

Как уже было сказано ранее, связь строения белковых молекул с их функциями еще не обнаружена. Поэтому, со временем, анализ компьютерных моделей белка и свойств природных белков, позволит установить зависимость, которая сможет стать причиной революции в молекулярной биологии. Когда это случится, человечество:
— сможет синтезировать антибиотики, которые будут специфичны к конкретному виду микроорганизма;
— появится возможность подробно изучать принцип работы ферментов, белковых гормонов и т.д.;
— появится возможность изучения метаболического пути, начиная от гена и заканчивая фенотипическим признаком;
— и т.д.

 

Программы для разработки скриптов на R

Data Analysis

Last Updated on Monday, 10 September 2012 Written by Administrator

There are no translations available.

Я уже писал о своих предпочтениях среди IDE для разработки на языке Perl. Теперь попробую рассказать об аналогичных программах, предназначенных для разработки скриптов на языке R. Рассматривается только Windows-платформа.

 

Написание кода на R - полезные советы

Data Analysis

Last Updated on Thursday, 01 March 2012 Written by Administrator

There are no translations available.

Некоторые полезные функции, позволяющие облегчить работу с кодом. Более общие вещи написаны здесь .
   

Визуализация больших деревьев в R

Data Analysis

Last Updated on Tuesday, 22 March 2011 Written by Administrator

There are no translations available.

При анализе результатов крупномасштабных экспериментов часто необходимо посмотреть на результаты иерархического кластерного анализа - дендрограммы. Однако с помощью только средств R анализировать дендрограммы с сотнями объектов и длинными подписями очень неудобно.  Предлагаю альтернативное решение.
 

Полезные функции в R

Data Analysis

Last Updated on Friday, 18 June 2010 Written by Administrator

There are no translations available.

Работать в R просто. Достаточно выучить пару команд и вы уже вооружены для войны с пришельцами плодотворной работы. Но у R есть один "недостаток" - он огромен. Знать все функции просто невозможно. А в то же время уже реализована масса полезных вещей, которые сильно упрощают анализ данных и позволяют забыть об изобретении велосипеда.

В данном разделе собраны сведения о некоторых полезных функциях (или их особенностях) в языке R. Описания даны очень коротко, рекомендуется читать документацию по функциям. И еще - ваши находки оставляйте в комментариях.

 

 

   

Page 1 of 5