Основные форматы данных биоинформатики

РефератПомощь в написанииУзнать стоимостьмоей работы

Первая строка должна начинаться с символа «>» и может содержать описание последовательности. Сама последовательность должна начинаться со следующей строки и может состоять из нескольких строк. A — заголовок файла; 6 — заголовок таблицы структурной информации; в — строки таблицы структурной информации. Затем — сама таблица, каждая строка которой описывает один аминокислотный остаток (рис. 4.3, в… Читать ещё >

Основные форматы данных биоинформатики (реферат, курсовая, диплом, контрольная)

Пожалуй, наиболее часто встречаемый формат файла в биоинформатике — FASTA — формат представления последовательностей (рис. 4.1), так как многие сервисы принимают последовательности в этом формате. При этом в одном файле могут сразу содержаться данные о нескольких последовательностях (каждая новая запись начинается со знака >).

Рис. 4.1. Представление последовательности в FASTA-формате:

первая строка должна начинаться с символа «>» и может содержать описание последовательности. Сама последовательность должна начинаться со следующей строки и может состоять из нескольких строк.

Последовательность представляется в однобуквенном коде Форматы файлов белковых структур. Фрагмент файла БД PDB представлен на рис. 4.2. Файл состоит из строчек различного формата. Общим для них является то, что первый тег (слово) в строке полностью определяет формат данной строки. Полное описание всех тегов (типов строк) доступно на сайте БД, здесь лишь упомянем, что, например, строки с тегами АТОМ и НЕТАТОМ содержат информацию о координатах отдельных атомов аминокислотных остатков и атомов других типов молекул соответственно. Обычно пользователь редко работает с самим файлом, поскольку вебинтерфейс сайта PDB предоставляет более удобное представление информации о белковом комплексе.

Формат файлов базы DSSP следующий (рис. 4.3):

• в начале файла идут строки с общей информацией о белке и сводная информация о вторичной структуре, такая как, например, среднее количество локальных (до /*, i + 5) водородных связей между атомами, составляющими остов полипептидной цепи (рис. 4.3, а)
• далее идет заголовок таблицы (рис. 4.3, б);
• затем — сама таблица, каждая строка которой описывает один аминокислотный остаток (рис. 4.3, в).

Рис. 4.2. Фрагменты файла PDB 3INS (разделены «…»)

Puc. 43. Фрагменты (разделены «…») файла DSSP 3INS:

a — заголовок файла; 6 — заголовок таблицы структурной информации; в — строки таблицы структурной информации.

Показать весь текст

Заполнить форму текущей работой

Другие работы

Data Mining. Поколения языков программирования

В прошлом процесс добычи золота в горной промышленности состоял из выбора участка земли и дальнейшего ее просеивания большое количество раз. Иногда искатель находил несколько ценных самородков или мог натолкнуться на золотоносную жилу, но в большинстве случаев он вообще ничего не находил и шел дальше к другому многообещающему месту или же вовсе бросал добывать золото, считая это занятие напрасной…

Реферат