Помощь в написании студенческих работ
Антистрессовый сервис

Основные форматы данных биоинформатики

РефератПомощь в написанииУзнать стоимостьмоей работы

Первая строка должна начинаться с символа «>» и может содержать описание последовательности. Сама последовательность должна начинаться со следующей строки и может состоять из нескольких строк. A — заголовок файла; 6 — заголовок таблицы структурной информации; в — строки таблицы структурной информации. Затем — сама таблица, каждая строка которой описывает один аминокислотный остаток (рис. 4.3, в… Читать ещё >

Основные форматы данных биоинформатики (реферат, курсовая, диплом, контрольная)

Пожалуй, наиболее часто встречаемый формат файла в биоинформатике — FASTA — формат представления последовательностей (рис. 4.1), так как многие сервисы принимают последовательности в этом формате. При этом в одном файле могут сразу содержаться данные о нескольких последовательностях (каждая новая запись начинается со знака >).

Представление последовательности в FASTA-формате.

Рис. 4.1. Представление последовательности в FASTA-формате:

первая строка должна начинаться с символа «>» и может содержать описание последовательности. Сама последовательность должна начинаться со следующей строки и может состоять из нескольких строк.

Последовательность представляется в однобуквенном коде Форматы файлов белковых структур. Фрагмент файла БД PDB представлен на рис. 4.2. Файл состоит из строчек различного формата. Общим для них является то, что первый тег (слово) в строке полностью определяет формат данной строки. Полное описание всех тегов (типов строк) доступно на сайте БД, здесь лишь упомянем, что, например, строки с тегами АТОМ и НЕТАТОМ содержат информацию о координатах отдельных атомов аминокислотных остатков и атомов других типов молекул соответственно. Обычно пользователь редко работает с самим файлом, поскольку вебинтерфейс сайта PDB предоставляет более удобное представление информации о белковом комплексе.

Формат файлов базы DSSP следующий (рис. 4.3):

  • • в начале файла идут строки с общей информацией о белке и сводная информация о вторичной структуре, такая как, например, среднее количество локальных (до /*, i + 5) водородных связей между атомами, составляющими остов полипептидной цепи (рис. 4.3, а)
  • • далее идет заголовок таблицы (рис. 4.3, б);
  • • затем — сама таблица, каждая строка которой описывает один аминокислотный остаток (рис. 4.3, в).
Фрагменты файла PDB 3INS (разделены «...»).

Рис. 4.2. Фрагменты файла PDB 3INS (разделены «…»)

Puc. 43. Фрагменты (разделены «...») файла DSSP 3INS:

Puc. 43. Фрагменты (разделены «…») файла DSSP 3INS:

a — заголовок файла; 6 — заголовок таблицы структурной информации; в — строки таблицы структурной информации.

Показать весь текст
Заполнить форму текущей работой