Пожалуй, наиболее часто встречаемый формат файла в биоинформатике — FASTA — формат представления последовательностей (рис. 4.1), так как многие сервисы принимают последовательности в этом формате. При этом в одном файле могут сразу содержаться данные о нескольких последовательностях (каждая новая запись начинается со знака >).
Рис. 4.1. Представление последовательности в FASTA-формате:
первая строка должна начинаться с символа «>» и может содержать описание последовательности. Сама последовательность должна начинаться со следующей строки и может состоять из нескольких строк.
Последовательность представляется в однобуквенном коде Форматы файлов белковых структур. Фрагмент файла БД PDB представлен на рис. 4.2. Файл состоит из строчек различного формата. Общим для них является то, что первый тег (слово) в строке полностью определяет формат данной строки. Полное описание всех тегов (типов строк) доступно на сайте БД, здесь лишь упомянем, что, например, строки с тегами АТОМ и НЕТАТОМ содержат информацию о координатах отдельных атомов аминокислотных остатков и атомов других типов молекул соответственно. Обычно пользователь редко работает с самим файлом, поскольку вебинтерфейс сайта PDB предоставляет более удобное представление информации о белковом комплексе.
Формат файлов базы DSSP следующий (рис. 4.3):
- • в начале файла идут строки с общей информацией о белке и сводная информация о вторичной структуре, такая как, например, среднее количество локальных (до /*, i + 5) водородных связей между атомами, составляющими остов полипептидной цепи (рис. 4.3, а)
- • далее идет заголовок таблицы (рис. 4.3, б);
- • затем — сама таблица, каждая строка которой описывает один аминокислотный остаток (рис. 4.3, в).
Рис. 4.2. Фрагменты файла PDB 3INS (разделены «…»)
Puc. 43. Фрагменты (разделены «…») файла DSSP 3INS:
a — заголовок файла; 6 — заголовок таблицы структурной информации; в — строки таблицы структурной информации.