Помощь в написании студенческих работ
Антистрессовый сервис

Расчет квантово-химических параметров ФАВ и определение зависимости «структура-активность» на примере сульфаниламидов

ДипломнаяПомощь в написанииУзнать стоимостьмоей работы

1980;е годы были временем очень быстрого развития вычислительных методов квантовой химии. В результате появилась возможность рассчитывать геометрию и оценивать стабильность промежуточных продуктов и переходных состояний, а также вычислять профили поверхности потенциальной энергии вдоль координаты реакции. Экспериментальное получение подобной информации для большинства реакций связано… Читать ещё >

Расчет квантово-химических параметров ФАВ и определение зависимости «структура-активность» на примере сульфаниламидов (реферат, курсовая, диплом, контрольная)

РАСЧЕТ КВАНТОВО — ХИМИЧЕСКИХ ПАРАМЕТРОВ ФАВ И ОПРЕДЕЛЕНИЕ ЗАВИСИМОСТИ «СТРУКТУРА — АКТИВНОСТЬ» НА ПРИМЕРЕ СУЛЬФАНИЛАМИДОВ

  • ПЕРЕЧЕНЬ СОКРАЩЕНИЙ
    • ВВЕДЕНИЕ
    • Глава 1. МАТЕМАТИЧЕСКИЕ МЕТОДЫ РАСЧЕТА КОНСТАНТ ОРГАНИЧЕСКИХ МОЛЕКУЛ И ВИДОВ ПРОЯВЛЯЕМОЙ ФИЗИОЛОГИЧЕСКОЙ АКТИВНОСТИ
    • 1.1 История развития квантовохимических методов анализа «структура вещества — проявляемая физиологическая активность»
    • 1.1.1 Различие неэмпирических и полуэмпирических методов
    • 1.1.2 Метод Хартри — Фока
    • 1.1.3 Метод Хэнча
    • 1.1.4 Регрессионный анализ и статистические параметры
    • 1.1.5 Аддитивная модель Фри — Вильсона
    • 1.1.6 Метод Хюккеля, расширенный метод Хюккеля
    • 1.2 Современные методы анализа «структура вещества — проявляемая физиологическая активность»
    • 1.2.1 Принципы распознавания образов
    • 1.2.2 Основные понятия методов распознавания образов
    • 1.2.3 Методы кластеризации
    • 1.2.4 Программа PASS C&T
    • 1.3 Вывод
    • Глава 2. ВЫЧИСЛЕНИЕ ГЕОМЕТРИИ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ
    • 2.1 Квантовохимические методы расчета
    • 2.1.1 Расчет потенциалов ионизации
    • 2.1.2 Расчет индексов реакционной способности
    • 2.1.3 Вычисление теплот образования
    • 2.1.4 Расчет тепловых эффектов органических реакций
    • 2.1.5 Расчет поверхностей потенциальной энергии
    • 2.1.6 Силовые постоянные химических связей и частоты внутримолекулярных колебаний
    • 2.2 Вывод
    • Глава 3. СУЛЬФАНИЛАМИДНЫЕ ЛЕКАРСТВЕННЫЕ ПРЕПАРАТЫ
    • 3.1 История открытия сульфаниламидов
    • 3.2 Физические свойства сульфаниламидов
    • 3.3 Механизм действия сульфаниламидов
    • 3.4 Синтез сульфаниламидов
    • 3.5 Расчитанные параметры молекул
    • 3.5.1 Сульфаниламид
    • 3.5.2 Сульгин
    • 3.5.3 Сульфадимезин
    • 3.5.4 Норсульфазол
    • 3.5.4 Сульфафуразол
    • ЗАКЛЮЧЕНИЕ
    • СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ
    • Приложение А
    • Приложение Б
    • Приложение В
    • Приложение Г
    • Приложение Д
    • Приложение Е
    • Приложение Ж
    • ПЕРЕЧЕНЬ СОКРАЩЕНИЙ
    • В данной дипломной работе применены следующие сокращения:
    • АО — атомная орбиталь
    • МО — молекулярная орбиталь
    • ЛКАО — линейная комбинация атомных орбиталей
    • МО ЛКАО — молекулярные орбитали, представленные в виде линейных комбинаций атомных орбиталей
    • ССП — самосогласованное поле
    • ППЭ — поверхность потенциальной энергии
    • ППДП — полное пренебрежение дифференциальным перекрыванием (в зарубежной литературе CNDO)
    • ЧПДП — частичное пренебрежение дифференциальным перекрыванием (в зарубежной литературе INDO)
    • ПДДП — пренебрежение двухатомным дифференциальным перекрыванием (в зарубежной литературе NDDO)
    • ППДП/2 — полуэмперический метод, предложенный Пополом, Сантри и Сергалом, в котором использовано приближение ППДП, второй вариант
    • ЧПДП — аналогичный метод, в котором использовано приближение ППДП
    • ППДП/БУ — полуэмпирический метод, предложенный Бойдом и Уайтхедом, в котором использовано приближение ППДП
    • МПДП — полуэмпирический метод разработанный, Дьюаром и сотрудниками, в котором использовано приближение ПДДП
    • МПДП/Н — модифицированный вариант метода МПДП для расчетов параметров систем с водородными связями
    • АМ1 — новый вариант метода МПДП, разработанный Дьюаром с сотрудниками
    • ССП — самосогласованное поле
    • КВ — метод конфигурационного взаимодействия учета электронной корреляции
    • ПАБК — пара — аминобензойная кислота
    • ЖКХ — желудочно-кишечный тракт
    • PASS C&T — Prediction of Activity Spectra for Substances: Complex & Training
    • ВВЕДЕНИЕ
    • С давних лет человечество мечтает о лекарстве, которое при действии на организм обладало бы максимальной избирательностью, благодаря чему эффективно устраняется причина болезни, но не возникают нежелательные побочные эффекты. Наиболее ярко эта идея выражена в концепции «магической пули», выдвинутой основателем химиотерапии П. Эрлихом.
    • В то же время, весь накопленный к настоящему моменту опыт медицинской химии и фармакологии свидетельствует об отсутствии абсолютной специфичности действия известных лекарственных веществ: все они способны вызывать многообразные фармакологические эффекты, часть которых используется для терапии определенной патологии, а другие — являются причиной побочного действия и токсичности. Полный набор фармакологических эффектов, которые может проявить некое вещество в различных условиях эксперимента, называется спектром биологической активности данного вещества.
    • В процессе исследования нового фармакологического вещества характеристики спектра его биологической активности выявляются не сразу: некоторые эффекты обнаруживаются уже при первом тестировании «в пробирке», другие — при изучении его действия на экспериментальных животных, третьи — при проведении клинических испытаний и последующем использовании препарата в медицинской практике. Нередко новое действие выявляется у вещества, применяемого в медицине в течение многих лет. Такое открытие может стать основой для использования препарата по новому назначению. Например:
    • 1. вальпроат был первоначально предложен в качестве анксиолитика в 1961 г. и как противоэпилептическое средство — в 1989 г.;
    • 2. левамизол — как антигельминтное средство в 1968 г. и как иммуностимулятор — в 1980 г.;
    • 3. альпростадил — как антиагрегантное средство в 1988 г. и как препарат, стимулирующий эрекцию — в 1994 г.;
    • 4. аспирин был предложен в качестве анальгетика в 1899 г., а его антиагрегантное действие было открыто лишь в 1971 г.; и т. д.
    • 5. талидомид, обладающий анксиолитическим и снотворным эффектами, был введен в медицинскую практику в 50-х годах. В начале 60-х годов из-за наличия тератогенности он стал причиной врожденных дефектов у более чем 8000 новорожденных в Европе [3], что привело к запрету на его применение и ужесточению требований к исследованию безопасности лекарственных препаратов вообще. Теперь, сорок лет спустя, талидомид переживает «второе рождение». Он активно испытывается в клинике как потенциальное противоопухолевое и антиметастатическое средство, как препарат для симптоматической терапии СПИДа. Это обусловлено его недавно открытыми антиангиогенным эффектом и антагонистическим действием по отношению к фактору некроза опухоли. В сентябре 1997 года Администрация по лекарствам и пищевым продуктам США даже устроила специальное открытое совещание, посвященное современным оценкам соотношения «польза — риск» при использовании талидомида в медицинской практике.
    • Если бы можно было предсказать вероятность проявления веществом конкретных видов биологической активности заранее, то его дорогостоящее исследование в эксперименте и клинике проводилось бы более прицельно, и позволило бы выявить многие полезные и побочные эффекты на ранних стадиях изучения препарата.
    • Основа для такого предсказания известна достаточно давно, и она связана с утверждением: «Биологическая активность вещества является функцией его химической структуры «. Надо «всего лишь» выявить вид этой функции и в дальнейшем «подставить в уравнение» структурную формулу исследуемого вещества, получив в результате прогностическую оценку его биологической активности. В сущности, именно так и поступают в медицинской химии: анализируя химическое строение соединений с известной биологической активностью, выделяют элементы, «ответственные» за проявление/отсутствие того или иного эффектов, и далее «конструируют» молекулы более активных и менее токсичных аналогов. [6]
    • Рисунок 1.1 Общая структура платформы от гена до прототипа лекарства. Экспериментальные блоки показаны черным цветом, компьютерные — белым.
    • Это положение послужило основанием для выделения у химических соединений определенных факторов (дескрипторов) и установления связи, качественной (SAR) или количественной (QSAR), между ними и биологической активностью соединения. В качестве таких дескрипторов используются различные характеристики молекулы:
    • 1. топологические — фрагменты структуры (подструктурные дескрипторы), индексы атомов и связей, каппа — индексы, описывающие форму молекулы, индексы молекулярных связей (MCI);
    • 2. квантовые параметры — энергии HOMO (высшей занятой обитали) и LUMO (низшей незанятой обитали), заряды на различных атомах, электронные плотности, поляризуемости;
    • 3. параметры, относящиеся к целой молекуле — молярная рефракция, коэффициент распределения октанол — вода.
    • В данной работе будет рассмотрена возможность проведения анализа «структура вещества — проявляемая физиологическая активность» на примере соединений сульфаниламидного ряда. Сульфаниламиды относятся к лекарственным веществам противостафилакоккового направления бактериостатического принципа действия. Так же они проявляют антидиабетические, диуретические и антисептические свойства. Более подробно сульфаниламиды рассмотрены в главе 3.
    • Рисунок 1.2 Общая схема стратегии компьютерного конструирования лекарств.
    • Квантовая механика и статистическая физика в принципе позволяют дать исчерпывающее объяснение любым экспериментальным данным о реакционной способности органических соединений и предсказать возможные направления реакций, а так же виды проявляемой физиологической активности.
    • В данной работе будет рассмотрена возможность не только расчета параметров соединения, что позволит химикам — синтетикам еще до получения конкретного соединения предсказать его физико — химические свойства, но и будет предложен метод для расчета физиологической активности соединения. Ни в зарубежной, ни в отечественной литературе эти методы ранее в совокупности не рассматривались, и возможности перехода от одного к другому не исследовались.
    • Глава 1 МАТЕМАТИЧЕСКИЕ МЕТОДЫ РАСЧЕТА КОНСТАНТ ОРГАНИЧЕСКИХ МОЛЕКУЛ И ВИДОВ ПРОЯВЛЯЕМОЙ ФИЗИОЛОГИЧЕСКОЙ АКТИВНОСТИ

1.1 История развития квантовохимических методов анализа «структура вещества — проявляемая физиологическая активность»

В основе квантовой механики лежит уравнение Шредингера, играющее в ней такую же важную роль, как и уравнения Ньютона в классической механике. Также как и уравнения Ньютона, уравнение Шредингера не выведено ни из какой физической теории, а является постулатом, полученным в результате обобщения опытных фактов.

Для совокупности N взаимодействующих частиц с потенциальной энергией U и массами mk в декартовой системе координат оно имеет вид

где Ш (x, y, z, t) — волновая функция совокупности координат системы частиц и времени, U — оператор потенциальной энергии. Суммирование производится по всем частицам.

Стационарные состояния удовлетворяют не зависящему от времени уравнению Шредингера:

Параметр Е есть собственное значение стационарного уравнения Шредингера. В результате решения стационарного уравнения Шредингера находят собственные (возможные) значения параметра Е и соответствующие ему решения — собственные функции.

Для любого уравнения Шредингера, соответствующего конкретной системе, существует бесконечное множество значений параметра Е. Эти значения могут быть как непрерывными (для свободно движущейся частицы), так и дискретными, если частицы локализованы в малой области пространства. Дискретные значения Е называют уровнями энергии.

Пользуясь операторной символикой, можно записать уравнение Шредингера в сокращенной форме:

HШ = ЕШ,

где H = - оператор Гамильтона или гамильтониан системы частиц.

1970 — 1980;е годы были временем очень быстрого развития вычислительных методов квантовой химии. В результате появилась возможность рассчитывать геометрию и оценивать стабильность промежуточных продуктов и переходных состояний, а также вычислять профили поверхности потенциальной энергии вдоль координаты реакции. Экспериментальное получение подобной информации для большинства реакций связано с преодолением значительных трудностей, вызванных многостадийным характером процессов, синхронным протеканием отдельных элементарных стадий и очень малым временем жизни промежуточных продуктов. Развитие вычислительных методов квантовой химии и появление быстродействующих ЭВМ позволили рассчитывать многие характеристики органических соединений, в том числе и нестабильных, а также переходных состояний. Точность этих расчетов получается вполне удовлетворительной по термохимическим стандартам. Поэтому квантовохимические расчеты в настоящее время используются в качестве одного из физико-химических методов исследования для получения данных, необходимых для установления механизмов сложных органических реакций.

Существующие методы математического моделирования «структураактивность» могут быть условно разделены на три группы.

Первая группа основана на использовании принципа линейности свободных энергий и включает в себя такие подходы, как метод Хэнча, метод Кубиньи и «диффузионный подход» .

К этой же группе причисляют аддитивностатистические методы Фри — Уилсона, Фуйита — Бана, Каммарата — Яу и им подобные. Для построения моделей, реализующих принцип линейности свободных энергий, используются методы регрессионного анализа.

Вторая группа объединяет методы, предназначенные для получения первоначальных представлений об изучаемом явлении посредством статистической обработки всей имеющейся информации, а также преобразования ее к виду, удобному для дальнейшего использования. Эта группа методов иногда называется методами «генерации гипотез». Она объединяет такие методы, как факторный анализ во всех его модификациях, методы линейного отображения, иногда к этой группе относят и аддитивностатистические методы.

В третью группу включают методы, основанные на использовании алгоритмов теории распознавания образов, предназначенные для классификации объектов посредством разнообразных статистических и эвристических процедур. К этой группе относят различные методы дискриминантного анализа, порогового логического элемента и его модификации, методы теории алгебры логики.

1.1.1 Различие неэмпирических и полуэмпирических методов

На практике обычно пользуются как полуэмпирическими, так и неэмпирическими методами. Они различаются методикой вычисления матричных элементов, описывающих взаимодействие электронов между собой и электронов и атомных ядер в уравнениях. В полуэмпирических методах для этой цели используются приближенные эмпирические формулы и известные из эксперимента параметры атомов. В неэмпирических методах проводится непосредственный аналитический расчет матричных элементов.

Полуэмпирические расчеты в 80 — 90 годы чаще всего проводились в валентных приближениях ППДП, ЧПДП и ПДДП, ППДП/2, ППДП/БУ, МЧПДП, МПДП, АМ1 [6, 7, 8].

Характерными особенностями всех полуэмпирических методов являются следующие.

Некоторые группы электронов явным образом не рассматриваются. Например, в расчете могут учитываться только валентные электроны (валентное приближение) или только П — электроны (Пэлектронное приближение).

Некоторые члены гамильтониана не учитываются или выражаются через какие — либо эмпирические параметры.

Ряд интегралов, необходимых для расчета электронной энергии, либо принимается равным нулю, либо выражается через другие интегралы или эмпирические параметры.

Очевидно, что приближения полуэмпирических методов не могут быть произвольными. Основные положения, взаимодействия и эффекты, точно учитываемые в неэмпирических подходах, должны сохранятся и в полуэмпирических методах МО ЛКАО. С этой точки зрения возможен ряд уровней приближения.

Приближения, приводящие к тому, что результаты расчетов становятся неинвариантными относительно как вращения координатных осей, так и гибридизации АО.

Приближения, которые сохраняют инвариантность относительно вращения координатных осей, но нарушают инвариантность по гибридизации АО.

Приближения, инвариантные и относительно вращения координатных осей, и относительно гибридизации АО.

Приближения, сохраняющие инвариантность расчета при любых ортогональных преобразованиях базиса АО.

В неэмпирических методах все матричные элементы взаимодействия электронов и атомных ядер и электронов между собой вычисляются с помощью аналитического расчета необходимых интегралов в некотором базисе АО. Наиболее точно распределение электронной плотности в атомах можно передать с помощью слейтеровских АО, то есть функций типа exp (-бr), rexp (-бr), xexp (-бr), yexp (-бr). Однако со слейтеровскими орбиталями очень трудно вычислить интегралы, которые входят в фокиан для молекул. Поэтому в качестве базисных АО обычно берут гауссовы функции:

для s орбиталей: exp (-бr2);

для р орбиталей: xexp (-бr2), yexp (-бr2), zexp (-бr2);

для d орбиталей: x2exp (-бr2), y2exp (-бr2), z2exp (-бr2), xyexp (-бr2), xzexp (-бr2), yzexp (-бr2). [6, 7, 8].

Это так называемые примитивные гауссовые функции. С ними относительно легко вычислять матричные элементы, но, когда их мало, они плохо воспроизводят распределение электронной плотности в атомах и молекулах. В связи с этим гауссовых орбиталей приходится брать намного больше, чем слетеровских. Обычно используют так называемые сгруппированные базисы, в которых каждая базисная орбиталь представляет собой линейную комбинацию из нескольких примитивных гауссовых функций.

Для изучения реакционной способности и строения органических соединений наиболее широко используются базисы, предложенные Поплом и сотрудниками: минимальный базис ОСТ-3ГФ, валентно — расщепленные базисы 3−12ГФ, 4−31ГФ, 6−31 ГФ, валентно — расщепленные базисы с поляризационными орбиталями 6−31ГФ* и 6−31ГФ**, валентно — расщепленные базисы с диффузными s и р орбиталями 3−21+ГФ и 4−31+ГФ.

1.1.2 Метод Хартри — Фока

В основе современной квантовой химии лежит уравнение Шредингера для стационарных состояний. Его обычно решают в адиабатическом приближении, то есть в предположении, что ядерную и электронную волновые функции можно разделить и решать уравнения для движения ядер и электронов раздельно. В этом приближении уравнение Шредингера для электронной волновой функции записывается следующим образом:

где

Hгамильтониан системы, т. е. сумма операторов кинетической и потенциальной энергий,

= (x1, x2… xn) — волновая функция для системы из n частиц, которая зависит от их расположения в пространстве и спинов,

Еполная электронная энергия.

Однако точно решить это уравнение удается лишь в случае одноэлектронных систем. Поэтому в квантовохимических расчетах используются приближенные методы. Среди них в 80- х годах наиболее широкое распространение получил метод Хартри — Фока, или метод самосогласованного поля (ССП). В этом методе полагается, что каждый электрон движется в поле атомных ядер, положение которых фиксировано в пространстве, и в эффективном (усредненном) поле других электронов.

Основной недостаток метода Хартри — Фока — вероятность найти электрон в некоторой точке пространства не зависит от местонахождения других электронов, распределение в пространстве которых задано одноэлектронными волновыми функциями. В результате двум электронам с одинаковыми спинами не запрещено занимать одну и ту же точку пространства. В действительности электроны с одинаковыми спинами стремятся избежать находится не только в одной точке пространства, но даже близко друг от друга. Пренебрежение этим эффектом, который принято называть электронной корреляцией, приводит к существенному завышению энергии взаимодействия электронов и, как следствие, завышению полной энергии молекулы.

1.1.3 Метод Хэнча

Основное содержание метода — эмпирическая модель биологической активности, основанная на линейной зависимости свободной энергии исследуемого процесса от физико — химических параметров соединения, рассматриваемых как независимые переменные. Поэтому метод Ханша также широко известен под наименованием «соотношения линейности свободной энергии». Метод основан на предположении о существовании корреляции между факторами, определяющими биологическую активность, и физико-химическими параметрами веществ в гомологических рядах химических соединений. Кроме того, оказывается, что все физико-химические факторы, связанные с транспортными свойствами и взаимодействиями активного центра, слагаются из трех составляющих — гидрофобной, электронной и стерической. Вклад каждой из этих составляющих характеризуется с помощью соответствующих констант заместителя, описывающих различие в свойствах между первым членом гомологического ряда и рассматриваемым соединением. Гидрофобность соединения описывается логарифмом коэффициента распределения соединения между водой и фазой, моделирующей липид, обычно нормальным октиловым спиртом.

В 1964 г. Ханш и Фуджита путем сочетания двух гипотез с уравнением Гаммета вывели соотношение, нашедшее наиболее широкое применение в исследованиях связи между структурой и активностью. Они постулировали, что скорость биологического отклика (БО) является произведением трех множителей. В их число входят: А — вероятность того, что биологически активная молекула достигнет в течение заданного интервала времени рецептора, С — молярная концентрация биологически активного вещества и КХ — скорость реакции биологически активного соединения с рецептором. Произведение параметров, А и С получило наименование «эффективной концентрации» и представляет собой концентрацию вещества в зоне, прилегающей к рецептору.

Некоторые другие параметры

В исследованиях, связанных с соотношением линейности свободной энергии, был применен целый ряд других физико — химических параметров. Многие из этих параметров непосредственно дают информацию о молекулярной структуре соединения. К ним относятся, например, молекулярный вес и количество атомов определенного вида. В ряде исследований в качестве параметра использовалась молекулярная рефракция, характеризующая поляризуемость молекулы. В последнем обзоре Ханша рассмотрены параметры различных типов, спектроскопические константы и индикаторные переменные. Индикаторные параметры — это параметры, указывающие на наличие в молекуле некоторой субструктурной группы. Проводились также исследования, в которых экспериментальные параметры использовались вместе с субструктурными и индикаторными.

1.1.4 Регрессионный анализ и статистические параметры

Обычно данные биологических испытаний бывают определены со значительно меньшей точностью, чем физико-химические характеристики. Поэтому биологические данные выбирают в качестве зависимых, а физико-химические параметры — в качестве независимых переменных регрессии. Далее выполняется процедура метода наименьших квадратов, и рассчитываются статистические параметры, на основании которых можно судить об адекватности предложенной модели. Обычно регрессионный анализ осуществляется путем последовательного добавления независимых переменных и одновременной проверки характера изменения статистических критериев (метод прямого отбора). Цель такой процедуры — отыскание минимального числа переменных, достаточного для построения статистически значимой корреляционной зависимости. Автоматизированный вариант такой программы приведен в работе. Метод работает таким образом, что на каждом шаге добавляется та переменная, которая обеспечивает максимальное улучшение качества модели. И так до тех пор, пока добавление новой переменной не перестанет давать существенного улучшения точности описания экспериментальной зависимости. Аналогичным образом на каждом шаге проводится проверка каждой переменной по отдельности и исключение ранее включенных в регрессию переменных. Вся процедура отбора переменных основывается на предположении, что переменные, идентифицированные по отдельности как наилучшие, и в совокупности будут образовывать наилучший набор переменных. Такое предположение не всегда оправдывается, особенно в тех случаях, когда между переменными, имеется сильная связь.

1.1.5 Аддитивная модель Фри — Вильсона

В аддитивной модели предполагается, что биологический отклик соединения может быть представлен как сумма активностей заместителей плюс некая общая средняя активность.

Эта модель основана на предположении о том, что вклад данного заместителя, находящегося в структуре в данном положении, всегда одинаков независимо от того, в каком соединении присутствует рассматриваемый заместитель. Величины вкладов заместителей рассчитываются с помощью множественного линейного регрессионного анализа. Для построения линии регрессии необходима только информация о молекулярной структуре и биологической активности соединений, никакие физико-химические параметры не используются.

При анализе данных методом Фри — Вильсона для каждого соединения составляется линейное уравнение, а параметры рассчитываются методом наименьших квадратов. Здесь применяются те же статистические критерии, что и при анализе методом Ханша. Если рассчитанные статистические критерии являются удовлетворительными и тем самым обоснована применимость аддитивной схемы, то с помощью полученных таким образом параметров линейного соотношения можно восстановить величины биологической активности соединений, составляющих исходную выборку. При этом отдельные сильные отклонения от линейной зависимости могут быть сразу же идентифицированы. И наконец, наиболее важный результат состоит в том, что с помощью рассчитанных значений параметров можно предсказать активность соединений, образованных путем всевозможных сочетаний и перестановок исходных заместителей. Относительные вклады в биологическую активность различных заместителей, расположенных в соединении в различных положениях, могут быть упорядочены

Главный недостаток метода Фри — Вильсона заключается в том, что для описания всех заместителей требуется очень большое число переменных. К тому же иногда приходится иметь дело с вырожденными матрицами. Таким образом, при использовании метода Фри — Вильсона исследователю приходится выбирать одну из двух возможностей: либо испытывать большое количество производных, либо ограничивать количество заместителей и их положений в структуре. Результат выбора, очевидно, определяется спецификой конкретной задачи.

1.1.6 Метод Хюккеля, расширенный метод Хюккеля

Исторически метод, предложенный Эрихом Хюккелем в 1931 г., являлся первым полуэмпирическим квантово — химическим методом. В настоящее время он используется лишь для качественного объяснения свойств главным образом р — сопряженных молекул. Для количественных расчетов используется вариант данного метода, введенный в практику в 1961 г. Р. Хоффманом и получивший название расширенного метода Хюккеля. Он является простейшим, наиболее быстрым и вместе с тем наименее точным полуэмпирическим квантово-химическим методом. Его использование ограничивается в основном анализом структуры молекулярных орбиталей — определением их формы и последовательности.

Электрон — электронное взаимодействие в этом методе в явном виде не учитывается, диагональные элементы матрицы Н аппроксимируются потенциалами ионизации, взятыми с обратным знаком, а для недиагональных членов используется одно из приближений.

Рисунок 1.7.1. Вид молекулярных орбиталей HOMO (а) и LUMО (б) молекулы этилена, рассчитанных расширенным методом Хюккеля в программе HyperChem 7.0.

Подобный подход хорошо работает при расчете систем с относительно равномерным распределением заряда, например углеводородов, для которых он и был первоначально использован. Однако даже и в таких случаях бывают казусы. Например, в соответствии с предсказанием расчета, бензол должен распадаться на три молекулы ацетилена с выделением значительного количества теплоты. Что касается систем, содержащих гетероатомы, то для них более адекватным является интегративный расширенный метод Хюккеля. В этом методе уже учитывается зависимость гамильтониана от заряда на данном центре, причем зависимость полагается линейной.

1.2 Современные методы анализа «структура вещества — проявляемая физиологическая активность»

1.2.1 Принципы распознавания образов

Одна из основных предпосылок методов конструирования лекарств — предположение о том, что соединения сходной структуры имеют сходные типы биологической активности. Очень трудно дать строгое определение понятия структурного сходства, о чем свидетельствует обилие и разнообразие параметров, используемых при выводе эмпирических соотношений, связывающих структуру соединений с их биологической активностью. До сих пор наиболее распространенным методом чтения координат и методом построения таких соотношений был регрессионный анализ. Целью этого подхода является построение эмпирических соотношений, связывающих различные сочетания физических, химических или структурных параметров с биологической реакцией соединения. Этот метод особенно эффективен при исследовании не слишком длинных гомологических рядов соединений.

Методам распознавания образов посвящено множество монографий. Этот факт, несомненно, является отражением широкой применимости методов распознавания. Применение методов распознавания образов к химическим задачам началось в середине 1960;х годов в связи с масс-спектральными исследованиями. После этого аналогичные работы стали проводиться во многих других областях химии.

Одна из интересных особенностей этих методов заключается в том, что они могут иметь дело с многомерными данными, т. е. данными, в которых для представления каждого объекта используется более трех параметров. К тому же этими методами можно анализировать данные, полученные из разных источников, а также данные, связи между которыми имеют разрывный характер. При соответствующем подходе методы распознавания образов дают возможность установить критерий отбора из исходного множества данных тех параметров, которые существенны для описания исследуемых свойств. Далее с помощью этого набора наиболее значимых признаков могут быть получены указания о направлении дальнейших исследований.

1.2.2 Основные понятия методов распознавания образов

Прежде чем начать обсуждение методов распознавания образов, необходимо объяснить, что подразумевается под классификацией объекта или группы объектов. В процессе классификации формируется правило разделения группы объектов на несколько категорий, а при распознавании это классификационное правило используется для отнесения неизвестного объекта к одной из рассматриваемых категорий. Классификационное правило устанавливается в виде некоторой гипотезы, полученной в результате анализа экспериментальных данных. Проверка правильности этой гипотезы проводится путем ее испытания на объектах, не включенных в группу данных, с помощью которых было получено классификационное правило. В случае удачных испытаний гипотеза считается правильной. Процесс классификации заключается не только в выработке классификационного правила и его дальнейшего применения для распознавания. Ниже на простом примере будут продемонстрированы основные особенности задачи распознавания образов.

В качестве примера построения классификационного правила рассмотрим следующую воображаемую задачу. Предположим, что мы хотим автоматизировать процесс идентификации аномальных клеток при анализе крови в клинической лаборатории. Попробуем составить опытный проект оптической воспринимающей системы, способной отличить лейкимические клетки от здоровых на основе оптической проницаемости (рис. 2.1.1). Будем считать, что если прозрачность клетки превосходит некоторый уровень Хо, то она относится к лейкемическим клеткам.

Рисунок 2.1.1 Схема оптической системы распознавания образов

Поскольку надежность такой классификации слишком низка, необходимо искать дополнительные признаки, которые могли бы оказаться полезными при различении разных типов клеток. Предположим, что лейкимические клетки имеют более ярко выраженную клеточную структуру, чем нормальные. В этом случае можно настроить камеру на измерение контрастности образцов и таким образом получить характеристику структурированности для каждой клетки эталонного набора образцов. В результате получим двумерную диаграмму, показанную на рис. 2.1.2

Цель методов отбора признаков — добиться наибольшего эффекта наименьшим числом признаков. Сокращение количества необходимых признаков облегчает процедуру классификации и в некоторых случаях увеличивает надежность результатов.

Рисунок 2.1.2 Разделение образов клеток на два класса в пространстве двух признаков — структурированности и прозрачности клеток.

Вся процедура распознавания образов складывается из трех последовательных операций: измерения, предварительной обработки и классификации. В результате применения этих операций последовательно формируются пространство измерений, пространство признаков и классификационное правило. Разделение всей процедуры распознавания образов на три стадии является несколько условным, поскольку приемы, используемые в одной из стадий, часто с успехом могут применяться и на других этапах обработки.

Предварительная обработка

С помощью методов предварительной обработки проводится преобразование исходных данных. К методам предварительной обработки относятся: масштабирование, нормализация, преобразования кластеризации, отбор признаков, многомерный скейлинг и нелинейное отображение.

Масштабирование и нормализация

Для преобразования данных, полученных разными датчиками, к виду, удобному для обработки, необходимо выбрать масштаб и выполнить нормализацию. Эти преобразования особенно важны, когда данные получены из разных источников. В этом случае они могут отличаться на несколько порядков величины, так что большие по величине дескрипторы будут подавлять малые. Этот недостаток может быть устранен путем автоматического выбора масштаба.

После преобразования масштаба желательно таким образом преобразовать данные, чтобы измерения, дающие больший вклад в кластеризацию, имели соответственно большие веса. Одним из простейших методов такого преобразования является метод дисперсионного взвешивания.

Хотя процедуры типа масштабирования могут уменьшить эффект разнородности исходных данных, а в методе дисперсионного взвешивания признаки получают веса, соответствующие их вкладу в кластеризацию, обе эти операции изменяют исходные данные одинаково.

Одним из недостатков методов предварительной обработки данных является то, что они учитывают все признаки, в том числе и те, которые могут не иметь отношения к рассматриваемой классификационной задаче. В результате возможно попадание в весьма неблагоприятную ситуацию, особенно в том случае, если несущественные признаки будут увеличивать ошибку процедуры классификации, не говоря уже о сложности и стоимости этих преобразований. Поскольку не все признаки существенны для решения рассматриваемой задачи, необходимо найти метод уменьшения их количества. Такой метод называется отбором признаков.

В результате выполнения этих преобразований мы переходим в новое пространство, в котором интересующий нас класс имеет минимальное внутриклассовое расстояние, а дисперсионная матрица выборки данных диагональная. Признаки, имеющие наименьшие значения дисперсии (диагональные элементы дисперсионной матрицы), считаются наиболее существенными для кластеризации. «Оптимальное» подмножество данных формируется из n признаков, имеющих наименьшие значения дисперсии.

Существуют еще несколько методов отбора наиболее информативных признаков. Такие критерии, как дивергенция помогают выделить наиболее существенные дескрипторы. Некоторые из этих методов основаны на гипотезе о виде распределения данных. Если такая гипотеза ошибочна, то результаты статистического анализа могут оказаться ненадежными. Еще одно затруднение заключается в том, что для выбора наилучшего набора дескрипторов должны быть проверены все возможные комбинации исходного набора дескрипторов. Такая проверка практически трудноосуществима в случае наборов признаков, объем которых n превышает 20, поскольку число вычислительных итераций возрастает как n! Это приводит к дальнейшему снижению ценности рассматриваемых процедур. Требуются такие методы отбора признаков, которые, с одной стороны, были бы близки к оптимальным, а, с другой, не были бы сопряжены с большими объемами вычислений.

Часто необходимые сведения могут быть получены с помощью значительно более простых методов. Одним из таких методов является оценка прогнозирующей способности отдельных признаков. Прогнозирующие способности отдельных признаков могут быть рассчитаны с помощью следующего алгоритма:

1. Значения дескрипторов упорядочиваются по возрастанию.

2. Начиная с наименьшего значения, отмечают количество элементов на класс, превышающее и не достигающее этого значения.

3. Выбирают следующее по величине значение дескриптора и повторяют расчеты до тех пор, пока не будут перебраны все значения данного дескриптора.

4. Отмечают наибольший процент правильных предсказаний для всей выборки и для каждого класса.

При отборе отдельных признаков полезно сопоставить значения различных статистических характеристик системы. Так, для каждого класса без труда могут быть рассчитаны выборочное среднее, стандартное отклонение, наибольшее значение, наименьшее значение и общее количество отличных от нуля значений. Таким образом, можно составить представление об информативности анализируемых данных, а также решить вопрос о том, оправдано ли включение в систему данного дескриптора.

Еще одним полезным критерием является коэффициент корреляции. Сильно коррелированные дескрипторы могут содержать в сущности одну и ту же информацию. Если несколько дескрипторов сильно коррелированны, то можно оставить какой-либо один из них при условии, что после такого отбора общее количество информации не изменится.

Многомерный скейлинг и нелинейное отображение

Очень часто рассматриваемое преобразование приводит к тому, что множества векторов-образов, не пересекавшиеся в исходном пространстве, начинают пересекаться в пространстве меньшей размерности. Этот недостаток вызывает затруднения при объяснении структуры данных. Его можно преодолеть с помощью других, нелинейных методов понижения размерности.

К ним относятся методы нелинейного отображения и многомерного скейлинга. Основная идея заключается в отыскании такой проекции в двуили трехмерном пространстве, которая походила бы на исходное изображение. Можно использовать различные критерии сходства, однако чаще всего для этой цели используют расстояние. Обычно расстояние измеряют в евклидовой метрике, но в случае необходимости можно применить и другие метрики. Ошибка такого преобразования будет измеряться разностью расстояний в новом и старом представлениях.

Удобно описывать разность между новым и старым расстояниями с помощью такой функции критерия, которая была бы инвариантной по отношению к искажениям конфигурационных многогранников, а также к растяжениям векторов.

Помимо всего прочего многомерный скейлинг дает удобный метод визуального представления структуры данных. Это часто помогает подобрать наиболее подходящий к данному случаю метод классификации. Сфера применения методов скейлинга не ограничивается только предварительной обработкой. Если при нелинейном отображении не возникает существенных искажений исходных данных, классификация может быть проведена самим исследователем путем визуального анализа отображений на пространство низкой размерности.

Классификация

Представление о кластеризации объектов в пространстве информативных измерений является центральным в приложениях методов распознавания образов. Нахождение такого преобразования, с помощью которого можно кластеризовать исследуемую выборку и в результате получить классы объектов, обладающих заданным свойством, является общей целью процедур измерения, предварительной обработки и априорного отбора признаков. По существу, распознавание образов является методом выявления сходства между исследуемыми объектами. В результате классификации отыскиваются некоторые соотношения, характеризующие это сходство. Существует много различных методов классификации, однако в фармакологических приложениях преимущественно используются непараметрические методы. Для понимания основ непараметрических методов необходимо небольшое введение в теорию параметрических методов.

Параметрические методы классификации основаны на байесовской статистике. Эти методы формируют классификационное правило непосредственно из вероятностного распределения данных. Вид вероятностного распределения данных зависит от типа и числа датчиков, методов предварительной обработки и отбора признаков. Цель классификации заключается в максимальном увеличении доли правильных классификаций путем построения функции, определяющей границы между различными классами.

Классификатор может быть построен непосредственно из формулы Байеса

В этом соотношении X — вектор-образ, компоненты которого получены в результате работы различных датчиков. Численные значения этих компонент определяют распределение данных в N-мерном пространстве. Функция Р (Х) описывает распределение данных независимо от того, к какому классу они принадлежат. Р () — вероятность наблюдения класса Wi. Р (W/X) — условная вероятность того, что вектор X принадлежит классу Wi. P (X/Wi) — условная вероятность того, что из класса Wi будет выбран объект, описываемый вектором-образом X.

1.2.3 Методы кластеризации

Понятие о кластеризации — одно из наиболее привлекательных в классификационной задаче. Этот подход естественным образом возникает из геометрической интерпретации задачи. Смысл метода кластеризации ясен из приведенного выше примера, в котором мы искали границу, отделяющую кластер нормальных клеток от кластера аномальных клеток. Поскольку в этой задаче мы имели дело с системой низкой размерности, то достаточно было ограничиться визуальными методами построения разделяющей поверхности. Следовательно, необходимо разработать систематический подход, позволяющий дать более строгое определение кластера.

Есть несколько алгоритмов разделения множества исходных данных на кластеры. В большинстве из этих алгоритмов при выполнении кластеризации в качестве меры близости объектов используются различные способы определения расстояний. Использование расстояния в качестве меры близости является естественным, если учесть, что исследуемые объекты изображаются точками в евклидовом пространстве. Однако критерии, основанные на том или ином способе определения расстояния, являются только одним из возможных способов определения кластеров. Хартиган указал шесть типов алгоритмов кластеризации, отличающихся друг от друга способами выделения кластеров.

1.Сортировка

Объекты разделяются на кластеры в соответствии со значениями, которые принимает какой-либо существенный признак, характеризующий объекты. Затем внутри выделенных таким образом кластеров проводится дальнейшая сортировка путем анализа значений другого признака и т. д.

2.Перегруппировка

Задается некоторое начальное распределение объектов по кластерам. Далее объекты перемещают из одного кластера в другой в соответствии с каким-либо критерием, например величиной стандартного отклонения для данного кластера. Алгоритмы перегруппировки отличаются высокой скоростью, однако конечный результат иногда зависит от вида начального распределения.

3. Объединение

Сначала каждый объект исходной выборки данных выделяется в отдельный кластер. Далее отыскивается пара кластеров с наименьшим межкластерным расстоянием и объединяется в один кластер большего размера. Этот процесс продолжают до тех пор, пока не будет выполняться некоторое условие оптимальности или все объекты не окажутся в одном кластере. Для больших выборок, включающих более 1000 элементов, этот алгоритм неэкономичен, и определение оптимальных условий требует привлечения некоторых аппроксимаций.

4. Разбиение

Алгоритмы разбиения полностью противоположны алгоритмам объединения. В этих алгоритмах исходная выборка данных последовательно разбивается на все более мелкие кластеры в соответствии с некоторыми правилами (минимальный или максимальный размер, стандартное отклонение и т. д.). Трудности, возникающие при реализации этих алгоритмов, обычно связаны с выбором формы функций разбиения.

5. Добавление

Эти алгоритмы работают путем добавления элементов выборки в уже существующие кластеры. Ограниченность этих алгоритмов очевидна.

6. Поиск

Алгоритмы поиска обычно применяются к тем системам, для которых в результате математического анализа исключены многие из возможных способов разбиения на кластеры. С помощью этих алгоритмов производится такая оптимальная кластеризация системы, которая приводит к минимуму функции ошибок.

Существует много различных алгоритмов, однако ни один из них не приспособлен для решения любой из возникающих задач. Некоторые алгоритмы, например алгоритм ISODATA Болла и Холла [19,20] может осуществлять процедуры добавления, поиска, объединения и разбиения. Такие алгоритмы имеют более широкую область применения, однако ни один из них не является универсальным. К тому же многие алгоритмы являются эвристическими по своей природе, и поэтому успех их реализации, в конечном счете, зависит от мастерства исследователя. И наконец, последний недостаток методов кластеризации заключается в том, что иногда возникают трудности с отнесением неизвестного объекта к одному из уже имеющихся классов.

Несмотря на недостатки, методы кластеризации могут оказаться полезными для упорядочения систем, которые на первый взгляд кажутся совершенно неупорядоченными. Отметим также, что методы кластеризации необязательно требуют предварительной группировки объектов исследуемой выборки на классы. Алгоритмы кластеризации могут использоваться для выделения классов в выборках, способ классификации которых неочевиден. Как показано выше, алгоритмы кластеризации, основанные на различных способах определения расстояния, могут использоваться для расчета критериев подобия, для выделения существенных признаков и для преобразования исходных данных к виду, более удобному для дискриминантного анализа.

1.2.4 Программа PASS C&T

Знание известных биологически активных соединений и аналитические возможности даже самого лучшего из химиков — ограничены, и поэтому помощь специальной компьютерной системы в получении оценок по возможным видам биологической активности для различных классов соединений была бы полезной. Идея создания компьютерной системы прогноза биологической активности, на первый взгляд, выглядит достаточно просто: нужно собрать всю известную информацию о биологически активных соединениях, создать на этой основе обучающую выборку, провести анализ связей «структура-активность» для веществ из обучающей выборки и построить соответствующие зависимости. «Подставив» в эти зависимости данные о структуре нового вещества, можно получить в результате оценку его биологической активности.

Правда, традиционные подходы к анализу количественных соотношений «структура-активность» (КССА) применимы к соединениям одного и того же химического класса и, как правило, оперируют с одним видом биологической активности. Можно ли разработать подобные методы для веществ, гетерогенных как по химической структуре, так и по проявляемому ими биологическому действию?

Предложение предсказывать подобным образом спектр биологической активности вещества было впервые высказано в начале 70-х годов к.х.н. В. В. Авидоном c сотрудниками, работавшими тогда в НИИ по биологическим испытаниям химических соединений. В. В. Авидоном, совместно с к.х.н. В. Г. Блиновой, к.м.н. Е. М. Михайловским, Р. К. Казарян, к.ф.-м.н. В. С. Ароловичем и др., были разработаны оригинальные языки описания химической структуры, Тезаурус (структурированный словник) по биологической активности химических соединений, математические методы установления зависимостей «структура-активность» и прогноза свойств новых веществ; создан банк данных по биологически активным соединениям (обучающая выборка). На этой основе были осуществлены первые эксперименты по прогнозированию спектра биологической активности по структурной формуле вещества.

За истекшее двадцатилетие методы, первоначально предложенные для прогноза спектра биологической активности, претерпели существенные изменения. Эти изменения базируются как на теоретическом анализе методики прогнозирования, так и на имеющемся опыте ее применения для поиска веществ с требуемыми свойствами.

Современная версия компьютерной системы предсказания спектра биологической активности PASS C&T (Prediction of Activity Spectra for Substances: Complex & Training) реализована в 1998 году. Она включает в себя обучающую выборку, содержащую более 30 000 биологически активных веществ с известной биологической активностью, и охватывает более 400 фармакологических эффектов, механизмов действия, а также мутагенность, канцерогенность, тератогенность и эмбриотоксичность.

Математический подход, используемый в PASS C&T, выбран Д. А. Филимоновым в результате сравнительного анализа 300 различных методов. Показано, что средняя точность прогноза с помощью PASS C&T при скользящем контроле с поочередным исключением по одному соединению из обучающей выборки составляет около 84%.

Результаты прогноза выдаются либо в виде текстового файла, который может в дальнейшем обрабатываться с помощью различных текстовых процессоров, либо в виде SDF файла, который может импортироваться в ISIS/Base и добавляться к имеющейся в базе данных информации о веществах. Далее обработка результатов прогноза осуществляется стандартными программными средствами, имеющимися в ISIS/Base.

Биологическая активность описывается в PASS C&T качественным образом («да» /" нет"). Выдаваемые результаты прогноза помимо названий активности включают в себя оценки вероятностей наличия (Pa) и отсутствия каждой активности (Pi), имеющие значения от 0 до 1. Поскольку эти вероятности рассчитываются независимо, их сумма не равна единице.

Пример предсказания спектра биологической активности для препарата талидомид приведен ниже. Как видно из рисунка, известные для данного вещества виды активности (анксиолитическая, седативная, снотворная, тератогенная, модулятор цитокинов, ингибитор ангиогенеза, антагонист фактора некроза опухоли) содержатся в прогнозируемом спектре активности. Помимо этого, прогнозируется также ряд дополнительных видов активности — сердечно — сосудистый аналептик, антагонист нейрокинина, ингибитор кальпаина, и другие — которые указывают перспективные направления дальнейшего тестирования данного препарата.

Необходимо подчеркнуть, что для эффективного использования данные компьютерного прогноза должны рассматриваться специалистами с учетом имеющейся дополнительной информации.

Так, если целью исследования является поиск базовых структур лекарств, обладающих существенной, целесообразно отбирать из массива доступных веществ не те структуры, для которых величина Pa близка к единице (они могут оказаться близкими аналогами известных препаратов), а соединения с Pa<0.7. Риск получения отрицательного результата в эксперименте тем больше, чем меньше величина Pa, однако и новизна такой структуры (при подтверждении прогноза в эксперименте) будет более высокой.

Показать весь текст
Заполнить форму текущей работой