Применение статистических методов для прогнозирования выживаемости больных, перенесших инфаркт миокарда
Несмотря на успехи современной медицины, инвалидизация и смертность от сердечно-сосудистой патологии возрастают, в основном, за счет больных хронической сердечной недостаточностью, одной из главных причин которой остается инфаркт миокарда. Исследования последних лет показали, что увеличение смертности происходит, главным образом, среди мужчин молодого и среднего возраста. Это ставит проблему… Читать ещё >
Применение статистических методов для прогнозирования выживаемости больных, перенесших инфаркт миокарда (реферат, курсовая, диплом, контрольная)
Санкт-Петербургский государственный университет Факультет прикладной математики — процессов управления
Кафедра управления медико-биологическими системами
Применение статистических методов для прогнозирования выживаемости больных, перенесших инфаркт миокарда
Никифоров Вячеслав Игоревич
Заведующий кафедрой, доктор физ.-мат. наук,
профессор Александров А.Ю.
Научный руководитель, кандидат физ.-мат. наук,
доцент Платонов А.В.
Рецензент, кандидат физ.-мат. наук,
доцент Дорофеев Б.В.
Санкт-Петербург, 2012
1. Введение
2. Постановка задачи
3. Краткое описание математического аппарата
3.1 Оценка выживаемости по методу Каплана-Майера
3.2 Модель Кокса
3.3 Логранговый критерий
3.4 Критерий Шапиро-Уилка
3.5 Однофакторный дисперсионный анализ
3.6 Логистическая регрессия
4. Результаты анализа
5. Заключение
6. Список литературы
1. Введение
Инфаркт миокарда — одна из клинических форм ишемической болезни сердца, протекающая с развитием ишемического некроза участка миокарда, обусловленного абсолютной или относительной недостаточностью его кровоснабжения. Основной причиной заболевания является нарушение кровотока через венозную артерию. Причина этому — атеросклероз стенок сосуда.
Несмотря на успехи современной медицины, инвалидизация и смертность от сердечно-сосудистой патологии возрастают, в основном, за счет больных хронической сердечной недостаточностью, одной из главных причин которой остается инфаркт миокарда. Исследования последних лет показали, что увеличение смертности происходит, главным образом, среди мужчин молодого и среднего возраста. Это ставит проблему профилактики и лечения инфаркта миокарда, а также выявления ранних стадий сердечной недостаточности в разряд приоритетных для здравоохранения и военно-медицинской службы.
Значительное снижение госпитальной составляющей после открытия блоков интенсивной терапии, внедрения тромболизиса и кардиохирургических вмешательств полностью не решает возникших проблем. На догоспитальном этапе умирает почти половина (до 47,8%) молодых пациентов. У них чаще, чем у пожилых больных, выявляются осложненные формы инфаркта миокарда, приводящие к развитию хронической сердечной недостаточности, которая обусловливает потерю трудоспособности, увеличение социальных проблем, а также является главной причиной летальности в постинфарктном периоде. Все это заставляет признать «злокачественным» течение инфаркта миокарда у молодых пациентов.
Поэтому изучение проблем профилактики, лечения инфаркта миокарда и выявления ранних признаков сердечной недостаточности у людей молодого и среднего возраста представляется крайне актуальным. Проводя статистические исследования, можно увидеть, какие факторы (привычки, хронические болезни, окружающая среда и т. п.) способствуют развитию сердечно-сосудистой недостаточности, какие профилактика и лечение наиболее эффективны, в каких регионах и для какой профессии риск появления инфаркта миокарда выше, что чаще всего приводит к осложнениям и множество других не менее важных критериев.
В настоящей работе проанализированы характер выживаемости, выявлены факторы, оказывающие наибольшее влияние на выживаемость, а также построены регрессионные модели для прогнозирования риска смерти и исхода (выжил/умер).
2. Постановка задачи Было проведено ретроспективное изучение 791 доступных для анализа больных инфарктом миокарда. Для каждого больного имеется информация о количестве прожитых дней до выписки или до смерти. Требуется проанализировать характер выживаемости, какие периоды наиболее критичны, какие факторы оказывают наибольшее влияние на выживаемость, а также построить регрессионные модели для прогнозирования риска смерти и исхода (выжил/умер). Для прогнозирования выживаемости и оценки влияния рассматривались некоторые количественные и качественные факторы. Качественные факторы представлены в таблице 1 в количественном соотношении. Количественные факторы представлены в таблице 2 в виде среднего и среднеквадратического отклонения.
Таблица 1. Характеристика больных инфарктом миокарда
Показатель | |||
Пол (м/ж) | |||
Трансмур (½) | |||
Сидячий образ жизни (нет/да) | |||
СД (½) | |||
ПарМА (½) | |||
ЧастПрост (½) | |||
ОНМКвАн (½) | |||
ГЛЖ (½) | |||
ПБПНЛГ (½) | |||
GR_OIM (½) | |||
Таблица 2. Характеристика больных инфарктом миокарда
Показатель | Среднее | Стандартное отклоненние | |
Возраст | 13,2 | ||
АДсист | |||
ЧСС | |||
Creatin | 0,09 | 0,04 | |
Gluc | 6,9 | 2,4 | |
ФУ1 | 26,5 | 11,1 | |
СИ1 | 2,6 | 1,07 | |
Рла1 | 35,5 | 18,2 | |
ЧСС1 | 80,89 | 21,74 | |
Pсрлао (Адср)1 | 104,14 | 21,73 | |
ИСПСН1 | 21,19 | ||
ИндНор1 | 9,78 | 3,69 | |
Статистическая обработка результатов была проведена с помощью пакетов прикладных программ «Statistica for Windows, Release 8.0. StatSoft, Inc.» и «SPSS for Windows, Release 13».
3. Краткое описание математического аппарата
3.1 Оценка выживаемости по методу Каплана-Майера
Функция выживаемости — это характеристика случайной величины, которая привязывает некоторое множество событий (в данном случае смерть) к времени. Функция выживаемости показывает вероятность того, что пациент не умрет к определенному времени. Сама же случайная величина показывает время смерти.
В медицинской практике часто имеют дело с неполными/цензуированными данными. Это связано с тем, что трудно наблюдать все время жизни пациента после операции, так как пациент мог быть выписан или переведен в другую клинику и связь с ним была утеряна. При этом мы располагаем не полной информацией о времени жизни пациента, а лишь частичной. Для цензурированных наблюдений времен жизни, функцию выживания можно оценить непосредственно.
Разделим весь промежуток времени, в течение которого ведутся наблюдения за пациентами, перенесшими инфаркт миокарда, на периоды, .
Для каждого периода оценим вероятность пережить этот период. Такой оценкой будет отношение числа переживших этот момент к числу наблюдавшихся к этому моменту.
Оценка функции выживания вычисляется по формуле
где — число пациентов, наблюдавшихся к моменту времени, исключая выбывших, - число пациентов, для которых произошёл исход (смерть пациента) в момент времени .
Заметим, что имеет смысл перемножать значения только для тех моментов времени, когда произошёл хотя бы один исход, потому что, если, то, а умножение на единицу никак не влияет на оценку функции выживания [4, с. 96].
В анализе выживаемости часто применяется и функция риска равная вероятности погибнуть в момент времени t при условии, что до него дожили.
3.2 Модель Кокса Для анализа влияния различных количественных факторов использовалась пропорциональная модель Кокса, сначала унивариантный (один влияющий фактор) анализ, а затем мультивариантный анализ (несколько влияющих факторов).
Пусть для каждогого пациента имеется набор данных, где n — объем выборки, -вектор значений влияющих факторов, — время жизни, — индикатор цензуирования, который принимает значение 1, если наблюдение полное и 0, если цензуированное.
Модель Кокса может быть представлена в следующем виде:
.
В вышеупомянутом выражении — функция риска, зависящая от определенных значений вектора x, — вектор коэффициентов регрессии; определяется как базовая функция риска, то есть, это — уровень риска, когда значения для всех переменных (то есть, в x) равны нулю [2, с. 70].
Для определения вектора коэффициентов максимизируют логарифм функции частичного правдоподобия:
.
В качестве базовой функции риска используют непараметрическую оценку
.
В нашей модели. Значимость коэффициентов регрессии проверяется при помощи статистики Вальда
.
Здесь — стандартная ошибка коэффициента. Величина W распределена приближенно по закону хи-квадрат с одной степенью свободы.
Значимость регрессии определяется при помощи отношения правдоподобия Здесь — функция правдоподобия для модели со всеми, а — функция правдоподобия модели, в которой все равны 0. LR имеет распределение хи-квадрат с k степенями свободы (k — количество объясняющих переменных).
Зная функцию можно оценить функцию выживания :
где .
3.3 Логранговый критерий
Различия выживаемости между группами больных оценивались при помощи кривых Каплана-Мейера и логрангового критерия.
Пусть даны две группы больных разделенных по какому-либо признаку. Назовем нулевой гипотезой гипотезу о том, что выживаемость в группах одинакова и различия случайны, т. е. функции выживаемости
и ,
соответственно, неразличимы.
Здесь и — число объектов, наблюдавшихся к моменту времени, исключая выбывших, из первой и второй групп; и - число объектов, для которых произошёл исход (смерть пациента) в момент времени в первой и второй группах.
Ожидаемое число исходов в момент времени для первой выборки вычисляется по формуле:
где - общее число исходов в момент времени в обеих выборках,
— число объектов, доживших до момента времени, исключая выбывших, в обеих выборках.
Аналогично вычисляется ожидаемое число исходов в момент для второй выборки:
Статистика логрангового критерия имеет вид
где
Величина распределена приближенно по закону хи-квадрат с одной степенью свободы. Если, то гипотеза отвергается. Здесь - -квантиль распределения хи-квадрат с одной степенью свободы [1, с. 386].
3.4 Критерий Шапиро-Уилка Критерий Шапиро-Уилка используется для проверки гипотезы: «случайная величина распределена нормально» и является одним наиболее эффективных критериев проверки нормальности.
Пусть задана выборка
Статистика критерия имеет вид:
где
Коэффициенты берутся из таблиц.
Если, то нулевая гипотеза о нормальности распределения отклоняется при уровне значимости Критические значения статистики также находятся таблично.
3.5 Однофакторный дисперсионный анализ Пусть — i-й элемент () k-й выборки (), где m — число выборок, — число данных в k-й выборке. Тогда — выборочное среднее k-й выборки — определяется по формуле:
Общее среднее вычисляется по формуле:
где Основное тождество дисперсионного анализа имеет следующий вид:
где — общая сумма квадратов отклонений наблюдаемых значений от общего среднего , — сумма квадратов отклонений выборочных средних от общего среднего (сумма квадратов отклонений между группами, или межгрупповая дисперсия), — сумма квадратов отклонений наблюдаемых значений от выборочной средней (сумма квадратов отклонений внутри групп, или внутригрупповая дисперсия).
Расчет этих сумм квадратов отклонений осуществляется по следующим формулам:
В качестве критерия необходимо воспользоваться критерием Фишера:
Если расчетное значение критерия Фишера будет меньше, чем табличное значение — нет оснований считать, что независимый фактор оказывает влияние на разброс средних значений, в противном случае, независимый фактор оказывает существенное влияние на разброс средних значений (л — уровень значимости, уровень риска).
3.6 Логистическая регрессия Логистическая регрессия применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится так называемая зависимая переменная, принимающая лишь одно из двух значений — как правило, это числа 0 (пациент выжил) и 1 (пациент умер), и множество независимых переменных (также называемых признаками, предикторами или регрессорами) —вещественных, на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной Делается предположение о том, что вероятность наступления события равна:
где, и — вектора-столбцы значений независимых переменных и параметров (коэффициентов регрессии) — вещественных чисел, соответственно, а — так называемая логистическая функция Для подбора параметров обычно используется метод максимального правдоподобия, согласно которому выбираются параметры, максимизирующие значение функции правдоподобия на обучающей выборке:
Значимость регрессии определяется при помощи отношения правдоподобия
Здесь — функция правдоподобия для модели со всеми, а — функция правдоподобия модели, в которой все равны 0. LR имеет распределение хи-квадрат с k степенями свободы (k — количество объясняющих переменных).
4. Результаты анализа Для определение общей выживаемости построим кривую выживаемости методом Каплана-Мейера Рисунок 1. Выживаемость больных ИМ в течение наблюдения.
По данным графика видно, что вероятность прожить более 50 дней после инфаркта миокарда составляет 77%.
Рисунок 2. Функция риска для больных ИМ в течение наблюдения.
Из графиков 1и 2 видно, что наиболее критичными для выживаемости являются первые и тридцатые сутки.
Для оценки предикторов летального исхода использовали модель Кокса. В заданную модель были включены демографические, клинические, функциональные и лабораторные показатели, представленные в таблице 1. В унивариантной регрессионной модели Кокса было выявлено 18 значимых предикторов летального исхода: возраст, АДсист, пол, трансмуральность, ГБ, курение, длительность сердечной недостаточности, ОРЗ, образ жизни, СвСсез, алкоголь, болезни обмена веществ, заболевания ЖКТ, гипертрофия левого желудочка, GR_OIM, ИММЛЖ1, РЛА1, СИ1, Gluc.
При использовании мультивариантной модели Кокса высокий риск летального исхода у больных ИМ был связан с параметрами: пол, трансмуральность, ГБ, курение, СвСсез, алкоголь, болезни обмена веществ, РЛА1, АДсист, Gluc.
Коэффициенты регрессии Кокса позволяют прогнозировать функцию выживаемости для больных в зависимости от параметров.
— оценка функции выживаемости, где
— вектор параметров, использованных в мультивариантной модели Кокса.
4.3. Так же сравнивалась выживаемость больных инфарктом миокарда в различных группах разделенных по качественному признаку при помощи логрангового критерия.
Для больных ИМ были выявлены выраженные различия по выживаемости больных в группах: разделенных по половому признаку (мужчина/женщина) (Рисунок 3. А), разделенных в зависимости от объема поражения (Рисунок 3. Б), разделенных по отношению к курению (курящие/не курящие) (Рисунок 3. B), разделенных по образу жизни (сидячий образ жизни/активный образ жизни) (Рисунок 3. Г), разделенных в зависимости от СвСсез (Рисунок 3. Д), разделенных в зависимости от EXTRсис (Рисунок 3. Е), разделенных в зависимости от GR_OIM (Рисунок 3. Ж).
Рисунок 3. А Рисунок 3. Б Рисунок 3. В Рисунок 3. Г Рисунок 3. Д Рисунок 3. Е Рисунок 3. Ж Проверим влияние некоторых переменных на исход в первые 5 суток.
Рассмотрим подробно переменную «СИ1». Для начала проведем проверку на нормальность распределения с помощью критерия Шапиро-Уилка.
Рисунок 4
Статистика W близка к единице, следовательно, следует принять гипотезу о нормальности распределения. Из рис. 4 видно, что распределение почти нормальное Проведем однофакторный дисперсионный анализ.
Рисунок 5
На рисунке 5 видно, что средние двух выборок отличаются, и эти различия статистически значимы. Это также подтверждает таблица 4. Значение p-value, которое показывает, насколько согласовано это исследование с нулевой гипотезой о равенстве средних, равно нулю, при этом и F-критерий значительно больше единицы, из чего можно сделать вывод, что внутригрупповая дисперсия не совпадает с общей дисперсией. Значит, исследуемый фактор «СИ1» оказывает существенное влияние на исход, и полученные различия не случайны.
Таблица 4
Univariate Results for Each DV (база данных in Workbook1) Sigma-restricted parameterization Effective hypothesis decomposition | ||||||
Degr. of — Freedom | СИ1 — SS | СИ1 — MS | СИ1 — F | СИ1 — p | ||
Исход | 6,757 | 6,757 | 5,870 | 0,15 622 | ||
Проводя аналогичные исследования для остальных переменных выявим, какие из них влияют на исход после инфаркта миокарда в первые 5 суток.
Запишем эти данные в следующую таблицу:
Таблица 5
исход | ||
Кол-во осложнений | влияет | |
Возраст | влияет | |
АДсист | влияет | |
ПБПНЛГ | влияет | |
ФУ1 | влияет | |
Чсс1 | влияет | |
ИСПСН1 | влияет | |
ИндНор1 | влияет | |
ИММЛЖ1 | влияет | |
Для прогнозирования исхода после инфаркта миокарда использовалась логистическая регрессия. Значение Хи-квадрат критерия Пирсона достаточно велико, из чего можно сделать вывод, что полученная регрессионная модель является адекватной. Значит полученная регрессионная модель позволяет прогнозировать исход после инфаркта миокарда.
Х=(Пол, Возраст, Время года, Локализация ИМ, tПослеПерв, Курение, Длительность сердечной недостаточности, ОРЗ, СвИБСсОРЗ, Килип, Кл.вар.ИМ, ОНМКвАн., ГЛЖ, Количество осложнений, Creatin, Gluc, ФУ1, Pсрлао (Адср)1, индНор1).
Полученные значения коэффициентов регрессии позволяют верно прогнозировать неудачный исход в 70% случаев и удачный в 99% случаев. Общая точность построенной регрессионной модели 97 процентов.
Заключение
инфаркт миокарда выживаемость анализ С помощью рассмотренного модуля «Анализ выживаемости» были проведены исследования влияния некоторых факторов на выживаемость больных после инфаркта миокарда. Была построена модель, позволяющая прогнозировать выживаемость больных инфарктом миокарда в зависимости от влияющих факторов. С помощью рассмотренного в этой работе однофакторного дисперсионного анализа, были проведены исследования влияния некоторых факторов на исход после инфаркта миокарда. Была построена регрессионная модель, позволяющая с хорошей точностью прогнозировать исход инфаркта в зависимости от количественных и качественных факторов. Эти данные очень важны для изучения проблем профилактики, лечения инфаркта миокарда так как эта проблема очень остро поставлена в России и особенно в Северо-Западном регионе.
1. С. Гланц. Медико-биологическая статистика / С. Гланц. — Пер. с англ. — М., Практика, 1998. -459с.
2. Д. Р. Кокс, Д. Оукс Анализ данных типа времен жизни — Пер. с англ. — М., Финансы и статистика, 1988. -194с.
3. Электронный учебник по статистике www.statsoft.com.
4. D. Mashin, Yin Bun Cheung, Mahesh K. B. Parmar Survival Analysis: A Practical Approach — John Wiley & Sons, Ltd, 2006. -266c.