Информационные технологии в фармации

РефератПомощь в написанииУзнать стоимостьмоей работы

Информационные технологии в фармации (реферат, курсовая, диплом, контрольная)

Задание 1

Исходный файл импортировать в программу STATISTICA и сохранить как таблицу Statistica Spreadsheet (*.sta). Задать кодировку для категорийных номинальных) переменных:

Пол: 1- мужской, 2 — женский.

Исход: 1 — жив, 3 — умер

Вид карты: 1 — при поступлении, 2 — в конце лечения.

Теория:

Переменная — это атрибут физической или абстрактной системы, который может изменять своё значение.

Шкалы измерения переменных (с примерами)

Переменные различаются также тем «насколько хорошо» они могут быть измерены или, другими словами, как много измеряемой информации обеспечивает шкала их измерений. Очевидно, в каждом измерении присутствует некоторая ошибка, определяющая границы «количества информации», которое можно получить в данном измерении. Другим фактором, определяющим количество информации, содержащейся в переменной, является тип шкалы, в которой проведено измерение. Различают следующие типы шкал:(a) номинальная, (b) порядковая (ординальная), © интервальная (d) относительная (шкала отношения). Соответственно, имеем четыре типа переменных: (a) номинальная, (b) порядковая (ординальная), © интервальная и (d) относительная.

a. Номинальные переменные используются только для качественной классификации. Это означает, что данные переменные могут быть измерены только в терминах принадлежности к некоторым, существенно различным классам; при этом вы не сможете определить количество или упорядочить эти классы. Например, вы сможете сказать, что 2 индивидуума различимы в терминах переменной, А (например, индивидуумы принадлежат к разным национальностям). Типичные примеры номинальных переменных — пол, национальность, цвет, город и т. д. Часто номинальные переменные называют категориальными.

b. Порядковые переменные позволяют ранжировать (упорядочить) объекты, указав какие из них в большей или меньшей степени обладают качеством, выраженным данной переменной. Однако они не позволяют сказать «на сколько больше» или «на сколько меньше». Порядковые переменные иногда также называют ординальными. Типичный пример порядковой переменной — социоэкономический статус семьи. Мы понимаем, что верхний средний уровень выше среднего уровня, однако сказать, что разница между ними равна, скажем, 18% мы не сможем. Само расположение шкал в следующем порядке: номинальная, порядковая, интервальная является хорошим примером порядковой шкалы.

c. Интервальные переменные позволяют не только упорядочивать объекты измерения, но и численно выразить и сравнить различия между ними. Например, температура, измеренная в градусах Фаренгейта или Цельсия, образует интервальную шкалу. Вы можете не только сказать, что температура 40 градусов выше, чем температура 30 градусов, но и что увеличение температуры с 20 до 40 градусов вдвое больше увеличения температуры от 30 до 40 градусов.

d. Относительные переменные очень похожи на интервальные переменные. В дополнение ко всем свойствам переменных, измеренных в интервальной шкале, их характерной чертой является наличие определенной точки абсолютного нуля, таким образом, для этих переменных являются обоснованными предложения типа: x в два раза больше, чем y. Типичными примерами шкал отношений являются измерения времени или пространства. Например, температура по Кельвину образует шкалу отношения, и вы можете не только утверждать, что температура 200 градусов выше, чем 100 градусов, но и что она вдвое выше. Интервальные шкалы (например, шкала Цельсия) не обладают данным свойством шкалы отношения. Заметим, что в большинстве статистических процедур не делается различия между свойствами интервальных шкал и шкал отношения.

Задание 2

Определить основные описательные статистические характеристики (Descriptive Statistics) для всех переменных, кроме категорийных. Вычислить следующие основные статистические характеристики:

Количество — Valid N

Медиану — Median

Моду — Mode

Cреднее — Mean

Дисперсию — Variance

Среднее квадратическое отклонение — Standard Deviation

а) Провести расчеты для всех наблюдений (50 наблюдений).

b) Провести расчеты для отобранных данных (select cases) по виду карты больного — только в конце лечения (25 наблюдений).

Теория: дать определение каждой из нижеперечисленных статистических характеристик.

Количество — Valid N — истинное число наблюдений (число наблюдений без пропусков;

Медиану — Median — возможное значение признака, которое делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50% «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50% — значения признака не меньше, чем медиана.

Моду — Mode — значение во множестве наблюдений, которое встречается наиболее часто. Случайная величина может не иметь моды. Иногда в совокупности встречается более чем одна мода (например: 2, 6, 6, 6, 8, 9, 9, 9, 10; мода = 6 и 9). В этом случае можно сказать, что совокупность мультимодальна. Из структурных средних величин только мода обладает таким уникальным свойством. Как правило мультимодальность указывает на то, что набор данных не подчиняется нормальному распределению.

Cреднее — Mean — показывает центральное положение переменной и рассматривается совместно с доверительным интервалом. Чем больше размер выборке, тем точнее оценка среднего.

Дисперсия — Variance — находится как среднее квадратическое отклонение индивидуальных значений признака в квадрате от средней арифметической. В зависимости от исходных данных она определяется по формулам простой и взвешенной дисперсий.

Среднее квадратическое отклонение — Standard Deviation — случайной величины Х называется квадратный корень из дисперсии.

Задание 3

Проверить гипотезу о нормальности закона распределения для переменной «индекс плазмы». Вывод сделать на основании таких критериев:

а) значения асимметрии и эксцесса и их стандартных ошибок:

б) вид гистограммы частот:

с) Критерий (Пирсона).

d-е)Критерий Колмогорова-Смирнова; критерий Шапиро-Уилка.

Так как коэффициент ассиметрии меньше 0, то нарушается симметричность слева от пика нормального распределения.

Так как эксцесс меньше 0, то распределение будет более плоским по сравнению с нормальным распределением.

Значения критериев Колмогорова-Смирнова и Шапиро-Уилкисса значимые (р<0,05).

Всё это говорит о ненормальности закона распределения.

Теория: перечислить известные Вам законы распределения. Биномиальный закон (распределение Бернулли);

Закон распределения Пуассона (закон редких событий);

Геометрический закон распределения;

Равномерный закон распределения;

Гипергеометрический закон распределения.

квадратический отклонение асимметрия график.

Задание 4

Если в задании 3 установлен нормальный закон распределения, то для переменной индекс плазмы построить гистограмму, на которой указать стрелкой моду и подписать. Если установлен закон распределения отличный от нормального, то для переменной индекс плазмы построить диаграмму (Bar/Column Plots), на которой указать стрелкой медиану и подписать.

Теория: описать, какие виды графического представления данных вы знаете, для чего используются графики и гистограммы. Полученные в результате сводки или статистического анализа в целом числовые показатели могут быть представлены не только в табличной, но и в графической форме. Использование графиков для представления статистической информации позволяет придать статистическим данным наглядность и выразительность, облегчить их восприятие, а во многих случаях и анализ. Многообразие графических представлений статистических показателей дает огромные возможности для наиболее выразительной демонстрации явления или процесса.

Графиками в статистике называются условные изображения числовых величин и их соотношений в виде различных геометрических образов: точек, линий, плоских фигур и т. п. Статистический график позволяет сразу оценить характер изучаемого явления, присущие ему закономерности и особенности, тенденции развития, взаимосвязь характеризующих его показателей.

Каждый график состоит из графического образа и вспомогательных элементов. Графический образ — это совокупность точек, линий и фигур, с помощью которых изображаются статистические данные. Вспомогательные элементы графика включают общее название графика, оси координат, шкалы, числовые сетки и числовые данные, дополняющие и уточняющие изображаемые показатели. Вспомогательные элементы облегчают чтение графика и его истолкование.

Название графика должно кратко и точно раскрывать его содержание. Пояснительные тексты могут располагаться в пределах графического образа или рядом с ним либо выноситься за его пределы.

Оси координат с нанесенными на них шкалами и числовые сетки необходимы для построения графика и пользования им. Шкалы могут быть прямолинейными или криволинейными (круговыми), равномерными (линейными) и неравномерными. Иногда целесообразно применять так называемые сопряженные шкалы, построенные на одной или двух параллельных линиях. Чаще всего одна из сопряженных шкал используется для отсчета абсолютных величин, а вторая — соответствующих им относительных. Числа на шкалах проставляются равномерно, при этом последнее число должно превышать максимальный уровень показателя, значение которого отсчитывается по этой шкале. Числовая сетка, как правило, должна иметь базовую линию, роль которой обычно играет ось абсцисс.

Статистические графики можно классифицировать по разным признакам: назначению (содержанию), способу построения и характеру графического образа.

По содержанию, или назначению, можно выделить:

· графики сравнения в пространстве;
· графики различных относительных величин (структуры, динамики и др.);
· графики вариационных рядов;
· графики размещения по территории;
· графики взаимосвязанных показателей и т. д.

По способу построения графики можно разделить на диаграммы и статистические карты.

Диаграммы — наиболее распространенный способ графических изображений. Это графики количественных отношений. Виды и способы их построения разнообразны. Диаграммы применяются для наглядного сопоставления в различных аспектах (пространственном, временном и др.) независимых друг от друга величин: территорий, населения и т. д. При этом сравнение исследуемых совокупностей производится по какому-либо существенному варьирующему признаку.

Статистические карты — графики количественного распределения по поверхности. По своей основной цели они близко примыкают к диаграммам и специфичны лишь потому, что представляют собой условные изображения статистических данных на контурной географической карте, т. е. показывают пространственное размещение или пространственную распространенность статистических данных.

Задание 5

Проверить достоверность различия между значениями индексa плазмы мужчин и женщин. Проиллюстрировать вывод гистограммой размаха (Box Plots).

Теория: агументировать выбор критерия, использованного для проверки гипотезы (на основании задания 3).

Был выбран критерий Вальда-Вольфовица, как наиболее подходящий для оценки достоверности различий между показателями уровня индекса области плазмы. Данный критерий был выбран, поскольку переменная «Индекс области плазмы» является переменной с законом распределения, отличным от нормального, а критерий Вальда-Вольфовица проверяет гипотезу о том, что две независимые выборки извлечены из двух популяций, которые в чем-то существенно различаются между собой, иными словами, различаются не только средними, но также формой распределения. Нулевая гипотеза состоит в том, что обе выборки извлечены из одной и той же популяции, то есть данные однородны.

Задание 6

Для выявления больных со слишком большим значением индексa плазмы построить диаграммы рассеяния переменных номер пациента и индекс плазмы отдельно для мужчин и женщин. На диаграмме рассеяния для мужчин провести горизонтальную прямую на уровне 550, а для женщин на уровне 530. Выделить точки, соответствующие наблюдениям, которые находятся выше построенных прямых. Используя таблицу Редактор данных графика, определить номера пациентов со значением индексa плазмы выше нормы.

Теория: сравнить полученные результаты для мужчин и женщин, сделать выводы, используя диаграммы. Проанализировать, совпадают ли результаты с выводами задания 5.

Графические данные подтверждают выводы предидущих заданий (закон распределения отличен от нормального, критерий для оценки различий между значениями был выбран правильно).

Задание 7

Получить двухвходовую таблицу для переменных пол и исход (провести кросстабуляцию этих переменных) с указанием общего процента. Для обработки взять данные по всем 50 наблюдениям.

Теория: дать определение двухвходовой таблицы и по результатам кросстабуляции сделать выводы.

Если в одной таблице табулировать значения двух переменных, тогда возникают таблицы сопряженности. В этом случае таблица будет двухвходовой. Если используются несколько переменных, то соответственно получают многовходовые (многомерные) таблицы, а процесс построения таблиц называется кросстабуляцией.

Проанализировано 50 пациентов. Из них:

7 мужчин (14%) — исход — Жив
15 мужчин (30%) — исход — Умер
16 женщин (32%) — Жив
12 женщин (24%) — Умер

Всего выжило 23 человека (46%).

умерло 27 человек (54%).

Задание 8

Вычислить коэффициенты корреляции Пирсона, Спирмена, тау Кендалла и гамма и их значимость (р) для переменных индекс плазмы и гемоглобин для больных женского пола. Для этих же переменных построить график рассеяния (с коэффициентом корреляции). На основании полученных результатов сделать вывод о наличии (сильной или слабой) либо отсутствии корреляционной зависимости между переменными.

Коэффициент корреляции между переменными Индекс плазмы и Гемоглобин, во всех трех случаях оказался статистически значимым, так как -0,1387 (p<0.05). В заключении визуально проанализируем зависимость между переменными. С этой целью построим Матричный график (Scatterplot matrix for all variables).

Теория: дать определение коэффициента корреляции, указать различие между различными коэффициентами корреляции (Пирсона, тау Кендалла, Спирмена, гамма).

Коэффициент корреляции является одним из самых востребованых методов математической статистики в психологических и педагогических исследованиях. Формально простой, этот метод позволяет получить массу информации и сделать такое же количество ошибок.

Слово correlation (корреляция) состоит из приставки «co-», которая обозначает совместность происходящего (по аналогии с «координация») и корня «relation», переводится как «отношение» или «связь».

Дословно correlation переводится как взаимосвязь. Коэффициент корреляции — это мера взаимосвязи измеренных явлений. Коэффициент корреляции (обозначается «r») рассчитывается по специальной формуле и изменяется от -1 до +1. Показатели близкие к +1 говорят о том, что при увеличении значения одной переменной увеличивается значение другой переменной. Показатели близкие к -1 свидетельствуют об обратной связи, т. е. При увеличении значений одной переменной, значения другой уменьшаются.

Если вычисляется корреляция между значениями одной переменной, сдвинутыми на некоторый лаг, то говорят об автокорреляции.

Ранговые корреляции - эти корреляции используются в тех ситуациях, когда наблюдаемые данные ранжированы.

Статистика Спирмена R предполагает, что рассматриваемые переменные измерены как минимум в порядковой шкале, иными словами — индивидуальные наблюдения ранжированы.

Статистика тay Кендалла эквивалентна R Спирмена при выполнении некоторых основных предположений. Критерии, основанные на этих статистиках, также сравнимы по мощности. Однако обычно значения R Спирмена и тay Кендалла различны, потому что они существенно отличаются как по своей внутренней логике, так и по способу вычисления. Имеется следующее соотношение между этими статистиками: -1 < 3 x тау Кендалла и 2 x R Спирмена < 1.

Более важно, что тay Кендалла и R Спирмена по-разному интерпретируются. R Спирмена можно мыслить как прямой аналог г Пирсона, вычисленный по рангам (а не по исходным наблюдениям), тогда как тay Кендалла представляет вероятность, точнее, вероятность того, что значения двух переменных располагаются в одном и том же порядке, минус вероятность того, что значения переменных располагаются в различном порядке (или вероятность того, что ранги двух переменных совпадают, минус вероятность того, что они различны).

Гамма-статистика предпочтительнее статистики R Спирмена или тay Кендалла в тех случаях, когда в данных имеется много совпадающих значений. С точки зрения основных предположений, статистика гамма эквивалентна R Спирмена или тay Кендалла. Ее интерпретация и вычисление более похожи на тay Кендалла, чем на R Спирмена. Гамма также представляет собой вероятность; более точно — вероятность того, что ранговый порядок двух переменных совпадает, минус вероятность того, что не совпадает, деленная на выражение 1 минус вероятность совпадений. Таким образом, статистика гамма в основном эквивалентна тay Кендалла за исключением того, что совпадения рангов явно принимаются во внимание.

Задание 9

Провести регрессионный анализ переменных возраст и индекс плазмы:

а) определить коэффициенты линейной регрессии:

Multiple R =, 27 367 339 F = 3,886 121.

R?=, 7 489 713 df = 1,48.

No. of cases: 50 adjusted R?=, 5 562 415 p =, 54 466.

Standard error of estimate:17,262 071 288.

Intercept: 66,701 107 974 Std. Error: 6,427 453 t (48) = 10,378 p =, 0000.

Индекс обл. п beta=-, 27.

B₀=66,70 B₁=(-0,03).

a) выписать уравнение регрессии: Y_a=66,70+(-0,03)*X_a

b) отобразить переменные на графике рассеяния:

c) проверить адекватность модели:

e) указать значения F-критерия, коэффициента адекватности R2 и уровня значимости р.

F = 3,886 121.

adjusted R²= 0,5 562 415.

p = 0,54 466.

Согласно критерию Дубрин-Ватсон: D-W=0,9; то есть они зависимы.

Согласно графику остатков и графику остатков нормального распеделения можно сделать вывод, что остатки не являются независимыми. Так как она располагаются вблизи линии нормального распределения, то есть остатки удовлетворяют закон нормального распределения.

Теория: описать, для чего используется регрессионный анализ.

Зависимость одной переменной (зависимой) от изменений одной или нескольких переменных (независимых или объясняющих) называется регрессией. Связь переменных представляется с помощью математической модели, т. е. уравнения, которое связывает зависимую переменную с независимыми. При проведении исследований, как правило, заранее неизвестен характер взаимосвязи, который и требуется установить в процессе анализа. Отличие статистической связи от функциональной заключается в том, что при функциональной связи существует однозначное соответствие, т. е. каждому определённому значению аргумента x соответствует определённое значение функции y=f (x). При статистической связи разным значениям одной переменной соответствуют различные распределения другой переменной.

Термин регрессия применяется для обозначения корреляционной зависимости между переменными величинами Y и X. Корреляция, или, точнее коэффициент корреляции, является мерой зависимости двух величин.

Значение коэффициента корреляции лежит между -1 и +1.

Общая вычислительная задача, которую требуется решать при анализе методом регрессии, состоит в подгонке линии регрессии к некоторому набору точек.

Статистическими задачами регрессионного анализа являются:

? получение наилучших точечных и интервальных оценок параметров регрессии;
? проверка гипотез относительно этих параметров;
? проверка адекватности предполагаемой модели;
? проверка множества соответствующих предположений.

Показать весь текст

Заполнить форму текущей работой