Определение данных натуральных наблюдений методами математической статистики
Статистические критерии можно разделить на следующие группы: критерии однородности и критерии согласия. С помощью критериев однородности исследователь пытается на основе отрывочных данных удлинить ряд данных натурных наблюдений. Экспериментатор проверяет на однородность несколько рядов натурных наблюдений с целью объединения их в один. Необходимость использования критериев однородности… Читать ещё >
Определение данных натуральных наблюдений методами математической статистики (реферат, курсовая, диплом, контрольная)
Федеральное агентство по образованию Вологодский государственный технический университет Кафедра экологии Практическая работа
" Определение данных натуральных наблюдений методами математической статистики" .
Выполнил студент: Павлов А.А.
Группа: ИТ-11
Проверил: Коваленко С.Н.
Вологда 2011
- 1. Теоретическая часть
- 2. Расчетно-графическая часть
- Построение вариационного ряда
- Группировка вариационного ряда — деление вариационного ряда на части
- Определение мер положения, рассеивания и характеристики формы кривой распределения
- Графическое изображение кривых распределения
- Изучение формы кривой распределения
- Проверка статистических гипотез
- 3. Порядок выполнений расчетно-графической работы
- Изучение формы кривой распределения
- Графическое представление сгруппированных рядов данных натурных наблюдений
- Проверка статистических гипотез
- Заключение
1. Теоретическая часть
Проблема экологизации всех сфер антропогенной деятельности в настоящих условиях является актуальной проблемой современного общества. Происходящие изменения в окружающей среде под влиянием антропогенной деятельности заставляют ученых разных областей науки и техники во веем мире заниматься разработкой и анализом методик связанных с защитой и охраной природных ресурсов, изучением процессов, связанных с устойчивостью биосферы, выявлением определяющих факторов, негативно влияющих на экосистемы.
Основополагающим направлением изучения процессов, происходящих в природной среде, и их тенденции к изменчивости является мониторинг. Мониторинг окружающей среды — это комплекс мер, направленных на получение исходной информации об изучаемом объекте, ее обработка и анализ. Начальным этапом мониторинга выступает получение качественной исходной информации. В нашей стране представить организационную структуру мониторинга окружающей среды можно в следующем виде: вся территория России охвачена сетью гидрометрических постов наблюдений, на которых периодически осуществляется отбор проб для анализов (анализируется химический, физический и биологический состав проб). Полученные количественные результату проведенных работ носят, как правило, название данных натурных наблюдений. И гак государственная гидрометрическая сеть, призвана осуществлять наблюдения за состоянием исследуемого объекта, тенденциями возможных изменений, определение и изучение наиболее важных факторов негативного влияния на объект, составление прогнозов с учетом сложившихся объективных и субъективных обстоятельств. Организация и проведение мониторинга возложена на Государственный Комитет по Гидрологии и Метеорологии России (ГосКомГидроМет России). В общем случае натурные наблюдения осуществляются за состоянием атмосферы, гидросферы и почвенным покровом. Пункты контроля деятельности располагаются не только в местах развитой антропогенной деятельности, но и на относительно экологически благоприятных территориях и преследуют цель: получить общую картину складывающейся экологической обстановки в государстве.
Вторым альтернативным направлением в изучении изменяющихся природных условий является так называемый экспедиционный метод, т. е. проведение научных исследований за ограниченный временной промежуток с конкретно поставленными целями.
При организации технических наблюдений экспериментатору приходится иметь дело со следующими факторами: выбором, проверкой и установкой прибора для наблюдения, проведение самих измерений, оценкой точности измеряемой величины. Полученные в ходе натурного эксперимента результаты подвергаются всесторонней обработке и анализу.
На современном этапе развития науки и техники при изучении природных явлений, процессов и тенденций их к изменению можно выделить следующие последовательно применяемые этапы исследования:
Получение данных натурных наблюдений в результате проведения натурного
эксперимента за изучаемым объектом (теория планирования и организации эксперимента).
Обработка и анализ полученной информации (теория вероятности и математическая статистика).
Моделирование природных процессов (физическое и математическое моделирование).
Принятие управленческих решений на основе полученных результатов обработки и моделирования.
Следует отметить, что ни одна даже самая современная математическая обработка результатов эксперимента не исправит халатности в получении данных натурных наблюдений и наоборот качественные результаты натурных исследований можно испортить неумелым применением математического аппарата.
Целью расчетно-графического задания является выработка у студентов технических специальностей навыков по обработке экспериментальных данных методом математической статистики, оценке полученных результатов, использовании их при принятии управленческих решений в области природоохраны и природопользования.
По рядам результатов натурных наблюдений (взятых, например, из Государственного водного кадастра «Ежегодные данные о качестве поверхностных вод суши» для конкретного загрязняющего вещества, или предложенных преподавателем) на основе теории вероятности математической статистики необходимо получить основные характеристики расчетных параметров, отработать методику расчета и найти пути практического применения полученных результатов.
Перед тем, как приступить к выполнению задания, необходимо дать характеристику полученных опытным путем количественных величин конкретного контролируемого загрязняющего вещества. Элементы выборки являются случайными величинами. Случайной величиной называется величина, которая в результате эксперимента может принять то или иное значение, причем заранее неизвестно какое именно. Дополнительно элементы (варианты) выборки являются непрерывными, т.к. природные явления и процессы непрерывны во времени и пространстве. Непрерывную случайную величину можно охарактеризовать диапазоном изменения случайной величины и полностью распределения вероятности. Полученные в результате натурного эксперимента количественные оценки данного вида загрязняющего вещества являются размерными характеристиками. Их размерность выражается в мг/л или г/м3 и характеризует массу растворенного вещества в объеме жидкости или газа. Количественное значение с данной размерностью носит название концентрации загрязняющего вещества.
математическая статистика природопользование охрана Расчетно-графическое задание основывается на данных натурных наблюдений и заключается в выполнении следующих этапов обработки:
Построение вариационного ряда;
Группировка данных натурных наблюдений;
Определение расчетных статистических характеристик (мер положения, рассеивания, и форм кривой распределения);
Графическое изображение сгруппированных рядов;
Изучение форм распределения;
Проверка статистических гипотез.
Приведем порядок выполнения задания, расчетные формулы, основные положения и характеристика этапов обработки.
2. Расчетно-графическая часть
Имеем ряд данных натурных наблюдений (Х1, Х2,. ХN).
Построение вариационного ряда
(Операция заключается в расположении данных натурных наблюдений в порядке возрастания Xmin. Xmax) ;
Группировка вариационного ряда — деление вариационного ряда на части
Необходимо определить: количество классов (интервалов), длину и границы каждого класса, частоту.
а) Количество классов, на которые необходимо разделить вариационный ряд, определяется различными способами (4, 7, 8, 12, 14, 15): с помощью таблиц или формул; в подавляющем большинстве случаев количество интервалов зависит от объема выборки.
Для определения количества классов используем формулу Старжесса:
К = 1 + 3,3-lgN
где К-количество классов;
N — объем выборки или количество значений в ряду.
б) Определение длины каждого интервала:
Определение размаха или амплитуды колебания случайной величины:
R = Xmax - Xmin
где R — размах (мг/л); h — длина каждого интервала.
в) Определение границ каждого интервала:
1. — границы 1-го интервала;
2. — границы 2-го интервала;
…
6. — границы 6-го интервала.
г) Определение эмпирической частоты
Частота — это количество значений, попавших в каждый интервал.
Определение мер положения, рассеивания и характеристики формы кривой распределения
а) Определение мер положения:
Целью исследования является определение центра распределения:
Среднее арифметическое значение (основной показатель, входящий в характеристику большинства законов распределения) является первым начальным моментом и вычисляется по следующей формуле:
где Хср — среднее арифметическое значение выборки (мг/л);
Xi — элементы выборки (мг/л).
Если учитывать, что ряд натурных наблюдений вариационный и сгруппированный, то среднее арифметическое значение можно рассчитать по следующей зависимости:
где ni — частота каждого интервала;
Хi* - среднее значение каждого интервала (мг/л).
Среднее арифметическое значение каждого интервала рассчитывается, как полусумма границ интервалов.
Мода (значение имеющее максимальную частоту, т. е. наиболее часто встречаемое значение случайной величины в выборке) определяется по формуле:
где X0 — начало модального интервала (мг/л);
ni — частота модального интервала;
n (i-1) и n (i+1) — соответственно частоты предыдущего и последующего за модальным интервалов.
Медиана (определение серединного элемента выборки):
где X0 - начало медианного интервала;
T (i-1) — сумма частот интервалов предшествовавших медианному;
ni - частота медианного интервала,
б) Меры рассеивания:
Характеристикой рассеивания или отклонения случайной величины от центра распределения выступает дисперсия — второй центральный момент.
Согласно методу моментов дисперсия определяется по формуле:
Для определения стандартного отклонения из дисперсии извлекается квадратный корень, полученная величина называется средним квадратичным отклонением и обозначается у (мг/л). Нормированное отклонение определяется коэффициентом вариации:
в) Характеристики формы кривой распределения:
Характеристиками формы кривых распределения выступают третий и четвертый центральные моменты) третий центральный момент характеризует асимметричность ряда, т. е. неравномерность распределения случайной величины относительно центра и определяется по формуле:
Безразмерный коэффициент асимметрии (Сs) определяется отношением третьего центрального момента к кубу среднего квадратичного отклонения.
Четвертый центральный момент характеризует форму симметричной кривой распределения:
Показателем остро — или плосковершинности выступает коэффициент эксцесса (Се), который определяется отношением четвертого центрального момента к среднему квадратичному отклонению в четвертой степени, за вычетом коэффициента три.
Графическое изображение кривых распределения
Графическое изображение сгруппированных вариационных рядов распределения облегчает их анализ и позволяет в первом приближении судить о форме кривой генеральной совокупности. Для графического изображения рядов распределения применяют гистограмму (кривая распределения плотности вероятностей, дифференциальная кривая распределения). Гистограмма строится следующим образом: на оси абсцисс откладываются равные отрезки, которые в принятом масштабе соответствуют величинам границ интервалов вариационного ряда, на отрезках строятся прямоугольники с высотами, равными относительным частотам (относительная частота определяется отношением частоты каждого интервала объему выборки и характеризует вероятность попадания случайной величины в интервал). Гистограмму принято преобразовывать в полигон распределения путем соединения середин верхних сторон прямоугольников отрезками. График, построенный по результатам натурных наблюдений, обуславливает вид эмпирической кривой распределения.
Дополнительно к гистограмме строится суммарная кривая распределения (интегральная функция распределения). В практике гидрологических расчетов принято использовать обратную функцию суммарной кривой распределения, называемую обеспеченностью. Обеспеченность характеризует вероятность превышения данной случайной величины. Принцип построения суммарной кривой распределения приводится на примере.
Изучение формы кривой распределения
Для получения приблизительного представления о форме кривой распределения строят графики распределения (гистограмму и полигон распределения). Число наблюдений, по которому строится эмпирическое распределение, обычно невелико и представляет собой выборку из исследуемой генеральной совокупности. Эмпирические данные в определенной степени связаны со случайными ошибками, возникновение которых зачастую неизвестно, что искажает основную закономерность изменение величины признака. При увеличении числа наблюдений одновременно с увеличением количества интервалов и уменьшением их длины полигон постепенно перерастает в кривую распределения.
Кривая распределения характеризует теоретическое (аналитическое) распределение, т. е. распределение, которое получилось бы при полном погашении всех случайных причин, искажающих основную закономерность. Исследование формы распределения включает решение следующих задач:
1) Определение общего характера распределения;
2) Выравнивание эмпирического распределения (построение аналитической кривой распределения);
3) Проверка соответствия найденного теоретического распределения эмпирическому.
В практике статистического исследования природоохранной деятельности приходится встречаться с самыми разными видами распределений. Как правило, однородные, совокупности имеют одновершинную форму, многовершинность свидетельствует о неоднородности изучаемой совокупности.
Выявление общего характера распределения предполагает оценку степени его однородности, а также вычисление показателей асимметрии и эксцесса. Для симметричных распределений среднее арифметическое, мода и медиана совпадают, коэффициент асимметрии равен нулю (С, = 0). При правосторонней (С, > 0) между показателями центра распределения существует следующее соотношение М0 < Ме< Хср. Отрицательный знак показателя асимметрии (Cs < 0) свидетельствует о наличии левосторонней асимметрии. Между показателями центра распределения в этом случае имеем М0 > Mt> ХСр.
Оценку степени существенности асимметрии выборки можно определить с помощью средней квадратичной ошибки, которая зависит от объема наблюдений и рассчитывается по формуле:
Wcs=
Если отношение CS/Wcs > 3, асимметрия существенна и распределение признака в генеральной совокупности не является симметричным.
Для симметричных распределений оценивается существенность эксцесса. Эксцесс представляет собой выпад вершины эмпирической кривой распределения вверх или вниз от вершины кривой нормального распределения (кривая Гаусса). Если величина коэффициента эксцесса положительная, то распределение островершинное, отрицательная — плосковершинное. Средняя квадратичная ошибка эксцесса рассчитывается по формуле:
Wce=
Если отношение Ce! Wce < 3, то эксцесс не свойственен распределению признака в генеральной совокупности.
Оценка существенности показателей асимметрии и эксцесса позволяет сделать вывод о возможном использовании для анализа эмпирического материала кривых по типу нормального закона распределения.
Если случайная величина имеет плотность распределения то она подчиняется нормальному закону распределения. Нормальное распределение является двух параметрическим, т. е. для его построения необходимо определить среднее арифметическое и среднее квадратическое отклонение. Для приведения кривых к одному началу случайные величины нормируются и центрируются по следующему механизму: из каждого значения вариационного ряда вычитается среднее арифметическое, результат от разности делится на среднее квадратическое отклонение. В данном случае полученный новый ряд величин имеет следующие характеристики: Хср = 0 и у = 1, Исходя из принципа нормирования и центрирования составлены таблицы теоретических кривых распределения. Количественные значения, имеющие плотность распределения вероятности случайных величин называются нормированной и центрированной функцией нормального закона распределения.
Приведем некоторые свойства нормальной кривой распределения:
1) Значения функции определены на всей протяженности числовой прямой;
2) Кривая симметрична относительно максимальной ординаты;
3) Максимальная ордината соответствует Mо= Ме= Хср
4) Кривая асимптотически приближается к оси абсцисс, чем больше
значения отклоняются от Хср, тем реже они встречаются;
5) Одинаковые по абсолютному значению, но противоположные по знаку отклонения случайной величины от среднего арифметического равновероятны;
6) Кривые имеют две точки перегиба, находящиеся на расстоянии ± у от Хср;
7) При ХСр - const увеличением у кривая становится более пологой, при у = const с изменением Хср кривая не изменяет своей формы, а лишь сдвигается вправо или влево по оси абсцисс;
8) Отклонение случайной величины от среднего арифметического на ± у определяет площадь фигуры, равную 68,3% от общей площади, в промежутке Хср ± 2 у находится 95,4% всех значений признака, Хср ± 3 у приходится 99,7%.
Использование нормального закона распределения основано на центральной предельной теореме, которая формулируется следующим образом: нормальное распределение возможно в том случае, когда на величину признака влияет большое число случайных факторов, действие этих факторов независимо, и ни одна из причин не имеет преобладающего влияния над другими.
Проверка статистических гипотез
Статистические критерии можно разделить на следующие группы: критерии однородности и критерии согласия. С помощью критериев однородности исследователь пытается на основе отрывочных данных удлинить ряд данных натурных наблюдений. Экспериментатор проверяет на однородность несколько рядов натурных наблюдений с целью объединения их в один. Необходимость использования критериев однородности обусловлена стремлением получить более совершенные расчетные параметры кривых распределения (с увеличением объема выборки расчетные величины приобретают количественную стабильность, увеличивается существенность каждой характеристики, проявляются закономерности распределения случайных величин). Критериев однородности достаточно много. Наиболее распространенными в практических расчетах являются критерии Фишера и Стьюдента (параметрические критерии, — в основе которых лежит предположение о принадлежности случайных величин к нормальному закону распределения), из непараметрических можно выделить критерий Вилкоксона (нет предположений о законах распределения сравниваемых выборок).
Критерии согласия позволяют подобрать к эмпирическому распределению конкретное теоретическое. Наиболее распространенным в практических расчетах является критерий Пирсона или X2.
Цель использования критериев заключается в определении закономерностей возникновения случайных величин, их свойств, которые определяют сущность прогнозов и играют важную роль в управлении природными явлениями;
Использование статистических критериев осуществляется следующим образом:
а) Выдвигается нулевая гипотеза (Н0): при использовании критериев, например, однородности — исследуемые ряды однородны. Далее на основании выбранного критерия, пытаемся доказать или опровергнуть выдвинутое предположение (Но).
б) Используя зависимости статистического критерия, получаем расчетное значение критерия.
в) Определение области допустимых значений, т. е. тот промежуток на числовой прямой, на котором подтверждается нулевая гипотеза. Область допустимых значений определяется следующим образом:
· определяют уровень значимости а, характеризующий вероятность ошибочного решения, в практических расчетах его принимаю равным 0,05. При выбранном уровне значимости доверительная вероятность составляет 95%, что удовлетворяет требованиям практических расчетов;
· число степеней свободы (данная величина различна в зависимости от используемого критерия, но в большинстве случаев зависит от объема выборки).
С помощью таблиц или расчетных формул при выбранном уровне значимости и числе степеней свободы рассчитывается критическое значение статистического критерия. Критическое значение характеризует границу между областью допустимых значений и критической областью. Попадание расчетного значения в область допустимых значений подтверждает нулевую гипотезу, исследуемые ряды объединяем в один ряд и проводим статистическую обработку (определяем расчетные параметры). При использовании критериев согласия, если расчетное значение статистического критерия попадает в область допустимых значений, утверждаем, что эмпирическое распределение согласуется с конкретным аналитическим законом распределения, и свойства данного закона распределения можно использовать при анализе данных натурных наблюдений.
3. Порядок выполнений расчетно-графической работы
Допустим, что в результате натурного эксперимента получены следующие количественные значения концентрации конкретного загрязняющего вещества (примерами могут служить нормируемые загрязняющие вещества в окружающей среде: биогены, нефтепродукты, тяжелые металлы, фенолы и т. д.) в определенном пункте контроля. Целью расчета является получение основных статистических характеристик и их анализ, подбор генеральной совокупности по результатам натурных наблюдений.
Исходные данные
30.16 | ||
24.32 | ||
23.25 | ||
29.92 | ||
24.74 | ||
28.65 | ||
24.22 | ||
26.07 | ||
28.28 | ||
25.56 | ||
28.15 | ||
26.81 | ||
26.51 | ||
26.25 | ||
31.28 | ||
36.86 | ||
27.12 | ||
26.37 | ||
26.72 | ||
28.03 | ||
28.23 | ||
23.27 | ||
29.12 | ||
31.41 | ||
26.81 | ||
29.83 | ||
25.39 | ||
25.32 | ||
27.32 | ||
30.33 | ||
Построение вариационного ряда ()
1) Группировка вариационного ряда а) Определение количества классов (интервалов).
По формуле определяем количество классов, на которое необходимо разделить вариационный ряд:
б) Определение длины каждого класса:
h= 36,86−23,25 =2.27
в) Определение границ классов:
1. — границы 1-го интервала;
2. — границы 2-го интервала;
…
6. — границы 6-го интервала.
Результаты расчёта:
Границы 1-го интервала [23,25 — 25.52]
Границы 2-го интервала [25.52 — 27,79]
Границы 3-го интервала [27,79 — 30,06]
Границы 4-го интервала [30,06 — 32,33]
Границы 5-го интервала [32,33 — 34,6]
Границы 6-го интервала [34,6 — 36,87]
г) Определение частот:
Расчёт выполняем в виде таблицы:
Таблица 1
№ | Границы интервалов, мг/л | Частота | Ср. арифм. Интервала мг/л | ||
23,25 — 25.52 | 24,385 | 170,695 | |||
25.52 — 27,79 | 26,655 | 266,55 | |||
27,79 — 30,06 | 28,925 | 231,4 | |||
30,06 — 32,33 | 31, 195 | 124,78 | |||
32,33 — 34,6 | 33,465 | ||||
34,6 — 36,87 | 35,735 | 35,735 | |||
829,16 | |||||
3. Определение мер положения, рассеивания и параметров формы кривой распределения а) Меры положения характеризуют расположение центра распределения выборки: среднее арифметическое, мода, медиана.
б) Меры рассеивания характеризуют отклонение случайной величины от центра распределения и определяются вторым центральным моментом или дисперсией.
в) Характеристики формы кривой распределения определяются при помощи третьего и четвёртого центральных моментов.
Расчет по пунктам «б» и «в» выполняем в виде таблицы 2. С учетом того что ряд вариационный и сгруппированный для расчетов центральных моментов, используем следующую формулу:
;
Таблица 2
Определение центральных выборочных моментов
К | |||||||||
— 3,25 | 10,56 | — 34,33 | 111,57 | 73,92 | — 240,31 | 780,99 | |||
— 0,98 | 0,96 | — 0,94 | 0,92 | 9,6 | — 9,4 | 9,2 | |||
1,29 | 1,66 | 2,15 | 2,77 | 13,28 | 17,2 | 22,16 | |||
3,56 | 12,67 | 45, 19 | 160,62 | 50,68 | 180,76 | 642,48 | |||
6,83 | 46,65 | 318,61 | 2176,12 | ||||||
8,1 | 65,61 | 531,44 | 4304,67 | 65,61 | 531,44 | 4304,67 | |||
213,09 | 479,69 | 5759,5 | |||||||
; ;
;
;; (>0)
условие не соблюдается, так как ряд короткий)
;
Изучение формы кривой распределения
По коэффициенту вариации можно судить об однородности величин, входящих в последовательность. Так как Cv<33%, то наш ряд считается однородным.
Полученный коэффициент асимметрии показывает на наличие правосторонней симметрии.
Оценка степени существенности асимметрии определяется при помощи средней квадратической ошибки асимметрии по формуле:
Wcs= Wcs = 0.41
Вывод: асимметрия несущественна для выборки, при подборе генеральной совокупности можно воспользоваться кривыми распределения.
При несущественности асимметрии определяется оценка степени существенности эксцесса по формуле:
Wce= Wce = 0,75
Вывод: эксцесс несущественен для выборки, все предпосылки результатов расчетов направлены на подтверждение искомого аналитического закона — нормальную кривую распределения. В дальнейшем это предположение будет проверено статистическим критерием согласия Пирсона.
Графическое представление сгруппированных рядов данных натурных наблюдений
Для графического изображения рядов распределения строятся гистограмма и интегральные кривые распределения. Результаты расчетов сводим в таблицу 3.
Таблица 3
Определение ординат эмпирических кривых распределений
N | Границы интервалов | Частота | Относительная частота, | Приведённая частота, | |
23,25 — 25.52 | 0,23 | 0,101 | |||
25.52 — 27,79 | 0,33 | 0,145 | |||
27,79 — 30,06 | 0,26 | 0,144 | |||
30,06 — 32,33 | 0,13 | 0,057 | |||
32,33 — 34,6 | |||||
34,6 — 36,87 | 0,03 | 0,013 | |||
nотн - относительная частота определяется отношением эмпирической частоты к объёму выборки и характеризует вероятность появления случайно величины в каждом интервале
nпр — приведённая частота или плотность распределения случайно величины в заданном интервале:
nпр= nотн/h
Гистограмма.
Проверка статистических гипотез
а) Проверка выборок на однородность.
Вопросы удлинения рядов данных натурных наблюдений преследует цель корректировки статистических параметров. Для проверки выборок в сходстве формирования случайных величин используют статистические критерии однородности. Как правило, анализируются выборки попарно. Результатом статистического анализа на однородность является объединение двух выборок в одну или отрицание однородности между сравниваемыми совокупностями. В качестве примера использования статистических критериев однородности при практических расчетах студенты обмениваются выборками и проверяют их на однородность. Для расчетов используются критерии однородности: параметрический — критерий Фишера; непараметрический — критерий Вилкоксона.
Критерий Фишера основан на равенстве дисперсий выборок распределенных приближено нормально. Расчетное значение критерия Фишера определяется по следующей формуле:
причем необходимо выполнение условия D1> D2, где
D1 — дисперсия выборки X (допустим, что выполняется
вышеприведенное условие);
D2 — дисперсия выборки Y (по условию меньше дисперсии выборки X).
Для определения области допустимых значений необходимо задаться уровнем значимости и числом степеней свободы (для практических расчетов уровень значимости принимаем равным 0,05, число степеней свободы рассчитывается по следующей зависимости:
;
Используя таблицы F-распределения, определяется критическое значения критерия в зависимости от выбранного уровня значимости и числа степеней свободы. Если выполняется условие, при котором расчетное значение критерия Фишера не превосходит критическое, то можно предположить, что наши ряды однородны и сравниваемые выборки можно объединить в один ряд.
Из непараметрических критериев однородности можно выделить статистический критерий однородности Вилкоксона.
Расчеты проводим в следующем виде и последовательности: значения обеих выборок (Х и Y) упорядочиваются вместе по величине, с учетом выборки из которой взято значение.
Сумма инверсий определяется следующим образом: по построенному вариационному ряду из двух сравниваемых выборок проводят подсчет инверсий (инверсией считается величина, характеризующаяся следующим неравенством хi > yi) т. е. определяют, сколько значений У — выборки находится перед каждым значением Х-выборки. Расчетное значение критерия Вилкоксона определяется по формуле:
Критическое значение статистического критерия однородности Вилкоксона определяется по таблицам или с помощью формулы:
где коэффициент Za определяется по формуле:
где Ф0 — функция нормированного и центрированного закона нормального распределения.
Допустим, необходимо сравнить две выборки на принадлежность их одной генеральной совокупности:
Х Y
19.54 | ||
19.75 | ||
19.87 | ||
20.75 | ||
20.96 | ||
21.05 | ||
21.38 | ||
21.59 | ||
21.76 | ||
22.57 | ||
22.57 | ||
22.66 | ||
22.75 | ||
22.77 | ||
22.83 | ||
22.98 | ||
23.16 | ||
23.52 | ||
23.81 | ||
24.11 | ||
24.31 | ||
24.61 | ||
24.86 | ||
24.88 | ||
26.56 | ||
28.08 | ||
28.24 | ||
29.37 | ||
29.59 | ||
32.54 | ||
23.25 | ||
23.27 | ||
24.22 | ||
24.32 | ||
24.74 | ||
25.32 | ||
25.39 | ||
25.56 | ||
26.07 | ||
26.25 | ||
26.37 | ||
26.51 | ||
26.72 | ||
26.81 | ||
26.81 | ||
27.12 | ||
27.32 | ||
28.03 | ||
28.15 | ||
28.23 | ||
28.28 | ||
28.65 | ||
29.12 | ||
29.83 | ||
29.92 | ||
30.16 | ||
30.33 | ||
31.28 | ||
31.41 | ||
36.86 | ||
D1 = 15.675 D2 = 7.1. Критерий Фишера:
Fкр=1.64, > Fкр=> H0
Область допустимых значений определяется в зависимости от уровня значимости и числа степеней свободы: а = 0,05; m1 = 29; m2 — 29. По таблицам F-распределения определяем, что критическое значение критерия Фишера равно 1.64. Так как Fрас> Fкрит, то можно предположить, что наши ряды неоднородны и сравниваемые выборки нельзя объединять. Данное предположение (о принадлежности сравниваемых выборок одной генеральной совокупности) проверим непараметрическим критерием однородности Вилкоксона. Для этого необходимо провести следующие действия:
Величины обеих выборок располагаются в порядке возрастания с учетом того из какой выборки взято значение. Используя рассматриваемый пример получим:
Вариационный ряд двух выборок
19,54 (y) | ||
19,75 (y) | ||
19,87 (y) | ||
20,75 (y) | ||
20,96 (y) | ||
21,05 (y) | ||
21,38 (y) | ||
21,59 (y) | ||
21,76 (y) | ||
22,57 (y) | ||
22,57 (y) | ||
22,66 (y) | ||
22,72 (y) | ||
22,77 (y) | ||
22,83 (y) | ||
22,98 (y) | ||
23,16 (y) | ||
23,25 (x) | ||
23,27 (x) | ||
23,52 (y) | ||
23,81 (y) | ||
24,11 (y) | ||
24,22 (x) | ||
24,31 (y) | ||
24,32 (x) | ||
24,61 (y) | ||
24,74 (x) | ||
24,86 (y) | ||
24,88 (y) | ||
25,32 (x) | ||
25,39 (x) | ||
25,56 (x) | ||
26,07 (x) | ||
26,25 (x) | ||
26,37 (x) | ||
26,51 (x) | ||
26,56 (y) | ||
26,72 (x) | ||
26,81 (x) | ||
26,81 (x) | ||
27,12 (x) | ||
27,32 (x) | ||
28,03 (x) | ||
28,08 (y) | ||
28,15 (x) | ||
28,23 (x) | ||
28,24 (y) | ||
28,28 (x) | ||
28,65 (x) | ||
29,12 (x) | ||
29,37 (y) | ||
29,59 (y) | ||
29,83 (x) | ||
29,92 (x) | ||
30,16 (x) | ||
30,33 (x) | ||
31,28 (x) | ||
31,41 (x) | ||
32,54 (y) | ||
36,86 (x) | ||
u=17+17+20+21+22+24+24+24+24+24+24+24+24+25+25+25+25+25+25+26+26+27+27+27+29+29+29+29+29+29+30=752;
По формулам определяются расчетное и критическое значение критерия Вилкоксона:
;
расчетное значение критерия Вилкоксона равно Врас = 302.
По таблицам нормированной и центрированной кривой нормального распределения определяем аргумент по значению функции (Za = 1,96), критическое значение равно Вкр = 132.57.
Расчетное значение критерия Вилкоксона оказалось меньше критического. С учетом того, что критическая область данного критерия правосторонняя, принимаем нулевую гипотезу, которая подтверждает однородность сравниваемых совокупностей.
Использование критериев согласия преследует цель поиска закона распределения генеральной совокупности, которой принадлежит данная анализируемая выборка. Расчеты проводятся для исходной выборки (X) при N = 30. Цель расчетов заключается в следующем: с помощью критерия согласия Пирсона проверить принадлежность эмпирического материала нормальной кривой распределения (кривая Гаусса). Основные положения по кривой распределения приведены выше.
Как и при проверке однородности выдвигается нулевая гипотеза, но в данном случае она утверждает согласие значений выборки со значениями нормальной кривой распределения, т. е. при увеличении данных натурных наблюдений до бесконечности, распределение случайных чисел отвечает выбранному закону распределения. Расчет по критерию Пирсона основан на определении теоретической частоты в эмпирических интервалах, и если эмпирическая частота и теоретическая отличаются незначительно, то принимается нулевая гипотеза при выбранном уровне значимости и числе степеней свободы. Расчетная формула статистического критерия согласия Пирсона или х2 имеет следующий вид:
где К — количество интервалов; ni — эмпирическая частота; nt — теоретическая частота.
Для того, чтобы использовать аналитические законы распределения, необходимо знать область возможных значений случайных величин (для нормально распределенной случайной величины область возможных значений определяется интервалом (-оо; +оо)). Расчеты сводим в таблицу 4. При этом необходимо выполнить следующее условие: для граничных классов N-Pi > 1, а для внутренних — N-Pi > 5. Если условие не соблюдается, то классы необходимо укрупнять.
Таблица 4
Определение выборочного значения х2рас на согласие эмпирического распределения с нормальным законом распределения.
N | |||||||||||
-? — 23,25 | -? | — 1,65 | — 0,5 | — 0,45 | 0,05 | 1,5 | — 1,5 | 1,5 | |||
23,25 — 25.52 | — 1,65 | — 0,79 | — 0,45 | — 0,28 | 0,16 | 4,8 | 2,2 | ||||
25.52 — 27,79 | — 0,79 | 0,056 | — 0,28 | 0,02 | 0,31 | 9,3 | 0,7 | ||||
27,79 — 30,06 | 0,056 | 0,91 | 0,02 | 0,31 | 0,3 | — 1 | |||||
30,06 — 32,33 | 0,91 | 1,76 | 0,31 | 0,46 | 0,14 | 4,2 | — 0,2 | ||||
32,33 — 34,6 | 1,76 | 2,62 | 0,46 | 0,495 | 0,035 | 1,05 | — 1,05 | ||||
34,6 — 36,87 | 2,62 | 3,47 | 0,495 | 0,499 | 0,004 | 0,12 | 0,88 | ||||
36,87 — +? | 3,47 | +? | 0,499 | 0,5 | 0,001 | 0,03 | — 0,03 | 0,03 | |||
Условные обозначения:
ai — границы интервалов;
ni — эмпирическая частота;
bi — нормированная и центрированная случайная величина:
Ф0 (bi) — значение функции нормального закона распределения на границах интервалов определяется по таблицам;
Pi — теоретическая попадания случайной величины в заданный интервал, Pi = Ф0 (bi) — Ф0 (bi-1);
N-объем выборки, N~ 30;
N-Pi — теоретическая частота.
В результате проведенных расчетов получили искомое расчетное значение критерия Пирсона х2рас =___.
Критическое значение критерия Пирсона определяется по таблицам или по формуле:
где т — число степеней свободы, т = К - 1;
Z2a — коэффициент, определяемый по формуле:
0.45, Z2a=1.65.
Учитывая это, критическое значение критерия Пирсона равно: 10,81
Если расчетное значение не превышает критического на выбранном уровне значимости нулевая гипотеза принимается, что подтверждает принадлежность исследуемой выборки нормальному закону распределения: >х2рас, 10,81>
Вывод: условие соблюдается: критическое значение распределения Пирсона больше рассчетного (<10,81) Нулевая гипотеза принимается, эмпирическое распределение согласуется с кривой Гаусса, можно применять все свойства этой кривой и использовать при прогнозировании; выборка принадлежит нормальному закону распределения.
Заключение
Мы построили вариационный ряд, сгруппировали данные, графически изобразили ряды, изучили форму кривой распределения, проверили статистические гипотезы. Результаты расчетов могут быть использованы в дальнейших исследованиях, в частности, для математического моделирования трансформации загрязняющего вещества в водной или воздушной среде.