Помощь в написании студенческих работ
Антистрессовый сервис

Статистические методы обработки данных

РефератПомощь в написанииУзнать стоимостьмоей работы

Проведение анализа формы гистограммы и выдвижение гипотезы о законе распределения физической величины Во многих случаях при изучении статистических данных (выборки) необходимо знать закон распределения генеральной совокупности. Для этого проводится сравнение формы гистограммы с внешним видом закономерностей законов распределения. Делается предположение о законе изменения физической величины, т… Читать ещё >

Статистические методы обработки данных (реферат, курсовая, диплом, контрольная)

Математические законы теории вероятностей не являются беспредметными абстракциями, лишенными физического содержания, а представляют собой математическое выражение реальных закономерностей, существующих в массовых случайных явлениях [23]. Теория вероятностей дает возможность определить вероятности событий, законы распределения и числовые характеристики случайных величин, но для того, чтобы провести обработку и представить данные, необходимо провести эксперимент, применить (разработать) метод фиксации данных.

Раздел математики, изучающий методы сбора, систематизации и обработки результатов наблюдений с целью выявления статистических закономерностей, получил название математическая статистика (рис. 11).

Направления математической статистики.

Рис. 11. Направления математической статистики

В связи с этим основной задачей, решаемой математической статистикой, является [23] определение закона распределения случайной величины и нахождение числовых характеристик распределения либо вида функции отклика и ее параметров.

Методы математической статистики используются при планировании организации производства, анализе технологических процессов, для контроля качества продукции и многих других целей.

Определение закона распределения случайной величины

Для определения закона распределения, описывающего заданную выборку (набор экспериментальных данных), необходимо сравнить две выборки данных: экспериментальную и теоретическую, для чего требуется выполнить следующие шаги.

1. Группировка данных и построение гистограммы Для построения гистограммы данные группируют, для чего диапазон изменения значений выборки разбивают на несколько равных интервалов к шириной.

Статистические методы обработки данных.

Таблица 6.

Рекомендации по выбору количества интервалов

п

к

40…100.

1…9

100…500.

8…12.

500…1000.

10…16.

1000… 10 000.

12…22.

где хтт и jcmax — соответственно минимальное и максимальное значения в выборке {*!,…, xN}. Количество интервалов к согласно различным рекомендациям [24] может получиться разным, а при больших объемах выборок п достаточно большим.

Можно воспользоваться рекомендациями Всероссийского научно-исследовательского института метрологии (табл. 6) [24, 25].

Далее, для каждого интервала подсчитывается количество попадающих в него значений т. Затем для каждого интервала вычисляется относительная частота (3).

По полученным данным строится гистограмма (см. рис. 3).

2. Проведение анализа формы гистограммы и выдвижение гипотезы о законе распределения физической величины Во многих случаях при изучении статистических данных (выборки) необходимо знать закон распределения генеральной совокупности. Для этого проводится сравнение формы гистограммы с внешним видом закономерностей законов распределения. Делается предположение о законе изменения физической величины, т. е. выдвигается статистическая гипотеза о том, что генеральная совокупность распределена по выбранному закону. Данная гипотеза является основной (нулевой) гипотезой Н0.

Одновременно с основной гипотезой //0 выдвигается альтернативная гипотеза Н, являющаяся логическим отрицанием гипотезы Я0 и принимаемая при отвержении гипотезы Н0.

После выдвижения гипотезы вычисляются значения функции распределения (плотности вероятности и т. д.) для экспериментальной выборки в ряде точек по принятому закону.

3. Проверка правдоподобия гипотезы о законе распределения Проверка статистической гипотезы означает проверку согласования исходных выборочных данных (выборки) с выдвинутой основной гипотезой.

При этом возможны две ситуации — основная гипотеза:

  • • подтверждается;
  • • опровергается.

Таким образом, при проверке статистических гипотез существует вероятность допустить две ошибки: или, соответственно:

  • • опровергнуть верную гипотезу — ошибка первого рода а;
  • • принять ложную гипотезу — ошибка второго рода (3.

Вероятность совершения ошибки первого рода называется уровнем значимости. Чаще принимаются уровни значимости а= 0,05; 0,01; 0,001, которые называют пятипроцентным, однопроцентным и 0,1%-м [26].

При проверке гипотезы возможны четыре варианта исходов (табл. 7).

Таблица 7.

Варианты исходов

Г ипотеза #0

Решение.

Вероятность.

Название.

Верна.

Принимается.

1-а.

Доверительная вероятность.

Отвергается.

а.

Вероятность ошибки первого рода.

Неверна.

Принимается.

Р.

Вероятность ошибки второго рода.

Отвергается.

_ЬР_.

Мощность критерия.

Для проверки гипотезы Н0 используют специально подобранную случайную величину — статистический критерий.

Различают следующие статистические критерии:

  • • значимости,
  • • согласия,
  • • проверки на однородность.

Проверка гипотезы на значимость предполагает проверку гипотезы о равенстве численных значений принятого закона распределения двух выборок из генеральных совокупностей случайных величин X и Y.

Проверка на однородность — это проверка гипотезы о том, что две (или более) выборки взяты из одной генеральной совокупности.

Проверка на согласие — проверка предположения о том, что исследуемая случайная величина подчиняется принятому закону распределения.

Существует несколько критериев сравнения законов распределения выборок, так называемых критериев согласия, в частности критерий у (Пирсона), Колмогорова, Смирнова и др.

Выбирается критерий для сравнения законов, вычисляется его значение и сравнивается с его критическим значением. Если значение критерия превосходит критическое, то изменение данных в выборке не соответствует принятому закону. Критические значения для каждого критерия проще всего определять по таблицам.

Критерий Пирсона является универсальным, т. к. применим для любых видов функции F (x), даже при неизвестных значениях их параметров, что имеет место при анализе результатов механических испытаний. Значение критерия Пирсона для выборки определяется как:

Статистические методы обработки данных.

где п — объем выборки; к — количество интервалов; mi — количество значений физической величины X, попавших в тот или иной интервал (абсолютная частота); Wi — относительная частота; pi0 — теоретическое значение вероятности, вычисленное по формулам принятого закона распределения.

При п—>оо (W; —>?/?,):

р( - значение вероятности, определенное по эмпирическим данным.

р( — значение вероятности, определенное по эмпирическим данным.

Пример

Определить возможность описания данных выборки п — 50 определенным законом распределения случайной физической величины при доверительной вероятности 95%. Данные выборки: 19,70; 18,72; 20,24; 21,28; 21,20; 21,73; 17,82; 19,77; 21,10; 18,91; 19,31; 20,31; 18,15; 19,02;

  • 19,23; 21,08; 19,43; 20,60; 20,13; 20,23; 20,17; 19,63; 20,34; 19,91; 19,81;
  • 19,49; 21,97; 20,87; 22,38; 19,35; 20,66; 21,83; 20,54; 20,90; 19,92; 19,92;
  • 20,18; 20,68; 19,62; 20,76; 18,56; 19,15; 18,48; 19,64; 19,97; 20,03; 19,68;
  • 20,49; 20,66; 19,26.

Решение

  • 1. Определяем минимальное и максимальное значения выборки: %nin = 17,82, хтах =22,38.
  • 1

Таблица 7.

Параметры выборки

Номер интервала.

Диапазон интервала.

Среднее значение xi

Частота.

абсолютная га;

относительная Wi

17,82…18,39.

18,11.

0,040.

18,39…18,96.

18,68.

0,080.

18,96…19,53.

19,25.

0,160.

19,53…20,1.

19,82.

0,240.

20,1…20,67.

20,39.

0,240.

20,67…21,24.

20,96.

0,140.

21,24…21,81.

21,53.

0,060.

21,81…22,38.

22,10.

0,040.

Принимаем количество интервалов к = 8 (см. табл. 6) и определяем ширину интервала (50).

Статистические методы обработки данных.

Определим диапазон каждого интервала, абсолютную и относительную частоты (табл. 7).

По данным в таблице строим гистограмму (рис. 12).

Гистограмма распределения.

Рис. 12. Гистограмма распределения

которому (29), (30) изменение физической величины зависит от двух параметров: математического ожидания Л/(х) и среднеквадратического отклонения а (х).

Определим математическое ожидание и среднеквадратичное отклонение.

Данные параметры можно определить, воспользовавшись формулами (9), (11) и (13), сделав допущение о том, что Щ —> pt, а х( «х) для интервала:

Статистические методы обработки данных.

По формуле (38) и табличным данным (прил. 1) определяем расчетные значения вероятности попадания значений физической величины в каждый интервал: Статистические методы обработки данных.

Статистические методы обработки данных.

Рассчитав погрешность (2), можно сделать вывод о близости статистического распределения к нормальному закону (табл. 8).

Таблица 8.

Сравнение расчетных и эмпирических вероятностей

Номер интервала.

Среднее значение.

Вероятность.

Погрешность.

1"1.

расчетная.

эмпирическая.

18,11.

0,028.

0,040.

18,68.

0,083.

0,080.

3,75.

19,25.

0,169.

0,160.

5,63.

19,82.

0,232.

0,240.

3,33.

20,39.

0,229.

0,240.

4,58.

20,96.

0,151.

0,140.

7,86.

21,53.

0,071.

0,060.

18,33.

22,10.

0,023.

0,040.

42,5.

Справедливость выдвинутого предположения проверим с помощью критерия согласия Пирсона.

3. Проверка правдоподобия гипотезы Для проверки гипотезы рассчитаем эмпирическое значение коэффициента Пирсона (51) Статистические методы обработки данных.

Для определения критического значения коэффициента Пирсона (прил. 2) найдем число степеней свободы df[21. Статистические методы обработки данных.

где к — количество интервалов выборки (количество варьируемых параметров); г — число параметров предполагаемого распределения, которые оценены по данным выборки:

  • г = 2 — для нормального закона распределения (математическое ожидание и среднеквадратичное отклонение), dfк- 3;
  • г = 1 — для показательного закона распределения (параметр распределения X), df = к- 2. Исходя из числа степеней свободы df = 5, по табличным данным (прил. 2) определяем критическое значение критерия Пирсона:

Так как xl < Хкр> то гипотезу о Статистические методы обработки данных. нормальном распределении данных в выборке можно принять.

Показать весь текст
Заполнить форму текущей работой