Основные понятия статистики
Коэффициент вариации является критерием типичности, достоверности средней. Если коэффициент вариации не велик (не превышает 35%), это значит, что средняя величина характеризует совокупность по признаку, который мало изменяется при переходе от одной единицы совокупности к другой. Типичность такой средней высока, и в последующих вычислениях и выводах вариационный ряд может быть заменён своим… Читать ещё >
Основные понятия статистики (реферат, курсовая, диплом, контрольная)
ТЕМА 1.4. Законы распределения случайных величин, наиболее часто используемые в экономических приложениях, и их числовые характеристики
1. Основные распределения дискретных случайных величин: биномиальное распределение, распределение Пуассона.
2. Основные распределения непрерывных случайных величин: равномерное распределение, показательное распределение, нормальное распределение.
3. Критериальные случайные величины. Распределение Стьюдента, Пирсона, Фишера — Снедекора.
1. Основные распределения дискретных случайных величин: биномиальное распределение, распределение Пуассона.
1.1 Биноминальное распределение Дискретная случайная величина Х имеет биноминальный закон распределение, если она принимает значения 0, 1, 2, …m… n с вероятностями
0< p <1, q = 1 — p, m = 0, 1, 2, …n
Как видно, вероятность значений находится по формуле Бернулли. Следовательно, биноминальный закон распределения представляет собой распределение числа Х = m, количества событий А, произошедших в n испытаниях. Бернулли, в каждом из которых событие A происходит с вероятностью p, а противоположное событие с вероятностью 1- p. Закон распределения биноминальной случайной величины Х в развёрнутом форме имеет вид:
— верхняя строчка — это совокупность числовых значений, которые может принимать случайная величина;
— нижняя строчка — вероятность события, что случайная величина примет эти значения.
Определение биноминального закона корректно, так как основное свойство ряда распределения выполнено, ибо, как было отмечено выше, есть сумма всех членов разложения бинома Ньютона:
Отсюда и название закона — биноминальный.
Числовые характеристики биноминального распределения:
М (Х) = np
D (X) = npq
1.2 Закон распределения Пуассона Дискретная случайная величина Х имеет закон распределение Пуассона, если она принимает значения 0, 1, 2, …m,… (бесконечное, но счётное множество значений) с вероятностями
где m = 0, 1, 2, …
Числовые характеристики распределения Пуассона:
М (Х) = л
D (X) = л
2. Основные распределения непрерывных случайных величин
Отметим ряд особенностей свойств непрерывных случайных величин.
1. Множество значений непрерывной случайной величины есть совокупность всех точек числовой оси.
2. Функция распределения непрерывной случайной величины. является непрерывной.
3. Найдем вероятность того, что в результате испытаний случайная величина X примет значение a, где a — произвольное действительное число:
В случае непрерывной случайной величины мы сталкиваемся с ситуацией, когда событие принципиально может произойти в результате испытания, но имеет вероятность равную 0. Это надо трактовать так, что распределения непрерывных случайных величин дают нам значения вероятности р = f (x) не для данного значения х случайной величины, а для интервала значений Д х, примыкающего к х. Поэтому возможно такое определение Определение. Случайная величина X называется непрерывной, если ее пространством элементарных событий является вся числовая ось (либо отрезок (отрезки) числовой оси), а вероятность наступления любого элементарного события равна нулю.
Естественны следствия такого определения.
1.F (b)-F (a) = P (a X< b) = P (a X b)
2.Неотрицательная числовая функция f (x) действительного аргумента x называется плотностью вероятности, и существует в точке x, если в этой точке существует предел:
Свойства плотности вероятности.
а).
d).
Следствие: Если пространством элементарных событий является отрезок числовой оси, то пространство элементарных событий формально можно распространить на всю числовую ось, положив вне отрезка значение плотности вероятности равное 0.
Примеры непрерывных распределений.
2.1 Равномерное распределение
х Найдём константу с :
т.к. .
Функция распределения равномерного распределения:
Математическое ожидание: М (Х) =(а+в)/2, дисперсия D (X) = (b — a)2 /12
x
2.2 Показательный закон распределения
f (x)
x
Функция распределения показательного распределения:
Математическое ожидание: М (Х) = 1/ л, дисперсия D (X) =1/ л2
2.3 Нормальное распределение — распределение Гаусса
Случайная величина имеет нормальное распределение (распределение Гаусса) и называется нормально распределенной, если ее плотность вероятности
По определению функция распределения:
Определение функция плотности распределения корректно, т.к. основное свойство распределения = 1 выполнено, поскольку интеграл
С нормальным распределением тесно связана функция Лапласа
Функцией Лапласа называется функция вида
Функция Лапласа при z >0 определяет вероятность попадания стандартной нормальной случайной величины (M (X) = 0, D (X) =1) в интервал (0, z)
Вероятность того, что значения нормальной случайной величины лежат в интервале (a, b) определяется следующим выражением:.
где
3. Критериальные случайные величины. Распределение Стьюдента, Пирсона, Фишера — Снедекора Случайные величины t — Стьюдента, ч2 — Пирсона, F — Фишера — Снедекора задаются табличным способом и используются в качестве критериальных в статистике
Контрольные вопросы
1.Дайте определение биномиальному распределению. Каковы его свойства и основные характеристики?
Дайте определение распределению Пуассона? Каковы его свойства и основные характеристики?
Какое распределение называется равномерным? Каковы его свойства и основные характеристики?
Какое распределение называется нормальным? Каковы его свойства и основные характеристики?
Напишите функцию распределения нормально распределенной случайной величины X, если M (Х) =3, D (X) =у2= 16.
Задана случайная величина X, распределенная нормально с параметрами
M (Х) = 0 и у = 2.
Найдите вероятность того, что эта случайная величина принимает значение
а) из отрезка [-1,2]; б) меньшее -1; в) большее 2; г) отличное от своего среднего значения по абсолютной величине не больше, чем на 1.
7. Задана дискретная случайная величина Z — индикатор испытаний: Z =1, если в соответствующем испытании событие, А появилось и Z = 0 в противоположном случае. Закон распределения имеет вид:
Z | |||
P | q | p | |
Найти математическое ожидание и дисперсию Z.
8. Дискретная пуассоновская случайная величина X p имеет распределение:
Вычислите математическое ожидание и дисперсию дискретной пуассоновской случайной величины
9. Задана равномерно распределённая на отрезке [a;b] непрерывная случайная величина Х:
Вычислите математическое ожидание и дисперсию случайной величины Х.
10. Задана непрерывная случайная величина Y, имеющая показательное распределение:
Вычислите математическое ожидание и дисперсию случайной величины Y.
11. Задана непрерывная случайная величина X, имеющая нормальное распределение:
Вычислите математическое ожидание и дисперсию случайной величины X.
Тема 1.5. Системы случайных величин
1. Закон распределения, функция распределения системы случайных величин, их свойства.
2. Условные законы распределения, условные числовые характеристики системы случайных величин, условие независимости случайных величин.
3. Функцией регрессии. Линейная регрессия.
4. Корреляция, свойство коэффициента корреляции. Линейная корреляция
1. Закон распределения, функция распределения системы случайных величин, их свойства Рассмотренные выше случайные величины были одномерными, т. е. определялись одним числом, однако, существуют также случайные величины, которые определяются двумя, тремя и т. д. числами. Такие случайные величины называются двумерными, трехмерными и т. д.
В зависимости от типа, входящих в систему случайных величин, системы могут быть дискретными, непрерывными или смешанными, если в систему входят различные типы случайных величин.
Более подробно рассмотрим системы двух случайных величин.
Определение. Законом распределения системы случайных величин называется соотношение, устанавливающее связь между областями возможных значений системы случайных величин и вероятностями появления системы в этих областях.
Определение. Функцией распределения системы двух случайных величин называется функция двух аргументов F (x, y), равная вероятности совместного выполнения двух неравенств X
Отметим следующие свойства функции распределения системы двух случайных величин:
1) Если один из аргументов стремится к плюс бесконечности, то функция распределения системы стремится к функции распределения одной случайной величины, соответствующей другому аргументу.
2) Если оба аргумента стремятся к бесконечности, то функция распределения системы стремится к единице.
3) При стремлении одного или обоих аргументов к минус бесконечности функция распределения стремится к нулю.
4) Функция распределения является неубывающей функцией по каждому аргументу.
5) Вероятность попадания случайной точки (X, Y) в произвольный прямоугольник со сторонами, параллельными координатным осям, вычисляется по формуле:
Плотность распределения системы двух случайных величин.
Определение. Плотностью совместного распределения вероятностей двумерной случайной величины (X, Y) называется вторая смешанная частная производная от функции распределения.
Если известна плотность распределения, то функция распределения может быть легко найдена по формуле:
Двумерная плотность распределения неотрицательна и двойной интеграл с бесконечными пределами от двумерной плотности равен единице.
По известной плотности совместного распределения можно найти плотности распределения каждой из составляющих двумерной случайной величины.
; ;
2. Условные законы распределения, условные числовые характеристики системы случайных величин, условие независимости случайных величин Условные законы распределения.
Как было показано выше, зная совместный закон распределения можно легко найти законы распределения каждой случайной величины, входящей в систему.
Однако, на практике чаще стоит обратная задача — по известным законам распределения случайных величин найти их совместный закон распределения.
В общем случае эта задача является неразрешимой, т.к. закон распределения случайной величины ничего не говорит о связи этой величины с другими случайными величинами.
Кроме того, если случайные величины зависимы между собой, то закон распределения не может быть выражен через законы распределения составляющих, т.к. должен устанавливать связь между составляющими.
Все это приводит к необходимости рассмотрения условных законов распределения.
Определение. Распределение одной случайной величины, входящей в систему, найденное при условии, что другая случайная величина приняла определенное значение, называется условным законом распределения.
Условный закон распределения можно задавать как функцией распределения так и плотностью распределения.
Условная плотность распределения вычисляется по формулам:
Условная плотность распределения обладает всеми свойствами плотности распределения одной случайной величины.
Условное математическое ожидание.
Определение. Условным математическим ожиданием дискретной случайной величины Y при X = x (х — определенное возможное значение Х) называется произведение всех возможных значений Y на их условные вероятности.
Для непрерывных случайных величин:
где f (y/x) — условная плотность случайной величины Y при X=x.
3. Функцией регрессии. Линейная регрессия Условное математическое ожидание M (Y/x)=f (x) является функцией от х и называется функцией регрессии Х на Y.
Пример. Найти условное математическое ожидание составляющей Y при
X= x1=1 для дискретной двумерной случайной величины, заданной таблицей:
Y | X | ||||
x1=1 | x2=3 | x3=4 | x4=8 | ||
y1=3 | 0,15 | 0,06 | 0,25 | 0,04 | |
y2=6 | 0,30 | 0,10 | 0,03 | 0,07 | |
Аналогично определяются условная дисперсия и условные моменты системы случайных величин.
Зависимые и независимые случайные величины.
Случайные величины называются независимыми, если закон распределения одной из них не зависит от того какое значение принимает другая случайная величина.
Понятие зависимости случайных величин является очень важным в теории вероятностей.
Условные распределения независимых случайных величин равны их безусловным распределениям.
Определим необходимые и достаточные условия независимости случайных величин.
Теорема. Для того, чтобы случайные величины Х и Y были независимы, необходимо и достаточно, чтобы функция распределения системы (X, Y) была равна произведению функций распределения составляющих.
Аналогичную теорему можно сформулировать и для плотности распределения:
Теорема. Для того, чтобы случайные величины Х и Y были независимы, необходимо и достаточно, чтобы плотность совместного распределения системы (X, Y) была равна произведению плотностей распределения составляющих.
4. Корреляция, свойство коэффициента корреляции. Линейная корреляция
Определение. Корреляционным моментом xy случайных величин Х и Y называется математическое ожидание произведения отклонений этих величин.
Практически используются формулы:
Для дискретных случайных величин:
Для непрерывных случайных величин:
Корреляционный момент служит для того, чтобы охарактеризовать связь между случайными величинами. Если случайные величины независимы, то их корреляционный момент равен нулю.
Корреляционный момент имеет размерность, равную произведению размерностей случайных величин Х и Y. Этот факт является недостатком этой числовой характеристики, т.к. при различных единицах измерения получаются различные корреляционные моменты, что затрудняет сравнение корреляционных моментов различных случайных величин.
Для того, чтобы устранить этот недостаток применятся другая характеристика — коэффициент корреляции.
Определение. Коэффициентом корреляции rxy случайных величин Х и Y называется отношение корреляционного момента к произведению средних квадратических отклонений этих величин.
Коэффициент корреляции является безразмерной величиной. Коэффициент корреляции независимых случайных величин равен нулю.
Свойство: Абсолютная величина корреляционного момента двух случайных величин Х и Y не превышает среднего геометрического их дисперсий.
Свойство: Абсолютная величина коэффициента корреляции не превышает единицы.
Случайные величины называются коррелированными, если их корреляционный момент отличен от нуля, и некоррелированными, если их корреляционный момент равен нулю.
Если случайные величины независимы, то они и некоррелированы, но из некоррелированности нельзя сделать вывод о их независимости.
Если две величины зависимы, то они могут быть как коррелированными, так и некоррелированными.
Часто по заданной плотности распределения системы случайных величин можно определить зависимость или независимость этих величин.
Наряду с коэффициентом корреляции степень зависимости случайных величин можно охарактеризовать и другой величиной, которая называется коэффициентом ковариации. Коэффициент ковариации определяется формулой:
Пример. Задана плотность распределения системы случайных величин Х и Y.
Выяснить являются ли независимыми случайные величины Х и Y.
Для решения этой задачи преобразуем плотность распределения:
Таким образом, плотность распределения удалось представить в виде произведения двух функций, одна из которых зависит только от х, а другая — только от у. Т. е. случайные величины Х и Y независимы. Разумеется, они также будут и некоррелированы.
Линейная регрессия.
Рассмотрим двумерную случайную величину (X, Y), где X и Y — зависимые случайные величины.
Представим приближенно одну случайную величину как функцию другой. Точное соответствие невозможно. Будем считать, что эта функция линейная.
Для определения этой функции остается только найти постоянные величины и .
Определение. Функция g (X) называется наилучшим приближением случайной величины Y в смысле метода наименьших квадратов, если математическое ожидание
принимает наименьшее возможное значение. Также функция g (x) называется среднеквадратической регрессией Y на X.
Теорема. Линейная средняя квадратическая регрессия Y на Х вычисляется по формуле:
в этой формуле
mx=M (X), my=M (Y), коэффициент корреляции величин Х и Y.
Величина называется коэффициентом регрессии Y на Х.
Прямая, уравнение которой
называется прямой сренеквадратической регрессии Y на Х.
Величина называется остаточной дисперсией случайной величины Y относительно случайной величины Х. Эта величина характеризует величину ошибки, образующейся при замене случайной величины Y линейной функцией g (X)=Х + .
Видно, что если r=1, то остаточная дисперсия равна нулю, и, следовательно, ошибка равна нулю и случайная величина Y точно представляется линейной функцией от случайной величины Х.
Прямая среднеквадратичной регрессии Х на Y определяется аналогично по формуле:
Прямые среднеквадратичной регрессии пересекаются в точке (тх, ту), которую называют центром совместного распределения случайных величин Х и Y.
Линейная корреляция.
Если две случайные величины Х и Y имеют в отношении друг друга линейные функции регрессии, то говорят, что величины Х и Y связаны линейной корреляционной зависимостью.
Теорема. Если двумерная случайная величина (X, Y) распределена нормально, то Х и Y связаны линейной корреляционной зависимостью.
Контрольные вопросы:
1. Дайте определение закона распределения, функцией распределения системы случайных величин.
2. Что такое условные законы распределения, условные числовые характеристики системы случайных величин?
3. Что такое функция регрессия между случайными величинами ?
4. Что такое корреляционная связь между случайными величинами?
5. Найти условное математическое ожидание составляющей Y при
X= x2=3 и Х= х3=4 для дискретной двумерной случайной величины, заданной таблицей:
Y | X | ||||
x1=1 | x2=3 | x3=4 | x4=8 | ||
y1=3 | 0,15 | 0,06 | 0,25 | 0,04 | |
y2=6 | 0,30 | 0,10 | 0,03 | 0,07 | |
6. Задана плотность распределения системы случайных величин Х и Y.
Выяснить являются ли независимыми случайные величины Х и Y.
Тема 1.6. Предельные теоремы теории вероятностей
1. Неравенства Чебышева.
2. Закон больших чисел и его следствия.
3. Предельные теоремы теории вероятностей.
1.Неравенство Чебышева
величина распределение вероятность корреляция
На практике сложно сказать какое конкретное значение примет случайная величина, однако, при воздействии большого числа различных факторов поведение большого числа случайных величин практически утрачивает случайный характер и становится закономерным.
Этот факт очень важен на практике, т.к. позволяет предвидеть результат опыта при воздействии большого числа случайных факторов.
Однако, это возможно только при выполнении некоторых условий, которые определяются законом больших чисел. К законам больших чисел относятся теоремы Чебышева (наиболее общий случай) и теорема Бернулли (простейший случай), которые будут рассмотрены далее.
Рассмотрим дискретную случайную величину Х (хотя все сказанное ниже будет справедливо и для непрерывных случайных величин), заданную таблицей распределения:
X | x1 | x2 | … | xn | |
p | p1 | p2 | … | pn | |
Требуется определить вероятность того, что отклонение значения случайной величины от ее математического ожидания будет не больше, чем заданное число .
Теорема. (Неравенство Чебышева) Вероятность того, что отклонение случайной величины Х от ее математического ожидания по абсолютной величине меньше положительного числа, не меньше чем .
Доказательство этой теоремы не приводим, т.к. оно имеется в литературе ОЛ [ 3],.
2.Закон больших чисел и его следствия
Теорема. (Теорема Чебышева) Если Х1, Х2, …, Хnпопарно независимые случайные величины, причем дисперсии их равномерно ограничены (не превышаю постоянного числа С), то, как бы мало не было положительное число, вероятность неравенства
будет сколь угодно близка к единице, если число случайных величин достаточно велико.
Т.е. можно записать:
Часто бывает, что случайные величины имеют одно и то же математическое ожидание. В этом случае теорема Чебышева несколько упрощается:
Дробь, входящая в записанное выше выражение есть не что иное как среднее арифметическое возможных значений случайной величины.
Теорема утверждает, что хотя каждое отдельное значение случайной величины может достаточно сильно отличаться от своего математического ожидания, но среднее арифметическое этих значений будет неограниченно приближаться к среднему арифметическому математических ожиданий. Отклоняясь от математического ожидания как в положительную так и в отрицательную сторону, от своего математического ожидания, в среднем арифметическом отклонения взаимно элиминируют.
Таким образом, величина среднего арифметического значений случайной величины уже теряет характер случайности.
Переходим к следующей теореме закона больших чисел.
Пусть производится п независимых испытаний, в каждом из которых вероятность появления события, А равно р.
Теорема (Теорема Бернулли). Если в каждом из п независимых испытаний вероятность р появления события, А постоянно, то сколь угодно близка к единице вероятность того, что отклонение относительной частоты от вероятности р по абсолютной величине будет сколь угодно малым, если число испытаний р достаточно велико.
Здесь т — число появлений события А. Из всего сказанного выше не следует, что с увеличением число испытаний относительная частота неуклонно стремится к вероятности р, т. е. (сходимость поточечная). В теореме имеется в виду только сходимость по вероятности, т. е. приближения относительной частоты к вероятности появления события, А в каждом испытании.
В случае, если вероятности появления события, А в каждом опыте различны, то справедлива следующая теорема, известная как теорема Пуассона.
Теорема (Теорема Пуассона). Если производится п независимых опытов и вероятность появления события, А в каждом опыте различна и равна рi, то при увеличении п частота события, А сходится по вероятности к среднему арифметическому вероятностей рi.
Теорема даёт возможность определить примерно относительную частоту появления события А.
3. Предельные теоремы теории вероятностей. Центральная предельная теорема Ляпунова
Как уже говорилось, при достаточно большом количестве испытаний, поставленных в одинаковых условиях, характеристики случайных событий и случайных величин становятся почти неслучайными. Это позволяет использовать результаты наблюдений случайных событий для предсказания исхода того или иного опыта.
Предельные теоремы теории вероятностей устанавливают соответствие между теоретическими и экспериментальными характеристиками случайных величин при большом количестве испытаний.
В рассмотренном выше законе больших чисел нечего не говорилось о законе распределения случайных величин. Поставим задачу нахождения предельного закона распределения суммы, когда число слагаемых п неограниченно возрастает. Эту задачу решает Центральная предельная теорема Ляпунова.
В зависимости от условий распределения случайных величин Xi, образующих сумму, возможны различные формулировки центральной предельной теоремы. Рассмотрим один из вариантов.
Допустим, что случайные величины Xi взаимно независимы и одинаково распределены.
Теорема. Если случайные величины Xi взаимно независимы и имеют один и тот же закон распределения с математическим ожиданием т и дисперсией 2, причем существует третий абсолютный момент 3, то при неограниченном увеличении числа испытаний п закон распределения суммы неограниченно приближается к нормальному.
Контрольные вопросы:
1. Сформулируйте теорему больших чисел Бернулли.
2. Сформулируйте теорему больших чисел Чебышева.
3. Сформулируйте теорему A.M. Ляпунова.
Раздел 2. Математическая статистика Аннотация
Математическая статистика изучает, как и теория вероятностей, случайные явления, использует одинаковые с ней определения, понятия и методы и основана на той же самой аксиоматике А. Н. Колмогорова. Однако задачи, решаемые математической статистикой, носят специфический характер.
Теория вероятностей исследует явления, заданные полностью их моделью, и выявляет еще до опыта те статистические закономерности, которые будут иметь место после его проведения В математической статистике вероятностная модель явления определена с точностью до неизвестных параметров. Отсутствие сведений о параметрах компенсируется тем, что позволяется проводить «пробные» испытания и на их основе восстанавливать недостающую информацию
Тема 2.1. Описательная статистика
1. Два основных направления исследований в статистике.
2. Основные категории статистики.
3. Методы первичного анализа экспериментальных данных. Построение вариационных рядов и определение их основных характеристик
4. Графическое представление вариационных рядов.
1. Два основных направления исследований в статистике
В математической статистике принято выделять два направления: параметрическая статистика и непараметрическая (дескриптивная) статистика.
Первое направление связано с оценкой (определением) неизвестных параметров законов распределения случайных величин на основе экспериментальных наблюдений за значениями случайной величины. Поскольку в качестве оценки выступает число, а числу на числовой прямой соответствует точка, такие оценки называют точечными.
Поскольку точечная оценка получается в результате математических операций над полученными из эксперимента значениями случайной величины она (оценка) сама есть случайная величина, имеющая определенную функцию распределения. Следовательно, точечная оценка должна быть дополнена интервалом, содержащим точечную оценку и возможный разброс её (оценки) значений, которые допустим с наперёд заданной вероятностью, которую называют доверительной. Поэтому наряду с точечными оценками в математической статистике принято определять интервальные оценки или, иными словами, доверительные интервалы, опираясь на уровень доверия или доверительную вероятность Второе направление в математической статистике связано с проверкой некоторых априорных предположений или статистических гипотез об основных характеристиках экспериментально полученных распределениях случайных величин. Принято называть одну из этих гипотез (как правило, более важную с практической точки зрения) основной H0, а вторую альтернативной или конкурирующей H1. Индекс 0 буквы H указывает, что гипотеза H0 предполагает несущественное отличие между гипотетическим и истинным значении оцениваемых параметрах, и, наоборот, индекс 1 указывает на существенную разницу между оценкой и истинном значением статистического параметра. Задача проверки статистических гипотез состоит в выборе правила или критерия, позволяющего по результатам наблюдений проверить, справедливость этих гипотез и принять одну из них. Так же, как и при точечной оценке неизвестных параметров, мы не застрахованы от неверного решения, так называемых ошибок первого и второго рода. Ошибка первого рода состоит в том, что мы принимаем конкурирующую гипотезу H1, в то время, как справедлива основная гипотеза H0. Аналогично определяется ошибка второго рода: принимаем основная гипотезу H0, в то время, как справедлива конкурирующая гипотеза H1.
В математической статистике исследуются также байесовские и небайесовские модели. Байесовская модель возникает тогда, когда неизвестный параметр является случайной величиной и имеется априорная информация о его распределении. При байесовском подходе на основе опытных данных априорные вероятности пересчитываются в апостериорные. Этот подход использует формулу Байеса.
Небайесовские модели появляются тогда, когда неизвестный параметр нельзя считать случайной величиной и все статистические выводы приходится делать, опираясь только на результаты «пробных» испытаний. Именно такие модели в основном рассматриваются в математической статистике.
В математической статистике употребляют также понятие параметрической и непараметрической модели. Параметрическая модель возникает тогда, когда нам известен вид функции распределения наблюдаемого признака, но неизвестны её параметры и необходимо по результатам испытаний определить эти параметры (задача оценки неизвестного параметра) или проверить гипотезу о принадлежности его некоторому заранее выделенному множеству значений (задача проверки статистических гипотез). Непараметрическая модель — когда неизвестен вид закона распределения и необходимо с помощью специальных критериев определить к какому классу распределений он относится.
2. Основные категории статистики
Основными категориями математической статистики являются: генеральная совокупность, выборка, теоретическая и эмпирическая функции распределения.
Определение 1. Пусть имеется совокупность N объектов любой природы, над которыми проводятся наблюдения или совокупность всех возможных наблюдений. Каждое из наблюдений характеризуется определенным значением хi (среди которых могут быть и одинаковые) некоторого общего для всех объектов признака (характеристики) Х. Назовём множество всех изучаемых объектов генеральной совокупностью, где N — объём генеральной совокупности.
В математической статистике обычно рассматривается генеральная совокупность бесконечно большого объёма.
Определение 2. Выборочной совокупностью или выборкой назовем n объектов, отобранных из генеральной совокупности и подвергнутые исследованию, число n — объёмом выборки.
Выборка должна обладать свойством репрезентативности, В силу закона больших чисел, можно утверждать, что выборка репрезентативна, если каждый её объект выбран из генеральной совокупности случайным образом, т. е. все объекты генеральной совокупности имеют одинаковую вероятность попасть в выборку.
Определение 3. Эмпирическая функция распределения. Пусть из генеральной совокупности извлечена выборка объёма n, причём количественный признак х1 наблюдался n1 раз, …хk — nk раз. Очевидно,
.
Наблюдаемые значения количественного признака хi называются вариантами, а ранжированная (записанная в порядке возрастания) последовательность вариант, — вариационным рядом. Если исследуемый признак принимает дискретные значения, то такой ряд называется дискретным вариационным рядом; если же значения признака являются непрерывными, то вводят интервалы значений признака [хi, хi+1 ] и вариационный ряд называют интервальным. В вычислительных процедурах с интервальными вариационными рядами интервалы [хi, хi+1 ] заменяются серединами интервалов — х*i.
Числа ni называются частотами, а отношение ni к объёму выборки nотносительной частотой. В случае дискретного ряда ni — число повторения значения признака хi, в случае же интервального вариационного ряда ni число вариант, попавших в интервал [хi, хi+1 ]
Сумма относительных частот
Соответствие между вариантами, записанных в порядке возрастания и относительными частотами называется эмпирическим (статистическим) распределением выборки
Х | х1 | х2 | … | хк | |
P* | p1* | p2* | … | pк* | |
Существует полная аналогия между эмпирическим распределением и законом распределения дискретной случайной величины, но в данном случае вместо значений случайной величины фигурируют варианты, а вместо вероятностей — относительные частоты. Если обозначить n (x) — число вариант, меньших x, то эмпирическая функция распределения будет иметь вид:
F*(x) = p* (X < x) =
Итак, выборочной (эмпирической) функцией распределения называется функция F*(x), задающая для каждого значения х относительную частоту события Х < x. Выборочную (эмпирическую) функцию распределения можно задать таблично или графически.
Определение 4. Функция распределения генеральной совокупности F (x) называется теоретической функцией распределения.
В отличие от эмпирической функции F*(x) теоретической функцией распределения
F (x) определяет вероятность события X < x, а F*(x) его относительную частоту. Относительные частоты pi* в соответствии с теоремой Бернулли при стремлении объёма выборки n >? сходится по вероятности к вероятности pi. Поэтому в математической статистике эмпирическую функцию F*(x) используют для приближённого представления теоретической функции распределения F (х).
3. Методы первичного анализа экспериментальных данных. Построение вариационных рядов и определение их основных характеристик Выборочные данные, упорядоченные по возрастанию или убыванию, получают название вариационного ряда.
Важнейшими числовыми характеристиками вариационных рядов являются средние показатели. Средней величиной в статистике называется обобщающая характеристика совокупности однотипных по некоторому количественно варьируемому признаку явлений. Средняя величина отражает то общее, типическое, что характерно для всех этих единиц. Применяют простые и взвешенные средние величины. При вычислении простой средней величины каждый вариант совокупности учитывается один раз. Взвешенная средняя величина вычисляется, когда варианты повторяются. При вычислении средней этого вида вес каждого из вариантов выбираются пропорциональным частоте повторений этого варианта.
В математической статистике используют различные виды средних величин. Наиболее часто применяются средняя арифметическая, средняя гармоническая и средняя геометрическая величины.
Чаще других средних величин используют средние арифметические. По данным не сгруппированного вариационного ряда вычисляется средняя арифметическая простая величина, представляющая собой сумму всех вариантов ряда, деленную на число вариантов
. (1)
Здесь: x — варианты, n — число вариантов.
По данным сгруппированного вариационного ряда рассчитывается средняя арифметическая взвешенная, представляющая сумму попарных произведений вариантов на соответствующие им частоты, деленную на число вариантов
. (2)
При решении некоторых задач статистики используют понятие доли — отношения числа единиц совокупности, обладающих изучаемым признаком, к общему числу единиц совокупности. Доля единиц совокупности, объединенных по некоторому признаку в i-ю группу, определяется формулой
.
Формула для средней арифметической, записанная с использованием доли, имеет вид
.
Примечание. При расчете средних величин по данным интервального вариационного ряда вместо варианта x следует использовать значение x*i - абсциссу середины i-го интервала.
В теории вероятностей аналогом средней взвешенной величины является математическое ожидание случайной величины.
Помимо средней арифметической в математической статистике применяется средняя гармоническая величина. — средняя величина из обратных значений признака.
Средняя гармоническая простая вычисляется по формуле
. (3)
Средняя гармоническая взвешенная используется тогда, когда статистическая информация не содержит частот по отдельным вариантам совокупности, а представлена как их произведение, и определяется по формуле
. (4)
Пример. В таблице представлены данные о заработных платах.
Группы рабочих | Зар. плата () | Фонд оплаты труда () | |
Определить среднюю заработную плату по цеху.
Средняя заработная плата по цеху равна суммарному фонду оплаты труда, деленному на общее число рабочих, т. е. вычисляется по формуле (4.4) средней гармонической взвешенной
руб.
При анализе динамики явлений, когда рассматриваются относительные величины, используют среднюю геометрическую величину — корень n-ой степени из произведения n значений признака, позволяющую определить средний коэффициент роста явления. Средняя геометрическая простая определяется по формуле
. (5)
Средняя геометрическая взвешенная вычисляется по формуле
. (6)
Если какой-либо количественный признак имеет разные значения у различных единиц совокупности, говорят, что он имеет вариацию. Для характеристики размера вариации в статистике применяются показатели вариации: размах вариации, среднее линейное отклонение, дисперсия, среднее квадратическое отклонение (стандарт).
Размах вариации R представляет собой разность между максимальным и минимальным значениями признака в совокупности
R = x.
Среднее линейное отклонение d представляет собой среднее арифметическое абсолютных значений отклонений вариантов от средней арифметической и рассчитывается по формуле
.
Дисперсия (от лат. dispersus — рассеянный, рассыпанный) представляет собой среднее арифметическое квадратов отклонений вариантов от среднего значения.
Дисперсия, рассчитанная по данным несгруппированного вариационного ряда, записыва-ется в виде
.
Для сгруппированного вариационного ряда формула вычисления дисперсии имеет вид
. (7)
Преобразовав выражение (7), получим иной вид записи дисперсии
.
Среднее квадратическое отклонение (стандарт) S представляет собой квадратный корень из дисперсии
.
Коэффициент вариации V — выраженное в процентах отношение среднего квадратического отклонения и среднего арифметического:
.
Коэффициент вариации является критерием типичности, достоверности средней. Если коэффициент вариации не велик (не превышает 35%), это значит, что средняя величина характеризует совокупность по признаку, который мало изменяется при переходе от одной единицы совокупности к другой. Типичность такой средней высока, и в последующих вычислениях и выводах вариационный ряд может быть заменён своим средним значением. Если коэффициент вариации превышает 35%, то среднее арифметическое не является типичным значением вариационного ряда, и использование его в качестве средней характеристики некорректно.
Пример. Имеются данные о средней месячной выработке изделий рабочими бригады
Средняя месячная выработка Изделий рабочим (штук) (X) | 140−160 | 160−180 | 180−200 | 200−220 | |
Число рабочих (F) | |||||
Определить показатели вариации.
Сформируем вспомогательную таблицу, обозначив середину i-го интервала
X | F | |||||||
140−160 | — 34 | |||||||
160−180 | — 14 | |||||||
180−200 | +6 | |||||||
200−220 | +26 | |||||||
Итого | ||||||||
Cредняя арифметическая месячная выработка =шт.
По данным таблицы вычислим показатели вариации
Размах вариации R = 210 — 150 = 60 шт.
Среднее линейное отклонение = шт.
Дисперсия = 324.
Среднее квадратическое отклонение = 18 шт.
6. Коэффициент вариации % = 9,8%.
Как видно из расчётов, коэффициент вариации составляет 9,8% и, следовательно, типичность среднего значения высока.
В ряде задач статистическая совокупность оказывается разделенной на несколько групп. В этом случае вычисляют три вида дисперсий: общую, межгрупповую и среднюю внутригрупповую дисперсию .
Рассмотрим статистическую совокупность, которая разделена на m групп. (Это разделение может совпадать или не совпадать с группировкой той же совокупности, представленной вариационным рядом, в котором совокупность разделена на k групп). Обозначим количество элементов, попавших в i-ю группу через ().
Общая дисперсия характеризует рассеяние признака по всей изучаемой совокупности под влиянием всех факторов, формирующих уровень признака у единиц совокупности, и определяется по формуле (5.1)
(8)
где — общая средняя арифметическая для всей изучаемой совокупности.
Межгрупповая дисперсия отражает различия в величине изучаемого признака, возникающие под влиянием фактора, положенного в основу группировки, и показывает рассеяние групповых средних вокруг средней величины признака в совокупности
(9)
где — средняя арифметическая по i-й группе.
Внутригрупповая дисперсия используется для оценки рассеяния признака внутри группы. Она характеризует вариацию, не зависящую от значений признака, положенного в основу группировки (факторного признака), и возникающую под влиянием других факторов. Средняя внутригрупповая дисперсия вычисляется по формуле
(10)
Здесь — дисперсия признака в i-й группе, где — частота признака в i-й группе.
Общая, межгрупповая и средняя внутригрупповая дисперсии связаны правилом сложения дисперсий
=.
Смысл этого соотношения заключается в том, что общая дисперсия, определяемая влиянием всех факторов, равна дисперсии, определяемой фактором группировки, и дисперсии, возникающей под влиянием прочих факторов.
В статистическом анализе вычисляют характеристики, зависящие от распределения частот по вариантам — от структуры распределения. Поэтому эти характеристики получили название структурных средних величин. К таким показателям относятся мода и медиана.
Мода — значение признака, наиболее часто встречающееся в ряду распределения. Мода определяется различными способами в зависимости от вида вариационного ряда. В дискретном вариационном ряду мода — вариант с максимальной частотой в изучаемой совокупности.
Пример. По данным статистического наблюдения получены значения величины X = {5, 3, 1, 2, 1, 4, 1, 5, 2, 1, 4, 2, 1, 1, 6}. Определить моду.
Построим вариационный ряд
X | ||||||||||||||||
Соответствующий сгруппированный вариационный ряд имеет вид:
X | |||||||
F | |||||||
Значение признака Х, имеющего наибольшую частоту (6) равно 1. Следовательно, для данного вариационного ряда = 1.
При отыскании моды в интервальном ряду сначала определяют модальный интервал — интервал, имеющий наибольшую частоту. Затем мода рассчитывается по формуле
(11)
где - нижняя граница модального интервала; - величина модального интервала; - частота модального интервала, fm-1 — частота интервала, предшествующего модальному, fm+1 - частота интервала, следующего за модальным.
Пример. По данным статистического наблюдения построен интервальный ряд распределения рабочих по заработной плате
Зар. плата (руб.) | 1300−1400 | 1400−1500 | 1500−1600 | 1600−1700 | 1700−1800 | |
Число рабочих (частота) | ||||||
Кумулятивная частота | ||||||
Найти моду.
Модальным интервалом является интервал (1600−1700). Подставив данные таблицы в формулу (5.5), получим
o = 1616,7 руб.
Медиана - значение признака (вариант), которое делит вариационный ряд на две равные части, одна из которых — со значениями признака меньше медианы, вторая — со значениями признака больше медианы.
Медиана для дискретных и интервальных вариационных рядов определяется по-разному. Если дан дискретный несгруппированный вариационный ряд и число вариантов n нечетно, то =, где; если число вариантов n четное, = (x+ x) / 2, где.
Пример. По данным примера 5.2 найти медиану дискретного вариационного ряда.
Число вариантов n несгруппированного ряда равно 15, следовательно, k = (n + 1)/2 = 8, и медиана равна 2.
Пример 5.3. Определить медиану по данным, приведенным в таблице
Размер заработной платы (тыс. руб.) | Число работников (частота) | Накопленная частота | ||
Решение. Сумма частот n = 250 — четно, = 125. = 6200.
В интервальном вариационном ряду для определения медианы сначала нужно найти медианный интервал — первый по счету интервал, в котором накопленная частота равна или превышает полусумму частот вариационного ряда. После этого медиана определяется по формуле
где - нижняя граница медианного интервала;
— величина медианного интервала;
— накопленная частота интервала, предшествующего медианному;
— частота медианного интервала.
Пример. По данным примера 5.3 определить медиану интервального ряда.
Медианным является интервал (1500−1600), так как это первый по счету интервал, сумма накопленных частот которого (115) больше полусуммы накопленных частот интервального ряда (0.5•210 = 105). Подставив данные примера в формулу для медианы интервального ряда, получим
.
В математической статистике используют структурные характеристики, делящие вариационный ряд на большее число частей, — квантили — показатели дифференциации признаков по частотам. Различают несколько видов квантилей.
Квартили — значения признака, которые делят вариационный ряд на четыре равные части. Второй квартиль равен медиане, первый и третий вычисляются аналогично расчету медианы. При расчете i-го квартиля сначала по относительным частотам определяют соответствующий квартильный интервал — первый по счету интервал, накопленная частота которого больше (n — сумма частот). Затем значение квартиля рассчитывают по формуле, аналогичной формуле для нахождения медианы
i =1, 2, 3,
где i - номер квартильного интервала;
- нижняя граница i-го квартильного интервала;
- величина i-го квартильного интервала;
— накопленная частота интервала, предшествующего i-му квартильному интервалу;
— частота i-го квартильного интервала.
Отношение третьего и первого квартилей называется квартильным коэффициентом
=
и показывает, во сколько раз значение признака у четверти вариантов, имеющих наибольшие значения признака, превышает значение признака у другой четверти с наименьшими значениями.
Значения признака, которые делят вариационный ряд на десять равных частей, называются децилями. Расчет значений децилей проводится аналогично расчету квартилей. Отношение девятого и первого децилей — децильный коэффициент = показывает, во сколько раз величина признака у 10% совокупности с наибольшими значениями превышает такую же величину у 10% совокупности с наименьшими значениями признака.
В статистике используются также перцентили — значения признака, которые делят вариационный ряд на сто равных частей.
В ряде случаев в математической статистике вычисляют показатели формы распределения частот по вариантам: асимметрию и эксцесс. Характеристика симметричности распределения — коэффициент асимметрии — рассчитывается по формуле
где — центральный момент третьего порядка;
— куб среднего квадратического отклонения.
Если варианты распределены симметрично относительно средней величины, т. е. равноудаленные от варианты имеют одинаковые частоты, коэффициент асимметрии равен нулю. Если < 0, в вариационном ряду преобладают варианты, которые меньше, чем средняя величина. В этом случае говорят о наличии левосторонней асимметрии. И, наоборот, при > 0 преобладают варианты, которые больше. Это указывает на правостороннюю симметрию.