Распределение, наблюдение и зависимость в статистике
Статистические методы изучения зависимости построены с учетом особенностей изучаемых закономерностей. Статистика изучает преимущественно стохастические связи, когда одному значению признака-фактора соответствует группа значений результативного признака. Если с изменением значений признака-фактора изменяются среднегрупповые значения результативного признака, то такие связи называют… Читать ещё >
Распределение, наблюдение и зависимость в статистике (реферат, курсовая, диплом, контрольная)
РЕФЕРАТ по курсу «Основы статистики»
Тема:
«Распределение, наблюдение и зависимость в статистике»
1. Ряды распределения
Рядами распределения называются группировки особого вида, при которых по каждому признаку, группе признаков или классу признаков известны численность единиц в группе либо удельный вес этой численности в общем итоге.
Ряды распределения могут быть построены или по количественному, или по атрибутивному признаку.
Ряды распределения, построенные по количественному признаку, называются вариационными рядами. Ряд распределения может быть построен по непрерывно варьирующему признаку (когда признак может принимать любые значения в рамках какого-либо интервала) и по дискретно варьирующему признаку (принимает строго определенные целочисленные значения).
Непрерывно варьирующий признак изображается графически при помощи гистограммы. Дискретный же ряд распределения графически представляется в виде полигона распределения.
Закон нормального распределения:
;
у — ордината нормального распределения
t — нормированное отклонение.
; е=2,7218; xi — варианты вариационного ряда; - среднее;
Свойства:
Функция нормального распределения — четная, т. е. f (t)=f (-t),. Функция нормального распределения полностью определяется и СКО.
Причиной частого обращения к закону распределения является то, что зависимость возникает в результате действия множества случайных причин ни одна из которых не является преобладающей. Если в вариационном ряду рассчитано Мо=Ме, то это может указывать на близость к нормальному распределению. Наиболее точная проверка соответствия нормальному закону производится с помощью специальных критериев.
Критерии согласия: Пирсона, Романовского, Колмогорова.
Критерий Пирсона.
— теоретическая частота
— эмпирическая частота
Методика расчета теоретических частот:
1. Определяется среднее арифметическое и по интервальному вариационному ряду, считается t по каждому интервалу.
Находится значение плотности вероятности для нормированного закона распределения
2. Находится теоретическая частота.
l — длина интервала
— сумма эмпирических частот
— плотность вероятности
3. Расчет коэффициента Пирсона
4. табличное значение
d.f. — количество интервалов — 3
d.f. — количество степеней свободы.
5. если >, то распределение не является нормальным, т. е. гипотеза о нормальном распределении отменяется. Если <, то распределение является нормальным.
Критерий Романовского.
— критерий Пирсона расчетный;
— число степеней.
Если С<3, то распределение близко к нормальному.
Критерий Колмогорова
D — максимальное значение между накопленными эмпирическими и теоретическими частотами. Необходимое условие для использования Колмогорова: число наблюдений более 100. Расчет ведется по специальной таблице вероятностей с которой можно утверждать, что данное распределение является нормальным.
2. Выборочное наблюдение
Выборочный метод — это основной способ сбора информации в условиях развитой рыночной экономики.
Выборка — разновидность несплошного наблюдения, позволяющего определить показатели всей совокупности (генеральной совокупности) на основе изучения ее части. При этом отобранная часть формируется с учетом положений теории вероятности и математической статистики.
Способ отбора — это определенная система организации выборочного исследования. Применение того или иного способа зависит от цели исследования условий выборки, специфики объекта исследования, необходимой точности и оперативности результатов и от средств выделенных на исследования.
Все способы отбора разделяются на 3 вида:
· Индивидуальный;
· Групповой;
· Комбинированный.
При индивидуальном виде отбирают отдельные единицы совокупности.
При групповом виде отбирают группы, серии единиц совокупности (например: выбрали из контейнера несколько ящиков и все их проверили).
Комбинированный способ сочетает индивидуальный и групповой.
Если выборочная совокупность получена сразу, отбор называют одноступенчатым.
При наличии нескольких последовательных этапов отбора — выборка считается многоступенчатой.
Единица отбора меняется на каждой ступени. В отличии от многоступенчатой — многофазная выборка сохраняет одну и ту же единицу на всех стадиях отбора. Однако программа наблюдения постепенно расширяется.
В зависимости от применяемой схемы отбора различают:
· Повторный отбор;
· Бесповторный отбор.
Каждый из видов отбора может осуществляться следующими способами:
1. Собственно случайным;
2. Механическим;
3. Типическим (стратефицированным);
4. Серийным (гнездовым);
5. Комбинированным.
Собственно случайный отбор организуется таким образом, чтобы у всех единиц генеральной совокупности были равные возможности попасть в выборку.
Механический отбор это направленная выборка из совокупности, предварительно упорядоченной по существующему или несуществующему признаку.
При типической (стратефицированной) выборке генеральная совокупность вначале разбивается на типичные группы (страты), из которых производится случайный отбор единиц. Такая выборка гарантирует представительство всех типичных групп выборочной совокупности, что снижает ошибку выборки. Существуют пропорциональный и непропорциональный способы типического отбора.
Серийный или гнездовой отбор — это случайный выбор групп единиц с последующим сплошным наблюдением внутри отобранных серий.
Комбинированная выборка — это сочетание группового и индивидуального отбора единиц наблюдения. Чаще всего сочетается серийный и собственно случайный отбор.
Поиск оптимальной численности выборки удобно осуществлять на основе формул средней и предельной ошибок. Из формулы средней ошибки случайного повторного отбора видно, что величина средней ошибки обратно пропорциональна квадратному корню из численности выборки
().
Чтобы сократить среднюю ошибку в 2 раза, нужно численность выборки увеличить в 4 раза. Используя формулу предельной ошибки выборки
можно найти численность
.
Это оптимальная численность выборки для случайного повторного отбора.
В процессе статистических исследований нередко приходится ограничивать объем выборки, особенно в тех случаях, когда исследования единиц совокупности приводит к их разрушению.
В статистике доказано, что даже в выборке весьма малого объема (20−30, а иногда 4−5 единиц) позволяют получить приемлемые для анализа результаты. Проблема малых выборок была решена в 1908 г. английским статистиком У. Гассетом (псевдоним Студент). Он сумел определить зависимость между величиной доверительного коэффициента t, а так же численностью малой выборки n с одной стороны, и вероятностью нахождения ошибки выборки в заданных пределах с другой стороны. Эта зависимость получила название — распределение Стьюдента. Для упрощения расчетов имеются специальные таблицы значений критериев Стьюдента.
=n-1 — число степеней свободы.
Малая выборка определяется по формуле:
Для целей распространения результатов выборочного распределения на генеральную совокупность используется два метода:
· Метод прямого пересчета;
· Метод поправочных коэффициентов.
Метод прямого пересчета применяется для определения по данным о выборочной доле величины интервала, в пределах которого в генеральной совокупности с заданной вероятностью находится число единиц, обладающих изучаемым признаком.
Основное назначение метода поправочных коэффициентов — уточнение данных сплошного массового наблюдения посредством выборочных проверок. Обычно такие проверки осуществляются инструкторами-контролерами по результатам проведенных переписей.
3. Статистическое изучение взаимосвязи социально-экономических явлений
Изучение зависимостей — это сложнейшая задача, поскольку социально-экономические явления сами по себе сложны и многообразны. Кроме того, полученные выводы носят вероятностный характер, так как они делаются на основе данных, представляющих собой выборку во времени или пространстве.
Статистические методы изучения зависимости построены с учетом особенностей изучаемых закономерностей. Статистика изучает преимущественно стохастические связи, когда одному значению признака-фактора соответствует группа значений результативного признака. Если с изменением значений признака-фактора изменяются среднегрупповые значения результативного признака, то такие связи называют корреляционными. Не всякая стохастическая зависимость является корреляционной. Если каждому значению факторного признака соответствует строго определенное значение результативного признака, то такая зависимость функциональная. Ее называют еще полной корреляцией. Неоднозначные корреляционные зависимости называют неполной корреляцией.
По механизму взаимодействия различают:
· Непосредственные связи — когда причина прямо влияет на следствие;
· Косвенные связи — когда между причиной и следствием существуют ряд промежуточных признаков (например, влияние возраста на заработок).
По направлениям различают:
· Прямые связи — когда значение факторного и результативного признаков изменяются в одном направлении;
· Обратные связи — когда значения факторного и результативного признаков изменяются в разных направлениях.
Бывают:
· Прямолинейные (линейные) связи — выражены прямой линией;
· Криволинейные связи — выражены параболой, гиперболой.
По числу взаимосвязанных признаков различают:
· Парные связи — когда анализируется взаимосвязь двух признаков (факторного и результативного);
· Множественные связи — характеризуют влияние нескольких признаков на один результативный.
По силе взаимодействия различают:
· Слабые (заметные) связи;
· Сильные (тесные) связи.
Задача статистики определить наличие, направление, форму и тесноту взаимосвязи.
Для изучения зависимости применяются различные статистические методы. Поскольку зависимости в статистике проявляются через вариацию признаков, то и методы в основном измеряют и сопоставляют вариацию факторного и результативного признаков.
Если изобразить результаты группировки на графике, получим эмпирическую линию регрессии. Интервалы значений факторного признака заменяются средними групповыми показателями.
Помимо эмпирической линии регрессии, непосредственно определяющей форму и направление взаимосвязей, существует корреляционное поле, на котором отражаются параметрические данные.
По корреляционному полю так же можно судить о характере взаимосвязи. Если точки сконцентрированы около диагонали идущей слева направо, снизу вверх — то связь прямая. Если около другой диагонали — обратная. Если точки рассеяны по всему полю графика — связь отсутствует.
При построении аналитической группировки важно правильно определить величину интервала. Если в результате первичной группировки связь не проявляется отчетливо, можно укрупнить интервал. Однако, укрупняя интервалы, можно иногда обнаружить связь даже там, где ее нет. Поэтому при построении аналитической группировки руководствуются правилом: чем больше групп мы можем выделить, не натолкнувшись ни на одно исключение, тем надежнее наша гипотеза о наличии и форме связи.
Нематематические методы дают приближенную оценку о наличии, формы и направлении связи. Более глубокий анализ осуществляется с помощью математических методов, которые развились на базе методов, применяемых статистиками — нематематиками:
· Регрессионный анализ, позволяющий выразить с помощью уравнения форму взаимосвязи.
· Корреляционный анализ используется для определения тесноты или силы взаимосвязи признаков. Корреляционные методы делят:
- Параметрические методы, которые дают оценку тесноты связи непосредственно на базе значений факторного и результативного признаков;
- Непараметрические методы — дают оценку на основе условных оценок признаков.
Оценка тесноты криволинейных зависимостей дается после расчета параметра уравнения регрессии. Поэтому такой метод называется корреляционно-регрессивным.
Если анализируется зависимость одного факторного и результативного признаков, то в этом случае имеем дело с парной корреляцией и регрессией. Если анализируются несколько факторных и результативных признаков — это множественная корреляция и регрессия.
Регрессия — это линия, характеризующая наиболее общую тенденцию во взаимосвязи факторного и результативного признаков.
Предполагается, что аналитическое уравнение выражает подлинную форму зависимости, а все отклонения от этой функции обусловлены действием различных случайных причин. Так как изучаются корреляционные связи, изменению факторного признака соответствует изменение среднего уровня результативного признака. При построении аналитических группировок мы рассматривали эмпирическую линию регрессии. Однако, эта линия не пригодна для экономического моделирования и ее форма зависит от произвола исследователя. Теоретически линия регрессии в меньшей степени зависит от субъективизма исследователя, однако, здесь так же может быть произвол при выборе формы или функции взаимосвязи. Считается, что выбор функции должен опираться на глубокое знание специфики предмета исследования.
На практике чаще всего применяются следующие формы регрессионных моделей:
· Линейная ;
· Полулогарифметическая кривая ;
· Гипербола ;
· Парабола второго порядка ;
· Показательная функция ;
· Степенная функция .
Помимо содержательного подхода существует формальная оценка адекватности подобранной регрессионной модели. Лучшей из них считается та, которая наименее удалена от исходных данных.
Данное свойство средней, гласящее, что сумма квадратов отклонений всех вариантов ряда от средней арифметической меньше суммы квадратов их отклонений от любого другого числа, положено в основу метода наименьших квадратов, позволяющего рассчитать параметры избранного уравнения регрессии таким образом, чтобы линия регрессии была в среднем наименее удалена от эмпирических данных.
Непараметрические методы измерения тесноты взаимосвязи количественных признаков были первыми из методов измерения тесноты взаимосвязи. Впервые попытался измерить тесноту связи в 30-ч годах 19 века французский ученый Гиррий. Он сопоставлял между собой среднегрупповые значения факторного и результативного признаков. При этом абсолютные значения заменялись их отношениями к некоторым константам. Полученные результаты ранжировались в порядке возрастания. О наличии или отсутствии связи Гиррий судил сопоставляя ранее по группам и подсчитывая количество совпадений и несовпадений рангов. Если преобладало число совпадений — связь считалась прямой. Несовпадение — обратной. При равенстве совпадений и несовпадений — связь отсутствовала.
Методика Гиррий была использована Фехнером при разработке своего коэффициента, а так же Спирменом при разработке коэффициента корреляции рангов.
Коэффициент указывает на наличие весьма тесной обратной связи.
На ряду с коэффициентом Фехнера для измерения взаимосвязи количественных признаков применяются коэффициенты корреляции рангов. Наиболее распространенным среди них является коэффициент корреляции рангов Спирмена.
Непараметрические методы применяются для измерения тесноты связи качественных и альтернативных признаков, а так же количественных признаков, распределение которых отличается от нормального распределения.
Для измерения связи альтернативных признаков применяются коэффициент ассоциации Дэвида Юла и коэффициент контингенции Карла Пирсона. Для расчета этих показателей применяется следующая матрица взаимного распределения частот:
a, b, c, d — частоты взаимного распределения признаков.
При прямой связи частоты сконцентрированы по диагонали a-d, при обратной связи по диагонали b-c, при отсутствии связи частоты практически равномерно распределены по всему полю таблицы.
Коэффициент ассоциации Коэффициент ассоциации непригоден для расчета в том случае, если одна из частот по диагонали равна 0. В этом случае применяется коэффициент контингенции, который рассчитывается по формуле:
Коэффициент контингенции также указывает на практическое отсутствие связи между признаками (его величина всегда меньше Кас).
Для измерения тесноты линейной взаимосвязи применяется коэффициент корреляции. Базовая форма коэффициента корреляции следующая:
Фактически, коэффициент корреляции — это среднее произведения нормативных отклонений:
Если связь между признаками отсутствует, то результативный признак не варьирует при изменении факторного признака, следовательно. Такой же результат получается при сбалансированности сумм отрицательных и положительных произведений.
Обычно для расчета коэффициента корреляции применяются формулы, использующие те показатели, которые уже рассчитывались при определении параметров уравнения регрессии.
Множественная корреляция и регрессия применяется для изучения влияния двух и более факторов на результативный признак. Процесс исследования включает несколько этапов.
Сначала проводится выбор формы уравнения взаимосвязи, чаще всего выбирается n-мерная линейная формула:
так как легче считать и интерпретировать полученный результат.
Поскольку расчеты важны и трудоемки, важнейшее значение имеет отбор факторов для включения в регрессионную модель. На основе качественного анализа необходимо отбирать наиболее существенные факторы. На этапе отбора факторов, рассчитывается так же единичная матрица парных коэффициентов корреляции между признаками факторов, отобранных для включения в уравнение регрессии.
1. Авдокушин Е. Ф. Основы статистики: Учебное пособие. М., 2004.
2. Буглай В. Б., Ливенцев Н. Н. Статистика: Учебное пособие / Под ред. Н. Н. Ливенцева. М., 2006.
3. Ивашковский А. А. и др. Статистика и ее применение в экономике: учебник. М., 2007.
4. Копцев К. В. Прикладная статистика. СПб, 2003.