Средние величины.
Правовая статистика
Пример. Пусть имеются следующие ранжированные сведения о количестве нотариусов, действующих в девяти населенных пунктах субъекта РФ: 7, 13, 21, 21, 29, 31, 45, 48, 87. Поскольку объем ряда N= 9, то NMc= (9 + 1)/2 = 5. Тогда, Me = 29, т. е. медиана равна пятому варианту, по обе стороны от которого расположены по четыре единицы ранжированного ряда. Если исходный ранжированный ряд содержал бы четное… Читать ещё >
Средние величины. Правовая статистика (реферат, курсовая, диплом, контрольная)
В роли обобщающих показателей в статистике широко используются средние величины. Средняя величина — это обобщающий показатель, который характеризует размер определенного варьирующего количественного признака у единиц качественно однородной совокупности в целом или для ее отдельных частей. Например, средний возраст лиц, осужденных за кражу. В правовой статистике средние величины используют для характеристики:
- — средних сроков рассмотрения дел данной категории;
- — среднего размера иска;
- — среднего числа ответчиков, приходящихся на одно дело;
- — среднего размера ущерба;
- — средней нагрузки судей и др.
Роль средних величин в статистике велика. В каждом явлении и его развитии имеет место сочетание случайности и необходимости. При исчислении средних, в силу действия закона больших чисел, случайности взаимно погашаются, уравновешиваются. Именно благодаря применению средней величины статистика, имея дело с массовыми данными, получает возможность переходить от единичного к общему, от случайного — к закономер- 1
Данные из Статистического сборника «Преступность и правонарушения» (2005— 2009). М., 2010.
ному. Средняя величина является результатом абстрагирования от имеющихся у единиц совокупности различий, но она не подменяет конкретных индивидуальных значений. Но именно в этой абстракции, в способности абстрагирования от случайности отдельных значений колебаний и заключается научная ценность средних как обобщающих характеристик совокупностей.
Средние, исчисленные для явлений разного типа, подобны оценке «средней температуры по больнице» и носят фиктивный характер, затушевывая реальную тенденцию. Поэтому статистическая методология возражает против усреднения «всех и вся», и статистическая наука выработала условия и требования к применению средних величин в отношении социальных процессов, способы проверки показателей на их адекватность. Встречающаяся вульгарная трактовка средних величин по типу: «у директора зарплата миллион, а у остальных работников по 10 тысяч, значит, по этой лживой статистике, средняя зарплата на предприятии будет примерно 500 тысяч», — это не просто свидетельство абсолютной некомпетентности людей, говорящих подобные вещи, а корыстно-намеренное желание «подгонять» цифровые данные для достижения конъюнктурных целей. Действительно, любой средний показатель (при условии, что он рассчитан и проверен на адекватность в соответствии с правилами статистики) является не фиктивной конъюнктурной величиной, а важной обобщающей характеристикой общественных процессов1. Научный подход к исчислению средних величин предполагает, что для этого совокупность должна состоять из единиц, явлений, фактов одного и того же рода, т. е. быть качественно однородной, только тогда можно говорить об общем для всей совокупности «типе».
Средняя всегда величина именованная и имеет ту же размерность, что и признак у отдельной единицы совокупности. Каждая средняя величина характеризует изучаемую совокупность по какому-либо одному варьирующему признаку, поэтому за всякой средней скрывается ряд распределения единиц этой совокупности по изучаемому признаку. В случаях, когда внутри совокупности существуют относительно однородные части и группы, необходимо рассчитывать групповые средние. Общая и групповые средние отражают влияние разных условий: общая средняя отражает некоторые общие черты изучаемого явления, а групповые средние — уровень явления в более конкретных условиях.
Выбор вида средней определяется содержанием показателя и исходных данных для расчета средней величины. Все виды средних величин, используемые в статистических исследованиях, подразделяются на две категории: 1) степенные средние; 2) структурные средние. Первая категория средних величин включает: среднюю арифметическую, среднюю гармоническую, среднюю геометрическую и среднюю квадратическую. Вторая категория — это мода и медиана. При этом каждый из перечисленных видов степенных средних величин может иметь две формы: простую и взвешенную. Простая[1]
форма средней величины используется для получения среднего значения изучаемого признака, когда расчет осуществляется по несгруппированяым статистическим данным либо когда каждый вариант в совокупности встречается только один раз. Взвешенными средними называют величины, которые учитывают, что варианты значений признака могут иметь различную численность, в связи с чем каждый вариант приходится умножать на соответствующую частоту. Иными словами, каждый вариант «взвешивают» по своей частоте. Частоту называют статистическим весом.
Средняя арифметическая простая — самый распространенный вид средней. Вычисляется как частное от деления суммы значений всех вариантов на общее число единиц совокупности:
глех^х2у …>хп — индивидуальные значения варьирующего признака (варианты); N — число единиц совокупности.
Взвешенными средними называют величины, которые учитывают, что некоторые варианты значений признака могут иметь различную численность (частоту).
В этом случае сложение всех значений количественного признака заменяется умножением варианта значения на ее соответствующую частоту (количество встречающихся вариантов):
где хХу х2,…, хп — значения вариантов признака; /j,/2, — соответствующие им частоты или N — общее количество единиц.
Средняя арифметическая взвешенная применяется в тех случаях, когда данные представлены в виде вариационных рядов или группировок. Она вычисляется как сумма произведений вариантов на соответствующие им частоты, деленная на сумму частот всех вариантов:
где Xj — значение i-го варианта признака; /, — частота /-го варианта.
Пример. Рассчитать среднее число судимостей, приходящихся на одного заключенного, используя следующие данные:
Число судимостей…1 2 3 4 5.
Число отбывающих наказание…85 71 42 12 1.
Решение. Для расчета используем формулу взвешенной средней арифметической:
Таким образом, в среднем на одного заключенного приходится 1,92 судимости.
Если вычисление средней величины производят, но данным, сгруппированным в виде интервальных рядов распределения, то сначала надо определить серединные значения каждого интервалах/, после чего рассчитать среднюю величину по формуле средней арифметической взвешенной, в которую вместо х, подставляют х/. При этом, если дан интервальный ряд с открытыми первым и последним интервалами, величины этих интервалов принимаются равными величинам смежных закрытых интервалов.
Пример. Требуется определить средний возраст незаконно пребывающих на территории РФ лид, выявленных в городе за отчетный период, по условным данным табл. 4.4.
Таблица 4.4
Распределение незаконно пребывающих на территории РФ лиц по возрасту.
Показатель. | Значение показателя. | |||
Возрастная группа, лет. | До 18. | 18−28. | 29−39. | 40 и более. |
Число выявленных лиц. |
Решение. Для определения среднего возраста указанных лиц на основе интервального вариационного ряда на первом этапе необходимо вычислить серединные значения интервалов. Так как дан интервальный ряд с открытыми первым и последним интервалами, то величины этих интервалов возьмем равными величинам смежных закрытых интервалов. Следовательно, в нашем случае величина первого интервала будет равна 8—18, а последнего — 40—50. Далее находим серединные значения интервалов:
Теперь находим средний возраст выявленных лиц, но формуле средней арифметической взвешенной:
Таким образом, средний возраст выявленных в городе за отчетный период лиц, незаконно пребывающих на территории РФ, составляет 28,9 года.
Простая средняя гармоническая представляет собой величин}', обратную средней арифметической из обратных значений признака:
где 1 /X) — обратные значения вариантов; N — число единиц совокупности.
Пример. Для определения средней годовой нагрузки на территориальные органы Минюста России по работе с жалобами граждан было проведено обследование пяти территориальных органов. Средние затраты времени на одну жалобу в указанных органах оказались равными (в днях): 3,1; 5,5; 2,3; 6,4; 4,6. Найти средние затраты на одну жалобу граждан по обследованным территориальным органам Минюста России и среднюю годовую нагрузку в расчете на один орган при работе с жалобами граждан.
Решение. Для определения средних затрат времени на одну жалобу граждан применим формулу средней гармонической простой:
Тогда средняя годовая нагрузка при работе с жалобами граждан в расчете на один территориальный орган составит:
То есть один территориальный орган в среднем за год обрабатывает приблизительно 96 жалоб.
Если бы мы для определения средних затрат времени на одну жалобу граждан, воспользовались формулой средней арифметической простой, то получили бы.
Средняя годовая нагрузка на один территориальный орган составила бы:
т.е. рассчитанная с помощью средней арифметической средняя нагрузка оказалась бы меньше той, что есть на самом деле. Для проверки правильности расчета, произведенного с помощью средней гармонической, воспользуемся исходными данными о затратах времени на одну жалобу для каждого территориального органа и рассчитаем число жалоб в абсолютном выражении, рассмотренных каждым из них за год:
Теперь на основе полученных данных вычислим среднюю годовую нагрузку одного территориального органа при работе с жалобами граждан:
То есть полученная с использованием абсолютных значений средняя годовая нагрузка совпадает с величиной, полученной с использованием средней гармонической, что наглядно подтверждает необходимость использования в рассмотренном примере именно средней гармонической и недопустимость применения в данном случае средней арифметической.
В тех случаях, когда известны варианты признака, их объемные значения (произведение варианта на частоту), но неизвестны сами частоты, применяется формула взвешенной средней гармонической:
где xi — значение i-го варианта признака; wi — объемное значение г-го варианта (да, — = Xjfj).
Пример. Пусть имеются данные о трех группах преступлений, для каждой из которых характерна определенная сумма нанесенного потерпевшим ущерба (данные условные). Требуется определить среднюю сумму ущерба от одного преступления (с учетом всех преступлений), используя следующие данные:
Номер группы преступлений…1 2 3.
Сумма ущерба, причиненного каждым преступлением группы, тыс. руб… 10 50 150.
Общая сумма ущерба, причиненного группой преступлений, тыс. руб…600 1000 1500.
Решение. Поскольку нам известна сумма ущерба от одного преступления по каждой группе (варианты признака) и общая сумма ущерба от всех преступлений по каждой группе (объемные значения), но неизвестны количества преступлений, входящих в каждую группу (частоты вариантов), то следует применить формулу средней гармонической взвешенной:
Если же для решения этой задачи мы попытались бы использовать формулу средней арифметической, то получили бы:
Как видим, неправильный выбор применяемого вида средней привел к результату, который отличается от истинного более чем в два раза.
Средняя геометрическая вычисляется извлечением корня степени N из произведения всех значений вариантов признака:
где xlf х2, Хдг — индивидуальные значения варьирующего признака (варианты); N — число единиц совокупности.
Этот вид средней используется для вычисления средних показателей роста рядов динамики.
Рассмотрим применение средней геометрической на условном примере расчета среднегодового темпа роста количества зарегистрированных прав на недвижимое имущество на территории субъекта РФ за четырехлетний период. Условные исходные данные представляют собой значения показателя динамики количества зарегистрированных прав на недвижимость:
Год…1999 2000 2001 2002.
Годовой коэффициент роста…1,8 1,4 1,6 1,2.
Коэффициент роста в 2000 г., равный 1,4, означает, что в 2000 г. в данном субъекте РФ было зарегистрировано в 1,4 раза больше прав на недвижимость, чем в 1999 г. Требуется определить среднегодовой за четырехлетний период коэффициент роста количества зарегистрированных прав на недвижимость на территории данного субъекта РФ.
Попытка получить среднее значение коэффициента роста путем расчета простой средней арифметической из имеющихся четырех значений годовых темпов роста является методически ошибочной и приведет к неверному результату:
Корректно же выполненный расчет (т.е. с применением формулы средней геометрической) даст следующий результат:
Как видим, правильный результат (148,3%) действительно отличается от полученного некорректным методом неверного результата (150%).
Средняя квадратическая применяется для расчета дисперсии, являющейся показателем вариации, которая будет рассмотрена ниже.
Для определения структуры совокупности используют особые средние показатели, к которым относятся медиана и мода или так называемые структурные средние. Если средняя арифметическая рассчитывается на основе использования всех вариантов значений признака, то медиана и мода характеризуют величину того варианта, который занимает определенное положение в ранжированном (упорядоченном) ряду. Упорядочение единиц статистической совокупности может быть проведено по возрастанию или убыванию вариантов изучаемого признака.
Медиана (Me) — величина, которая соответствует варианту, находящемуся в середине ранжированного ряда, или значение признака у средней единицы ранжированного ряда (значения признака, записанные в порядке возрастания или убывания). Таким образом, медиана — тот вариант ранжированного ряда, по обе стороны от которого в данном ряду должно находиться равное число единиц совокупности.
Для нахождения медианы сначала необходимо определить ее порядковый номер в ранжированном ряду по формуле.
где N — объем ряда (число единиц совокупности).
Если ряд состоит из нечетного числа членов, то медиана равна варианту с номером JVMe. Если же ряд состоит из четного числа членов, то медиана определяется как среднее арифметическое двух смежных вариантов, расположенных в середине.
Пример. Пусть имеются следующие ранжированные сведения о количестве нотариусов, действующих в девяти населенных пунктах субъекта РФ: 7, 13, 21, 21, 29, 31, 45, 48, 87. Поскольку объем ряда N= 9, то NMc= (9 + 1)/2 = 5. Тогда, Me = 29, т. е. медиана равна пятому варианту, по обе стороны от которого расположены по четыре единицы ранжированного ряда. Если исходный ранжированный ряд содержал бы четное число значений (например, первые восемь из рассмотренного примера), то порядок расчета медианы был бы следующим: N= 8, следовательно, NMe= (8 + 1)/2 = = 4,5, тогда медиана равна полусумме четвертого и пятого вариантов, т. е. Мс = (21 + + 29)/2 = 25.
В дискретном вариационном ряду, содержащем кроме значений вариантов еще и их частоты, медиану определяют по накопленным частотам. Для этого сначала рассчитывается объем совокупности, затем определяется номер медианы, после чего частоты вариантов начиная с первого последовательно суммируются до тех нор, пока не будет превзойден номер медианы. Значение последнего просуммированного варианта и будет медианой.
Пример. Найти медиану по признаку «Количество судимостей» на основе следующих данных, представленных в табл. 4.5.
Таблица 45
Количество осужденных, имеющих судимости.
Показатель. | Значения показателей. | ||||
Число судимостей (варианты). | |||||
Число отбывающих наказание (частоты). |
Решение. Объем статистической совокупности в данном примере составляет N = = (85 + 71 + 42 + 12 + 3) = 213, отсюда NMe = (213+1)/2 = 107. Начав суммирование частот вариантов, представленных в этом примере, мы останавливаемся на втором варианте, поскольку сумма частот уже первых двух вариантов (85 + 71 = 156) превосходит рассчитанный нами номер медианы (107). Следовательно, значение медианы Me = 2.
В интервальном вариационном ряду распределения сначала указывают интервал, в котором будет находиться медиана. Его называют медианным. Это первый интервал, накопленная частота которого превышает половину объема интервального вариационного ряда. Затем численное значение медианы определяется по формуле.
где хМс — нижняя граница медианного интервала; i — величина медианного интервала (разность максимальной и минимальной границ интервала «от — до»); — накопленная частота интервала, который предшествует медианному (сумма значений в графах таблицы до графы, соответствующей медианному интервалу); /Ме — частота медианного интервала (число в статистической таблице в медианном интервале).
Пример. Найти медиану возраста выявленных в городе за отчетный период лиц, незаконно пребывающих на территории РФ, по условным данным табл. 4.4.
Решение. Поскольку имеющиеся данные представляют собой интервальный ряд распределения, то на первом этапе необходимо определить медианный интервал. Объем статистической совокупности N = 8 + 95 + 76 + 19 = 198, следовательно, медианным является интервал 18—28, так как это первый интервал, накопленная частота которого (8 + 95 = 103) превышает половину объема (198: 2 = 99). Зная медианный интервал, подставляем в приведенную выше формулу соответствующие значения и получим:
Таким образом, половина выявленных лиц, незаконно пребывающих на территории РФ, младше 28 лет.
Модой (Мо) называют значение признака, которое наиболее часто встречается у единиц совокупности.
К моде прибегают для выявления величины признака, имеющей наибольшее распространение. Для дискретного ряда модой будет являться вариант с наибольшей частотой. Например, для дискретного ряда, представленного в табл. 4.5, Mo = 1, так как этому значению варианта соответствует наибольшая частота — 85. Для определения моды интервального ряда сначала определяют модальный интервал (интервал, имеющий наибольшую частоту). Затем в пределах этого интервала находят то значение признака, которое может являться модой. Его значение находят по формуле.
где хш — нижняя граница модального интервала; i — величина модального интервала (разность максимальной и минимальной границ интервала «от — до»); /Мо — частота модального интервала; /Mo_t — частота интервала, предшествующего модальному; /Мо+1 — частота интервала, следующего за модальным.
Пример. Найти моду возраста выявленных в городе лиц, незаконно пребывающих на территории РФ, по данным, представленным в табл. 4.4.
Решение. Модальным интервалом в нашем примере будет интервал «18—28 лет», так как ему соответствует наибольшая частота (95). Для определения значения моды применим приведенную выше формулу, подставив в нее соответствующие данные из нашего примера:
Таким образом, возраст наибольшего числа выявленных лиц, незаконно пребывающих на территории РФ, составляет приблизительно 26 лет.
- [1] Подробнее см.: Овчаров А. О. О роли статистической методологии в научных исследованиях // Вопросы статистики. 2014. № 4. С. 28.