Классификация данных по числу переменных
Из приведенных примеров следует, что в статистике каждое наблюдение, кроме количественных признаков, содержит качественные характеристики, привязывающие это наблюдение ко времени и месту (страна, город и т. д.). Квартира на рынке вторичного жилья в Москве характеризуется показателями: стоимость квартиры, общая площадь, площадь кухни, удаленность от центра, этаж, материалы стен дома (многомерные… Читать ещё >
Классификация данных по числу переменных (реферат, курсовая, диплом, контрольная)
По числу переменных различают одномерный, двумерный и многомерный массив данных (см. рис. 3.1).
В одномерных наборах данных у каждого наблюдения регистрируется только один признак. В этом случае статистические методы используются для определения основных характеристик этого признака:
- • расчет средних значений и показателей вариации, размаха признака;
- • группировка данных и построение вариационных рядов (дискретных и интервальных);
- • графическое представление данных с целью их визуализации и анализа;
- • исследование различий наблюдений или групп наблюдений, требующих особого рассмотрения (задача классификации и выявления аномальных наблюдений).
Примеры одномерных данных.
- • Цена товара определенной категории в разных магазинах Москвы.
- • Динамика числа семей, нуждающихся в улучшении жилищных условий в Москве.
Пример 3.1.
Источник: URL: http://www.gks.ru/free_doc/new_site/prices/housing/ tab9.htm.
Данные представлены в табличной форме и в виде точечно-линейного графика (linechart, timeplot). Болес подробно о видах графического представления данных — в гл. 4.
Пример 3.2.
Источник: URL: http://sophist.hse.ru/exes/tables/UNEMPL_M_SH.htm.
Данные представлены в табличной форме и в виде столбиковой (столбчатой) диаграммы {barchan).
В многомерных (двумерных, трехмерных и т. д.) наборах данных у каждого наблюдения регистрируется несколько признаков. Статистические методы в этом случае используются для решения задач:
- • определения основных характеристик по каждому одномерному признаку;
- • анализа наличия и степени зависимости между этими признаками;
- • исследования вида зависимости одной переменной (результативной) от остальных (факторных);
- • классификации наблюдений с целью получения однородных групп (кластеров) и выявления аномальных наблюдений;
- • построения обобщающих, интегральных показателей с целью снижения размерности исходного признакового пространства;
- • для временных данных решаются задачи анализа временных рядов и прогнозирования.
Примеры многомерных данных
- • Работник некоторой фирмы характеризуется показателями: заработная плата, пол, образование, стаж работы, категория работы и производительность труда (многомерные данные).
- • Квартира на рынке вторичного жилья в Москве характеризуется показателями: стоимость квартиры, общая площадь, площадь кухни, удаленность от центра, этаж, материалы стен дома (многомерные данные).
Ежемесячные данные курса доллара и цены на нефть в Российской Федерации в 2008—2009 гг. (двумерные данные).
Месяц, год. | Курс доллара, руб. | Цена на нефть, долл. США/бар |
Март, 2008. | 23,75. | 102,81. |
Апрель, 2008. | 23,52. | 111,09. |
Май, 2008. | 23,72. | 125,58. |
Июнь, 2008. | 23,63. | 135,05. |
Июль, 2008. | 23,35. | 133,49. |
Август, 2008. | 24,15. | 114,97. |
Сентябрь, 2008. | 25,27. | 100,22. |
Октябрь, 2008. | 26,39. | 73,83. |
Ноябрь, 2008. | 27,33. | 54,61. |
Декабрь, 2008. | 28,2. | 43,57. |
Январь, 2009. | 32,49. | 46,34. |
Февраль, 2009. | 35,81. | 44,19. |
Март, 2009. | 34,62. | 47,71. |
Апрель, 2009. | 33,55. | 51,88. |
Май, 2009. | 31,99. | 58,98. |
Июнь, 2009. | 31,05. | 69,47. |
Июль, 2009. | 31,49. | 65,93. |
Август, 2009. | 31,65. | 72,85. |
Источник: URL: http://news.yandex.ru/quotes/index.html.
Данные представлены в табличной форме и в виде точечного графика (scatterplot, pointplot) — диаграммы рассеяния с построенной регрессионной зависимостью между переменными (см. гл. 5).
Характеристика стран мира на 1 июля 2009 г. по показателям: площадь территории, численность населения и плотность населения на 1 км2 (трехмерные данные).
Страны. | Территория, км2 | Население, тыс. чел. | Человек на 1 км2 |
Монако. | 16 350. | ||
Сингапур | |||
Бермудские острова. | |||
Сан-Марино. | |||
Китай. | 9 596 961. | 1 337 411. | |
США. | 9 629 091. | 311 666. | |
Россия. | 17 098 240. | 141 394. | |
Канада. | 9 984 670. | 33 259. | |
Монголия. | 1 564 100. | ||
Гренландия. | 2 166 086. | 0,03. |
Источник: URL: http://www.statistica.md/category.php?l=ru&idc=147. Данные представлены в табличной форме.
Из приведенных примеров следует, что в статистике каждое наблюдение, кроме количественных признаков, содержит качественные характеристики, привязывающие это наблюдение ко времени и месту (страна, город и т. д.).