Характеристика двух методов, применяемых для выявления естественного расслоения
Первой главной компонентой системы исходных признаков является такая нормировано-центрированная линейная комбинация исходных признаков, которая среди всех прочих главных компонент обладает наибольшей дисперсией. При этом k-й главной компонентой называется такая нормировано-центрированная линейная комбинация исходных признаков, которая некоррелирована с k — 1 предыдущими главными компонентами… Читать ещё >
Характеристика двух методов, применяемых для выявления естественного расслоения (реферат, курсовая, диплом, контрольная)
Метод главных компонент
Метод главных компонент широко применяется при проведении сегментации и позиционирования[1] на основе снижения размерности признакового пространства и последующего визуального анализа взаимного расположения объектов наблюдения. При применении метода главных компонент анализируемый признак X представляет собой m-мерную случайную величину с вектором средних значений а и ковариационной матрицей L, которые, как правило, неизвестны. Вектор главных компонент Z размерности т определяется как линейная комбинация.
Z = LX,.
где матрица L имеет размерность т?т и является ортогональной.
Первой главной компонентой системы исходных признаков является такая нормировано-центрированная линейная комбинация исходных признаков, которая среди всех прочих главных компонент обладает наибольшей дисперсией. При этом k-й главной компонентой называется такая нормировано-центрированная линейная комбинация исходных признаков, которая некоррелирована с k — 1 предыдущими главными компонентами и среди всех прочих главных компонент обладает наибольшей дисперсией.
Когда признаки, входящие в X, имеют различную размерность, результаты исследования с помощью метода главных компонент будут существенно зависеть от размерности признаков масштаба измерения. Для однозначности решения задачи следует предварительно переходить к центрированным средним и нормированным выборочным среднеквадратическим отклонениям.
В задачах снижения размерности вектор главных компонент имеет размерность п < т. Для возможности визуального представления данных используются всего одна-две главные компоненты. Считается, что двух главных компонент, оставленных для проведения визуального анализа, достаточно, если на них приходится не менее 80% суммарной дисперсии всех исходных признаков.
Метод позволяет осуществить переход от главных компонент к исходному признаковому пространству, что актуально для проведения синтеза продукта по результатам его позиционирования. Умножая обе части уравнения Z = LX на L-1 слева, получаем зависимость X = L-1 Z. Поскольку матрица L ортогональная, то обратную матрицу L-1 можно заменить на транспонированную Lт В результате имеем: X = Lт Z.
Многомерное шкалирование
Метод многомерного шкалирования находит все более широкое применение при проведении маркетинговых исследований, особенно в сегментации[2] и позиционировании[3]. Метод лишен ограничений о нормальном распределении исходных признаков и о линейной статистической зависимости между ними, что необходимо для факторного анализа. Принципиальная особенность состоит в том, что поиск координатного пространства осуществляется не по значениям самих признаков, характеризующих объекты, а по характеристикам сходства или различия объектов между собой.
В качестве меры сходства и различия между объектами имеется возможность использования самых разнообразных характеристик, распространенных на практике. Основным источником данных являются эксперты, субъективно воспринимающие и оценивающие взаимное расположение объектов. Не исключено использование объективных характеристик объектов. Если число сравниваемых продуктов равно п и сравнение не предполагает оценку преимущества, т. е. объекты равноправны, то количество сравнений составляет п (п — 1)/2.
Одна из целей многомерного шкалирования, как и метода главных компонент, состоит в том, чтобы дать визуальное отображение данных, сжать исходный массив данных, отыскать и интерпретировать скрытые (латентные) переменные. Метод часто комплексно используется с различными статистическими методами, включая метод главных компонент, факторный, корреляционный, регрессионный, кластерный анализ и др.
Исходные данные для проведения анализа задаются в виде матрицы попарных расстояний (удаленностей) или в виде матрицы порядковых отношений между объектами. В первом случае применяются методы метрического, а во втором неметрического шкалирования. Неметрические методы многомерного шкалирования применяют для обработки ранговых (порядковых) данных. Наибольшее распространение получили матрицы сходства и матрицы различия, которые уже фигурировали в главе о сравнительных характеристиках.
Многомерное шкалирование имеет мощное программное обеспечение. Оно может быть проведено на основе пакета научных статистических программ Statistica по модулю Multidimensional Scaling. Начальная конфигурация вычисляется с помощью метода главных компонент или задается пользователем. Окончательная конфигурация может быть выведена па графиках и в виде таблиц.
Качество полученной модели многомерного шкалирования чаще всего оценивается с помощью показателя S-stress или показателя RSQ, которые принимают значения в интервале от нуля до единицы. Желательно иметь близкий к нулю S-stress или близкий к единице RSO.