ДСМ-метод применяется в данной работе для анализа поведения посетителей web-сайта и выделения среди них групп со сходным поведением относительно выделенных целевых атрибутов. В качестве внешнего программного средства, осуществляющего реализацию ДСМ-метода, используется среда QuDA [Григорьев и др., 2002; Grigoriev, 2003].
С помощью созданной в рамках работы системы сбора информации была заполнена база данных о поведении посетителей. На этом информационном массиве были произведены эксперименты по поиску наиболее эффективного способа кластеризации посетителей в программной среде QuDA. Проведенный эксперимент показал, что наилучшие результаты среди всех выбранных для сравнения методов (Ripper, Наивный Байес, и др. [Барсегян и др., 2004]) для кластеризации посетителей по целевому атрибуту показал один из самых распространенных вариантов ДСМ-метода простой метод сходства с запретом на контрпример. Этот вариант хорошо себя зарекомендовал в различных экспериментах [Кузнецов и др., 1996; Gergely at al., 2007].
В процессе исследования автор исходил из того, что на любом web-сайте, особенно на сайтах связанных с электронной коммерцией, можно выделить так называемые «цели». «Цель» — это, например, заполнение посетителем формы отправки сообщения или оформление заказа в Интернет-магазине.
На основании характеристик сессий посетителей (серий из нескольких просмотров страниц сайта одним посетителем) можно делать выводы о причинах достижения или не достижения ими «целевых» разделов.
Процесс анализа начинается с подготовки данных. Из системы выгружаются данные в формате CSV. Каждая строка таблицы представляет собой описание одной сессии посетителя. В столбцах перечислены характеристики сессии (Referrer, число просмотров и множество разделов сайта). На пересечении столбца и строки автоматически, при генерации данного файла ставится 0 или 1, что показывает, был ли посетитель в разделе или нет. Файл с таблицей импортируется в QuDA.
Выделяется целевой атрибут, в нашем случае это факт посещения страницы «корзина» или «заказ». Относительно целевого атрибута строятся классификационные правила. Были проведены эксперименты с различной детализацией разделов, различными настройками ДСМ-машины и различным количеством исходных фактов. В результате были выбраны параметры, при которых получаются наиболее интересные результаты с точки зрения их практического применения.
На выходе был получен набор правил, которые дают разбиение исходных сессий посетителей на группы относительно целевого атрибута. В контексте web-сайта, можно рассматривать посещение или не посещение каких-либо разделов как вероятную причину достижения или не достижения «цели» — это и является новой полезной информацией для web-аналитика.
На основе экспортированного из QuDA файла формируется отчет, при этом полученные правила обрабатываются и выводятся в наглядной форме.