Процесс сбора данных и итоговая выборка исследования

РефератПомощь в написанииУзнать стоимостьмоей работы

Третий этап касался сбора информации по медиа-типу сообщения и пользователю, опубликовавшему запись по базе собранных ссылок. Практически все характеристики, за исключением «количества читателей из целевой группы сообщения» и «принадлежности пользователя к целевой группе сообщения». Данные характеристики дополнялись в последующем вручную. В результате сбора данных было собрано 1466 сообщений… Читать ещё >

Процесс сбора данных и итоговая выборка исследования (реферат, курсовая, диплом, контрольная)

После выбора темы наступал следующий этап, который касался сбора списка ссылок на сообщения, данные по разместивших их пользователям и медиа-типу потом дополнялись в базу. Он проходил через формирование поискового запроса по ключевым словам, которые включены в сообщение ((«ВШЭ» или «Архипова» или «Вышка») и («Соловьев»)). Каждое сообщение в базе имело свой уникальный идентификатор и ссылку на исходное сообщение. Далее база дополнялась и проверялась по «репостам» записи, которые уже имели в базе. То есть просматривались все «репосты» каждой записи и недостающие ссылки на сообщения дополнялись в базу. Это было необходимо, поскольку любой механизированный поиск информации в социальных медиа (и поиск вручную по «новостям» и итоговые базы компаний мониторинга социальных медиа") не могут собрать все сообщения по запросу, ввиду особенностей работы и программного кода сайтов. Также на этом же этапе определялись «отношения» между сообщениями: исходный автор сообщения и «родитель» — пользователь от которого был сделан «репост». В случае если сообщение являлось оригиналом, исходной записью, то и номер автора, «родителя» и самого пользователя совпадали. В результате определения подобных «отношений» между записями удалось визуализировать процесс распространения записей в программе Gephi (см. рисунок 3.).

Рис. 3. Распространенность информации «Вконтакте» по теме

конфликта Ю. Архиповой и В. Соловьева за период с 20.02.14 по 8.03.14.

(за период с 20.02.14−08.03.14).

Ограничения исследования Исходя из ряда особенностей процесса сбора информации, текущее исследование имеет ряд ограничений:

1) За основу анализа взят лишь один кейс (одна тема), поскольку процесс сбора подробных данных по теме является трудоемким, в большинстве ручным. Механизации не может быть подвержен сбор ряда характеристик пользователей, а также общий исходный список ссылок сообщений необходимый для последующего автоматизированного парсинга данных. И ввиду ограниченности человеческих ресурсов и временных рамок выполнения работы, сбор данных в большем объеме является невозможным. В дальнейшем развитии направления исследования интересным бы являлся сбор данных ещё по одной теме и сравнение полученных итоговых данных;
2) Общий объем сообщений может быть неполным. Процесс сбора велся по поиску новостей в социальной сети «Вконтакте», далее база дополнялась и проверялась сообщениями из «репостов» записи, уже включенной в базу. К сожалению, даже такой тщательный ручной метод сбора не исключает возможности покрытия не всех данных. Результаты данного метода сбора сравнивались с итогами сбора компании мониторинга социальных медиа, специализирующихся на сборе информационных баз в социальных медиа по поисковым заданным поисковым запросам. Однако база, собранная компанией мониторинга социальных медиа, насчитывала лишь 182 сообщения за указанный период, тогда как база, ставшая основой исследования, составила 1466 записей. Такая разница объясняется тем, что автоматизированный процесс поиска записей по необходимому запросу в сети является не всегда удачным, что обосновывается сложностями составления программного кода данных операций для постоянно обновляющихся интерфейсов программирования приложений сайтов социальных медиа. Условно говоря, программисты слишком часто вносят изменения в структуру кода сайтов, что влияет на качество автоматизированного сбора информации с данных сайтов во временной перспективе. Эта проблема меньшим образом затрагивает ручной поиск сообщений, то есть поиск записей вручную по определенному запросу в «новостях», поскольку разработчики самих сайтов адаптируют и обновляют данную функцию, исходя из последних внесенных изменений в программный код сайта. И имея список ссылок на записи, собранный вручную по «поиску по новостям», сами характеристики по записи и пользователю с помощью парсинга, к примеру, через PHP-скрипт, можно собрать достаточно эффективно, что и было сделано в текущем исследовании;
3) В исследовании взяты сообщения только из социального медиа типа «социальная сеть», а именно «Вконтакте». Во-первых, поскольку в профилях пользователей достаточно большое количество персональной информации, к примеру, в отличие от микроблока «Twitter». Во-вторых, выбор непосредственно социальной сети «Вконтакте» обоснован тем, что особенность структуры и программного html-кода сайта удобнее для механического сбора информации чем, к примеру, сеть «Facebook»;
4) Рассмотренные характеристики пользователей в данной модели ограничены тем набором характеристик, который можно извлечь непосредственно из персональной страницы пользователя;
5) Особенность сбора в целом темы и сообщений, которые были включены в неё, обоснованы гипотезами исследования о влиянии лишь медиа-типа на степень продвижения сообщения, что было выведено на основе анализа литературы. Поэтому сообщения, включенные в итоговую базу однородны, носят информационных характер, и различаются лишь медиа-типом, что исключает влияния прочих факторов со стороны сообщения на степень его распространения;
6) Итоговый анализ проводится лишь по категории «пользователей» и в расчет не берутся сообщения «сообществ» и «пабликов» «Вконтакте», поскольку полученные данные по последним категориям крайне невелики по объему. По пользователям итоговое количество сообщений — 1395 сообщение, по «группам» и «пабликам» — 71 сообщение.

Прежде чем перейти к более подробному описанию наших моделей и итоговых результатов, нам стоит сделать небольшое отступление и пояснить, почему мы используем именно показатели числа «лайков» и «репостов», а не применяем более сложные показатели сетевого анализа, которые бы показывали, какое конечное положение определенный пользователь занимает в общей структуре распространения сообщения, что бы как раз и задавало его характеристики «влиятельного сторонника» — ключевого актора в сети. Одним из наиболее подходящих показателей «веса» пользователя в процессе передачи сообщений в социальной сети стоит считать характеристику центральности собственного вектора («eigenvector centrality»). Она определяет степень влияния узла в сети через контакты с другими узлами, с которыми он соединен. При этом, согласно статье Bonacich P. «Some unique properties of eigenvector centrality», подобный способ измерения центральности через собственный вектор имеет существенное преимущество, поскольку данная метрика дифференцирует «вес» контактов, с которыми связан узел. Таким образом, показатель eigenvector centrality может также рассматриваться не просто как взвешенная сумма только прямых связей пользователя, но и его косвенных связей. Для исследуемой базы сообщений подобная метрика была высчитана и проверена на корреляцию с показателями числа «репостов» и «лайков» записи. Как и стоило ожидать, полученные коэффициенты корреляции получились крайне высокими (0,995 для количества «репостов» и 0,975 для количества «лайков»). Для нас это означает, что в принципе, число «лайков» и «репостов» записи фактически и определяют итоговое положение и «вес» узла в общей сети передачи информации. И значит, строя прогностические модели для метрик популярности и распространенности сообщения, мы работаем непосредственно с влиятельностью пользователя, которая полностью детерминирована числом «лайков» и «репостов», которые получила его запись.

Итак, для определения значимых факторов, обуславливающей на успешность продвижения записи в социальной сети, была выбрана модель регрессионного анализа. В данной работе успешность продвижения сообщения измеряется через два показателя: распространенности сообщения (количество последующих «репостов») и популярность записи (количество полученных «лайков»). По типу наши обе зависимые переменные являются интервальными, поэтому модель множественной линейной регрессии с фиктивными переменными была выбрана как адекватный метод решения поставленных задач.

В качестве независимых переменных в для обоих моделей (как для предсказания популярности, так и для предсказания распространенности) использовались следующие характеристики.

Модель 1. Теория «влиятельных сторонников».

(значимость характеристик пользователя) Социально-демографические характеристики пользователя.

1. Пол (контрольная группа — пользователи мужского пола);
2. Возраст;
3. Принадлежность пользователя к «целевой группе сообщения». Напомним, что к данной группе относятся те пользователи, которые потенциально заинтересованы в информации, которую несет сообщение. В данном случае в качестве «целевой группы сообщения» были выбраны студенты и сотрудники НИУ ВШЭ (контрольная группа — пользователи, относящиеся к «целевой группе сообщения»);

Характеристики интернет-пользователя.

1. Активность в социальной сети пользователя, разместившего сообщение (среднее количество записей в месяц);
2. Опыт пользования социальной сетью пользователя, разместившего сообщение (в годах);
3. Общее количество читателей (суммарное количество друзей и подписчиков пользователя, разместившего у себя запись);
4. Количество читателей из «целевой группы сообщения», потенциально заинтересованных в информации (определялось числом студентов и сотрудников НИУ ВШЭ в друзьях и подписчиках пользователя).

Таким образом, для модели «влиятельных сторонников» контрольной группой, с которой сравнивались показатели, являются представители «целевой группы сообщения (студенты и сотрудники НИУ ВШЭ) мужского пола.

Модель 2. Подход со стороны структуры сообщения.

(медиа-тип записи) Характеристики медиа-типа записи.

1. Наличие прикрепленной ссылки на сторонний интернет-ресурс;
2. Наличие прикрепленной картинки к сообщению;
3. Наличие прикрепленной видео-записи к сообщению.

Таким образом, для модели «медиа-тип» сообщения, контрольной группой стали те записи, которые не имеют никаких прикрепленных ссылок и прочих файлов, то есть являются просто текстовыми сообщениями.

Итоговые модели проверялась на ограничения линейной регрессии, а именно: нормальность распределения остатков, гомоскедастичность и мультиколлениарность. Тест Колмогорова-Смирнова показал нормальное распределение остатков, в модели присутствует гомоскедастичность, мультиколлениарность в модели отсутствует (коэффициенты корреляции Пирсона между независимыми переменными не превышает 0,34, что позволяет поместить весь набор независимых переменных в одну модель).

Показать весь текст

Заполнить форму текущей работой