Помощь в написании студенческих работ
Антистрессовый сервис

Исследование. 
Автоматический анализ отзывов в рекомендательных системах

РефератПомощь в написанииУзнать стоимостьмоей работы

Впоследствии, два полученных корпуса были проанализированы с помощью инструмента «Sketch Engine». Объём корпуса «Достоинства» составил 18,807 слов (25, 928 токенов), объём корпуса «Недостатки» — 25,763 слов (33, 442 токена). Разработка программы, которая будет анализировать отзывы пользователей и на основании результатов проведённого анализа составлять рекомендации в виде оценок для каждого… Читать ещё >

Исследование. Автоматический анализ отзывов в рекомендательных системах (реферат, курсовая, диплом, контрольная)

Разработка программы, которая будет анализировать отзывы пользователей и на основании результатов проведённого анализа составлять рекомендации в виде оценок для каждого параметра исследуемого товара.

Этапы исследования:

  • 1. Сбор отзывов с сайта.
  • 2. Составление словарей, на основании которых будет проводиться анализ отзывов.
  • 3. Разработка программы.
  • 4. Оценка результатов.

Рассмотрим перечисленные этапы более подробно.

Сбор отзывов с сайта

В качестве материала для эксперимента были использованы отзывы с сайта «Яндекс Маркет» из секции «Ноутбуки». Этот сайт был выбран, так как отзывы на нём поделены на три блока: «Достоинства», «Недостатки» и «Комментарий». Этот факт упрощает работу программы, так как ей нет необходимости анализировать то, как именно оценил пользователь тот или иной параметр продукта, достаточно просто того, в каком блоке он его упомянул. Естественно, существует возможность того, что пользователь может описать какое-либо достоинство продукта в блоке «Недостатки», или наоборот, но такая вероятность достаточно мала, и ей можно пренебречь. Блок «Комментарий» программа не учитывает, так как в большинстве случаев в этом блоке пользователи просто повторяют то, что уже описано в других блоках, только более подробно. Для составления рекомендаций эти детали не существенны.

Секция «Ноутбуки» была выбрана в связи с тем, что этот тип товара достаточно популярен, при этом относится к той категории товаров, в отношении которых пользователям зачастую требуется помощь в принятии решения. Следственно, при выборе ноутбука они часто обращаются к рекомендациям.

На основании этих отзывов было составлено две выборки — тренировочная и тестовая.

Тренировочная выборка легла в основу двух корпусов — «Достоинства» и «Недостатки». Эти корпусы были использованы для составления словарей, на которые опирается программа при анализе отзывов. Объём выборки составил 600 отзывов. Отзывы были собраны вручную, затем поделены на блоки с помощью программы, написанной на языке Python. Текст отзывов из блоков «Достоинства» добавлялся в корпус «Достоинства», текст отзывов из блоков «Недостатки» — в корпус «Недостатки», текст из блоков «Комментарий» в корпусы не добавлялся.

Впоследствии, два полученных корпуса были проанализированы с помощью инструмента «Sketch Engine». Объём корпуса «Достоинства» составил 18,807 слов (25, 928 токенов), объём корпуса «Недостатки» — 25,763 слов (33, 442 токена).

Объём тестовой выборки составил 1000 отзывов. Данные отзывы были собраны автоматически, с помощью программы «Humpty-Dumpty». Отзывы добавлялись в корпус в следующем виде: ссылка на отзыв — оценка продукта (от 1 до 5) — текст из блока «Достоинства» — текст из блока «Недостатки» — текст из блока «Комментарий».

Пример: «https://market.yandex.ru/product/12 711 629/reviews?hid=91 013&CAT_ID=432 460&show-old=1&page_num=1 4 гиговая видюха экран .2 usb ноут не оправдал ожидания иногда лагает не понятно и за чего. wot тянет на средних 20−30 fps. думаю вернуть».

Дальнейшее деление на блоки происходит по символу табуляции.

Показать весь текст
Заполнить форму текущей работой