Исследование.
Автоматический анализ отзывов в рекомендательных системах
Впоследствии, два полученных корпуса были проанализированы с помощью инструмента «Sketch Engine». Объём корпуса «Достоинства» составил 18,807 слов (25, 928 токенов), объём корпуса «Недостатки» — 25,763 слов (33, 442 токена). Разработка программы, которая будет анализировать отзывы пользователей и на основании результатов проведённого анализа составлять рекомендации в виде оценок для каждого… Читать ещё >
Исследование. Автоматический анализ отзывов в рекомендательных системах (реферат, курсовая, диплом, контрольная)
Разработка программы, которая будет анализировать отзывы пользователей и на основании результатов проведённого анализа составлять рекомендации в виде оценок для каждого параметра исследуемого товара.
Этапы исследования:
- 1. Сбор отзывов с сайта.
- 2. Составление словарей, на основании которых будет проводиться анализ отзывов.
- 3. Разработка программы.
- 4. Оценка результатов.
Рассмотрим перечисленные этапы более подробно.
Сбор отзывов с сайта
В качестве материала для эксперимента были использованы отзывы с сайта «Яндекс Маркет» из секции «Ноутбуки». Этот сайт был выбран, так как отзывы на нём поделены на три блока: «Достоинства», «Недостатки» и «Комментарий». Этот факт упрощает работу программы, так как ей нет необходимости анализировать то, как именно оценил пользователь тот или иной параметр продукта, достаточно просто того, в каком блоке он его упомянул. Естественно, существует возможность того, что пользователь может описать какое-либо достоинство продукта в блоке «Недостатки», или наоборот, но такая вероятность достаточно мала, и ей можно пренебречь. Блок «Комментарий» программа не учитывает, так как в большинстве случаев в этом блоке пользователи просто повторяют то, что уже описано в других блоках, только более подробно. Для составления рекомендаций эти детали не существенны.
Секция «Ноутбуки» была выбрана в связи с тем, что этот тип товара достаточно популярен, при этом относится к той категории товаров, в отношении которых пользователям зачастую требуется помощь в принятии решения. Следственно, при выборе ноутбука они часто обращаются к рекомендациям.
На основании этих отзывов было составлено две выборки — тренировочная и тестовая.
Тренировочная выборка легла в основу двух корпусов — «Достоинства» и «Недостатки». Эти корпусы были использованы для составления словарей, на которые опирается программа при анализе отзывов. Объём выборки составил 600 отзывов. Отзывы были собраны вручную, затем поделены на блоки с помощью программы, написанной на языке Python. Текст отзывов из блоков «Достоинства» добавлялся в корпус «Достоинства», текст отзывов из блоков «Недостатки» — в корпус «Недостатки», текст из блоков «Комментарий» в корпусы не добавлялся.
Впоследствии, два полученных корпуса были проанализированы с помощью инструмента «Sketch Engine». Объём корпуса «Достоинства» составил 18,807 слов (25, 928 токенов), объём корпуса «Недостатки» — 25,763 слов (33, 442 токена).
Объём тестовой выборки составил 1000 отзывов. Данные отзывы были собраны автоматически, с помощью программы «Humpty-Dumpty». Отзывы добавлялись в корпус в следующем виде: ссылка на отзыв — оценка продукта (от 1 до 5) — текст из блока «Достоинства» — текст из блока «Недостатки» — текст из блока «Комментарий».
Пример: «https://market.yandex.ru/product/12 711 629/reviews?hid=91 013&CAT_ID=432 460&show-old=1&page_num=1 4 гиговая видюха экран .2 usb ноут не оправдал ожидания иногда лагает не понятно и за чего. wot тянет на средних 20−30 fps. думаю вернуть».
Дальнейшее деление на блоки происходит по символу табуляции.