Методы извлечения оценочных слов и проставления оценок отзывам
Второй подход к оцениванию отзывов об объекте не связан с предварительным выделением оценочных слов. Построение классификатора использующего ориентированность слов как атрибуты. Существует два основных подхода к оцениванию отзывов об объекте: Для агрегации выделенных слов существует несколько способов: Агрегирование оценочных слов и выражений, входящих в отзыв; Вычисление суммы или среднего… Читать ещё >
Методы извлечения оценочных слов и проставления оценок отзывам (реферат, курсовая, диплом, контрольная)
Задача классификации отзывов уже решалась в ряде работ, но в большинстве из них отзывы разделялись на два класса: положительные и отрицательные.
Существует два основных подхода к оцениванию отзывов об объекте:
Агрегирование оценочных слов и выражений, входящих в отзыв;
Построение классификатора отзывов.
В рамках первого подхода необходимо выделять оценочные слова и выражения, вычислять для них семантическую ориентированность и выбрать, каким образом выполнить агрегацию вычисленных значений, чтобы классифицировать отзыв. Существует несколько подходов к извлечению оценочных слов и вычислению их семантической направленности.
В работе [Hatzivassiloglou et al., 1997] выделение оценочных прилагательных и определение их семантической направленности основано на синтаксических шаблонах и союзах И, ИЛИ, НО. В работе [Turney, 2002] изначально выбирается два эталонных множества оценочных слов: положительное и отрицательное множества. Далее для каждого слова в отзыве вычисляется семантическая направленность путем оценивания совместной встречаемости со словами из эталонного множества.
Для получения оценочных слов и вычисления их направленности могут использоваться словари. Метод, предложенный в [Hu et al., 2004], предполагает использование тезауруса для обогащения заданного вручную, эталонного множества оценочных слов. Основная идея в том, что если слово оценочное, то его синонимы, гипонимы также будут оценочными и одинаково семантически направлены, в случае антонимов — противоположно направлены. Еще один подход представлен в работе [Esuli et al., 2005], где с помощью толкований слов в словаре выясняется их ориентация. Данный метод основывается на том, что слова с одинаковой ориентацией имеют «похожие» толкования. Используя эту идею, был построен классификатор слов на положительно ориентированные слова и отрицательно ориентированные (точность метода 87%).
Еще один подход, который использует как словари, так и информацию из корпуса, представлен в работе [Popescu et al., 2005]. В данной работе описана система OPINE, которая служит для извлечения из отзывов атрибутов описанных продуктов, а также оценок по ним. Предполагается, что оценочные фразы появляются в непосредственной близости от атрибутов объекта. Для извлечения оценочных слов используются правила, основанные на синтаксической структуре предложения.
Для агрегации выделенных слов существует несколько способов:
Вычисление суммы или среднего по отзыву [Turney, 2002] [Hu et al., 2004];
Построение классификатора использующего ориентированность слов как атрибуты [Das et al., 2001].
Второй подход к оцениванию отзывов об объекте не связан с предварительным выделением оценочных слов.
В работе [Pang et al., 2002] производилась классификация отзывов о фильмах на два класса: рекомендуемый и нерекомендуемый отзыв с использованием разных методов машинного обучения. В качестве атрибутов обзоров выбирались отдельные слова, биграммы, слова по частям речи. Наилучший показатель по точности получился 82,9% для метода опорных векторов.
В более поздних публикациях [Pang et. al., 2005] ставится задача выставления численной оценки отзывам. Отзывы, используемые для работы, разделены по авторам. Сравниваются три алгоритма, построенные на основе SVM: один против всех, регрессия и метрический подход. В работе показывается, что метрический подход с использованием метрики на базе количества положительных предложений в отзыве, работает лучше.