Помощь в написании студенческих работ
Антистрессовый сервис

Методы извлечения оценочных слов и проставления оценок отзывам

РефератПомощь в написанииУзнать стоимостьмоей работы

Второй подход к оцениванию отзывов об объекте не связан с предварительным выделением оценочных слов. Построение классификатора использующего ориентированность слов как атрибуты. Существует два основных подхода к оцениванию отзывов об объекте: Для агрегации выделенных слов существует несколько способов: Агрегирование оценочных слов и выражений, входящих в отзыв; Вычисление суммы или среднего… Читать ещё >

Методы извлечения оценочных слов и проставления оценок отзывам (реферат, курсовая, диплом, контрольная)

Задача классификации отзывов уже решалась в ряде работ, но в большинстве из них отзывы разделялись на два класса: положительные и отрицательные.

Существует два основных подхода к оцениванию отзывов об объекте:

Агрегирование оценочных слов и выражений, входящих в отзыв;

Построение классификатора отзывов.

В рамках первого подхода необходимо выделять оценочные слова и выражения, вычислять для них семантическую ориентированность и выбрать, каким образом выполнить агрегацию вычисленных значений, чтобы классифицировать отзыв. Существует несколько подходов к извлечению оценочных слов и вычислению их семантической направленности.

В работе [Hatzivassiloglou et al., 1997] выделение оценочных прилагательных и определение их семантической направленности основано на синтаксических шаблонах и союзах И, ИЛИ, НО. В работе [Turney, 2002] изначально выбирается два эталонных множества оценочных слов: положительное и отрицательное множества. Далее для каждого слова в отзыве вычисляется семантическая направленность путем оценивания совместной встречаемости со словами из эталонного множества.

Для получения оценочных слов и вычисления их направленности могут использоваться словари. Метод, предложенный в [Hu et al., 2004], предполагает использование тезауруса для обогащения заданного вручную, эталонного множества оценочных слов. Основная идея в том, что если слово оценочное, то его синонимы, гипонимы также будут оценочными и одинаково семантически направлены, в случае антонимов — противоположно направлены. Еще один подход представлен в работе [Esuli et al., 2005], где с помощью толкований слов в словаре выясняется их ориентация. Данный метод основывается на том, что слова с одинаковой ориентацией имеют «похожие» толкования. Используя эту идею, был построен классификатор слов на положительно ориентированные слова и отрицательно ориентированные (точность метода 87%).

Еще один подход, который использует как словари, так и информацию из корпуса, представлен в работе [Popescu et al., 2005]. В данной работе описана система OPINE, которая служит для извлечения из отзывов атрибутов описанных продуктов, а также оценок по ним. Предполагается, что оценочные фразы появляются в непосредственной близости от атрибутов объекта. Для извлечения оценочных слов используются правила, основанные на синтаксической структуре предложения.

Для агрегации выделенных слов существует несколько способов:

Вычисление суммы или среднего по отзыву [Turney, 2002] [Hu et al., 2004];

Построение классификатора использующего ориентированность слов как атрибуты [Das et al., 2001].

Второй подход к оцениванию отзывов об объекте не связан с предварительным выделением оценочных слов.

В работе [Pang et al., 2002] производилась классификация отзывов о фильмах на два класса: рекомендуемый и нерекомендуемый отзыв с использованием разных методов машинного обучения. В качестве атрибутов обзоров выбирались отдельные слова, биграммы, слова по частям речи. Наилучший показатель по точности получился 82,9% для метода опорных векторов.

В более поздних публикациях [Pang et. al., 2005] ставится задача выставления численной оценки отзывам. Отзывы, используемые для работы, разделены по авторам. Сравниваются три алгоритма, построенные на основе SVM: один против всех, регрессия и метрический подход. В работе показывается, что метрический подход с использованием метрики на базе количества положительных предложений в отзыве, работает лучше.

Показать весь текст
Заполнить форму текущей работой