Выделение конструкций.
Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования
Метод, предложенный Стефановичем и Гриссом показал неудовлетворительный результат. Частотные слова слишком сильно увеличивают вес конструкции. Здесь частотность существенно повлияла на веса: очевидно фразы данный момент, данное заболевание попали в верхушку списка из-за этого. Выходные данные На выходе получается список биграмм, который отдельной процедурой объединяется с униграммами… Читать ещё >
Выделение конструкций. Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования (реферат, курсовая, диплом, контрольная)
Задача.
В корпусе текстов выделить биграммы, лексемы которых с одной стороны обладают высокой степенью ковариации, с другой — являются ключевыми словами.
Униграммы не всегда в полной мере могут описать текст. Например, ключевое слово Владимир ни о чём не говорит, тогда как биграмма Владимир Путин является важной меткой. В данной работе рассматриваются только конструкции-биграммы, однако предложенный метод без труда обобщается и на более сложные конструкции.
В качестве входных данных используются файлы, полученные на предыдущих этапах.
Выделение тематических конструкций Выше мы подробно описывали, как, развивая идеи Стефановича и Гриса, можно выделять биграммы, лексемы которой обладают высокой ковариацией, то есть характерны друг для друга.
Интуитивно ясно, что если биграмма является конструкцией по Стефановичу, то она оказывается лучшей меткой для статьи, чем каждая ее лексема в отдельности. При этом, даже если одна из них не попала в список ключевых, вполне возможно, что вся конструкция, тем не менее, может являться меткой.
Простейшая функция, отвечающая этим параметрам, задается следующим образом: вес биграммы равен сумме весов ее лексем, умноженный на их корреляцию. Иными словами, если вес слова обозначить за, а меру связи за, вес биграммы равен:
Как и в предыдущем разделе, мы рассмотрим те же метрики для таблиц сопряженности, однако теперь победители будут совсем другие. Попрежнему метрики, принимающие неограниченные значения нормируются стандартным преобразованием .
Шаблоны Поскольку мы имеем данные о частях речи, можно применить стандартные шаблоны, чтобы получившиеся конструкции были более осмысленными. В большей степени это необходимо для того, чтобы сократить пространство, однако даже такая простейшая обработка помогает избавиться от незавершенных конструкций (вроде, пригласил в). Используются следующие шаблоны:
- · Прил. + сущ.
- · Сущ. + гл.
- · Гл. + сущ.
- · Имя + фам.
- · * + латиница
и т.п. комбинации.
Рисунок 6. Меню модуля выделения конструкций.
Выходные данные На выходе получается список биграмм, который отдельной процедурой объединяется с униграммами и упорядочивается.
Результаты Итак, теперь поочередно применим различные варианты меры связи и сравним списки. Как и в случае с ключевыми словами, ниже будут представлены десять биграмм из каждого кластера.
Быстрый критерий Z
Данный метод показал себя не лучшим образом — его достоинство в этой задаче обратилось в недостаток. Он слишком чувствителен к частотным словам, в результате чего наибольший вес получили биграммы, состоящие из самых частотных слов.
Таблица 8. Конструкции, полученные методом z.
Life. | Вес. | News. | Вес. | |
свой мужчина. | 1.885. | российский украина. | 1.910. | |
свой женщина. | 1.882. | российский сирия. | 1.908. | |
свой фильм. | 1.880. | российский президент. | 1.906. | |
свой снимка. | 1.857. | российский глава. | 1.903. | |
свой тело. | 1.849. | российский военный. | 1.897. | |
свой лента. | 1.847. | российский политика. | 1.894. | |
свой собака. | 1.845. | российский мид. | 1.894. | |
свой поклонник. | 1.843. | российский власть. | 1.892. | |
свой песня. | 1.841. | российский правительство. | 1.891. | |
свой композиция. | 1.841. | российский лидер | 1.891. | |
Коллигация Юла
Данный метод, как нам кажется, выделяет наилучшие биграммы, которые действительно можно назвать тематическими.
Таблица 9. Конструкции, полученные методом коллигации Юла.
Life | Вес. | News. | Вес. | |
ruposters life. | 1.953. | исламский государство. | 1.896. | |
rolling stones. | 1.791. | минский соглашение. | 1.858. | |
нижний бельё. | 1.790. | барак обама. | 1.839. | |
домашний питомец. | 1.782. | петр порошенко. | 1.831. | |
семейный пара. | 1.775. | владимир путин. | 1.828. | |
откровенный фотосессия. | 1.774. | олег пешков. | 1.797. | |
разбитый сердце. | 1.772. | иностранный министр | 1.792. | |
метаболический синдром. | 1.755. | дипломатический представительство. | 1.784. | |
сексуальный фантазия. | 1.744. | иностранный дело. | 1.782. | |
психотропный вещество. | 1.736. | вооружённый сила. | 1.781. | |
G-критерий Вулва
Здесь частотность существенно повлияла на веса: очевидно фразы данный момент, данное заболевание попали в верхушку списка из-за этого.
Таблица 10. Конструкции, полученные критерием Вулва.
Life | Вес. | News. | Вес. | |
ruposters life. | 1.956. | российский военный. | 1.950. | |
хороший возраст. | 1.874. | украинский власть. | 1.938. | |
данный момент. | 1.867. | владимир путин. | 1.932. | |
откровенный фотосессия. | 1.852. | исламский государство. | 1.929. | |
знаменитый актёр | 1.835. | российский мид. | 1.917. | |
пользователь youtube. | 1.832. | американский президент. | 1.913. | |
хороший фильм. | 1.823. | европейский страна. | 1.912. | |
данный заболевание. | 1.814. | сирийский оппозиция. | 1.912. | |
оригинальный фильм. | 1.811. | иностранный министр | 1.911. | |
обычный мужчина. | 1.808. | российский авиация. | 1.903. | |
Взаимная информация
Взаимная информация страдает тем же недугом, однако сортирует слова иначе.
Таблица 11. Конструкции, полученные с помощью взаимной информации.
Life | Вес. | News. | Вес. | |
ruposters life. | 1.955. | украинский власть. | 1.938. | |
хороший возраст. | 1.888. | владимир путин. | 1.937. | |
сексуальный певица. | 1.887. | сирийский оппозиция. | 1.934. | |
данный заболевание. | 1.887. | исламский государство. | 1.933. | |
откровенный фотосессия. | 1.884. | иностранный министр | 1.930. | |
оригинальный фильм. | 1.882. | турецкий власть. | 1.921. | |
обычный мужчина. | 1.881. | российский военный. | 1.920. | |
сексуальный тело. | 1.880. | сирийский войско. | 1.916. | |
женский тело. | 1.880. | сирийский народ. | 1.916. | |
пользователь youtube. | 1.877. | российский авиация. | 1.914. | |
Ассоциация
Распределение коэффициента ассоциации оказалось очень близко к сортировке методом взаимной информации.
Таблица 12. Конструкции, полученные методом ассоциации.
Life | Вес. | News. | Вес. | |
ruposters life. | 1.959. | владимир путин. | 1.939. | |
хороший возраст. | 1.888. | исламский государство. | 1.936. | |
откровенный фотосессия. | 1.884. | сирийский оппозиция. | 1.931. | |
данный заболевание. | 1.876. | иностранный министр | 1.930. | |
пользователь youtube. | 1.876. | украинский власть. | 1.925. | |
данный момент. | 1.874. | российский авиация. | 1.916. | |
оригинальный фильм. | 1.873. | мирный гражданин. | 1.909. | |
обычный мужчина. | 1.867. | сирийский народ. | 1.908. | |
знаменитый актёр | 1.867. | турецкий власть. | 1.905. | |
начать эксперимент. | 1.8656. | верховный депутат. | 1.902. | |
Точный критерий Фишера
Метод, предложенный Стефановичем и Гриссом показал неудовлетворительный результат. Частотные слова слишком сильно увеличивают вес конструкции.
Таблица 13. Конструкции, полученные точным критерием Фишера.
Life | Вес. | News. | Вес. | |
ruposters life. | 1.959. | российский президент. | 1.983. | |
хороший фильм. | 1.918. | российский военный. | 1.979. | |
свой тело. | 1.912. | украинский президент. | 1.976. | |
свой поклонник. | 1.905. | сирийский президент. | 1.975. | |
обычный мужчина. | 1.905. | российский мид. | 1.972. | |
свой композиция. | 1.903. | российский лидер | 1.968. | |
данный заболевание. | 1.903. | украинский политика. | 1.967. | |
оригинальный фильм. | 1.900. | украинский власть. | 1.965. | |
хороший возраст. | 1.896. | российский глава. | 1.964. | |