Создание грамматического словаря
Программа Mystem, разработанная Ильей Сегаловичем и Виталием Титовым (Segalovich 2003), использует грамматический словарь А. А. Зализняка для предугадывания неизвестных или редких слов. Программа предоставляет несколько способов вывода информации, как с грамматической информацией, так и без неё. Кроме того, благодаря функции предугадывания слов, анализатор предлагает возможные варианты разбора… Читать ещё >
Создание грамматического словаря (реферат, курсовая, диплом, контрольная)
Заключительным этапом данной работы было создание грамматического словаря на основе всех текстов корпуса http://pushkinodict.pe.hu/grammar.html. Были взяты все слова в корпусе, а не только диалектные по той причине, что представление парадигм всех слов в корпусе гораздо полезнее в практическом смысле. Будущие исследователи могут использовать получившийся грамматический словарь, чтобы увидеть, парадигмы каких слов представлены в корпусе более полно. лексема словарь диалектность интерфейс Создание грамматического словаря велось в несколько этапов. Для начала необходимо было выбрать программу морфологического анализа текста. В настоящее время существует достаточно большое количество анализаторов. В работе (Ляшевская и др. 2010) показан процесс оценки различных парсеров русского языка. Анализаторы оценивались по нескольким направлениям (дорожкам): «лемматизация», «POS», «морфология», «редкие слова», «дизамбигуация: леммы» и «дизамбигуация: POS». В тестовых дорожках приняли участие такие морфологические анализаторы, как АОТ, ARME, Crosslator, FSTMorph, Libmorphus, Mocky, Mystem, Polymorph, Pymorphy, RDMA_IAI, Semantarus Morpho, Starling, TextAn. Каждый анализатор оценивался по нескольким дорожкам. К сожалению, результаты данной оценки не эксплицитны, так как в конечных таблицах не приводятся названия парсеров. В силу того, что результаты оценки получить не удалось, было решено искать анализатор другими способами. Так, было обнаружено, что для разметки Национального корпуса русского языка использовались два анализатора: Mystem и Dialing (АОТ). В работе (Сичинава 2002) было подробно описано, как размечались тексты для Национального корпуса русского языка с помощью анализатора Mystem. Сначала тексты размечались программой, затем пропускались через фильтр Gram. bat, написанный на языке Perl, а после этого омонимия снималась вручную, с помощью программы GRAMEDIT (написанная на языке макросов Microsoft Word). Про использование анализатора Dialing не было найдено информации, поэтому было принято решение использовать Mystem.
Программа Mystem, разработанная Ильей Сегаловичем и Виталием Титовым (Segalovich 2003), использует грамматический словарь А. А. Зализняка для предугадывания неизвестных или редких слов. Программа предоставляет несколько способов вывода информации, как с грамматической информацией, так и без неё. Кроме того, благодаря функции предугадывания слов, анализатор предлагает возможные варианты разбора неизвестных слов (не входящих в словарь А.А. Зализняка), что, безусловно, удобно, так как среди текстов в корпусе присутствуют слова, которые не входят в литературный русский язык.
Для разбора использовался неразмеченный файл с текстами всего корпуса. В файле находились только ответы информантов, так как речь интервьюеров в данном случае не нужна. Программа построчно обработала файл, выводя грамматическую информ…
Данная работа посвящена Устьянскому звуковому корпусу. Основные направления работы касаются диалектологии и лексикографии. Работа охватывает широкий круг задач: от подсчета диалектности информантов до создания грамматического словаря, включающего в себя все слова из корпуса.
В первом разделе описан процесс измерения диалектности, который производился с помощью программы на языке Python. Результаты показали, что особой корреляции между возрастом носителя и его диалектностью у представителей «среднего» поколения нет, но самое старшее поколение (1922;1930 годов рождения) более диалектное по сравнению с остальными, а особенно с младшим поколением. Однако выделились инновационные и консервативные носители диалекта. Это информанты старшего поколения, использующие большее количество диалектных слов, чем другие представители этого же поколения, или представители более молодого поколения, использующие большое количество диалектной лексики. Результаты измерения лексической диалектности сравнивались с результатами, представленными в работах (Daniel et al. 2017) и (Левин 2014). В этих работах также были отмечены консервативные и инновационные носители. Кроме того, был создан частотный список, который позволяет увидеть, какие словоформы употребляются носителями чаще всего и каким количеством носителей.
Вторая часть работы сосредоточена на словаре нераспознанных лексем, который был создан в работе (Калашникова 2016). В словарь были добавлены новые толкования из обновленного «Устьянского народного словаря», кроме того, были улучшены собственные толкования, которые уточнялись в поездке в поселок Октябрьский Архангельской области.
В третьей части описан процесс создания грамматического словаря. Самым важным в создании словаря был выбор морфологического анализатора, поэтому выбор описан и обоснован достаточно подробно. Кроме того, были произведены улучшения интерфейса сайта, где располагаются словарь нераспознанных лексем и грамматический словарь. Оба словаря доступны по ссылке http://pushkinodict.pe.hu/.
Все задачи, решенные в данной работе, имеют значение для будущих исследований устьянского диалекта. Так, подсчет диалектности позволит иметь точные данные для всех носителей, и диалектность информантов не придется прикидывать. Улучшение словаря нераспознанных лексем необходимо не только для будущих исследований, но и для пользователей корпуса, так как позволит видеть определения неизвестных слов с ссылками на полные контексты. И, наконец, грамматический словарь может оказаться полезным, так как в нем можно увидеть парадигмы всех слов, вошедших в корпус.