Методы построения и использования компьютерных словарей сочетаемости для синтаксических анализаторов русскоязычных текстов

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Методы построения и использования компьютерных словарей сочетаемости для синтаксических анализаторов русскоязычных текстов (реферат, курсовая, диплом, контрольная)

Содержание

Глава 1. Ограничения на сочетаемость в задаче автоматического синтаксического анализа
- 1. 1. Описание проблемы
  - 1. 1. 1. Задача автоматического синтаксического анализа
  - 1. 1. 2. Синтаксический анализатор системы Тгее1: оп
  - 1. 1. 3. Проблема омонимии
  - 1. 1. 4. Виды омонимии
  - 1. 1. 5. Учет сочетаемости для разрешения омонимии
- 1. 2. Подходы к описанию и учету сочетаемости
  - 1. 2. 1. Учет сочетаемости при синтаксическом анализе в системе Этап
  - 1. 2. 2. Словари сочетаемости русского языка
  - 1. 2. 3. Подходы к автоматическому описанию сочетаемости
  - 1. 2. 4. Необходимость комбинированного подхода к формированию словаря сочетаемости
Глава 2. Структура компьютерного словаря сочетаемости
- 2. 1. Требования к компьютерному словарю сочетаемости
  - 2. 1. 1. Морфо-синтаксические ограничения сочетаемости
  - 2. 1. 2. Лексические ограничения сочетаемости
  - 2. 1. 3. Семантические ограничения сочетаемости
  - 2. 1. 4. Другие виды ограничений сочетаемости
  - 2. 1. 5. Типы информации о сочетаемости
- 2. 2. Компьютерный словарь сочетаемости как система классов
  - 2. 2. 1. Интерфейсы компьютерного словаря сочетаемости
  - 2. 2. 2. Структуры данных и реализация интерфейсов
Глава 3. Формирование компьютерного словаря сочетаемости
- 3. 1. Автоматическое формирование тензора сочетаемости
  - 3. 1. 1. Формирование корпуса примеров
  - 3. 1. 2. Морфологический анализ
  - 3. 1. 3. Частичный синтаксический анализ
  - 3. 1. 4. Статистическая обработка
- 3. 2. Импорт онтологической информации о сочетаемости
  - 3. 2. 1. Модели управления
  - 3. 2. 2. Словарные определения
Глава 4. Обобщение статистической информации о сочетаемости
- 4. 1. Проблемы шума и разреженности
- 4. 2. Подходы к обобщению
- 4. 3. Контекстные векторы
- 4. 4. Кластеризация
- 4. 5. Кластеры и семантические классы
- 4. 6. Выявление семантической сочетаемости
  - 4. 6. 1. Пополнение базового множества
  - 4. 6. 2. Отсев лексической сочетаемости
Глава 5. Словарь сочетаемости в системе автоматического синтаксического анализа
- 5. 1. Учет информации о сочетаемости при синтаксическом анализе
  - 5. 1. 1. Метод учета сочетаемости при синтаксическом анализе
  - 5. 1. 2. Примеры разрешения синтаксической омонимии
  - 5. 1. 3. Экспериментальная проверка метода учета сочетаемости
- 5. 2. Технология и инструментальные средства формирования и сопровождения словаря сочетаемости
  - 5. 2. 1. Инструменты формирования базового словаря сочетаемости
  - 5. 2. 2. Инструмент тестирования синтаксического анализатора
  - 5. 2. 3. Инструмент сопровождения словаря сочетаемости

Несмотря на развитие технологий представления информации в формальней,' доступном для компьютерной обработки виде (таких как Semantic Web), основной объем информации порождается, хранится и передается в виде текстовна естественных языках (ЕЯ). В связи с лавинообразным ростом количества информации в самых разных сферах человеческой деятельности возникает острая необходимость автоматического решения различных задач, связанных с обработкой текстов, в том числе перевода с одного языка на другой, поиска информации в текстовых массивах, извлечения информации из текстов, реферирования и др.

Системы автоматической обработки текстов (АОТ-системы), использующие методы поверхностного анализа (например, основанные на поиске ключевых слов), в большинстве случаев не позволяют достичь результата, качество которого достаточно для практического применения. Причина кроется в необходимости учета не только слов, составляющих текст на ЕЯ, но и имплицитно представленных в тексте взаимосвязей между ними, для выявления которых требуется глубокий и полный учет разнообразных языковых явлений. Необходимым первым шагом на пути выявления таких взаимосвязей является выделение синтаксических отношений в тексте (синтаксический анализ).

Для автоматического выделения синтаксических отношений требуется привлекать различную информацию о сочетаемости слов. Простейшим типом информации такого рода может служить описание синтаксического поведения различных частей речи. Так, существительное сочетается с прилагательным при условии согласования их в роде, числе и падеже (быстрый автомобиль), но не сочетается с наречиями (*быстро автомобиль). Помимо информации о сочетаемости частей речи в процессе автоматического синтаксического анализа необходимо привлекать и информацию об особенностях сочетаемости более узких классов слов, а также отдельных слов. Так, для того, чтобы правильно построить синтаксическую структуру фразы одобрить поправки в закон необходимо знать, что глагол одобрить не может управлять предлогом в (в отличие от глагола внести: внести изменения в проект). Заметим, что информация подобного рода описывается в словарях моделей управления, однако описания обычно охватывают лишь глаголы (агитировать) и образованные от них слова {агитатор, агитация). Более сложная информация о сочетаемости требуется, чтобы построить правильные синтаксические структуры фраз привезти куртку на синтепоне и привезти куртку на машине. В данном случае и глагол привезти, и существительное куртка сочетается с предлогом на, поэтому для выбора правильной структуры (для каждой из фраз своей) требуется привлечь соображения более глубокого, семантического характера: привезти сочетается с классом слов, обозначающих средства передвижения {на машине, на автобусе, на электричке), а куртка — с названиями материалов {на синтепоне, на меху, на пуху). Наконец, при синтаксическом анализе фразы проливные дожди и заморозки требуется информация о сочетаемости отдельных лексем. Ведь, несмотря на то, что слова проливной и сильный близки по смыслу, первое сочетается только со словом дождь, а второе и с названиями других погодных явлений. Поэтому, не обладая информацией об индивидуальной сочетаемости слов, можно по ошибке отнести прилагательное проливной к группе однородных членов дожди и заморозки (по аналогии с сильные дожди и заморозки).

Таким образом, во многих случаях без подробного и полного описания сочетаемости слов невозможно построить правильную синтаксическую структуру предложения. Однако существующие лингвистические источники, описывающие сочетаемость слов русского языка (словари сочетаемости, комбинаторные словари), обладают существенными недостатками. Во-первых, они покрывают лишь небольшую часть лексики русского языка. Во-вторых, такие словари обычно рассчитаны на пользователя-человека, поэтому зачастую авторы вместо того, чтобы приводить формальное и последовательное описание, ограничиваются рядом примеров и ссылок на аналогичные статьи, 5 апеллируя к интуиции пользователя словаря. Основной причиной перечисленных недостатков является чрезвычайная трудоемкость ручного формирования описаний сочетаемости, носящих комбинаторный характер (по сути, требуется описать множество пар, или даже п-ок слов, способных образовывать допустимые языком словосочетания). Вследствие этих недостатков, в задачах автоматической обработки текстов сформированные вручную ресурсы могут использоваться скорее как дополнительный источник информации о сочетаемости, обладающий весьма высокой точностью (словарные статьи формируются компетентными экспертами-лингвистами и заслуживают доверия), но очень низкой полнотой. О низкой полноте данных ресурсов можно говорить как с точки зрения количества описанных лексем, так и с точки зрения приведенной для каждой из них информации. Так, либо сочетаемость описывается слишком абстрактно, с помощью указания только морфологических и синтаксических характеристик слов, сочетающихся с данным («Управление в русском языке» Д. Э. Розенталя [1]), либо слишком конкретно — перечислением отдельных слов. Такое перечисление обычно заканчивается многоточием, призывающим пользователя продолжить ряд по аналогии («Словарь сочетаемости слов русского языка» под редакцией П. Н. Денисова и В. В. Морковкина [2]).

Альтернативой использованию лингвистических описаний сочетаемости является автоматический сбор статистики совместной встречаемости слов на большой текстовой коллекции и формирование статистического описания сочетаемости. Причем обычно имеет смысл использовать неразмеченные (т.е. не обработанные экспертами) тексты, поскольку создание достаточной по объему размеченной коллекции является ничуть не менее сложной и трудозатратной задачей, нежели ручное формирование словаря. Такой подход позволяет свести к минимуму объем требуемого ручного труда, а также обеспечить довольно полный охват лексики. Здесь важно отметить, что простая статистика совместной встречаемости слов не обеспечивает полноты информации о сочетаемости каждого слова в отдельности. Это связано с 6 проблемой разреженности данных о совместной встречаемости, извлеченных из коллекции текстов на ЕЯ: лишь небольшая часть сочетающихся между собой слов реально встретятся вместе в коллекции, причем многие из них встретятся вместе лишь один-два раза. Свойство разреженности является фундаментальным для текстов на ЕЯ, поэтому решить данную проблему невозможно ни увеличением объема, ни изменением состава текстовой коллекции. Особенно остро проблема разреженности встает в тех случаях, когда описываемое слово сочетается со всеми словами, принадлежащими одному или нескольким достаточно широким семантическим классам. Например, слово пирог сочетается с называниями практически любых нежидких пищевых продуктов {пирог с черникой, творогом, рыбой, вареньем, маком,.), однако подобрать коллекцию текстов, в которую войдут все такие словосочетания невозможно, а описать только морфологические и синтаксические характеристики сочетающихся слов — означает допустить словосочетания типа пирог с идеей. Для решения данной проблемы необходимо использовать механизмы обобщения, которые на основе встречаемости слова с представителями определенных семантических классов делают вывод о сочетаемости со всеми словами, относящимися к этим классам. При этом встает вопрос об источнике информации о семантических классах и принадлежащих им словах. Большинство существующих методов (ориентированных в основном на обработку англоязычных текстов) в качестве такого источника используют лексическую онтологию VordNet [3], являющуюся довольно качественным лингвистическим ресурсом с широким охватом лексики английского языка. Однако, для многих других языков аналоги \^ог (1№ 1, обладающие сопоставимой полнотой и качеством описания, недоступны и создание их упирается в те же проблемы, что и создание словарей сочетаемости. Альтернативой опять же является автоматическое извлечение информации о семантических классах из неразмеченных текстовых коллекций.

Существующие методы автоматического формирования описаний сочетаемости и семантических классов не дают результатов, достаточно 7 качественных для того, чтобы можно было полностью исключить ручной труд эксперта. Они, однако, способны дать первое приближение к необходимому описанию и обеспечить эксперта статистическими данными для дальнейшего улучшения этого описания.

Таким образом, актуальным является создание методов автоматизированного формирования описаний сочетаемости, позволяющих извлекать информацию о сочетаемости из неразмеченных текстовых коллекций, обобщать ее и представлять в таком виде, в котором эксперты могут эффективно работать с ней. Другой актуальной проблемой является учет сформированных таким образом, а также содержащихся в существующих словарях, описаний сочетаемости для улучшения качества и повышения эффективности автоматического синтаксического анализа.

Целью данной диссертационной работы является исследование и разработка методов построения компьютерных словарей сочетаемости и использования этих словарей для повышения качества работы автоматических синтаксических анализаторов русскоязычных текстов.

Разрабатываемые методы должны поддерживать автоматизированный подход к формированию словарей, при котором в процессе формирования используются как алгоритмы автоматического извлечения информации о сочетаемости из текстовых коллекций, так и данные, полученные от экспертов или из составленных вручную лингвистических ресурсов. При этом участие экспертов должно быть максимально эффективным, для чего необходимо создать соответствующие инструментальные средства развития и сопровождения словарей сочетаемости.

Достижение поставленной цели предполагает решение следующих задач:

1. исследование ограничений на сочетаемость, которые необходимо учитывать в процессе синтаксического анализа, и разработка структур данных, позволяющих хранить описания таких ограничений;

2. разработка методов и программных средств, позволяющих учитывать сочетаемостные ограничения в процессе синтаксического анализа- 8.

3. разработка методов и программных средств автоматизированного формирования описаний сочетаемостных ограничений, их развития и сопровождения.

Работа выполнялась на кафедре алгоритмических языков факультета ВМК МГУ в рамках Госбюджетных НИР по приоритетному направлению «Программное и математическое обеспечение эффективного решения актуальных задач на современных вычислительных системах», проводимых под руководством профессора, д.ф.-м.н. М. Г. Мальковского и подразумевающих, в числе прочего, создание системы автоматического синтаксического анализа русскоязычных текстов ТгееШп. В системе Тгее1: оп сочетаемость слов изначально не учитывалась, что негативно сказывалось на качестве ее работы. В связи с этим актуальной стала задача интеграции в данную систему программных средств формирования и учета описаний сочетаемости в процессе синтаксического анализа.

Основные результаты диссертации отражены в десяти публикациях (в научном журнале из перечня ВАК [60], в двух тематических сборниках [18,75], а также в других изданиях [13,19,61,67,68,70,74]).

Полученные результаты докладывались и обсуждались на следующих конференциях и семинарах:

•международная конференция по компьютерной лингвистике «Диалог» (2010 г.);

•научная конференция МГУ «Тихоновские чтения» (2011 г.);

•международные научно-практические конференции SWorld (2008, 2009, 2011, 2012 гг.);

•научно-исследовательские семинары МГУ им. М. В. Ломоносова, ВЦ РАН, Института Русского языка РАН, Высшей школы экономики.

Заключение

Показать весь текст

Список литературы

Розенталь Д.Э. Управление в русском языке. М.: Книга, 1981. — 304 с.
Словарь сочетаемости слов русского языка. Под ред. П. Н. Денисова, В. В. Морковкина. 2-е изд., испр. — М.: Рус. яз., 1983. — 688 с.
Miller G.A. WordNet: A Lexical Database for English // CACM. 38(11). 1995. -P. 39−41.
Мальковский М.Г., Грацианова Т. Ю., Полякова И. Н. Прикладное программное обеспечение: системы автоматической обработки текстов. М.: МАКС Пресс, 2000. 52 с.
Bolshakov I.A., Gelbukh A. Computational Linguistics. Models, Resources, Applications. Mexico: IPN, 2004. 186 c.
A., Ferrucci D. Lally. UIMA: an architectural approach to unstructured information processing in the corporate research environment // Natural Language Engineering. № 3−4. 2004. P. 327−348.
Мальковский М.Г., Старостин A.C. Модель синтаксиса в системе морфо-синтаксического анализа «TREETON» // Труды международной конференции Диалог'2006. М.: изд-во РГГУ, 2006. С. 481−492.
Мельчук И.А. Опыт теории лингвистических моделей «СМЫСЛ ТЕКСТ». М.: Школа «Языки русской культуры», 1999. 346 с.
Chomsky N. Syntactic Structures. Paris: Mouton, 1957. 117 p.
Мальковский М.Г., Старостин A.C. Система Treeton: Анализ под управлением штрафной функции // Программные продукты и системы. № 1. Тверь, 2009. С. 33−35.
Зализняк A.A. Грамматический словарь русского языка. Словоизменение. М.: Рус. яз., 1980. 880 с.
Апресян Ю.Д. Идеи и методы современной структурной лингвистики (краткий очерк). М.: Просвещение, 1966. 305 с.
Арефьев Н.В. Оценка достоверности синтаксических связей // Сб. научных трудов по материалам международной научно-практической конференции
Перспективные инновации в науке, образовании, производстве и транспорте '2009″, т.2. Одесса: Черноморье, 2009. С. 94−97.
Ивин A.A., Никифоров A.JI. Словарь по логике. М.: Туманит, изд. центр ВЛАДОС, 1997. 384 с.
Гладкий A.B. Синтаксические структуры естественного языка в автоматизированных системах общения. М.: Наука, 1985. 144 с.
Иорданская Л.Н. Синтаксическая омонимия в русском языке (с точки зрения автоматического анализа и синтеза) // Научно-техническая информация. 5. 1967.-С. 9−17.
Апресян Ю. Д, Богуславский И. М., Иомдин Л. Л., Лазурский A.B., Перцов Н. В., Санников В. З., Цинман Л. Л. Лингвистическое обеспечение системы ЭТАП-2. М.: Наука, 1989. 296 с.
Иомдин Л.Л., Сизов В. Г., Цинман Л. Л. Использование эмпирических весов при синтаксическом анализе // Труды международной конференции «Обработка текста и когнитивные технологии». Т. 6. Казань: Отечество, 2001. С. 64−72.
Сизов В.Г., Петроченков В. В. Использование статистической информации оконкурирующих синтаксических связях в синтаксическом анализаторе ЭТАП-3для получения наиболее вероятной синтаксической структуры фразы //
Сборник трудов 33-ой Конференции молодых ученых и специалистов ИППИ
РАН. Геленджик, 18−26 сентября 2010 г. М.: ИППИ, 2010. С. 299−305.149
Мельчук И.А. Русский язык в модели «Смысл Текст». Москва-Вена: Школа «Языки русской культуры», Венский славистический альманах, 1995. -682 с.
Жолковский А.К., Мельчук И. А. О семантическом синтезе // Проблемы кибернетики. 19. 1967. С. 177−238
Сизов В.Г., Цинман JI.JI. Лингвистический процессор ЭТАП: дескрипторное соответствие и обработка метафор // Труды Международного семинара по компьютерной лингвистике и ее приложениям (Диалог'2000). Т. 2. Протвино, 2000. С. 366−369.
Крейдлин Л.Г. Учет дескрипторных весов в синтаксическом анализаторе системы ЭТАП-3 // Сборник трудов 34-ой Конференции молодых ученых и специалистов ИППИ РАН «Информационные технологии и системы (ИТиС'11)». Геленджик, 2011. С. 380−384.
Дяченко П., Фролова Т. Извлечение информации о сочетаемости лексем из аннотированного корпуса текстов // Информационные технологии и системы (ИТиС'08): сборник трудов конференции. М.: ИППИ РАН, 2008. С. 206−210.
Фролова Т. Интерпретация и практическое применение текстовых данных о сочетаемости лексем (на материале прилагательных) // Информационные технологии и системы (ИТиС'09): сборник трудов конференции. М.: ИППИ РАН, 2009.-С. 210−214.
Апресян Ю. Д., Богуславский И. М., Иомдин Б. J1. и др. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы // Национальный корпус русского языка: 2003−2005. М.: Индрик, 2005.-С. 193−214.
Петроченков В. В. Статистическое разрешение лексической неоднозначности в системе ЭТАП-3 PDF. (http://itas2011.iitp.ru/pdf/1 569 463 719.pdf)
Большаков И.А. КроссЛексика большой электронный словарь сочетаний и смысловых связей русских слов // Материалы ежегодной Международной конференции «Диалог 2009» (Бекасово, 27−31 мая 2009 г.). Т. 8(15). М.: РГГУ, 2009. — С. 45−50.
Мельчук И.А., Жолковский А. К. и др. Толково-комбинаторный словарь современного русского языка. Опыты семантико-синтаксического описания русской лексики. Вена: Wiener Slavistischer Almanach, 1984. 992 с.
Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009. 1112 с.
Сокирко A.B., Толдова С. Ю. Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка HTML. (http://www.aot.ru/docs/RusCorporaHMM.htm)
Carson Т. Schutze. РР attachment and argumenthood // Carson Т. Schutze, Jennifer В. Ganger, and Kevin Broihier, editors. Papers on Language Processing and Acquisition. 1995. P. 95−152.
Marilyn Ford, Joan Bresnan, Ronald M. Kaplan. A competence-based theory of syntactic closure // Joan Bresnan editor. The Mental Representation of Grammatical Relations. Cambridge, MA: MIT Press. 1982. P. 727−796.
Yorick Wilks, Xiuming Huang, Dan Fass. Syntax, preference and right attachment // Proceedings of the 9th International Joint Conference on Artificial Intelligence (IJCAI 85). Los Angeles, CA. 1985. P. 779−784.
Kathleen Dahlgren, Joyce McDowell. Using commonsense knowledge to disambiguate prepositional phrase modifiers // Proceedings of the 6th Conference on Artificial. Philadelphia, PA. 1986. P. 589−593.
Graeme Hirst. Semantic Interpretation and the Resolution of Ambiguity. Cambridge: Cambridge University Press, 1987. 267 p.
Karen Jensen, Jean-Louis Binot. Disambiguating prepositional phrase attachments by using on-line dictionary definitions // Computational Linguistics. 13(3−4). 1987.-P. 251−260.
Mitchell P. Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz. Building a large annotated corpus of English: the Penntreebank // Computational Linguistics. 19(2). 1993.-P. 313−330.
Adwait Ratnaparkhi, Jeff Reynar, Salim Roukos. A Maximum Entropy Model for Prepositional Phrase Attachment // Proceedings of the Human Language Technology Workshop. Plalnsboro, N.J.: ARPA. P. 250−255.
Michael Collins, James Brooks. Prepositional Phrase Attachment through a Backed-Off Model // Proceedings of the 3rd Annual Workshop on Very Large Corpora. Cambridge, MA. 1995. P. 27−38.
Jiri Stetina, Makoto Nagao. Corpus Based PP Attachment Ambiguity Resolution with a Semantic Dictionary // Proceedings of the 5th Annual Workshop on Very Large Corpora. HongKong. 1997. P. 66−80.
Donald Hindle, Mats Rooth. Structural Ambiguity and Lexical Relations. // Computational Linguistics. 19(1). 1993.-P. 103−120.
Sinclair J. P., Hanks G., Fox R., Moon P. Stock, et al. Collins COBUILD English Language Dictionary. London and Glasgow: Collins, 1987. 1728 p.
Christopher D. Manning, Hinrich Schutze. Foundations of Statistical Natural Language Processing. Cambridge, Massachusetts: MIT Press, 1999. 680 p.
Adwait Ratnaparkhi. Statistical models for unsupervised prepositional phrase attachment // COLING '98 Proceedings of the 17th international conference on Computational linguistics. T. 2. Stroudsburg, PA, USA, 1998. P. 1079−1085.
Мальковский М.Г., Арефьев Н. В. «Сочетаемостные ограничения в системе автоматического синтаксического анализа» // Программные продукты и системы. № 1. Тверь, 2012. С.28−31.
Иорданская Л.Н., Мельчук И. А. Смысл и сочетаемость в словаре. М.: Языки славянских культур, 2007. 672 с.
Bruce Eckel. Thinking in Java (4th Edition). Upper Saddle River, N. J.: Prentice Hall Ptr, 2006. 1463 p.
Национальный корпус русского языка HTML. (http://www.ruscorpora.ru)153
Gerlof Bouma. Normalized (Pointwise) Mutual Information in Collocation Extraction // From Form to Meaning: Processing Texts Automatically, Proceedings of the Biennial GSCL Conference 2009. Tubingen: Gunter Narr Verlag. P. 31−40.
Перцов Н.В., Старостин С. А. О синтаксическом процессоре, работающем на ограниченном объеме лингвистических средств // Труды международной конференции Диалог'1999. Т.2. Таруса. С. 224−230.
Арефьев Н.В. Использование онтологии для оценки семантической корректности синтаксической структуры // Сб. тезисов лучших дипломных работ 2008 года. М.: Изд-во факультета ВМиК МГУ им. М. В. Ломоносова, 2008.-С. 91−92.
Ожегов С.И., Шведова Н. Ю. Толковый словарь русского языка: 80 000 слов и фразеологических выражений. М.: Азъ, 1993. 955 с.
ЛюгерД.Ф. Искусственный интеллект: стратегии и методы решения сложных проблем, 4-е издание. М.: Издательский дом «Вильяме», 2003. 864 с.
Bullinaria J.A., Levy J.P. Extracting Semantic Representations from Word Cooccurrence Statistics: A Computational Study // Behavior Research Methods, 39. 2007.-P. 510−526.
Firth J.R. A synopsis of linguistic theory 1930−1955 // Studies in Linguistic Analysis. Oxford: Philological Society. 1957. P. 1−32.
Мальковский М.Г., Абрамов В. Г., Субботин A.B. Об автоматизированном формировании лингвистических баз знаний // Труды Международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям. Т.2. Казань, 1998.-С. 831−836.

Заполнить форму текущей работой