Помощь в написании студенческих работ
Антистрессовый сервис

Адаптивный синтаксический анализатор русского языка

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Другим фактором, определяющим интерес к развитию лингвистических процессоров различного рода, является растущая необходимость упрощения работы с обширными информационными системами (например, такой системой можно считать Интернет в совокупности с поисковыми серверами). В этом случае возникает потребность обеспечения пользователя средством, которое позволит ему максимально удобно формулировать… Читать ещё >

Адаптивный синтаксический анализатор русского языка (реферат, курсовая, диплом, контрольная)

Содержание

  • Глава 1. Обзор литературы
    • 1. 1. Корпусная лингвистика
    • 1. 2. Синтаксические анализаторы
    • 1. 3. Лингвистические процессоры интегрального и модульного типа
    • 1. 4. Пример развитого синтаксического анализатора. Система Link
  • Grammar Parser
    • 1. 5. Сетевые грамматики
  • Глава 2. Описание синтаксиса на основе моделей управления. Методика, алгоритмы и программы формирования описания
    • 2. 1. Модели управления как средство описания естественного языка
    • 2. 2. Методика построения множества моделей управления
    • 2. 3. Разработка синтаксического анализатора, основанного на РСП
    • 2. 4. Управление работой синтаксического анализатора, основанного на РСП
    • 2. 5. Анализ синтаксических структур фрагментов и выделение из них использованных моделей управления
  • Глава 3. Информационная система для работы с моделями управления
    • 3. 1. Требования к информационной системе и ее архитектура
    • 3. 2. Базовая функциональность информационной системы
    • 3. 3. Структура xrtl-файла. Редактирование моделей управления
  • Глава 4. Синтаксический анализатор на основе моделей управления
  • Глава 5. Примеры работы алгоритмов
    • 5. 1. Примеры формирования моделей управления
    • 5. 2. Пример работы синтаксического анализатора на основе моделей управления

Актуальность темы

Современный мир характеризуется быстрым ростом глобализации и, как следствие, необходимостью общения людей разных культур и разных национальностей, носителей разных языков. И язык является одновременно и основным связующим, и, как это ни парадоксально, основным разделяющим средством. Одним из способов преодоления языкового барьера является использование систем машинного перевода различных типов, компонентами которых являются синтаксические анализаторы.

Другим фактором, определяющим интерес к развитию лингвистических процессоров различного рода, является растущая необходимость упрощения работы с обширными информационными системами (например, такой системой можно считать Интернет в совокупности с поисковыми серверами). В этом случае возникает потребность обеспечения пользователя средством, которое позволит ему максимально удобно формулировать свои запросы. Самым привычным таким средством является естественный язык. В этом случае лингвистический процессор должен уметь преобразовывать запросы на естественном языке в структуры, отражающие семантику, т. е. смысл, и прагматику, т. е. цели запроса.

Синтаксический компонент в составе лингвистического процессора русского языка необходим достаточно широкому кругу систем автоматической обработки текстов на естественном языке. К ним относятся, кроме уже упомянутых систем машинного перевода и информационных систем, системы автоматического синтеза речи (звуковое воспроизведение текста компьютером), распознавания речи (конвертирование компьютером устной речи в письменный текст), системы определения авторства текста и другие. Существующие в настоящее время синтаксические компоненты обладают рядом существенных недостатков: применяемые способы описания языка, как правило, недостаточно точно фиксируют языковые особенности, не допускается использование неграмматичных конструкций, создание и пополнение описания языка требует существенных трудозатрат. В связи с этим является актуальной задачей создание новых способов описания синтаксиса языка и использующих их синтаксических анализаторов, лишенных этих недостатков.

Если рассматривать лингвистические процессоры в аспекте синтаксиса, то наиболее важными, по-видимому, являются следующие вопросы. Во-первых, это 3 связь синтаксического анализа и анализа на более высоких уровнях. Во-вторых, это выбор способа описания языка, в частности, способ описания синтаксиса. С этими вопросами естественным образом связаны процессы создания и пополнения описания языка и выбор алгоритма анализа.

Сейчас не существует хорошего ответа на эти вопросы. В большинстве систем, ориентированных на глубокое понимание текста, синтаксический компонент в силу ряда причин занимает подчиненное положение, вследствие чего собственно синтаксическая информация, заключенная в тексте, используется далеко не полностью.

Данная работа, посвященная созданию синтаксического компонента лингвистического процессора, предлагает решение этих проблем.

Цели работы

Цель диссертационной работы состоит в разработке новых методов описания синтаксиса языка, позволяющих повысить точность описания по сравнению с традиционными подходами, основанными на использовании различного рода грамматик, а также в создании синтаксического анализатора русского языка, использующего предлагаемые методы и обеспечивающего возможность настройки на стилистические особенности подъязыков.

Поставленная таким образом цель может рассматриваться в рамках более масштабной задачи, а именно задачи создания лингвистического процессора, включающего в себя как синтаксический, так и семантический и прагматический компоненты.

Научная новизна

Предложен новый метод описания синтаксиса естественного языка, основанный на расширенном и адаптированном понятии модели управления, позволяющий учитывать в рамках одной концепции несколько уровней детализации синтаксической связи слов и обеспечивающий фиксирование стилистических особенностей подъязыков.

Разработана методика автоматического формирования множества моделей управления, обеспечивающая постоянную актуальность описания синтаксиса языка и возможность постоянного пополнения этого описания.

Разработан и реализован адаптивный синтаксический анализатор русского языка на основе моделей управления. Используемый алгоритм анализа позволяет получать все возможные варианты структуры входной фразы, при этом наиболее вероятный вариант возвращается первым, за минимальное время, и далее следуют остальные варианты по убыванию вероятности их использования.

Эти качества позволяют рассчитывать как на широкие перспективы использования предлагаемого решения, так и на дальнейшее развитие в этом направлении (например, добавления семантической информации в обобщенные модели управленияв этом случае можно использовать описываемый синтаксический анализатор для семантического анализа практически без изменений).

Апробация работы

Основные научные выводы и результаты работы представлялись и докладывались на международных конференциях Диалог-2000 (Протвино, 2000 г.), Диалог-2001 (Аксаково, 2001 г.), Диалог-2002 (Протвино, 2002 г.) и Диалог-2003 (Протвино, 2003 г.), а также на научных семинарах МГУ в 1999;2003 гг.

Публикации

По теме диссертации автором опубликованы четыре печатные работы. Структура и объем диссертации

Диссертация состоит из введения, 5 глав, заключения и списка использованной литературы. Общий объем работы составляет 101 страницу.

Список литературы

составляет 50 наименований.

Основные результаты диссертационной работы состоят в следующем:

1. Предложен новый метод описания синтаксиса естественного языка с помощью аппарата моделей управления, позволяющий повысить точность описания и обеспечить фиксирование стилистических особенностей подъязыков.

2. Разработана методика автоматического формирования множества указанных моделей управления и реализованы формальные описания и программные компоненты, поддерживающие эту методику.

3. Разработан и реализован адаптивный синтаксический анализатор русского языка на основе моделей управления.

Необходимо отметить, что, кроме самостоятельной значимости, полученные результаты открывают новые возможности в области создания лингвистических процессоров, например, объединение предлагаемого синтаксического анализатора и способа описания синтаксиса языка с семантическим анализатором и описанием семантики. Предложенный метод описания синтаксиса языка с помощью аппарата моделей управления в перспективе позволяет описывать все языковые аспекты (синтаксический, семантический и прагматический) в рамках одной структуры, что позволит существенно увеличить скорость анализа и повысить его качество.

Заключение

Показать весь текст

Список литературы

  1. McEnery, Т. and Wilson, A. Corpus Linguistics, Edinburgh: Edinburgh University Press, 1996.
  2. Aarts, J. and Meijs, W. (eds) Theory and Practice in Corpus Linguistics, Amsterdam: Rodopi, 1990.
  3. Sinclair, J. Corpus, Concordance, Collocation, Oxford University Press, 1991.
  4. Collins COBUILD English Language Dictionary, Collins, London and Glasgow, 1988.
  5. Ю. К. Орлов. Динамика частотной труктуры. Тбилиси, 2001.
  6. Garside, R. and McEnery, A. Treebanking: the compilation of a corpus of skeleton parsed sentences, in Black et al. 1993, 17−35.
  7. А.Я. Шайкевич. О Статистическом словаре языка Достоевского. Москва.
  8. Spevack М. A Complete and systematic concordance to the works of Shakespeare. Hildesheim, 1968−70.
  9. Словарь языка Пушкина, M., 1956−61.
  10. Carroll J.B. e.a. Word frequency book., Boston, 1971.
  11. Dictionnaire des frequences. P., 1971.
  12. Bobrow D. G., Syntactic Theory in Computer Implementations. H. Borko (Ed.), Automated Language Processing, New York, Wiley, 1967, pp. 217−252.
  13. Chomsky, N. Three models for the description of language. IRI Transactions on Information Theory, 1956- Chomsky, N. Syntactic Structures. Mouton, The Hague, 1957.
  14. Pollard, C. and Sag, I.A. Head-Driven Phrase Structure Grammar. University of Chicago Press, Chicago, 1994.
  15. Lexical-Functional Grammar (Bresnan, J. (Ed.) The Mental Representation of Grammatical Relations. MIT Press, Cambridge, MA, 1982.
  16. Chomsky, N. Lectures on Government and Binding. Foris, Dordrecht, 1981.
  17. Kay, P. and Fillmore, C.J. Grammatical constructions and linguistic generalizations: The What’s X Doing Y, 1999.
  18. Naur, P., Backus, J. W., Bauer, F.L., et al. Report on the algorithmic language ALGOL 60. Communications of the ACM, 3(5), 299−314.
  19. Mel’cuk, I.A. Studies in dependency syntax. Karoma Publishers, Ann Arbor, 1979.
  20. Mel’cuk, I.A. Dependency Syntax: Theory and Practice. SUNY Series in Linguistics, Mark Aronoff, series editor. State University of New York Press, Albany, 1988.
  21. Hudson, R.A. Word Grammar. Basil Blackwell, Oxford, 1984.
  22. Karlsson, F., et al. Constraint Grammar: A Language-Independent System for parsing Unrestricted Text. Mouton de Gruyter, Berlin, 1995.
  23. WordNet: An Electronic Lexical Database. MIT Press.
  24. Межъязыковые операции в модели японско-русского автоматического перевода ЯРАП Электронные библиотеки и базы данных по истории Евразии в средние века. Вып. 7. — М.: ИВ РАН, 1999, с. 172−231.
  25. В.М.Алпатов. Структура грамматических единиц в современном японском языке. — М.: Наука, 1979.
  26. З.М.Шаляпина. Грамматика и ее соотношение со словарем при словоцентрическом подходе к языку (на опыте формализованного лингвистического описания). — Вопросы языкознания, 1991, No.5, с. 42−54.
  27. М. Насколько линейно упорядоченной является языковая обработка? // Новое в зарубежной лингвистике. Вып XXIII. М.: Прогресс, 1988. — С. 93 152.
  28. . Ю. Компьютерная лингвистика: моделирование языкового общения // Новое в зарубежной лингвистике. Вып XXIV. М.: Прогресс, 1989. -С. 5−31.
  29. Т. А. ван, Кинч В. Стратегия понимания связного текста // Новое в зарубежной лингвистике. Вып XXIII. М.: Прогресс, 1988. — С. 153−211.
  30. Моделирование языковой деятельности в интеллектуальных системах. М.: Наука, 1987.-279 с.
  31. М. Интегральная обработка обеспечивает надежное понимание // Новое в зарубежной лингвистике. Вып XXIV. М.: Прогресс, 1989. — С. 161 208.
  32. Р., Бирнбаум JL, Мей Дж. К интеграции семантики и прагматики // Новое в зарубежной лингвистике. Вып XXIV. М.: Прогресс, 1989. — С. 32−47.
  33. Р., Лебовиц М. К, Бирнбаум Л. Интегральная понимающая система // Новое в зарубежной лингвистике. Вып XXII. М.: Радуга, 1983. — С. 401−449.
  34. Robert D. Borsley. Syntactic Theory // A Unified Approach. London: Edward Arnold, 1992.
  35. Howard Jackson. Grammar and Meaning // A Semantic Approach to English Grammar. London: Longman, 1990.
  36. И. П. Кузнецов, А. Г. Мацкевич. Лингвистический процессор для автоматического выявления из текстов значимой информации с ее компоновкой в рамках указанных шаблонов // ДИАЛОГ'2001, Труды межд. семинара. М., 2001.
  37. А. В. Семантические словари в автоматической обработке текста (по материалам системы Диалинг). Дис. канд. физ.-мат. наук. М., 2000.
  38. Temperley D, Lafferty J., Sleator D. 1995. Link Grammar Parser
  39. В. А. Сетевые грамматики ждя анализа естественных языков // Кибернетический сборник. Новая серия, вып. 13. М.: Мир, 1976.
  40. И.А., Головин И. Г. Синтаксический анализ фраз естественного языка на основе сетевой грамматики // ДИАЛОГ'98, Труды межд. семинара. М., 1998.
  41. Е. И. Независимый автоматический синтаксический анализ русского простого предложения по модели сетевой грамматики. Дис. канд. филол. наук. Л., 1989.
  42. Н.В. Синтаксический анализатор русского языка на базе сетевой грамматики // Дипломная работа., ВМиК, МГУ, 1999.
  43. Н.В. Методы улучшения качества синтаксического анализа фраз естественного языка // ДИАЛОГ'2000, Труды межд. семинара. М., 2000.
  44. Н.В. Обучаемый синтаксический анализатор естественного языка // ДИАЛОГ'2001, Труды межд. семинара. М., 2001.
  45. Н.В. Обобщенные модели управления. Синтаксический анализатор на основе обобщенных моделей управления. // ДИАЛОГ'2002, Труды межд. семинара. М., 2002.
  46. И.А., Головин И. Г., Кривнова О. Ф. Компьютерный словарь моделей управления русских глаголов (экспериментальный вариант) // ДИАЛОГ'98, Труды межд. семинара. М.} 1998.
  47. Т. Б. Агранат, О. С. Кулагина. Об электронном словаре сочетаемости сложносочиненных и сложноподчиненных предложений // ДИАЛОГ'2001, Труды межд. семинара. М., 2001.
  48. Т. Ю. Кобзарева, Д. Г. Лахути, И. М. Ножов. Модель сегментации русского предложения // ДИАЛОГ'2001, Труды межд. семинара. М., 2001.
  49. А. Шень. Программирование: теоремы и задачи.
  50. А. Искусственный интеллект. М.:Мир, 1985.
Заполнить форму текущей работой