Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе (реферат, курсовая, диплом, контрольная)

Содержание

1. Введение
О проблематике и строении настоящей работы
2. Корпусы с синтаксической разметкой и автоматический синтаксический анализ
Общие замечания
Лингвистические корпусы с синтаксической разметкой
Характеристики
Существующие корпусы
Применение корпусов с синтаксической разметкой
Стратегии разработки
приложений автоматического синтаксического анализа и корпуса с синтаксической разметкой на основе грамматики зависимостей
Количественная оценка программ автоматического синтаксического анализа на материале корпусов с синтаксической разметкой
3. Корпус с синтаксической разметкой для русского языка
Состав корпуса
Уровни разметки
Формат разметки
Типы лингвистической информации
Морфологическая информация
Синтаксическая информация
Разработка соглашений по разметке
Программное обеспечение для подготовки корпуса и работы с ним
Инструменты разметки
Инструменты для сбора информации по корпусу
4. Применение корпуса с разметкой при разрешении синтаксической неоднозначности в лингвистическом процессоре ЭТАП
Проблема разрешения синтаксической неоднозначности в автоматической обработке текста
Синтаксический компонент лингвистического процессора ЭТАП
Предварительная обработка предложения и порождение гипотетических связей
Разрешение синтаксической неоднозначности на основе правил
Комбинированный алгоритм разрешения синтаксической неоднозначности для лингвистического процессора ЭТАП
Реализация комбинированной стратегии обработки языковых данных как одно из направлений развития лингвистического процессора ЭТАП
Комбинированный алгоритм разрешения синтаксической неоднозначности
Архитектурные ограничения и альтернативные подходы
Экспериментальный модуль для лингвистического процессора ЭТАП
Наборы данных и их получение
Качественная оценка комбинированного алгоритма
5. Количественная оценка алгоритмов автоматического синтаксического анализа для русского языка
Предлагаемые принципы оценки алгоритмов синтаксического анализа для русского языка
Количественная оценка алгоритма синтаксического анализа лингвистического процессора ЭТАП
Экспериментальные данные
Программный комплекс
Результаты оценки
Анализ полученных результатов
Эксперимент по установлению наличия синтаксических связей в пространстве поиска алгоритма синтаксического анализа
Эксперимент по определению вклада правил предпочтения и корпусного модуля в работу алгоритма синтаксического анализа
6. Результаты и перспективы

О проблематике и строении настоящей работы.

С распространением персональных компьютеров и сетей передачи данных неуклонно растет потребность в системах автоматической обработки текстов и важность задачи их совершенствования. Получение новых результатов на этом направлении требует исследований, охватывающих целый ряд смежных областей информатики, лингвистики, психологии, математики и других дисциплин. Данная работа принадлежит к категории таких исследований. Ее центральная темалингвистические корпусы с синтаксической разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе*.

Область автоматической обработки текста сегодня сложно представить себе без лингвистических корпусов с разметкой. Это собрания языковых данных, для которых сформулирована и записана информация об их структуре. Базовая разметка для корпусов текстов, как правило, включает лемматическую Работа, положенная в основу настоящей диссертации, стала возможной благодаря грантам РФФИ № 01−06−80 453, 01−07−90 495. информацию и информацию о частеречной принадлежности слов (т.н. part of speech tagging). Для теоретико-синтаксических изысканий и в автоматическом синтаксическом анализе широко применяются корпуса с синтаксической разметкой.

Многие виды разметки требуют участия экспертов-лингвистов в подготовке корпуса. К ним относится и разметка синтаксическая, которая представляет собой особо трудоемкий вид разметки. Это связано с тем, что точность результатов предварительной автоматической синтаксической разметки далека от 100%, особенно при различении большого числа типов отношений.

Корпуса текстов с синтаксической разметкой широко применяются при создании современных алгоритмов автоматического синтаксического анализа и для количественной оценки их работы.

Алгоритмы автоматического синтаксического анализа применяются в таких классах приложений по автоматической обработке текста, как машинный перевод, поиск информации, системы общения с базами данных на естественном языке, системы автоматического аннотирования и реферирования, авторские системы и компьютерная проверка орфографии и пунктуации. Элементы синтаксического анализа все шире используются и в речевых технологиях (см., например, обсуждение в Кривнова, Чардин 1999).

Предлагаемая работа построена следующим образом. За настоящим введением следует обзорная глава 2, в которой рассказывается о лингвистических корпусах с синтаксической разметкой, перспективных методах в области автоматического синтаксического анализа, связанных с использованием этих корпусов, и предпринимается попытка осмысления этого научно-исследовательского направления в широком междисциплинарном контексте. При этом особое внимание уделяется корпусам с синтаксической разметкой на основе грамматики зависимостей. Подавляющее большинство исследований по автоматическому синтаксическому анализу за рубежом опирается на грамматики составляющих и корпусы, размеченные на их основе. Однако в последние годы все больше специалистов приходит к выводу, что использование грамматик зависимостей предоставляет более широкие возможности для разработки программ автоматического синтаксического анализа (например, Rosenfeld 2000). С этим связано использование этого типа грамматик в качестве основы при подготовке многих вновь создаваемых корпусов с разметкой (см., например, Rambow et al. 2002).

На материале русского языка электронных корпусов с синтаксической разметкой до самого последнего времени не существовало. Глава 3 посвящена первому такому корпусу для русского языка, подготовленному в Лаборатории компьютерной лингвистики Института Проблем Передачи Информации РАН под руководством проф. И. М. Богуславского при участии автора (Богуславский и др. 2002; Boguslavsky et al. 2002). Разметка корпуса, о котором идет речь, осуществлялась на основе грамматики зависимостей. Для синтаксических отношений помечались их типы в соответствии с подробной классификацией, которая основана на синтаксической модели, принятой в лингвистическом процессоре ЭТАП-3 (Апресян и др. 1989, Апресян и др. 1992). Данная модель, в свою очередь, базируется на поверхностно-синтаксическом компоненте модели «Смысл<=>Текст» (Мельчук 1974), практической реализацией которого она является. В главе 3 также рассказывается о некоторых инструментах для работы с корпусом, анализируется информация о строении синтаксических структур предложений на русском языке, полученная с использованием этих инструментов.

В главе 4 излагается разработанный автором алгоритм разрешения синтаксической неоднозначности с использованием корпусных данных для лингвистического процессора ЭТАП-3, который был реализован как отдельный экспериментальный модуль процессора. В этой связи рассматривается синтаксический компонент лингвистического процессора ЭТАП-3, затрагивается вопрос архитектурных ограничений на использование в нем корпусных данных, говорится о различных типах корпусных данных, собранных для обеспечения работы алгоритма.

Самостоятельная глава 5 посвящена проблеме количественной оценки программ автоматического синтаксического анализа. В ней впервые предлагаются принципы количественной оценки программ автоматического синтаксического анализа для русского языка, а также приводятся результаты экспериментов по количественной оценке синтаксического компонента лингвистического процессора ЭТАП-3. Кроме того, поскольку результаты работы процессора с экспериментальным модулем и без него не показали значительных различий, была предпринята серия оригинальных экспериментов по оценке порождения связей в системе.

Завершает работу глава 6, в которой обсуждаются полученные результаты, перспективы расширения и дальнейшего применения корпуса с синтаксической разметкой для русского языка, отечественные и мировые тенденции в данной области. и.

1. Апресян Ю. Д. Русская длительная конструкция: пределы ее формального описания // Words are Physicians for an Ailing Mind. Verlag Otto Sagner, Muenchen, 1991.

2. Апресян Ю. Д., Богуславский И. М., Иомдин Л. Л., Лазурский А. В., Митюшин Л. Г., Санников В. З., Цинман Л. Л. Лингвистический процессор для сложных информационных систем. Москва, Наука, 1992.

3. Апресян Ю. Д., Богуславский И. М., Иомдин Л. Л., Лазурский А. В., Перцов Н. В., Санников В. З. Цинман Л.Л. Лингвистическое обеспечение системы ЭТАП-2. Москва, Наука, 1989.

4. Арлазаров В. Л., Богданов Д. С., Паклин М. Л., Розанов А. О., Финкельштейн Ю. Л. Инструментальная система для исследования и обработки речевых сигналов и создания баз данных // Интеллектуальные технологии ввода и обработки информации.-М., 1998.

5. Арутюнова Н. Д. Синтаксис. // Общее языкознание: Внутренняя структура языка. Москва, Наука, 1972, с. 254−342.

6. Блумфилд Л. Язык. М, 1968.

7. Богуславский И. М. Сфера действия лексических единиц. Москва, Школа «Языки русской культуры», 1996.

8. Гвоздев А. Н. Об одной проблеме стилистики. // Очерки по стилистике русского языка. Изд. 3-е, М., 1965, с. 380−395.

9. Гладкий А. В. Синтаксические структуры естественного языка в автоматизированных системах общения. М., Наука, 1985.

10. Григорьев Н. В. Восходящий алгоритм построения дерева зависимостей для системы ЭТАП-3 // Труды Международного семинара Диалог'99, с. 28−33, 1999.

11. Дрейзин Ф. А. Синтаксическая омонимия. // Машинный перевод и прикладная лингвистика, № 9, 1966, с. 38−43.

12. Иомдин JI. JL, Сизов В. Г., Цинман JI. JL Использование эмпирических весов при синтаксическом анализе. // Труды конференции «Когнитивное моделирование в лингвистике», Дивногорск, Россия, 2001.

13. Иомдин Л. Л. Уроки русско-английского (из опыта работы системы машинного перевода) // Труды Международного семинара покомпьютерной лингвистике и её приложениям «Диалог-2002», Протвино, 2002.

14. Иорданская, JT.H. Свойства правильной синтаксической структуры и механизм ее обнаружения. // Проблемы кибернетики, вып. 11, 1964, с. 215−245.

15. Иорданская J1.H. Синтаксическая омонимия в русском языке (с точки зрения автоматического анализа и синтеза). // Научно-техническая информация, № 5, 1967, с. 19−17.

16. Кривнова О. Ф., Чардин И. С. Паузирование при автоматическом синтезе речи. // Материалы конференции «Теория и практика речевых исследований» (АРСО-99), Москва, 1999.

17. Мельчук И. А. Автоматический синтаксический анализ. 1. Внутрисегментный анализ. Новосибирск, Наука, 1964. 357 с.

18. Мельчук И. А. Опыт теории лингвистических моделей «Смысл<=>Текст». М., Наука, 1974. 314 с.

19. Митюшин, Л.Г. О высоковероятностных синтаксических связях. // Проблемы разработки формальной модели языка. Сер. «Вопросы кибернетики». Вып. 137. М., Научный совет по комплексной проблеме «Кибернетика» АН СССР, 1988. С. 145−174.

20. Никитина Т. Н. Грамматическая неоднозначность при автоматическом переводе с китайского языка на русский. // Научно-техническая информация, № 2, 1966, с. 30−34.

21. Падучева Е. В. О способах представления синтаксической структуры предложения // Вопросы языкознания, № 2, 1964.

22. Севбо И. П. Графические представления синтаксических структур и стилистическая диагностика. Киев, 1981.

23. Цейтин Г. С. Методы синтаксического анализа, использующие предпочтение языковых конструкций: модели и эксперименты. // Международный семинар по машинному переводу. М., ВЦП, 1975, С. 131−133.

24. Чардин И. С. Использование аннотированного корпуса при снятии синтаксической неоднозначности в лингвистическом процессоре ЭТАП-3. // Материалы 2-ой Всероссийской конференции «Теория и практика речевых исследований» (АРСО-2001), Москва, 2001.

25. Чардин И. С. Лингвистические корпуса с синтаксической разметкой и их применение. // Научно-техническая информация, № 6, 2003, с. 18−25.

26. Abeille, A. and L. Clement. A tagged reference corpus for French. // LINC'99 Proceedings, EACL workshop, Bergen, 1999.

27. Abney, S. Stochastic attribute-value grammars. // The Computation and Language Eprint Archive, October 1996.

28. Black, E., Lafferty, J. and S. Roukos. Development and evaluation of a broad-coverage probabilistic grammar of English language computer manuals. In Proceedings of ACL-92, pp. 185−192, Newark, Delaware, 1992.

29. Blanchon, H. Interagir pour traduire: la TAO personnelle pour redacteur monolingue. // La Tribune des Industries de la Langues. Vol. 17−18−19,28−34,1995.

30. Bod, R. Enriching linguistics with statistics: performance models of natural language. ILLC Dissertation Series 1995;14. Academische Press, Amsterdam, 1995.

31. Bod, R. Beyond grammar: an experience-based theory of language. CSLI Publications / Cambridge University Press, 1998.

32. Boguslavsky I.M., Grigorieva S.A., Grigoriev N.V., Kreidlin L.G., Frid N.E. Dependency treebank for Russian: concepts, tools, types of information. // Proceedings of the 18th Conference on Computational Linguistics. Vol 2, 987−991, 2000, Saarbriicken.

33. Brants Th., Skut W., and H. Uszkoreit. Syntactic annotation of a German newspaper corpus. // Proceedings of the ATALA Treebank Workshop, Paris, France, 1999, pp. 69−76.

34. Brants, S., Dipper, S., Hansen, S., Lezius, W. and G. Smith. The. TIGER treebank. // Proceedings of the. Workshop on Treebanks and1. nguistic Theories. Sozopol, 2002.

35. Burnage, G. and D. Dunlop. Encoding the British nationaL corpus. Aarts et al. (Eds.) English language corpora: design, analysis and exploitation. Amsterdam, Rodopi, 1992, pp 79−95.

36. Carl M., Pease С., Streiter О., Iomdin L. Towards a dynamic linkage of example-based and rule-based machine translation // Machine Translation Journal, 15:3, September 2001, pp. 223−257.

37. Carrol, J., Minnen, G., and T. Briscoe. Corpus annotation for parser evaluation. // Proceedings of LINC-99 workshop at EACL-99, Bergen, Norway, June 1999.

38. Carroll, G. and E. Charniak. Two experiments on learning probabilistic dependency grammars from corpora. // Workshop Notes for Statistically-Based NLP Techniques. AAAI, 1992, pp. 1−13.

39. Cole, R.A., Mariani, J., Uszkoreit, H., Zaenen, A., Zue, V., Varile, G., Zampolli A. (eds.) Survey of the state of the art in human language technology. Center for Spoken Language Understanding (CSLU), Carnegie Mellon University, Pittsburgh, PA, 1995.

40. Charniak, E. Treebank grammars. // Proceedings of the Thirteens National Conference on Artificial Intelligence (AAAI'96), pp. 10 311 036.

41. Charniak, E. Statistical parsing with a context-free grammar and word statistics. // Proceedings of AAAI'97, 1997, pp. 598−603.

42. Charniak, E. A maximum-entropy-inspired parser. // Proceedings of NAACL-2000, Seattle, 2000.

43. Collins, M.J. Three generative, lexicalised models for statistical parsing. In: Proceedings of ACL35/EACL8, 1997, pp. 16−23.

44. Collins, M.J., Hajic, J., Ramshaw, L. and C. Tillmann. A Statistical Parser for Czech. // Proceedings of ACL 99.

45. Fais, L. and Blanchon, H. Ambiguities in Task-oriented Dialogues. Proc. MIDDIM'96. Le col de porte, Isere, France. August 12−14, 1996. Vol. 1/1,263−275.

46. Hajic, J. Building a syntactically annotated corpus: the Prague dependency treebank. // Hajicova, E., (Ed.), Issues of Valency and Meaning Studies in Honour of Jarmila Panevova, pp. 106−132. Karolinum — Charles University Press, Prague, 1998.

47. Harnad, S. (1990). The Symbol Grounding Problem, Physica D 42, pp. 335−346.

48. Huang, C.-R., Chen, K.-J., Chen, F.-Y., Chen, K.-J., Gao, Z.-M., Chen, K.-Y. Sinica treebank: design criteria, annotation guidelines, and online interface. // Proceedings of 2nd Chinese Language Processing Workshop/ ACL-2000, Hong Kong, 2000, p. 29−37.

49. Iomdin L., Sizov V., Tsinman L. (2002). Utilisation des poids empiriques dans l’analyse syntaxique: une application en Traduction Automatique // META, vol. 47, No 3. P. 351−358.

50. Jarvinen, T. Bank of English and beyond. // A. Abeille (Ed.) Treebanks: building and using syntactically annotated corpora. Kluwer Academic Publishers, 2003.

51. Johansson, S., Leech, G. and Goodluck, H. Manual of information to accompany the Lancaster-Olso/Bergen corpus of British English, for use with digital computers. Department of English, University of Oslo, 1978.

52. Kanayama, H, Torisawa, K., Mitsuishi, Y., and J. Tsujii. A hybrid Japanese parser with hand-crafted grammar and statistics. // In the Proceedings of the 18th International Conference on Computational Linguistics, 2000.

53. Kuno S., Oettinger A. Syntactic structure and ambiguity of English. // Proceedings of Fall Joint Computer Conference, 1963.

54. Kurohashi, S. and M. Nagao. Building a Japanese parsed corpus. // A. Abeille (Ed.) Treebanks: building and using syntactically annotated corpora. Kluwer Academic Publishers, 2003.

55. Lin, D. A Dependency-based method for evaluating broad-coverage parsers. // Proceedings of IJCAI-95.

56. Lonngren, L. (Ed.) Chastotnyj slovar' sovremennogo russkogo jazyka. Acta Universitatis Upsaliensis, Studia Slavica Upsaliensia 32. Uppsala, 1993.

57. Lin, D. A dependency-based method for evaluating broad-coverageiLparsers. // Proceedings of the 14 International Joint Conference on Artificial Intelligence, Montreal, Canada, 1995, p. 1420−1425.

58. Manning, C.D. and H. Schiitze. Foundations of statistical natural language processing. Cambridge, MA, MIT Press, 1999.

59. Marciniak, M., Mykowiecka, A., Przepiorkowski, A., and A. Kupsc. An HPSG-annotated test suit for Polish. // A. Abeille (Ed.) Treebanks: building and using syntactically annotated corpora. Kluwer Academic Publishers, 2003.

60. Marcus M.P., Santorini В., and Marcinkiewicz M.-A. Building a large annotated corpus of English: The Penn Treebank. Computational Linguistics, Vol. 19, No. 2., 1993.

61. Marcus M.P., G. Kim, M. Marcinkiewicz, R. Maclntyre, A. Bies, M. Ferguson, K. Katz and B. Schasberger. The Penn treebank: annotating predicate argument structure. // ARPA Human Language Technology Workshop. 1994.

62. Mel’cuk, I. Dependency syntax: theory and practice. Albany, NY, SUNY Press, 1988.

63. Moreno, A., Grishman, R., Lpez, S., Sanchez, F., and S. Sekine. A treebank of Spanish and its application to parsing, Proceedings of the Second International Conference on Language Resources and Evaluation (LREC), Athens, 2000, p. 107−111.

64. Nelson, G. Wallis, S. and B. Aarts. Exploring natural language: working with the British component of the International Corpus of English. Amsterdam, John Benjamins, 2002.

65. Oflazer, K., Say, В., Hakkani-Tur, D.Z., and G. Tiir. Building a Turkish treebank. In: A. Abeille (Ed.) Treebanks: building and using syntactically annotated corpora. Kluwer Academic Publishers, 2003.

66. Oepen, S., D. Flickinger, H. Uszkoreit, J.-I. Tsujii. Introduction to this Special Issue. In: Natural Language Engineering. Special Issue on Efficient Processing with HPSG: Methods, Systems, Evaluation. 6 (1), 1−14, 2000.

67. Paskin, M.A. Grammatical bigrams. // T. Dietterich, S. Becker, and Z. Gharahmani (Eds.), Advances in Neural Information Processing Systems 14. Cambridge, MA, MIT Press, 2001.

68. Pericliev, V. 1984. Handling syntactical ambiguity in machine translation. // Proceedings of the 10th International Conference on Computational Linguistics (COLING-84), Stanford, California, August 1984, pp. 521−524.

69. Rambow, O., Creswell, C., Szekely, R., Tauber, H., and M. Walker. A Dependency Treebank for English. // Proceedings of the Third International Conference on Language Resources and Evaluation. Las Palamas, Spain, 2002.

70. Ratnaparkhi, A. A linear observed time statistical parser based on maximum entropy models. // Proc. the Empirical Methods in Natural Language Processing Conference, 1997.

71. Rosenfeld, R. Two decades of statistical language modeling: where do we go from here? // Proceedings of the IEEE, 88(8), 2000.

72. Sampson, G. The grammatical database and parsing scheme. In: R. Garside, G. Leech and G. Sampson (Eds.) The computational analysis of English: a corpus-based approach. London, Longman, 1987.

73. Sampson, G. English for the Computer: The Susanne corpus and analytic scheme. Clarendon Press, Oxford, 1995.

74. Say gin, A.P., Cicekli, I., Akman, V. Turing test: 50 years later. // Minds and Machines, 10, Kluwer Academic Publishers, 2000, pp. 463−518.

75. SchabeSi Y. Stochastic lexicalized tree-adjoining grammars. // Proc. 14th COLING, 1992, pp. 426−432.

76. Searle, J.R. Is the brain’s mind a computer program? // Scientific American 3(262), 1990, pp. 26−31.

77. Streiter O., Iomdin L., Carl M. A virtual machine for hybrid machine translation. // Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-2000». Протвино, т. 2, с. 382−393, 2000.

78. Streiter О., Iomdin L., Sagalova I. Learning lessons from bilingual corpora: benefits for machine translation. // International Journal of Corpus Linguistics. Vol. 5(2), 2000, pp. 199−230.

79. Tesniere, L. Elements de syntaxe structurale. Paris, 1959.

80. Turing, A. Computing machinery and intelligence. // Mind, 59(236), 1950, pp. 433−460.

81. Van der Beek L., Bouma G., Malouf R., van Noord G. (2001), The Alpino dependency treebank. // Proceedings of LINC-2001.

82. Yuret, D. Discovery of linguistic relations using lexical attraction. Ph.D. thesis, MIT, 1998.

83. Zeman, D. A statistical approach to parsing of Czech. // Prague Bulletin of Mathematical Linguistics, Univerzita Karlova, Praha, vol. 69, 1998, pp. 29−37.

Показать весь текст

Заполнить форму текущей работой