Помощь в написании студенческих работ
Антистрессовый сервис

Синтаксический парсер лингвистического процессора ЭТАП-3

РефератПомощь в написанииУзнать стоимостьмоей работы

Посторонние интерпретации. Рассмотрим это на примере предложения Что делает правительство? слово правительство здесь является субъектом, подлежащим, а слово что — прямым дополнением глагола делает. С точки же зрения парсера это предложение допускает и другие интерпретации, например:· слово что может интерпретироваться как подлежащее, а правительство — как дополнение при глаголе делает; Корпус… Читать ещё >

Синтаксический парсер лингвистического процессора ЭТАП-3 (реферат, курсовая, диплом, контрольная)

Синтаксический парсер лингвистического процессора ЭТАП-3 [12] определяет синтаксическую структуру фразы в виде дерева зависимостей, которое строится с помощью специальных правил (синтагм). Этих правил для каждого из рабочих языков системы (в данном случае — русского и английского) насчитывается несколько сотен. Все они бинарны. Этот факт означает, что любая синтагма позволяет связать некоторым синтаксическим отношением два слова фразы, если все условия этой синтагмы, описывающие контекст данной пары слов во фразе, выполнены. Более строго, синтагма связывает синтаксическим отношением не слова фразы, а некоторую пару омонимов этих слов, если они представлены в начале синтаксического анализа несколькими (морфологическими и/или лексическими) омонимами. Таким образом, омонимы слов фразы могут связываться синтаксическими отношениями независимо друг от друга.

В результате работы синтагм на первом этапе синтаксического анализа возникает граф гипотетических синтаксических связей (синтаксических гипотез). На дальнейших этапах синтаксического анализатора посторонние связи различными средствами отфильтровываются. Из графа синтаксических гипотез выделяется дерево синтаксической структуры фразы. Иными словами, в основе алгоритма синтаксического анализа системы ЭТАП-3 лежит так называемый «фильтровый метод».

Проблемные вопросы, возникающие при работе парсера заключаются в следующем.

  • 1. Посторонние интерпретации. Рассмотрим это на примере предложения Что делает правительство? слово правительство здесь является субъектом, подлежащим, а слово что — прямым дополнением глагола делает. С точки же зрения парсера это предложение допускает и другие интерпретации, например:
    • · слово что может интерпретироваться как подлежащее, а правительство — как дополнение при глаголе делает;
    • · слово что может интерпретироваться как союз, вводящий неполное предложение.
  • 2. Избыточность. Если лингвист, обслуживающий систему, встречает в тексте синтаксическую конструкцию, не учтенную в синтагмах, то ему достаточно подправить одну из соответствующих синтагм или создать новую, чтобы возникло недостающее синтаксическое отношение. Однако часто бывает, что некоторая языковая конфигурация (скажем, последовательность словоформ, принадлежащих определенным лексико-грамматическим классам), будучи погружена в другие контексты, образует другую синтаксическую конструкцию и должна анализироваться уже иначе. Предусмотреть все эти контексты при написании синтагм, по-видимому, невозможно в принципе. Отсюда следует, что синтагмы неизбежно будут порождать в ряде случаев лишние, неверные синтаксические гипотезы. Как показывает опыт эксплуатации парсера ЭТАП’а-3, для больших фраз количество гипотез может достигать величины 20−30 n, где n — число слов фразы.

Система ЭТАП -3 использует следующие лингвистические ресурсы.

  • 1. Корпус текстов. Система ЭТАП-3 находится в экспериментальной эксплуатации уже довольно давно, были синтаксически размечены десятки тысяч фраз из разного рода текстов (сейчас в корпусе текстов около 37 000 фраз). Все синтаксические структуры этих фраз сначала «начерно» строились системой ЭТАП-3, а затем вручную редактировались специалистами-лингвистами.
  • 2. Для преодоления избыточности и оптимизации процесса выделения правильной синтаксической структуры из графа гипотетических связей применяют ранжирование синтаксических гипотез, порождаемых синтагмами, с помощью внедрения в правиловую систему обучающего статистического компонента. Таким образом, синтаксический анализатор ЭТАП-3 использует эмпирическую статистику, порожденную лингвистом-экспертом, который извлекает уроки из работы пусть несовершенной, но живой синтаксической системы и производит все более тонкую настройку этой системы. Этим достигаются две цели: расширяются рамки возможностей построенной лингвистом действующей модели языка; точнее определяются границы этих возможностей. Это приводит к тому, что правильная структура выделяется первой или одной из первых.
Показать весь текст
Заполнить форму текущей работой