Помощь в написании студенческих работ
Антистрессовый сервис

Взаимодействие с синтаксическим уровнем

РефератПомощь в написанииУзнать стоимостьмоей работы

Для разрешения лексической и синтаксической омонимии, фиксируемой синтаксическим анализатором в межмодульном интерфейсе (см. разд. 4), семантический интерпретатор использует систему эмпирически устанавливаемых предпочтений. (Для удобства сравнения предпочтительности вариантов интерпретации им присваиваются числовые ранги.) На уровне типов семантических отношений устанавливается следующий порядок… Читать ещё >

Взаимодействие с синтаксическим уровнем (реферат, курсовая, диплом, контрольная)

В идеале на вход семантического компонента должен поступить синтаксически размеченный текст. Очевидно, формат разметки должен быть унифицирован, чему пока, к сожалению, не уделяется должного внимания. В размеченном тексте должна быть представлена следующая информация:

идентификаторы понятий, соответствующих слову (термину);

указание синтаксического хозяина (всех альтернативных хозяев) и вида синтаксической связи;

выделение сегментов (части сложного предложения, обособленные обороты);

раздельное представление всех глобальных вариантов синтаксического разбора;

анафорические отсылки;

дополнительная грамматическая информация о слове, которая может потребоваться в процедурах семантического анализа.

До передачи в семантический компонент должны быть также опознаны и представлены одной лексемой термины-словосочетания; унифицировано представление числовой информации; опознаны собственные имена и т. п. Разумеется, в реальных проектах все эти задачи решаются с той или иной степенью приближения.

Модели и методы

Можно считать, что профессиональное сообщество пришло к согласию, по крайней мере в следующих исходных пунктах.

Универсальный целевой язык формализации знаний — это язык логики предикатов. Другие языки (семантические сети, реляционные БД, продукционные языки) могут рассматриваться как ограниченные версии логического языка. В собственно фактографическом анализе, как правило, достаточным оказывается сетевое представление.

Семантический анализ — с точки зрения используемых методов и средств — должен предусматривать два этапа: (а) этап интерпретации грамматически выраженных (синтаксических и анафорических) связей и (б) этап распознавания связей, не имеющих грамматического выражения.

Неоднозначности должны разрешаться самим процессом анализа — по критерию степени смысловой удовлетворительности получаемого в каждом варианте результата.

Ключевым пунктом системы семантического анализа является эффективная словарная поддержка. В этом смысле любая система семантического анализа является тезаурусно (или, как сейчас предпочитают говорить, онтологически) ориентированной. Поэтому основная проблема в создании реально работающих анализаторов — это проблема создания реально работающего понятийного словаря. «Реально работающего» означает, во-первых, обеспечивающего требуемую алгоритмами функциональность и, во-вторых, обеспечивающего удовлетворительное покрытие профессиональных текстов хотя бы в пределах ограниченной предметной области. Сравни, например, [Nirenburg et al., 2004]: «Точность семантического анализа прямо зависит от качества и полноты семантического словаря» .

Далее начинается решение конкретных проблем, и здесь единодушие специалистов заканчивается. Поэтому далее мы будем излагать концепцию, представляющую, главным образом, опыт работы и взгляды автора.

Семантический интерпретатор. Прежде всего следует специфицировать различаемые типы семантических отношений в тексте. Для нас это:

ролевые (связи по валентности предиката);

кореференция;

предметно-ассоциативные (отношения между объектами, процессами, значимые в предметной области — быть частью, иметь местом, быть предназначенным для, быть столицей, и т. д.);

смысловой повтор (процесс исключения = исключение);

функциональные — т. е., не имеющие непосредственного предметного коррелята (большой — мощности; 20 — кг; 50 — человек; сто — сорок; очень — дорогой и т. п.).

Принимаются следующие основные постулаты интерпретации синтаксических связей.

Тип устанавливаемого семантического отношения определяется семантическими классами и — в определенных случаях — более детальными семантическими характеристиками синтаксического хозяина и слуги. Соответственно, и работа интерпретатора должна управляться категориальной принадлежностью членов интерпретируемой связи. Грамматическое оформление синтаксической связи в одних случаях будет учитываться при определении конкретного содержания семантического отношения (например, выбор конкретной валентности или предметно-ассоциативного отношения), в других (и достаточно многочисленных!) случаях вовсе не играет роли.

Интерпретация синтаксической связи является контекстно-свободной. При условии, что перебор связей интерпретатором производится в направлении «снизу вверх» .

Предлоги рассматриваются не как самостоятельный объект интерпретации, а как дополнительная (семантико-грамматическая) характеристика связи между синтаксическим хозяином предлога и управляемым им знаменательным словом.

Для разрешения лексической и синтаксической омонимии, фиксируемой синтаксическим анализатором в межмодульном интерфейсе (см. разд. 4), семантический интерпретатор использует систему эмпирически устанавливаемых предпочтений. (Для удобства сравнения предпочтительности вариантов интерпретации им присваиваются числовые ранги.) На уровне типов семантических отношений устанавливается следующий порядок предпочтений (порядок перечисления соответствует уменьшению приоритета связи).

функциональные связи и связи, устанавливающие факт смысловой избыточности;

ролевые связи, определяемые как обязательные, — при наличии семантически согласованного актанта;

связи кореференции;

ролевые связи, определяемые как факультативные;

предметно-ассоциативные связи специфицируемые; Синтаксические связи, которые интерпретатор, в состоянии лексикализовать конкретным отношением предметной области (портовые сооружения —> сооружения, находящиеся в порту); соответственно, неспецифицируемые связи — те, для которых интерпретатору не удается предложить такую конкретизацию и которые интерпретируются общим понятием связан.

предметно-ассоциативные связи не специфицируемые.

В случае обнаружения синтаксической омонимии сочинительных связей предпочтения определяются степенью согласованности семантических характеристик участников синтаксической связи.

Лексические и локальные синтаксические неоднозначности (наличие у слова альтернативных хозяев) обрабатываются в одном переборном механизме. Глобальные варианты синтаксического разбора предложения рассматриваются в переборном механизме следующего уровня. В этом случае сравниваются суммарные веса интерпретации всех связей предложения.

При установлении разных типов отношений интерпретация определяется следующими положениями.

При установлении ролевых отношений значимы и должны учитываться (применительно к русскому языку) следующие грамматические характеристики участников синтаксической связи:

семантико-синтаксический тип предиката (словарная характеристика);

грамматическая форма предиката;

падеж актанта, возможность адъективной формы для актанта по данной валентности;

возможность предложного управления актантом и способность оформляющего синтаксическую связь предлога выражать отношение по данной валентности. (Информация о способности предлога служить указателем роли для данной валентности хранится в словарном описании предлога.).

Операционально процедура определения возможной роли актанта определяется грамматикой ролевых связей, устанавливающей соответствие вида (Rf, GFP, TSEMU) —> VAL_, где Rf — имя синтаксической связи, GFP — грамматическая форма предиката, TSEMU — семантико-синтаксический тип предиката, VAL_ - имя возможной валентности, либо отсылка к ролевой функции предлога.

Затем проверяется соответствие семантических характеристик актанта семантическому условию заполнения валентности предиката (соответствующая пара понятий проверяется на объемную совместимость).

Для установления отношения кореференции необходимыми и достаточными являются следующие условия.

Хозяин и слуга принадлежат семантической категории Объект.

Понятия, соответствующие термам хозяина и слуги, находятся в отношении объемной совместимости.

В случае предложной связи проверяется способность данного предлога выражать отношение кореференции. Подробнее об этом см [Рубашкин, 2005].

Для установления специфицируемых предметно-ассоциативных отношений необходимыми и достаточными являются следующие условия.

Понятия, соответствующие термам хозяина и слуги, находятся в отношении объемной несовместимости, либо (в случае их совместимости) эти термы синтаксически связаны через предлог, не способный выражать отношение кореференции.

С парой термов хозяин — слуга словарно ассоциировано некоторое предметное отношение (—> иметь частью) и/или (если связь предложная) предметное отношение ассоциировано с предлогом и падежом.

Для установления не специфицируемых предметно-ассоциативных отношений необходимым и достаточным является истинность первого и ложность второго условия.

Распознавание связей, не имеющих грамматического выражения. Основной проблемой здесь является установление кореференции имен объектов. Нами предложена концептуально простая модель, опирающаяся на тезаурусно-ориентированный механизм установления кореференции имен на уровне межфразовых (и более общо — грамматически не оформленных) связей (гипотеза индикации). Подробное изложение см. [Рубашкин, 1983]. Гипотеза индикации утверждает следующее. Референциальное отождествление имен объектов в связном тексте определяется тремя факторами:

порядком следования имен в тексте;

совместимостью (несовместимостью) имен;

наличием индикаторов референции.

Учет перечисленных факторов может быть сведен к следующим двум пунктам. (1) Несовместимость имен является достаточным условием их референциального различия; при следовании друг за другом несовместимых имен смена референта не маркируется. (2) Совместимые имена по умолчанию (т.е. при отсутствии индикатора смены референта) являются референциально тождественными. Поэтому маркировка референциального различия для следующих друг за другом совместимых имен является обязательной.

Коротко смысл гипотезы индикации может быть передан следующей формулировкой: для несовместимых имен нулевой индикатор маркирует референциальное различие, для совместимых — референциальное тождество.

Прецедентный анализ. Анализ «по образцу» (example-based), основанный на использовании корпуса предварительно размеченных текстов, приобретает все большее значение. Именно этот подход (при непременном сочетании со структурными моделями) дает определенную перспективу в отношении анализа текстов, не регламентированных профессиональной дисциплиной, — текстов свободного стиля. Поэтому разумно построенная система анализа должна обеспечивать не только извлечение знаний из конкретного текста, но и накопление результатов как на синтаксическом, так и на семантическом уровне — для использования их далее в качестве прецедентов. Понятно, что унификация языков разметки, особенно на семантическом уровне, становится более чем актуальной. Следует заметить, что и для этой методологии поддержка функциональностью семантического словаря (генерализация образцов) более чем актуальна.

Показать весь текст
Заполнить форму текущей работой