Работа посвящена исследованию свойств линейной структуры русского предложения, важных для организации автоматического синтаксического анализа (СА), и созданию на основе полученных результатов теоретической базы и самой системы синтаксического анализа, экспериментальные реализации которой подтвердили продуктивность найденного подхода.
Этот подход позволил разделить СА на несколько ступеней и построить лингвистически обоснованную и процедурно удобную их иерархию.
Главной особенностью лингвистического базиса системы является такая линейная грамматика сегментной структуры русского предложения, которая позволяет начинать собственно синтаксический анализ с моделирования его сегментной структуры до этапа анализа внутренней структуры сегментов, т. е. до построения большей части связей слов.
Актуальность исследования.
Актуальность работы определяется тем, что хотя задача синтаксического анализа, необходимого для всех систем машинного перевода и автоматического понимания текстов, была поставлена более полувека назад, устойчивой и общепринятой системы синтаксического анализа до сих пор не создано. Чтобы продвинуться в ее решении, сегодня необходимо не только совершенствовать имеющиеся наработки, но и находить новые подходы — как в теоретическом плане, так и в плане практическом.
Очевидно, что задача синтаксического анализа, сначала казавшаяся, как и задача машинного перевода, решаемой в обозримое время, является — в силу бесконечной вариативности естественного языка — сложнейшей задачей, допускающей лишь приближенные решения.
Актуальность избранного в диссертации теоретического подхода обусловлена назревшей необходимостью построения для СА особой — систематически описывающей семантику линейного синтаксиса — грамматики, которая позволяет определить иерархию лингвистически обоснованных подзадач СА и которую можно использовать при разных конечных целях анализа.
Компьютерные технологии совершенствуются. Возникла возможность, не боясь усложнения программ, использовать алгоритмические решения, естественно вытекающие из свойств текста и позволяющие упрощать грамматический базис системы, не только не поступаясь сложностью реальной языковой картины, но создавая возможности более полного ее анализа.
Цель работы и задачи исследования.
Целью диссертации в теоретическом аспекте является исследование семантики линейного синтаксиса русского предложения и создание грамматики его линейной структуры, а в прикладном — разработка на этой основе иерархически организованной модульной системы СА, позволяющей строить синтаксически истинные интерпретации линейной структуры русского предложения, минимально используя лексико-семантическую информацию.
Для достижения этой цели в диссертации решаются следующие задачи.
1. Исследуются свойства линейной структуры русских предложений.
2. На основании результатов этих исследований строятся идеальные модели синтаксических явлений, что позволяет лингвистически и процедурно обоснованно построить иерархию этапов синтаксического анализа.
3. Каждый этап анализа организуется как независимый модуль, для которого на основании идеальных моделей, созданных для рассматриваемых явлений, исчисляются грамматические ситуации линейного контекста, позволяющие интерпретировать возможные манифестации идеальных моделей в тексте.
4. Создается линейная грамматика, позволяющая на ранних этапах анализа моделировать сегментную структуру русского предложения.
5. На основе этой линейной грамматики для каждого модуля строятся алгоритмы, строящие синтаксическую структуру анализируемых единиц текста.
6. Определяются и решаются проблемы предсинтаксического анализа.
Объект исследования — линейная организация предложений в русских письменных текстах, не являющихся записью или имитацией устной речи.
Предмет исследования — универсальные и специфические свойства линейной структуры русского предложения, определяющие возможность построения процедурно удобной и лингвистически обоснованной иерархии модулей системы синтаксического анализа.
Материалом для проверки теоретических гипотез и возможностей алгоритмических стратегий служили художественные тексты (в основном проза О. Мандельштама, В. Набокова, М. Булгакова, Л. Толстого), газетная и журнальная публицистика, энциклопедические статьи.
Новизна работы.
Теоретическая новизна работы состоит в том, что впервые вводится как феномен, требующий системного исследования, новый уровень синтаксического моделирования — семантика линейного синтаксиса, для которого строится грамматика линейного синтаксиса, описывающая этот срез синтаксических явлений.
Именно на этой основе впервые оказалось возможным автоматически сегментировать русское предложение с сегментной структурой любой сложности на фрагменты, внутри которых могут быть эффективно использованы методы СА, основанные на классических «однопредикатных» моделях, восходящих к концепции Л.Теньера.
Это исследование обусловило прикладную новизну работыпозволило разработать принципиально новую организацию СА: лингвистически обоснованное деление СА на несколько этапов, задачи которых решают работающие в жестком порядке независимые модули.
Специфика системы состоит в том, что создан работающий на основе линейной грамматики сегментной структуры модуль сегментации, который строит сегменты — простые-главные и придаточные предложения, деепричастные, причастные и другие обороты — все обособляемые по правилам русской пунктуации части предложения — уже на первых шагах моделирования структуры предложения, до того, как анализируется внутренняя структура каждого из сегментов, т. е. основная часть связей слов и сегментов строится после сегментации.
Впервые систематически рассмотрена проблема значимой для СА омонимии частей речи: создана типология такой омонимии в русском языке в рамках словаря [Зализняк 1980], построена грамматика и модуль разрешения наиболее важных для синтаксиса ее типов.
Новизна работы заключается также в лингвистически обоснованном широком применении при СА естественного языка алгоритмов рекурсивного типа.
Теоретическая значимость исследования.
Теоретическая значимость работы заключается в углублении наших представлений о строении синтаксического уровня языка и разнообразии взаимодействующих на этом уровне механизмов.
Исследование позволило описать многие феномены линейной структуры русского предложения и в то же время показало, как их использование может — путем иерархизации анализа — существенно облегчить решение различных проблем СА, в частности, избежать в ходе анализа построения ложных гипотетических связей, тем самым предупреждая возможность комбинаторного взрыва.
Построение сегментов, во-первых, облегчает последующие этапы СА и, во-вторых, является базой для формирования нового объекта — графа сегментов предложения — который может служить основой для следующего этапа моделирования структуры многосегментного предложения — исследования семантики связей его сегментов.
Прикладная значимость исследования.
Определены этапы автоматического СА — два модуля предсинтаксического анализа и четыре модуля собственно СА, построена иерархия этих модулей для русского языка.
Модули предсинтаксического анализа:
1. постморфология — этап решения несловарных проблем морфологического анализа;
2. разрешение омонимии частей речи.
Модули собственно синтаксического анализа:
1. предсегментация — построение необходимых для сегментации связей слов, определяющих единицы линейной структуры при сегментации, в частности, проективные фрагменты именных и предложных групп (см. 2.1 второй главы);
2. сегментация — построение сегментов (см. 2-ой раздел четвертой главы);
3. внутрисегментный анализ — построение графа связей слов внутри сегментов;
4. межсегментный анализ — установление связей между сегментами (см. 3-й раздел четвертой главы).
На основе новых алгоритмических стратегий анализа, обоснованных построенной грамматикой, и семантики линейного синтаксиса анализируемых зон синтаксических явлений для каждого модуля разработаны рекурсивные алгоритмы, доказавшие при экспериментальных реализациях перспективность подхода. В настоящее время система суммарно включает в себя 69 алгоритмов и подпрограмм (см. в Приложении «Список алгоритмов поверхностно-синтаксического анализа»).
Впервые на основе идеальной модели и грамматики линейной сегментной структуры русского предложения реализованы рекурсивные процедуры, позволяющие строить сегменты в предложениях с любыми грамматически допустимыми комбинациями любого количества любых сегментов перед моделированием внутренней структуры сегментов, т. е. перед построением большей части связей слов.
Свойства проективности и рекурсивности используются непосредственно в процессе анализа, что позволяет строить на каждом уровне анализа только синтаксически истинные варианты интерпретации.
На основе словаря типов омонимии частей речи и линейной грамматики этой зоны явлений для самых больших групп и самых существенных для СА типов такой омонимии разработан модуль их разрешения для письменного русского языка.
Построен рекурсивный алгоритм, позволяющий находить подчинительные связи слов, являющихся границами проективных фрагментов определительных именных групп с согласованными распространенными определениями и предложных групп для линейных структур любой комбинаторной сложности с учетом потенциально возможных неоднозначностей интерпретации.
Основные результаты исследования.
1. Важные для СА свойства — проективность и рекурсивность подчинительных и сочинительных связей — исследованы с точки зрения их манифестации в линейной структуре сегмента и в сегментной структуре предложения.
2. На основе выявленных особенностей линейной структуры предложения разработано лингвистически естественное и алгоритмически удобное иерархическое членение СА на шесть процедурно независимых модулей, включающее два предсинтаксических (постморфология и разрешение омонимии частей речи) и четыре синтаксических (предсегментация, сегментация, внутрисегментный анализ — моделирование структуры сегментов, межсегментный анализ — построение связей сегментов).
3. Построена собственно система СА, шесть модулей которой состоят суммарно из 69 алгоритмов и стандартных подпрограмм, большая часть которых запрограммирована в экспериментальном режиме и при.
5* тестировании демонстрирует хорошие результаты. Ее лингвистический и алгоритмический аппараты позволили минимизировать используемый инструментарий и строить на каждом этапе только синтаксически истинные варианты интерпретации предложения.
4. Разработана служащая базисом модуля сегментации грамматика линейной сегментной структуры русского предложения (РП), позволяющая моделировать сегментную структуру предложения на этапе, предшествующем анализу связей внутри каждого из однопредикатных высказываний, составляющих многосегментное предложение. В ней описаны функциональные значения знаков препинания, их омонимия и синонимия, идеальная модель сегментной структуры русского предложения и обоснованы контекстные условия, определяющие при построении сегментов значения возможных текстовых манифестаций этой модели путем определения функций знаков препинания.
5. На основе грамматики сегментной структуры созданы и реализованы рекурсивные алгоритмы модуля сегментации русского предложения.
6. Промоделирована иерархия связей внутри сегмента, определяющая линейную организацию сегмента и рекурсивной линейной структуры проективных фрагментов определительных именных и предложных групп (ИГ и ПГ), позволяющая иерархизировать задачи моделирования структуры предложения.
7. Разработан рекурсивный алгоритм, строящий проективные фрагменты ИГ и ПГ любой степени сложности.
8. Для решения задач пред синтаксического анализа, важных для С, А естественного текста, построена классификация типов омонимии частей речи русского языка в объеме словника «Грамматического словаря» А. А. Зализняка и грамматика и соответствующий модуль разрешения наиболее значимых типов этой омонимии.
Практическая ценность работы.
Описанные свойства линейной структуры русского предложения, разработанные модели и сами модули СА могут быть применены во многих системах автоматической обработки русского текста.
Грамматика линейного синтаксиса, модели и алгоритмы являются продуктивной базой дальнейших теоретических и экспериментальных исследований в области СА, позволяющей совершенствовать и сам базис, и программные средства его реализации.
Результаты исследования сегментной структуры и функциональных значений знаков препинания могут быть эффективно использованы как объясняющая модель при преподавании русского синтаксиса.
Грамматика линейного синтаксиса, служащая лингвистическим базисом системы, может быть успешно использована для разработки компьютерных обучающих программ как для целей совершенствования синтаксических навыков у школьников, так и для обучения синтаксису русского языка как иностранного.
Программная реализация системы может служить аппаратом исследования специфики синтаксиса разных авторов и разных функциональных стилей, и, в том числе, для изучения тенденций современных изменений в синтаксисе русского языка. По мере накопления материала она сможет использоваться как инструмент стилистической экспертизы.
В настоящее время аспиранткой Отделения интеллектуальных систем в гуманитарной сфере РГГУ A.M. Баталиной и старшим преподавателем этого Отделения М. Е. Епифановым на базе алгоритмов системы создана инструментальная среда для экспериментов с алгоритмами синтаксического анализа, которая позволяет легко корректировать и пополнять алгоритмы.
Основные используемые понятия.
При обсуждении линейной структуры предложения (S) будем использовать следующие понятия.
Слова и морфологически автономные группы слов [Плунгян 2003], эксплицитно заданные пробелами и функционирующие как слова. Сегменты — части предложения с эксплицитно заданными соответственно правилам русской пунктуации границами: простые предложения или простые в роли главных (простые-главные), придаточные предложения, деепричастные обороты, всякого рода определительные, вводные и другие обороты, требующие обособления.
Операторы: знаки препинания, сочинительные союзы и их комбинациикомпоненты линейной структуры, служащие границами сегментов, иили манифестирующие сочинительные связи слов или сегментов [Кобзарева 2005]: функциональная омонимия и синонимия знаков препинания рассмотрена в четвертой главе.
Проективные фрагменты — отрезки предложения, удовлетворяющие условиям проективности [Иорданская 1967], которые являются частью сегментов и границами которых служат слова, связанные отношениями подчинения или сочинения [Кобзарева 2006, 2007;6]. Связи слов и сегментов.
При моделировании структуры S будем различать три вида связей слов иили сегментов: 1. направленные от хозяина к слуге отношения подчинения, 2. ненаправленное отношение сочинения и 3. ненаправленное отношение кореференции. 6) Синтагмы.
Все связи слов и сегментов получают при анализе номера соответственно номерам синтагм в списке принятой в системе классификации связей (см. «Список синтагм» в Приложении). При этом синтагмы не объединяются в отношения непосредственной доминации, как в [Мельчук 1964, Иорданская 1967], т. е. семантическая эквивалентность синтагм не устанавливается.
Методы исследования Идеальная модель явления.
На каждом из моделируемых уровней, для которого создается отдельный модуль анализа в системе, на основании лингвистических представлений и наблюдений соответствующих явлений строятся одна или несколько идеальных моделей подлежащих анализу синтаксических явлений. Каждая такая модель является обобщением, объединяющим большую часть возможных в русском языке линейно-комбинаторных манифестаций группы синтаксически близких явлений.
На каждом этапе анализа предполагается строить только синтаксически истинные варианты интерпретации линейной структуры. Для этого создаются универсальные фрагменты грамматики линейной структуры русского предложения и исчисляются грамматические ситуации линейного контекста, позволяющие интерпретировать возможные манифестации идеальной модели в тексте.
Универсальные свойства текста и динамическая компонента анализа Важную роль в исследовании играет установка на поиск.
1. универсальных свойств текста, присущих структурам всех синтаксических уровней,.
2. специфических лингвистических особенностей рассматриваемых структур,.
3. способов оптимального использования найденных свойств.
На основании этих свойств вводятся универсальные, работающие на всех этапах анализа правила и специфические для каждого уровня правила, которые задают набор возможных структур для рассматриваемых явлений, а также определяют оптимальные процедуры идентификации структур.
Группы лингвистических правил объединены в алгоритмы, каждый из которых представляет собой дерево, узлами которого являются описания ситуаций, определяющие синтаксическое значение текстовых манифестаций синтаксически близких явлений, моделируемых данным алгоритмом. Каждый модуль системы включает в себя несколько алгоритмов, определяющих свойства синтаксической структуры, информация о которых необходима для следующего этапа анализа. Контекстные ситуации в алгоритмах записываются на естественном языке в форме, близкой к обычным грамматическим описаниям, что делает их легко доступными для понимания.
Используется обычная морфологическая и следующая словарная синтаксическая информация:
1) грамматическая, не описывающая лексической сочетаемости, модель управления: способность управлять существительными в определенных падежах, инфинитивом, предлогом и подчинительным союзом и.
2) синтаксически значимые семантические классы существительных (предметы одушевленные — неодушевленные, единицы измерения, параметры и т. д.).
Структура самих алгоритмов и языка объектного моделирования, используемого в настоящее время для экспериментальной реализации системы [Баталина 2004, 2005, 2006, 2007;а, 2007;6], позволяют легко исправлять и пополнять множество возможных ситуаций линейного контекста, учитываемых при анализе, уточнять списки исключений из правил непосредственно в алгоритмах, не меняя словарную информацию о лексемах. Проверка истинности моделей и работоспособности используемых алгоритмических стратегий.
Проверка истинности построенных моделей, их дополнение и корректировка предполагают постоянное уточнение описанных явлений и лингвистический поиск не охваченных алгоритмами явлений. Чтобы это было возможно, необходима в первую очередь экспериментальная реализация соответствующих фрагментов системы. Каждая из моделей и соответствующий фрагмент грамматики, задающий условия актуализации явления, являются базисом определенного алгоритмического решения. Программы алгоритмов должны отлаживаться в два этапа: in vitro и in vivo. Отладка in vitro предполагает отладку программ на искусственно отобранных или созданных специально для отладки искусственных примерах, тестирующих соответствие программ алгоритмам, т. е. реализованной версии лингвистической модели. После достижения такого соответствия необходимо работать in vivo — на естественных текстах, представляющих естественное многообразие манифестаций явления. Это очень важный этап, на котором могут выявляться неучтенные и часто неожиданные варианты явлений или просто недостаточность сформулированных определений линейных конфигураций.
Апробация.
Общий лингвистический базис системы, модели синтаксических явлений для построения отдельных модулей и экспериментальные варианты их программных реализаций были представлены на 14 конференциях: на КИИ-2000 и КИИ-2002 — седьмой и восьмой национальных конференциях по искусственному интеллекту с международным участием, на 5-ой международной конференции «Информационное общество, информационные ресурсы и технологии телекоммуникации», ВИНИТИ, Москва, 2000; на IV International Conference «Interactive Systems: Problems of Human-Computer Interaction». September 23−27, 2001; на международной научной конференции Мегалинг'2007 — Горизонты прикладной лингвистики и лингвистических технологий (совместный) — на 7-ой международной конференции «НТИ-2007" — на международной конференции «Диалог» в 2001; 2008 годах .
С использованием алгоритмов, разработанных в ходе данного диссертационного исследования, и при консультации автора были написаны 16 курсовых и 9 дипломных работ, а также выполнены и защищены 3 кандидатские диссертации в Институте лингвистики РГГУ и других вузах.
Лингвистический базис и алгоритмические решения описаны автором в статьях, опубликованных в материалах перечисленных конференций и в статьях в Московском лингвистическом журнале в 2004 г., Т.8 № 1 [Кобзарева 2004;6], в Вестнике РГГУ. № 8/07, Серия «Языкознание» (Московский лингвистический журнал № 9/2) в 2007 году [Кобзарева 2007в], в НТИ, Сер.2, № 1 в 2007 году [Кобзарева 2007;а] и в Вестнике РГТУ, Серия «Языкознание» в 2008 году [Кобзарева 2007;6].
Работа была поддержана грантами ФЦП — проект № 482, РФФИ — проекты № 03−06−80 109 и № 03−06−80 434.
Грамматику линейного синтаксиса и программные реализации фрагментов системы автор диссертации использует в двух авторских курсах для студентов Отделения теоретической лингвистики Института лингвистики РГГУ.
Структура работы.
В первой главе дается исторический обзор и описывается современное состояние работ по данной проблематике.
Во второй главе рассматриваются важные структурные особенности линейной организации русского предложения. Их описание представляет семантику линейного синтаксиса и вводит новый уровень описания — грамматику линейного синтаксиса, которая определяет как общую архитектуру системы, так и алгоритмические стратегии анализа.
В третьей главе описаны собственно иерархия этапов анализа линейной структуры предложения и соответствующие модули системы с кратким лингвистическим и алгоритмическим обоснованием используемых стратегий.
В четвертой главе подробно изложены основные положения впервые разработанной для русского языка линейной грамматики сегментной структуры русского предложения и алгоритмический базис решения задач двух этапов сегментации предложения — построения сегментов и графа их связей.
Работу завершает Заключение.
Далее следуют Библиография и Приложения.
4.4. Выводы к разделу 4.3.
Как было показано, при построении связей между сегментами мы можем на основании свойств проективности сегментов определить зону, где находится слово-хозяин сегмента-слуги.
Основные сложности поиска слова хозяина возникают при появлении альтернативы для ПП, которые в сегменте-хозяине могут и замещать валентности, и выступать как присубстантивные определения актантов и сирконстантов. Для грамматически корректного решения этой проблемы^ необходимо задавать в словаре информацию о лексической сочетаемости существительных и подчинительных союзов, что требует отдельного исследования.
ЗАКЛЮЧЕНИЕ
.
Основными результатами работы, выносимыми на защиту и определяющими научную и прикладную новизну работы, являются следующие.
1. Исследование линейной организации подчинительных и сочинительных связей и сегментной структуры русского предложения, изложенное в диссертации, вводит новый уровень синтаксического описания — уровень семантики линейной структуры текста, который предлагается называть линейным синтаксисом.
2. Для этого среза синтаксических явлений разработана грамматика линейного синтаксиса для следующих синтаксических явлений. 2.1.Свойства проективности и рекурсивности впервые систематически исследованы применительно к организации линейной структуры подчинительных и сочинительных связей как внутри сегментов, так и для сегментной структуры русского предложения.
2.2.Рассмотрена иерархия проективных подчинительных связей в линейной структуре сегментов, порождающая рекурсивность линейной структуры сегментов.
2.3 .Именные и предложные группы (ИГ и ПГ) изучены с точки зрения проективности и рекурсивности их линейной структуры.
2.4.Применительно к линейной структуре предложения исследованы свойства проективности и рекурсивности сочинительных связей.
2.5.Построена грамматика сегментной структуры, моделирующая семантику линейного синтаксиса сегментной структуры русского S, в рамках которой описаны а) значимая для СА функциональная омонимия и синонимия знаков препинания и б) идеальная модель сегментной структуры, с использованием которой и на основе семантики линейной сегментной структуры разработаны рекурсивные процедуры, моделирующие сегменты путем определения по контексту функций знаков препинания до этапа моделирования структуры связей слов внутри сегментова также в) на основе свойств проективности сегментов и сочинительных отношений моделируется структура связей сегментов.
2.6.Для решения задач предсинтаксического анализа построена синтаксически обоснованная типология омонимии частей речи, а для самых существенных для СА типов определены принципы ее разрешения по грамматическому контексту.
3.На основе грамматики линейного синтаксиса СА разбит на шесть подзадач и определена их иерархия.
4. Построена система СА, состоящая их 6 работающих в жестком порядке независимых модулей, суммарно состоящих их 69 алгоритмов и стандартных подпрограмм (см. «Список алгоритмов» в Приложении): два модуля предсинтаксического анализа, решающие морфосинтаксические проблемы, и четыре модуля собственно синтаксического анализа: предсегментация — построение связей, определяющих линейные компоненты S, выступающие единицами текста при сегментации, сегментация — построение сегментов, внутрисегментный анализ — построение всех связей слов в сегментах и межсегментный анализ — построение связей сегментов.
5. На основе исследованных в грамматике линейного синтаксиса свойств линейной структуры в СА применены естественно вытекающие из этих свойств алгоритмические стратегии СА — рекурсивные алгоритмы.
5.1. Впервые на основе идеальной модели и линейно-комбинаторной грамматики сегментной структуры русского S реализованы рекурсивные процедуры, которые позволяют строить сегменты в русских S с любыми грамматически допустимыми комбинациями любого количества любых сегментов до построения большей части связей слов.
5.2.Использование свойств проективности и рекурсивности в ходе анализа позволяет строить на каждом уровне анализа только синтаксически истинные варианты интерпретации S.
5.3.Построены рекурсивные алгоритм, позволяющий находить подчинительные связи слов — границ проективных фрагментов, выступающих единицами линейной структуры при сегментации, в частности — определительных именных и предложных групп любой комбинаторной сложности со всеми потенциально возможными неоднозначностями интерпретации (1раздел второй главы).
5.4.0боснованы алгоритмические стратегии — применение рекурсивных процедур для анализа рекурсивных линейных структур.