Помощь в написании студенческих работ
Антистрессовый сервис

Семантические словари в автоматической обработке текста: По материалам системы ДИАЛИНГ

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Промышленные системы АОТ, в основном, сейчас используют два этапа анализа текста: морфологический и синтаксический. Однако теоретические разработки многих исследователей предполагают существование следующего за синтаксическим этапа — семантического. В отличие от предыдущих шагов семантический этап использует формальное представление смысла составляющих входной текст слов и конструкций. Суть… Читать ещё >

Семантические словари в автоматической обработке текста: По материалам системы ДИАЛИНГ (реферат, курсовая, диплом, контрольная)

Содержание

  • ГЛАВА 1. ОБЗОР ЛИТЕРАТУРЫ
    • I. Некоторые логико-философские исследования
  • Универсальный язык И. Ньютона
  • Lingua Mentalis Г. Лейбница
    • II. Семантический анализ и семантические словари
  • Link Grammar Parser (LinkParser)
  • Формальная семантика. IS
  • Проект Микрокосмос
  • Онтология Микрокосмос
  • Реализация концептов в тексте
  • Микротеория прилагательных
  • Генеративный лексикон
  • Система Artwork
  • Система UNL (Universal Networking Language)
  • Система ФРАП
  • ГЛАВА 2. ДОСЕМАНТИЧЕСКИЙ АНАЛИЗ РУССКОГО ТЕКСТА
  • Графем атический анализ
  • Морфологический анализ и лемматизация
  • Синтаксический анализ
  • Фрагментационный анализ
  • Объединение результатов фрагментации и синтаксического анализа
  • ГЛАВА 3. ПЕРВИЧНЫЙ СЕМАНТИЧЕСКИЙ АНАЛИЗ РУССКОГО ТЕКСТА
  • Русский общесемантический словарь
  • Семантическое отношение (поле ВАЛ, ДОП)
  • Общая категоризация лексики
  • Семантические характеристики
  • Взаимосвязи семантических характеристик
  • Формат словарных статей
  • Примеры словарных статей для некоторых классов слов (шаблонные статьи)
  • Иерархия семантических отношений
  • Множественные актанты (МНА)
  • Словосочетания в проекте ДИАЛИНГ
  • Словарь оборотов
  • Словарь групп времени (TimeRoss)
  • Тезаурусы
  • Локативный тезаурус
  • Финансовый тезаурус
  • Компьютерный тезаурус
  • Словарь устойчивых словосочетаний
  • Первичный семантический анализ

Вход семантического анализа.77.

Выход семантического анализа.78.

Алгоритм поверхностно семантического анализа.79.

Общая схема работы.79.

Инициализация семантических узлов и синтаксических вариантов фрагментов. 80.

Построение множества словарных интерпретации узлов.81.

Построение групп времени.81.

Построение узлов в кавычках.83.

Построение узлов типа «друг друга» .83.

Подключение операторов типа не, только.84.

Построение устойчивых словосочетаний.84.

Построение лексических функций-параметров.85.

Установление отношений между локативными узлами.85.

Интерпретация тезаурусных должностей и организаций.86.

Процедура инициализации валентной структуры.87.

Процедура построения графа гипотетических связей.88.

Построение множественных актантов.90.

Процедура удаления длинных связей.91.

Процедура построения вариантов деревьев.92.

Оценка деревьев.92.

Проверка отношений по семантическим характеристикам.94.

Проективность деревьев.94.

Нарушение первой валентности (Р1т1 Уа! епсу УюШюпСое£) и валентности из добавочных статей (Ке1айотЫо1РготКо88СоиШ).95.

Построение отношений по умолчанию.95.

Межклаузные связи.95.

Правило восстановления анафорических местоимений.97.

ГЛАВА 4. ПОЛУЧЕНИЕ ЕСТЕСТВЕННОГО ТЕКСТА ПО СЕМАНТИЧЕСКОМУ ПРЕДСТАВЛЕНИЮ (НА ПРИМЕРЕ АНГЛИЙСКОГО ЯЗЫКА).98.

ЗАКЛЮЧЕНИЕ

102.

ЛИТЕРАТУРА

103.

ПРИЛОЖЕНИЕ 1. НЕКОТОРЫЕ ИЗМЕНЕНИЯ В СОСТАВЕ СЕМАНТИЧЕСКИХ ОТНОШЕНИЙ ДЛЯ СИСТЕМЫ ДИАЛИНГ.113.

ПРИЛОЖЕНИЕ 2. ПРИМЕРЫ РАБОТЫ МАШИННОГО ПЕРЕВОДЧИКА ДИАЛИНГ НА ТЕСТОВОМ МАССИВЕ.116.

Исследователи в области автоматической обработки текста (АОТ), планомерно продвигаясь от самых простых методов анализа к более сложным, постепенно приближаются к такому смысловому представлению текста, которое соответствует человеческому восприятию, однако, по всей видимости, полностью сымитировать языковое поведение человека на обычных тьюрингоподобных компьютерах нереально. Принципиальную неадекватность современных компьютеров феномену естественных языков мы принимаем за аксиому. Любые алгоритмические модели языка обеспечивают лишь большие или меньшие приближения.

Приближения могут быть частичными и полными. Частичные приближения моделируют только часть языка (один из его механизмов), например, какое-нибудь отдельно взятое морфологическое явление конкретного языка. Вход для частичной модели (приближения) обычно некое идеальное представление текста, а не просто сырой материал (последовательность символов, составляющая текст). Частичные модели не учитывают ошибки во входном представлении, поэтому состыковка частичных моделей в одну полную систему, которая моделирует все механизмы языка сразу (от морфологии до семантики), требует особых усилий.

Полные модели, к которым относятся все большие системы машинного перевода или полного анализа текстов, обычно создаются целой группой лингвистов, которая после долгой совместной работы превращается в научное направление прикладной лингвистики.

Данная диссертационная работа описывает использование семантического анализа в системе русско-английского машинного перевода ДИАЛИНГ, спроектированной на базе полных систем французско-русского автоматического перевода (ФРАП) и анализа политических текстов (ПОЛИТЕКСТ).

Промышленные системы АОТ, в основном, сейчас используют два этапа анализа текста: морфологический и синтаксический. Однако теоретические разработки многих исследователей предполагают существование следующего за синтаксическим этапа — семантического. В отличие от предыдущих шагов семантический этап использует формальное представление смысла составляющих входной текст слов и конструкций. Суть семантического анализа понимается разными исследователями по-разному. Мы считаем, что в сферу семантического анализа входит:

Построение семантической интерпретации слов и конструкций;

Установление «содержательных» семантических отношений между элементами текста, которые уже принципиально не ограничены размером одного слова (могут быть больше или меньше одного слова).

Результирующее представление, в котором решены эти две задачи, является наиболее глубоким и законченным из тех, которые можно достичь только лингвистическими средствами, не прибегая к внешним экстенсиональным источникам, и этим объясняется актуальность семантического анализа. Таким образом, создание полных систем АОТ для русского языка, использующих семантический анализ, является чрезвычайно актуальной задачей.

Базисом для таких разработок мы избрали две системы:

Система французско-русского автоматического перевода (ФРАП), разработанная в ВЦП совместно с МГПИИЯ им. М. Тореза в 1976;1986 гг. (работы Леонтьева [1986]);

Система анализа политических текстов на русском языке (ПОЛИТЕКСТ) (работы Леонтьева [1995]), разработанная в Центре информационных исследований в 1991;97 гг.

Система ФРАП содержала полную цепочку анализа текста, вплоть до семантического, который был реализован только частично. В системе ФРАП был разработан и опробован семантический аппарат, который представляется нам настолько законченным и совершенным, что его можно заимствовать фактически без изменений. В центре семантического аппарата ФРАП находятся два перечня (вернее, две грамматики): семантических характеристик (СХ) и смысловых отношений (СО). Используется минимальное количество семантических характеристик:

ВЕЩВО («вещество»), ИЗМ («изменение»), ИНТЕЛ («интеллектуальность»), ИНФ («информация») и т. д.- слова характеризуются по признаку принадлежности к одному или нескольким классам. СХ обеспечивают проверку семантического согласования при интерпретации связей в тексте. Вместе с тем ФРАП не содержала механизмов структурных оценок семантического представления, то есть методов взвешивания не просто одного вхождения текстового элемента, а всей структуры в целом.

Система ПОЛИТЕКСТ была направлена на анализ официальных документов на русском языке и содержала полную цепочку анализаторов текста: графематический (первичный анализ), морфологический, синтаксический и частично семантический. Графематический анализ в данной диссертационной работе был частично заимствован (см. [5]), но адаптирован под новые стандарты программирования. Программа морфологического анализа была написана заново1, поскольку скорость работы была низкой, но сам морфологический аппарат не изменился[6]. Синтаксический анализ системы ПОЛИТЕКСТ обладал рядом инженерных недостатков, поэтому его не удалось перенять.

В итоге, цепочка процессоров (графематический, морфологический и синтаксический) была собрана на базе ООО Диалинг. После этого стала актуальной разработка семантического анализа внутри системы ДИАЛИНГ как логического завершения цепочки анализаторов.

Целью настоящей работы является разработка лингвистико-алгоритмического аппарата, обеспечивающего эффективное решение задачи семантического анализа на базе системы ДИАЛИНГ.

Для достижения поставленной цели было необходимо:

Изучить возможности существующих методов автоматического семантического анализа русского языка;

Разработать систему правил, порождающих гипотезы о реализации семантических элементов и правила глобальных оценок семантического представления текстов на русском языке;

Построить алгоритмический аппарат, реализующий семантический анализ текстов на русском языке;

Продемонстрировать эффективность предложенного метода на конкретных языковых примерах на основе соответствующих программных реализаций.

На основе анализа современных семантических методов в целом, а также углубленного исследования семантического аппарата системы ФРАП,.

1 Сами морфологические данные были получены из Института русского языка Российской академии наук. с одной стороны, и изучения лингвистических особенностей русских текстов — с другой, в диссертационной работе разрабатывается оригинальный метод семантического анализа — метод полных вариантов. Идея метода состоит в том, что в анализе должны быть четко разделены варианты анализа, возникающие на разных этапах, и декларативные лингвистические правила (частичные модели), которые строят и оценивают отдельные варианты. Такой подход, ранее применяемый только для предсемантических анализаторов, теперь, ввиду развития компьютерных мощностей, можно перенести на семантику, тем самым повысив уровень разделения процедурной и декларативной частей системы. Проще говоря, если раньше лингвистические правила на этапе семантического анализа должны были выбирать интерпретацию участка входного текста из многих альтернатив (ср. т.н. «метод фильтров», реализованный в [8]), то теперь необходимость в этом отпала. Таким образом, стало возможным упростить лингвистические модели благодаря увеличившейся скорости компьютеров. Процедурная часть семантического анализа в идеальном случае сводится к циклам, перебирающим разные лингвистические варианты.

Кроме этого, в диссертационную работу включено описание прототипов двух словарей (словарь временных групп и словарь словосочетаний) и алгоритмы использования этих словарей в системе ДИАЛИНГ.

Основными теоретическими результатами работы, выносимыми на защиту и определяющими научную новизну работы, являются:

Алгоритмы семантического анализа русских текстов с учетом структурных оценок всего семантического представления русского текста;

Структура и алгоритмы использования двух семантических словарей (словарь временных групп и словарь словосочетаний).

Программная система, созданная на базе предложенного метода и словарей, внедрена в первую версию машинного русско-английского переводчика ДИАЛИНГ. Анализ опыта внедрения демонстрирует его достаточно высокую эффективность, что характеризует практическую значимость работы.

Апробация работы. Основные научные выводы и результаты работы докладывались на международной конференции Диалог-2000 (г. Протвино, 1−5 июля 2000 г.), а также на научных семинарах РГГУ и ИСК РАН в 1999;2000 гг.

По теме диссертации автором опубликованы 3 работы. Сдана в печать одна статья.

Структура и объем работы: Диссертация, объемом в 100 страниц, состоит из введения, четырех глав, заключения, списка использованной литературы из 71 наименования.

Заключение

.

В заключение подведем итоги настоящей работы.

В текстологическом порядке, содержание работы кратко можно охарактеризовать следующим образом:

В первой главе содержится обзор систем АОТ, использующих семантический анализ. Описываются три системы, которые были программно реализованы (LinkParser, Mikrokosmos, Artwork), и три системы, предлагающие оригинальные семантические аппараты (Formal Semantics, Generative Lexicon, Universal Networking Language или UNL). Вторая глава посвящена процессорам, работающим до семантического анализа: графематическому, морфологическому и синтаксическому. Третья глава содержит описание поверхностно семантического компонента системы ДИАЛИНГ. Четвертая глава посвящена описанию использованию семантического представления на этапе перевода и синтеза английской фразы.

Основными теоретическими результатами работы, выносимыми на защиту и определяющими научную новизну работы, являются:

Алгоритмы семантического анализа русских текстов с учетом структурных оценок всего семантического представления русского текста;

Структура и алгоритмы использования двух семантических словарей (словарь временных групп и словарь словосочетаний).

Необходимо отметить основные направления развития семантического анализа на базе системы ДИАЛИНГ:

1. Необходимо расширить сферу анализа с одного предложения до целого текста, после чего качество восстановления анафорических местоимений, обработки эллипсиса и поиска кореферентных элементов заметно возрастет;

2. Необходимо рассмотреть возможность подключения алгоритмов Constraint Logic, использованных в системе Микрокосмос, после чего должно снизиться количество лексических вариантов одной клаузы;

3. Нужно придумать способ установления эквивалентности валентных структур двух словарных интерпретаций одного элемента на данном участке текста. Это позволит снизить количество вариантов, а также поможет создать алгоритм вычисления валентной структуры нового слова при заданных валентных структурах других слов предложения.

Показать весь текст

Список литературы

  1. Н.Д. Время:модели и метафоры. Логический анализ языка: язык и время. -М., 1979.
  2. Ю.Д. Избранные труды, Том 1. Лексическая семантика: 2-е изд., испр. и доп. М.:Школа «Языки русской культуры» 1995.
  3. Ю.Д. Экспериментальное исследование семантики русского глагола. -Москва, «Наука», 1967.
  4. Е.Г. Коллокации. Что это такое и как их изучать.- М.: Филология, 1995. Гершензон Л. М., Панкратов Д. В. Описание фрагментации в системе Диалинг. -www.dialing.ru/docs.1999.
  5. Л.Л. Симметричные предикаты в русском языке. Проблемы структурной лингвистики 1979, М, Наука, 1981.
  6. И.М. О семантическом словаре в системе ФРАП.- МГПИИЯ им. М. Тореза. Сборник научных трудов., Вып. 271., М., 1986.
  7. О.С. Исследования по машинному переводу. М. гНаука, 1979. Леонтьева H.H., Никогосов СЛ. Система ФРАП и проблема оценки качества автоматического перевода. — МГПИИЯ им. М. Тореза. Сборник научных трудов., Вып. 20, М., 1980.
  8. H.H. Система французско-русского автоматического перевода (ФРАП): лингвистические решения, состав, реализация. МГПИИЯ им. М. Тореза. Сборник научных трудов. Вып. 271, М., 1986.
  9. H.H., Кудряшова И.М, Малевич О. Б. Семантические заготовки к пониманию целого текста.- МГПИИЯ им. М. Тореза. Сборник научных трудов. Вып. 271, М., 1986.
  10. H.H. Строение семантического компонента в информационной модели автоматического понимания текста. Автореф. и дисс. д.т.н. М, 1990.
  11. H.H. «Политекст»: информационный анализ политических текстов. // НТИ. Сер 2. 1995.-N 4.-с 20−24.
  12. H.H. Русский общесемантический словарь (РОСС): структура, наполнение. // НТИ. Сер. 2. 1997. -N 12.-С.5−20.
  13. Н.В. Автоматизированное формирование информационно-поискового тезауруса по общественно-политической жизни России. // НТИ. Сер.2. М, 1995.-N 7. С. 21.24.
  14. Лукашевич Н. В, Салий АД. Представление знаний в системе автоматической обработки текстов // НТИ. Сер.2. М, 1997.-N 3.
  15. Мельчук И, А Опыт теории лингвистических моделей типа «Смысл"Текст», — М.1974.
  16. C.Jl. Программное обеспечение машинного перевода. ВЦП. Серия Машинный перевод и автоматизация информационных процессов, вып 9. 1984.
  17. И. Об универсальном языке. Семиотика и информатика Выпуск 35 М1997.
  18. Е.В. Коммуникативное выделение на уровне синтаксиса и семантики. Сборник «Семиотика и информатика», вып. 36, 1998 год.
  19. Д.В., Гершензон JIM. Описание синтаксического анализа в системе Диалинг. -www.dialing.ru/docs.1999.
  20. A.M. Русский синтаксис в научном освещении. 5-е изд. М. 1935. Рудерман М. В. Алгоритм определения словообразовательных пар на основе словарной морфологии.- www.dialing.ru/docs.1999.
  21. П. Проект фразеологического словаря в системе ПОЛИТЕКСТ. РГГУ, ФТИПЛ дипломная работа, 1998.
  22. И.П. Графическое представление синтаксических структур и стилистическая диагностика. Киев, Наукова думка, 1981.
  23. С.Ю. Поиск параметрической информации в тексте: алгоритмический и лексикографический аспекты // Труды Международного семинара Диалог'96 по компьютерной лингвистике и приложениям -М., 1996. -С.227−230.
  24. С.Ю. Прилагательные в семантическом словаре одной прикладной системы. // Труды Международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям. -С.553−564.
  25. A.B. Обработка локативных групп в системе Политекст. // V национальная конференция с международным участием «Искусственный интеллект-96», Казань 5−11 октября 1996 года, С. 128−132.
  26. A.B. Программная реализация русского общесемантического словаря. // Дипломная работа., ФТИПЛ, РГГУ, 1997.
  27. A.B. Программная реализация русского общесемантического словаря. //
  28. НТИ. Сер 2. 1997.- N 12, — с 20−24.
  29. A.B. Исследование слов с характеристиками 'информация' и 'носитель информации' в русском общесемантическом словаре. // Труды Международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям.
  30. A.B. Реализация первичного семантического анализа в системе Диалинг. // Труды Международного семинара Диалог'2000 по компьютерной лингвистике и ее приложениям, Протвино, 1−5 июня 2000 года.
  31. Ю.П. Сопоставительный анализ структуры лексического и Фразеологического значений //Филологические науки. НДВШ. 1997. № 5. С.43−54.
  32. Н.Ф. Программный препроцессор для естественноязыковых интерфейсов. Автореф. дисс. к.т.н. К.: РИО ИК, 1989.
  33. Телия В. Н. Словарь образных выражений русского языка / М., 1995. Телия В. Н. Русская фразеология. Семантический, прагматический илингвокультурологический аспекты. М., 1996. 286 с.
  34. Г. С. Система обработки текста с процедурным представлением словарной информации перспективы ее применения в машинном переводе. В кн.: Международныйсеминар по машинному переводу 1979.
  35. Г. С., Откупщикова М. И., Лейкина Б. М., Невлева Т. Н. Система анализатекста с процедурным представлением словарной информации. В кн.: Актуальныевопросы практической реализации систем автоматического перевода. М. 1982.
  36. О.Ю. Проект новой базы данных локативов. // Дипломная работа., фТИПЛ, РГГУ, 1996.
  37. Bach Е., 1991, Informal Lectures in Formal Semantics
  38. Beale Stephen. (1996) Hunter-Gatherer: Applying Constraint Satisfaction, Branch-and-Bound and Solution Synthesis to Natural Language Semantics NMSU CRL Technical Report MCCS-96−292.
  39. Benthem, J. van 1983. The Logic of Time, Kluwer Academic Publishers, Dordrecht.
  40. Boguslavsky I., Frid N., Iomdin L., Kreidlin L., Sagalova I., Sizov V. Creating a Universal Networking Language Module within an Advanced NLP System. http://proling.iitp.ru. 2000.
  41. Fillmore Ch. J. The case for case // Universals in linguistic theory. /Ed. By E. Bach and B. Halms, N.Y., 1968.
  42. Fodor, Jerry, Lepore Ernie. The Emptiness of the Lexicon: Criticial Reflections on J. Pusteyovsky The Generative Lexicon. http://rucs.rutgery.edu/faculty/lepore/ leporeSelPub. html
  43. K. (1996) Ontology development for MT: Ideology and Methology. NMSU CRL Technical Report. MCCS-96−292.
  44. Miller, George A., Christiane Felbaum., J. Kegi, and K. Miller 1988. Wordnet: An electronic lexical reference system based on theories of lexical memory. 17. pp 181−211.
  45. Montague, Richard 1974. Formal Philosophy. Selected Papers of Rihard Montague. Ed by Richmond Thompson. New Haven. CT: Yale University Press.
  46. Nirenburg, S., Raskin, V. and B., Onyshkevych (1994) Apologiae Ontologia. MT Simmit'94.
  47. Raskin, V., Nirenburg S., Lexical Semantics of Adjectives, Recent Papers from the Mikrokosmos and Corelli Projects, Vol 2., New Mexico State University, 1996.
  48. , B. (1989) «Possible Worlds in Model-Theoretic Semantics: A Linguistic Perspective «. In S. Allen (ed.), Possible Worldsin Humanities, Arts and Sciences: Proceedigs of Nobel Symposium 65. Berlin and New York: Waiter de Gruyter, pp. 93−123.
  49. Pusteyovsky James. The Generative Lexicon, p. 69−72. MIT, London.
  50. Sapir, Edward 1944. On grading: a study in semantics. Philosophy of Science 2, pp 93 116.
  51. Temperley D, Lafferty J., Sleator D. 1995. Link Grammar Parser http://www.link.cs.cmu.edu/link
  52. E. 1993. Foundation of Constraint Satisfaction. Academic Press, London.
  53. Viegas, E, Gonzalez, M., Longwell., J. (1996) Morpho-semantics and constructive derivational morhology: a transcategorial approach. NMSU CRL Technical Report. MCCS-96−295.
  54. Viegas E., Mahesh K., Nirenburg S., Semantics In Action. 1998, http ://cr 1. nmsu.edu/Research/Proj ects/mikro
  55. Wiebe J., Farwell D., Villa D., O’Hara T. et al. Artwork: Discourse Processing in Machine Translation of Dialog, 1997.
  56. Uchida Hiroshi., Zhu Meiying., Tarcisio Delia Senta. A Gift for a Millennium. htt^//www.unl.ias.unu.edu. 1996.
Заполнить форму текущей работой