Помощь в написании студенческих работ
Антистрессовый сервис

Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

В ходе решения задач, поставленных в диссертационной работе, проведён анализ существующего методического обеспечения и технических средств обработки текстовой информации в предметной области строительства, показавший, что для построения более адекватных моделей представления текстовой информации, по сравнению с другими подходами, целесообразно использовать категоризацию лексики, впервые… Читать ещё >

Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве (реферат, курсовая, диплом, контрольная)

Содержание

  • ГЛАВА 1. АНАЛИЗ СУЩЕСТВУЮЩЕГО МЕТОДИЧЕСКОГО ОБЕСПЕЧЕНИЯ И ТЕХНИЧЕСКИХ СРЕДСТВ ОБРАБОТКИ ТЕКСТОВОЙ ИНФОРМАЦИИ
    • 1. 1. Классификация автоматизированных систем обработки текстовой информации
    • 1. 2. Анализ лингвистических подходов к формализации языка
    • 1. 3. Анализ моделей обработки текстовой информации
      • 1. 3. 1. Классификация моделей текстовой информации
    • 1. 4. Анализ методов автоматической обработки (классификации) текстовой информации
    • 1. 5. Анализ существующих информационных систем автоматизированного анализа текстовой информации
    • 1. 6. Выбор показателей эффективности извлечения дополнительной информации из множества семантически связанных текстов. Постановка научной задачи
    • 1. 7. Общая схема решения задачи. Частные задачи исследований
  • Выводы
  • ГЛАВА 2. ФОРМАЛИЗАЦИЯ И СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВОЙ ИНФОРМАЦИИ
    • 2. 1. Формализация текстовой информации
      • 2. 1. 1. Матрица лексических связей текста
      • 2. 1. 2. Текст как ориентированный граф
      • 2. 1. 3. Представление объектов (ситуаций) предметной области в виде семантической сети
      • 2. 1. 4. Описание объектов (ситуаций) предметной области в виде фреймов
    • 2. 2. Семантический анализ текстовой информации
      • 2. 2. 1. Табличный метод анализа текстовой информации
      • 2. 2. 2. Методы анализа текста с семантической ориентацией
      • 2. 2. 3. Классификация текстов на основе их семантического анализа
        • 2. 2. 3. 1. Ассоциативный метод порождения текста в задаче классификации
        • 2. 2. 3. 2. Метод проведения тематического анализа текста с выявлением сверхфразовой структуры
  • Выводы
  • ГЛАВА 3. РАЗРАБОТКА СПЕЦИАЛЬНОГО МАТЕМАТИЧЕСКОГО ОБЕСПЕЧЕНИЯ ФРАГМЕНТАРНОГО ЛОГИКО-ЛИНГВИСТИЧЕСКОГО ИНТЕГРАТОРА РУССКОЯЗЫЧНЫХ ТЕКСТОВ
    • 3. 1. Алгоритм графематической обработки текста
    • 3. 2. Алгоритм морфологического анализа текста
    • 3. 3. Алгоритм фрагментационной обработки текста
    • 3. 4. Алгоритм синтаксической обработки текста
    • 3. 5. Алгоритм объединения результатов фрагментационной и синтаксической обработки текста
    • 3. 6. Модель семантической обработки текста
    • 3. 7. Алгоритм формирования терминологического портрета текста
    • 3. 8. Алгоритм рубрицирования текста
    • 3. 9. Алгоритм извлечения дополнительных данных
  • Выводы
  • ГЛАВА 4. РАЗРАБОТКА АВТОМАТИЗИРОВАННОГО РАБОЧЕГО МЕСТА АНАЛИЗА РУССКОЯЗЫЧНЫХ ТЕКСТОВ В СТРОИТЕЛЬСТВЕ С ИСПОЛЬЗОВАНИЕМ ФРАГМЕНТАРНОГО ЛОГИКО-ЛИНГВИСТИЧЕСКОГО ИНТЕГРАТОРА
    • 4. 1. Основные результаты разработки математического обеспечения автоматизированного рабочего места
    • 4. 2. Логическая структура и особенности функционирования автоматизированного рабочего места
    • 4. 3. Характеристика используемого общего программного обеспечения
    • 4. 4. Порядок работы оператора на автоматизированном рабочем месте
    • 4. 5. Алгоритм проведения исследований основных характеристик автоматизированного рабочего места
    • 4. 6. Результаты апробации автоматизированного рабочего места
  • Выводы

Актуальность темы

Значительный рост объёмов текстовой информации, используемой в строительстве обуславливает повышенный интерес к разработке систем, позволяющих автоматизировать процесс её (информации) обработки и анализа. Автоматизированные системы, решающие подобные задачи относятся к классу интеллектуальных. Их анализ позволил выявить следующие особенности:

— наработки в области проектирования подобных систем в строительстве отсутствуют;

— из-за высокой стоимости программного обеспечения и сложности требуемой лингвистической технологии, их разработка в других предметных областях носит фрагментарный характер и ограничивается простыми и дешёвыми решениями в ущерб качеству и эффективности;

— из-за особенностей русского языка аналогичные иностранные системы, разработанные для других предметных областей удовлетворительно работающие с английскими текстами (как наиболее развитые), не позволяют обеспечить требуемый уровень качества при работе с текстами на русском языке.

Таким образом, актуальность темы диссертационной работы продиктована, с одной стороны, необходимостью автоматизации процессов обработки русскоязычной текстовой информации в строительстве и, с другой стороны, отсутствием в настоящее время математического и программного обеспечения, позволяющего такую обработку реализовать в пределах заданного времени с приемлемым качеством.

Диссертационная работа выполнена в рамках научно-технической программы «Разработка методов проектирования и создания новых информационно-управляющих и телекоммуникационных систем» Министерства образования.

Цель и задачи исследования

Целью диссертационной работы является разработка математического и программного обеспечения информационной системы фрагментарного логико-лингвистического интегрирования русскоязычных текстов в строительстве.

Для достижения поставленной цели необходимо решить следующие основные задачи:

1. Проанализировать существующее методическое обеспечение и технические средства обработки текстовой информации в строительстве или других предметных областях и выбрать среди них наиболее эффективные по точности и оперативности в интересах их использования в качестве базы для дальнейшего совершенствования.

2. Разработать модель формализации текстовой информации в строительстве.

3. Разработать систему моделей и алгоритмов, обеспечивающих извлечение дополнительной информации из семантически взаимосвязанных текстов в строительстве.

4. Разработать автоматизированное рабочее место извлечения дополнительной информации из семантически взаимосвязанных текстов применительно к области строительства.

Методы исследования в данной работе основаны на теории математического моделирования, системного анализа и нейронных сетей, булевой алгебре, теориях распознавания образов, графов, лингвистики и многоуровневых иерархических систем, а также теории проектирования и разработки автоматизированных информационных систем.

Научная новизна. В работе получены следующие результаты, характеризующиеся научной новизной:

— модель семантического анализа русскоязычного текста в области строительства, основанная на его (текста) фрагментарном представлении в виде фрейм — сценариев, позволяющая реализовать параллельный способ обработки информации с оперированием, как отдельными предложениями, так и законченными в смысловом отношении, фрагментами;

— полиномиальная нейросетевая модель классификации семантически однородных фрагментов русскоязычного текста в области строительства, основанная на расширенном перечне классифицирующих признаков, учитывающих ассоциативные связи между предложениями и модифицированной технологии моделирования, обеспечивающая более компактное представление формализуемого текста и более точное определение смысла, как отдельных его фрагментов, так и в целом;

— комплекс взаимосвязанных моделей и алгоритмов обработки русскоязычных текстов в строительстве, позволяющий повысить достоверность руб-рицирования и дополнительно извлекаемой информации из семантически взаимосвязанной текстовой информации;

— элементы специального программного обеспечения, реализующего процедуры формализации текстовой информации и комплекс моделей и алгоритмов её обработки, обеспечивающие повышение оперативности извлечения дополнительной информации из семантически взаимосвязанных текстов применительно к области строительства.

Практическая ценность работы. Предложенные в работе модели семантического анализа и классификации русскоязычных текстов, а также алгоритмы их обработки, могут быть включены в состав специального математического и программного обеспечения некоторых автоматизированных интеллектуальных систем обработки текстовых данных в строительстве, различающихся как степенью сложности, так и характером решаемых задач.

Разработанное автоматизированное рабочее место, на конкретных примерах, показало высокую эффективность обработки русскоязычных текстов, что подтверждено результатами численного исследования и актами внедрения.

Реализация и внедрение результатов работы. Результаты проведенных исследований были использованы в интересах автоматизации деятельности Департамента имущества города Москвы, при выполнении плановых научно-исследовательских работ в Государственном научно-исследовательском институте проблем технической защиты информации (г. Воронеж), институте точной механики и вычислительной техники им. С. А. Лебедева (г. Москва).

Апробация работы. Основные результаты исследований докладывались и обсуждались на следующих конференциях и семинарах:

IX, X, XI Всесоюзных научно-практических конференциях «Проблемы информационной безопасности в системе высшей школы» (Москва) в 2002.2004 гг.;

XI Всероссийской научно-практической конференции «Проблемы разработки автоматизированных информационно-аналитических систем мониторинга» (Москва, 2004);

V Международной научно-практической конференции «Информационная безопасность» (Таганрог, 2003);

IV Международной научно-практической конференции «Методы и технические средства обеспечения безопасности информации» (Санкт-Петербург, 2003);

VII научной сессии МИФИ (Москва, 2004).

Публикации. Основные результаты диссертации опубликованы в 13 печатных работах, из них 2 работы без соавторов. В работах, опубликованных в соавторстве, лично соискателем предложены: в [70] автором разработана модель семантического анализа русскоязычных текстов (лично автором выполнено 3 е.) — в [67] автором предложен подход к обучению тематических рубрик (лично автором выполнено 2 е.) — в [66] автором разработана модель классификации русскоязычных текстов, основанная на полиномиальной нейронной сети (лично автором выполнено 4 е.) — в [64] автор разработал алгоритм фрагментарной обработки сетевого графа применительно к системе телефонной связи (лично автором выполнено 1 е.) — в [69,71] автором предложена система взаимосвязанных моделей и алгоритмов обработки текстовой информации применительно к сейсмическому мониторингу (лично автором выполнено 3 с. и 2 с. соответственно) — в [13] автор разработал алгоритм извлечения дополнительной информации из семантически однородных фрагментов русскоязычного текста в строительстве (лично автором выполнено 3 е.) — в [16,14] автором описан комплекс взаимосвязанных моделей и алгоритмов рубрицирования русскоязычных текстовв [15] автором разработана модель семантического анализа русскоязычных текстов основанная на фреймсценариях (лично автором выполнено 2 е.) — в [68] автором обоснована целесообразность использования в качестве идейной основы для разработки информационно-аналитической системы в строительстве категоризации лексики (лично автором выполнено 2 е.).

Структура и объём работы. Диссертация состоит из введения, четырёх глав, заключения, списка литературы из 141 наименования и семи приложений. Работа изложена на 152 страницах, включая 39 рисунков и 8 таблиц.

выводы.

1. Автоматизированное рабочее место анализа русскоязычных текстов в строительстве является комплексом программно-технических средств, предназначенным для автоматизации обработки текстовой информации в интересах извлечения из неё новых данных. Оно обеспечивает решение следующей последовательности задач: построение терминологических портретов исследуемого текста и предметной области строительства (тематической рубрики) — анализ степени соответствия текстов тематической рубрике (рубрицирование) — извлечение дополнительной информации из группы текстов семантически связанных друг с другом.

2. Разработанное математическое обеспечение АРМ, выполненное в виде отдельных автономных блоков (модулей), связанных между собой по «входувыходу» (выходная информация одного блока является входной для другого и т. д.) обеспечивает гибкость АРМ и позволяет оперативно проводить его модернизацию, например, из предметной области строительства в промышленность.

3. Основными характеристиками АРМ являются коэффициенты точности и полноты классификации текстов, а также оперативность функционирования АРМ — время рубрицирования и отбора дополнительной информации из семантически связанных текстов.

4. Для апробации АРМ разработан алгоритм проведения численных исследований, реализующий следующие основные функции: проведение сравнительной оценки значений коэффициентов точности и полноты классификации текстовсравнение временных затрат на проведение расчётов при использовании различных способов рубрицированиясравнение временных затрат на извлечение дополнительной информации при использовании различных способов обработки информации.

Полученные результаты апробации АРМ в соответствии с алгоритмом проведения системных исследований показали не только его работоспособность, но и достаточно высокую эффективность.

Предложенный в диссертационной работе способ рубрицирования, основанный на полиномиальной нейронной сети показал более высокую оперативность по сравнению традиционными (от 100% до трех порядков) и достаточно высокие точность и полноту классификации текстов (от 10% до 65%).

ЗАКЛЮЧЕНИЕ

.

В ходе решения задач, поставленных в диссертационной работе, проведён анализ существующего методического обеспечения и технических средств обработки текстовой информации в предметной области строительства, показавший, что для построения более адекватных моделей представления текстовой информации, по сравнению с другими подходами, целесообразно использовать категоризацию лексики, впервые предложенную И. Ньютоном, развитую в лямбда-исчислении, а затем в семантическом и нейронном подходах и получены следующие основные результаты:

1. Разработана модель семантического анализа русскоязычных текстов в строительстве, основанная на фрагментарном представлении текста в виде фрейм-сценариев.

2. Разработана полиномиальная нейросетевая модель классификации русскоязычных текстов в строительстве, отличающаяся расширенным перечнем классифицирующих признаков, учитывающих ассоциативные связи между словосочетаниями и предложениями.

3. Модифицирована технология формализации текстовой информации в строительстве, обеспечивающая более компактное представление формализуемого текста и точное определение смысла, как отдельных его фрагментов, так и в целом.

4. Предложен комплекс взаимосвязанных моделей и алгоритмов обработки русскоязычного текста в строительстве, позволяющий повысить достоверность дополнительно извлекаемой информации из семантически взаимосвязанной текстовой информации.

5. Разработано и апробировано на практике автоматизированное рабочее место анализа русскоязычных текстов в строительстве, реализующее полиномиальную нейросетевую модель классификации текстовых фрагментов и комплекс алгоритмов обработки данных, обеспечивающее повышение оперативности рубрицирования и извлечения дополнительной информации.

Программные средства зарегистрированы в Федеральном институте промышленной собственности.

Показать весь текст

Список литературы

  1. С.А., Бухштабер В. М., Енюков И. С. и др. Прикладная статистика. Классификация и снижение размерности. — М.: Финансы и статистика, 1989. — 270 с.
  2. С.А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983. — 472 с.
  3. С.А., Мхитарян B.C. Прикладная статистика и основы эконометрики: Учебник. -М.: ЮНИТИ, 1998. 390 с.
  4. .Г. Морфологический процессор русского языка //Альманах «Говор», Сыктывкар, 1995, С. 17−23.
  5. Ю.Д. Избранные труды, Том 1. Лексическая семантика: 2-е изд., испр. и доп. М.:Школа «Языки русской культуры» 1995.- 180 с.
  6. Архангельский, А .Я. Delphi версии 5−7. Приёмы программирования. -М.: Бином, 2003.-836с.
  7. А.Я. Программирование в Delphi 5. М.: Бином, 2000. -1072 с.
  8. Т.В. Порождение речи. Нейро-лингвистический анализ синтаксиса.-М.: МГУ, 1989.-215 с.
  9. Бан-Ари М. Языки программирования: Практический сравнительный анализ: Учебник/ Пер. с англ. B.C. Штаркман, М. Н. Яковлева. М.: Мир, 2000.-366 с.
  10. Н., Стил Т. Логика вопросов и ответов / Пер. с англ. М.: Прогресс, 1981.-288 с.
  11. Н.Н., Доброхотова Т. А. Функциональные ассиметрии человека. -М.: Медицина, 1981.-287 с.
  12. И.Н., Семендяев К. А. Справочник по математике для инженеров и учащихся вузов. М.: Наука, 1986. — 534 с.
  13. О. Е. Марлов А.В. Хмелинин А. А. Использование математической модели текста на естественном языке для решения задач классификации и кластеризации текстовых сообщений // Информационные технологии. -2004.- № 2−3.- С. 15−19.
  14. О.Е., Марлов А. В. Сбор и семантический анализ текстовых документов в глобальных вычислительных сетях, в аспекте аналитической разведки // Безопасность информационных технологий. 2004.- № 6.- С. 23 — 26.
  15. О.Е., Марлов А. В., Морозов В. П., Четверов В. В. Описание АПАС. М.: ФГУП ВНТИЦ, 2004. № 7 220 040 030 от 2.04.04 г.
  16. О.Е., Марлов А. В., Новиков А. П., Хмелинин А. А. Автоматизированная поисково-аналитическая система АРМ аналитика предприятия. М.: ФГУП ВНТИЦ, 2004. № 7 220 040 028 от 31.03.04 г.
  17. В.Г. Автоматизированные интеллектуальные системы обработки текстовых данных. Аналитический обзор. М.:
  18. в.ч. 33 965, 2002. 116 с.
  19. С.В., Гореев А. Ф., Корнеев В. В. Базы данных. Интеллектуальная обработка информации- 2-е изд-М.: Издатель Молгачёва С. В., Нолидж, 2001.-496 с.
  20. Введение в Russian Context Optimizer 30. Гарант-Парк-Интернет, 2000.-30С
  21. Е.С. Теория вероятностей: Учеб. для вузов. 6-е изд. стер. -М.: Высш. шк., 1999.
  22. Н. Алгоритмы и структуры данных. М.: Мир, 1989. — 360 с.
  23. Т.А., Хорошевский В. Ф. Базы знаний интеллектуальных систем: Учеб. пособие СПб.: Питер, 2000.-384 с.
  24. А.И. Нейрокомпьютеры.-М.: ИПРЖР, 2000, 528 с.
  25. А.И. Теория нейронных сетей.-М.: ИПРЖР, 2000, 158 с.
  26. А.Ф. Применение вероятностной нейронной сети для автоматического рубрицирования текстов//Сборник трудов всероссийской научно-технической конференции «Аейроинформатика-99». Часть 3. М.: МИФИ, 1999. С. 71−78.
  27. А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. М., 1985 г.
  28. Т.Б. Психофизиологические основы нарушений мышления при афазии.-М.: Наука, 1986.-230с.
  29. А.Н. Обучение нейронных сетей.-М.: СП Параграф, 1990, 304 с.
  30. В.Ф., Крючков С. Е., Чешко J1.A. Пособие для занятий по русскому языку. М.: УЧПЕДГИЗ, 1962. — 224 с.
  31. В.В., Конторов Д. С. Проблемы системотологии (проблемы теории сложных систем). М.: Сов, радио, 1976. — 237 с.
  32. A.M., Мхитарян B.C., Трошин Л. И. Многомерные статистические методы. М.: Статистика, 2000. -352 с.
  33. А.Е. Тематический анализ текста с выявлением сверхфазовой структуры/ТИнформационные технологии.-2000.-№ 11.
  34. А.Е., Плешко В. В. Метод визуализации информационных массивов TopSOM с применением самоорганизующихся тематических карт// Нейрокомпьютеры: разработка, применение. -2002.-№ 5−6.-С. 13−17.
  35. А.Е., Плешко В. В. Семантическая сеть текста в задачах аналитика. Доклад на XI Международной научной конференции «Информатизация и информационная безопасность правоохранительных органов» Москва, Академия управления МВД, 21 -22 мая 2002-го года
  36. В.П. Русская фразеология. М., 1986. 310 с.
  37. Е.Е. Моделирование на ЭВМ. М.: МИФИ, 1980. — 63 с.
  38. А. А. Грамматический словарь русского языка: словоизменение. 3-е изд. Москва.:Рус.яз., 1987, 180 с.
  39. И. Филлмор. Дело о падеже//В кн.: Новое в зарубежной лингвистике, вып. X. Лингвистическая семантика. -М.: Прогресс, 1981, с.369−495.
  40. А.Г. Моделирование сложных систем: Информационный подход. Киев: Вища школа, 1987. — 63 с.
  41. Инструкция пользователя системы БАГИС. ГНТЦ «ГИНТЕХ», 1999.-5с.
  42. Л.Л. Симметричные предикаты в русском языке. Проблемы структурной лингвистики 1979, М., Наука, 1981, 310 с.
  43. Т.С. Базы данных: модели разработки, реализация: Учеб. пособие. СПб.: Питер, 2001.-304 с.
  44. Е. Интеллектуальные поисковые системы ЕхсаНЬиг//Сети № 6, 1997 (WWW. osp.ru).
  45. Дж. Статистические методы в имитационном моделировании / Пер. с англ.- Под ред. Ю. П. Адлера, В. Н. Варыгина. -М.: Статистика, 1978. Вып. 1, 1978.-221 е.- Вып. 2, 1978.-335 с.
  46. И.Е. Марковские процессы. М.: Наука, 1982. — 356 с.
  47. Л.Г., Максимов А. В. Нейрокомпьютеры.-М.: МГТУ им. Баумана, 2002, 232 с.
  48. Компьютерные системы и сети: учеб. пособие/ под ред. В. П. Косарева, Л. В. Ерёмина.-М.: Финансы и статистика, 2000.-464 с.
  49. Г., Корн Т. Справочник по математике для научных работников и инженеров. М.: Наука, 1984. — 832 с.
  50. М.П., Васильев В. Г. Технология кластерного анализа текстовых данных//Материалы 9 научно-технической конференции по криптографии, секция № 13, 2001.-4 с.
  51. А.С., Субботин М. М., Сарычев В. М. Новый класс интеллектуальных технологий структурные аналитические тexнoлoгии.//WWW. hintech. ru.
  52. Г. С. Методы обработки разнотипных экспериментальных данных. Новосибирск: Наука, 1981, 157 с.
  53. Г. С., Старцева Н. Г. Логические решающие функции и вопросы статистической устойчивости решений. Новосибирск: Наука, 1999, 215 с.
  54. А.Н. Память человека, её механизмы и границы//Исследование памяти: Сб-/Отв. Ред. Н. Н. Корж. М.: Наука, 1990. С. 104−118.
  55. Р., Д. Дранг, Б. Эделсон. Практическое введение в технологию искусственного интеллекта и экспертных систем с иллюстрациями на Бейсике.-М.: Мир, 1980.-520с.
  56. Г. В., Мамендиязова Н. С. О представлении семантики концептуальных моделей в базах знаний. Lttp//www.dialoq-21.ru/Archive/2000/Dialoque % 202 000−2/235.htm.
  57. Н.Н. «Политекст»: информационный анализ политических текстов// НТИ. Сер. 2. № 4. -1995. С. 20−24.
  58. Н.Н. Русский общесемантический словарь (РОСС): структура, наполнение .//НТИ. Сер.2.-1997.-№ 12.-С.5−20.58.
Заполнить форму текущей работой