Помощь в написании студенческих работ
Антистрессовый сервис

Анализ способов представления информации морфемными структурами при наличии случайных возмущений

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Методы исследования. При выработке подходов к информационным оценкам способов кодирования были использованы преимущественно теоретические методы теории вероятностей и теории информации, методы помехоустойчивого кодирования, теории секретных систем (криптологии и криптографии), теории иерархических систем, математической лингвистики. Вычислительные методы были использованы при работе… Читать ещё >

Анализ способов представления информации морфемными структурами при наличии случайных возмущений (реферат, курсовая, диплом, контрольная)

Содержание

  • ГЛАВА 1. Анализ способов представления информационных полей
    • 1. 1. Система передачи информации
    • 1. 2. Информационные оценки для линейного представления сообщения
    • 1. 3. Формальная модель языкового взаимодействия и специфика естественного языка
    • 1. 4. Моделирование языковой системы
    • 1. 5. Уровни иерархической структуры языка
    • 1. 6. Факторы формирующие информативность языковых сообщений
  • ГЛАВА 2. Методика измерения характеристик информационного поля
    • 2. 1. Постановка задачи
    • 2. 2. Морфологическая структура и ее особенности
    • 2. 3. Инвентаризация морфемного состава русского языка
    • 2. 4. Выбор подхода к измерению информативности
    • 2. 5. Практическое исследования энтропии морфемного инвентаря
    • 2. 6. Проблема выбора признаков для морфем и ее связь с избыточностью
  • ГЛАВА 3. Исследование устойчивости информационного поля к случайным воздействиям
    • 3. 1. Помехоустойчивое кодирование и корректирование ошибок
      • 3. 1. 1. Использование внутриморфного «контекста»
      • 3. 1. 2. Использование межморфного контекста
    • 3. 2. Оптимальное кодирование и сжатие текстовых сообщений
    • 3. 3. Поморфемная шифрация
  • ГЛАВА 4. Машинное моделирование взаимодействия структур информационного поля
    • 4. 1. Постановка задачи
    • 4. 2. Описание структуры системы и ее работы
    • 4. 3. Результаты эксперимента
    • 4. 4. Описание программного пакета

Актуальность темы

обусловлена глобализациией и интенсификацей коммуникаций (системы сотовой связи, Internet и т. д.), которые выдвигают проблему передачи информации в число приоритетных. Актуальными на сегодняшний день становятся вопросы повышения пропускной способности сетевых и других коммуникационных каналов для обеспечения максимально насыщенного (аудио, видео) взаимодействия абонентов и пользователей в режиме реального времени, а также обеспечение защиты каналов от несанкционированного доступа.

Систематическое изучение данной проблемы началось с массового внедрения достижений в области связи в самые разнообразные сферы человеческой жизни.

Феномен коммуникации в социальных системах, в том числе в тех, в г которых он опосредован техническими средствами (что и будет нас интересовать в дальнейшем в первую очередь), предполагает наличие трех элементов:

1) субъекта — источника информации;

2) среды передачи информации;

3) субъекта — приемника информации.

В рамках теории информации и кодирования первые два элемента были выведены за пределы рассмотрения путем редукции их к некоторому источнику с заданным алфавитом и априорным распределением вероятностей символов алфавита. Такой подход оказался методологически оправданным, и в его рамках была получена масса ценных результатов, имеющих в том числе и важное прикладное значение.

Тем не менее, такой подход к рассмотрению феномена коммуникации остается упрощенным по своей сути и упускает из виду многие важные аспекты, учет которых может значительно повысить эффективность систем связи. Как справедливо отметил Хэмминг в отношении такого наиболее часто встречающегося при рассмотрении этой проблематики понятия как информация [47], классическое определение информации «включает в себя лишь часть того разнообразия, которое содержится в обычном понятии информации», а именно, имеет дело не со смыслом информации, а с ее количеством. Кроме того, многие задачи, связанные в первую очередь с человеко-машинным взаимодействием, принципиально не могут быть решены без учета факторов, отражающих субъектный компонент ситуации коммуникации. Поэтому более полное рассмотрение, как нам представляется, предполагает учет семантическим аспектов проблемы.

Упомянутый выше феномен коммуникации изучается также и лингвистикой, в рамках которой он получил детальную проработку, правда с использованием присущих ей терминологического аппарата и методов.

Попытки использования результатов лингвистической науки в конкретных прикладных системах (машинный перевод, распознавание и синтез речи, информационно-поисковые и системы автоматического реферирования) освещаются в литературе (см. [13]). Однако на взгляд автора какой-либо сторого формализованной обобщающей теории (несмотря на многочисленные попытки это сделать) на сегодняшний день не существует.

Если использовать лингвистическую терминологию, то из двух аспектов (планов) сообщения традиционно теория информации рассматривает только план выражения, оставляя за рамками рассмотрения план содержания.

Цель работы заключается в том, чтобы на основе подходов и методов, выработанных в рамках наук радиофизического профиля, с одной стороны, и лингвистического профиля, с другой стороны, при активном использовании методов искусственного интеллекта разработать методику оценки способов представления и кодирования одного специфического класса сообщений (сообщений на естественном языке), чтобы затем провести расширенное рассмотрение некоторых традиционных задач радиофизики и теории информации (эффективное кодирование, помехозащищенность и защита от несанкционированного доступа) путем перехода от чисто физических полей и сигналов к информационным полям.

Предмет исследования диссертационной работы информационные поля и их представление, способы их кодирования, передачи по каналам связи и декодирования. Кроме того, ввиду подверженности каналов связи воздействию искажающих влияний и несанкционированных действий рассматриваются вопросы помехозащищенности и секретности при передаче закодированных (зашифрованных) с помощью предложенных в работе алгоритмов сообщений. Эффективное использование ресурсов канала можно повысить за счет сжатия передаваемых по нему сообщений, поэтому вопросы оценки избыточности и способы ее устранения также рассматриваются в данной работе.

Методы исследования. При выработке подходов к информационным оценкам способов кодирования были использованы преимущественно теоретические методы теории вероятностей и теории информации, методы помехоустойчивого кодирования, теории секретных систем (криптологии и криптографии), теории иерархических систем, математической лингвистики. Вычислительные методы были использованы при работе с практическим материалом. Кроме того, были задействованы методы логического программирования и математической лингвистики (порождающие грамматики). Компьютерная реализация достаточно сложной системы, необходимой для работы с практическим материалом потребовала привлечения методов объектно-ориентированного программирования и теории разработки компиляторов и интерпретаторов.

Таким образом, в работе были использованы методы, большей частью ориентированные на дискретную математику, поскольку исследование проводилось над конечными и конечно порожденными множествами и системами конечных множеств — отношениями. Основной инструмент, используемый здесь, — комбинаторный анализ. И хотя комбинаторный анализ обладает меньшей общностью и универсальностью понятий чем дедуктивные.

разделы математики, он в большей степени наделен конкретным содержанием.

Научная новизна диссертации заключается в расширенной постановке некоторых радиофизических задач (оптимальное кодирование, помехоустойчивая передачи сообщений, секретность) путем перехода от анализа свойств физических полей и сигналов, используемых для передачи информации, к исследованию информационных полей, возникающих при расширении объема и структуры алфавита источника и восстановления (в процессе дополнительной обработки сообщения) факторов контекста, выражающих нелинейные связи между символами алфавита внутри сообщения. Кроме того, в работе разработаны инструменты для математически формализованного выражения информативности языковых единиц. Информативность в рамках лингвистики рассматривается с большей степенью полноты нежели это имеет место в теории информации, которая затрагивает только количественные аспекты этого понятия, однако лингвистическая трактовка информации в значительной степени интуитивна, что затрудняет ее формализацию и оценку.

Ценность работы. Результаты работы имеют как теоретическую так и прикладную ценность. Они предоставляют инструмент для количественной оценки значимости языковых феноменов и процессов как с точки зрения их чисто информационных характеристик так и с точки зрения их практической реализации системах, связанных с передачей и обработкой языковых сообщений. В работе предложено использовать понятие информационного поля применительно к задачам, связанным с передачей, обработкой, хранением и защитой информации, что позволяет перейти от представления сообщений как линейной последовательности символов алфавита источника, к более комплексным формам представления информации, учитывающим весь спектр взаимодействий между структурными элементами сообщения. И хотя в диссертации не было дано сторого формализованное определение этого понятия, его основные аспекты были продемонстрированы на примере морфемного уровня языковой иерархии. Можно полагать, что идеи методики, сформулированные для этого уровня, окажутся справедливыми и для всех остальных вышележащих уровней. При этом, естественно, предполагается, что схема построенной методики будет наполняться конкретным содержанием, специфичным именно для каждого текущего уровня языковой системы.

Основные положения и результаты, выносимые на публичную защиту.

• предложено использовать морфологическую структуру текстовых сообщений на естественном языке для расширения алфавита при кодировании в системах помехоустойчивой передачи сообщений, сжатия информации и защиты информации от несанкционированного доступа;

• разработана методика информационной оценки различных способов представления сообщений морфологическими структурами, основанная на комбинаторном подходе к измерению информации;

• определена зависимость избыточности текстовых сообщений текстовых сообщений от ряда факторов, предложена методика их оценки и определены способы сокращения избыточности;

• предложен способ повышения помехоустойчивости передачи текстовых сообщений по каналам связи с шумом, основанный на использовании корректирующих свойств контекста;

• разработана интегрированная программно-реализованная система для инвентаризации морфемного состава русского языка, проведения его информационных измерений и контроля его целостности.

Диссертационная работа состоит из введения, четырех глав и заключения.

ЗАКЛЮЧЕНИЕ

.

В данной диссертационной работе получены следующие основные результаты:

1. Предложено использовать морфологическую структуру текстовых сообщений на естественном языке как один из способов представления информационного поля для расширения алфавита при кодировании в системах помехоустойчивой передачи сообщений, сжатия информации и защиты информации от несанкционированного доступа. Что позволяет перейти к более содержательным моделям текстовых сообщений (информационным полям) и дает возможность более гибко управлять их информационными характеристиками.

2. Разработана методика информационной оценки различных способов представления информации морфологическими структурами, основанная на комбинаторном подходе к измерению информации, что позволяет дополнить вероятностный подход к измерению информации, который в отношении языковых явлений не обладает необходимой степенью робастности оценок.

3. Определена зависимость избыточности текстовых сообщений от ряда факторов. В первую очередь, это зависимость друг от друга признаков, выбранных для идентификации морф. Вторая причина — это неравномерное распределение морф между подмножествами, образованными в результате разбиения на основе значений языковых признаков. Предложена методика ее оценки и определены способы сокращения избыточности, в первую очередь, за счет привлечения контекста. Показано, что использование грамматических моделей позволяет сократить размер алфавита при кодировании, если при этом сами грамматические состояния не кодируются, а восстанавливаются из контекста.

4. Предложен способ повышения помехоустойчивости передачи текстовых сообщений по каналам связи с шумом, во-первых, за счет изменения размера и структуры алфавита источника, во-вторых, за счет привлечения корректирующих свойств контекста. Данный способ можно рассматривать как частный случай инвариантных относительно семантики преобразований информационного поля, направленных на повышение его устойчивости к искажающим воздействиям.

5. Разработана интегрированная программно-реализованная система для инвентаризации морфемного состава русского языка, проведения его информационных измерений и контроля его целостности.

В данной работе было введено понятие информационного поля. Хотя его формальное определение дано не было, на примере морфемного представления информации были обозначены основные аспекты этого понятия и продемонстрированы возможные подходы к оценке количественных характеристик информационного поля. Наиболее полное описание структуры и свойств информационного поля может быть достигнуто только при учете связей между элементами сообщения, представляющих все уровни языковой системы. Для этого необходимо прежде всего построение математических моделей, ориентированных на решение конкретных радиофизических задач по передаче, хранению, обработке и защите информации. Сложность разработки и исследования этих моделей увеличивается по мере продвижения вверх по языковой иерархии. В связи с тем, что соотношение между воспроизводимостью и производимостью языковых единиц при этом все больше смещается в сторону последней, для оценки информационных характеристик соответствующих форм представления сообщений чисто комбинаторный подход становится недостаточным. Определение элемента множества дается уже не через указание его порядкового номера внутри множества, а через описание способа его порождения. Поэтому более значимы становится аппарат частично рекурсивных функций (алгоритмов) и алгоритмический подход к измерению информации.

Следует отметить, что преимущественное использование в работе комбинаторного подхода к измерению информации отнюдь не исключает вероятностного. Оба подхода могут вполне успешно взаимно дополнять друг друга. Важно лишь отчетливое понимание условий их применимости.

Показать весь текст

Список литературы

  1. А. Основы компьютерной алгебры с приложениями: Пер с англ. -М.&bdquo- Мио. 1994.- 544 с. 1. А '
  2. В.В., Арсентьева A.B. Информация и развивающиеся структуры. JI, 1984. — 186 с.
  3. М.В. Квантитативная лингвистика. -М.: Наука, 1988. 184 с.
  4. Г. Г., Кузнецов Б. А. Языковые средства автоматизированных информационных систем. М.: Наука, 1983. 288 с.
  5. БлейхутР. Теория и практика кодов, контролирующих ошибки: Пер. с англ. М.:Мир, 1986. 576 с.
  6. М.М. О понятии «полезная информация» // Проблемы кибернетики / Под ред. Ляпунова A.A. М.: Физматгиз, 1963. Вып. 9. с, 71−102.
  7. А. Дж. Энтропийные методы моделирования сложных систем: Пер. с англ. М.: Наука, 1978. — 248 с,
  8. Т. Программа, понимающая естественный язык: Пер. с англ.- М.: Мир, 1976.-292 с.
  9. И.Р. Информативность единиц языка. М.: Высшая школа, 1974. — 175 с,
  10. .Ю., РаскинВ.В. Методы семантического исследования ограниченного подъязыка. М. Изд-во МГУ, 1971. 414 с.
  11. И.М. О методах дешифровки древних текстов // Тайны древних письмен: Проблемы дешифровки: Сб. статей. М.:Прогресс, 1976. -591 с,
  12. Защита информации. Малый тематический выпуск. // ТИИЭР, том 76, N5, 1988 г.
  13. Искусственный интеллект. Кн. 1. Системы общения и экспертные системы/ Под ред. Попова Э.В. М. Радио и связь, 1990. 462 с.
  14. Ю.В. Неизвестные тексты // Забытые системы письма. М.: Наука, 1982. — 296 с,
  15. Кнут Д. Искусство программирования для ЭВМ. т. 3: Пер. с англ. М.: Мир, 1978.
  16. А.Ы. Теория информации и теория алгоритмов. М.: Наука, 1987. 304 с.
  17. P.E. Сжатие и поиск информации. М.: Радио и связь, 1989. -168 с.
  18. КруглинскиД. Основы Visual С++: Пер. с англ. М.: «Русская редакция», 1997. — 696 с.
  19. А.И., Ефремова Т.Ф.Словарь морфем русского языка. М.: Русский язык, 1986.
  20. Е.В., Рябко Б. Я. Применение формальных грамматик при кодировании источников информации // Проблемы передачи информации, 1995, вып. 1.
  21. Лингвистический процессор для сложных информационных систем / Апресян Ю. Д., Богуславский И. М., Иомдин Л. Л. и др. М.: Наука, 1992. 256 с.
  22. Лингвистический энциклопедический словарь. -М.: Сов. Энциклопедия, 1990. -685 с.
  23. М.М. Лингвистическая комбинаторика. М.: Наука, 1988.-232 с,
  24. Дж. Д., Грэй А. Х. Линейное предсказание речи: Пер. с англ. -М.: Связь, 1980. 308 с.
  25. A.A. Введение в теорию кодирования. М.: Наука, 1982. — 192 с.
  26. Машинное понимание текстов с ошибками / B.C. Файн, Л. И. Рубанов, — М.: Наука, 1991. 151 с.
  27. М. к др.Теория иерархических многоуровневых систем: Пер. с англ. М.: Мир, 1973. 344 с.
  28. Методы автоматического распознавания речи: Пер. с англ. / Под ред. У. Ли. -М.: Мир, 1983. кн. 1,2.
  29. Моделирование языковой деятельности в интеллектуальных системах / Под ред. Кибрик А. Е. и Нариньяни A.C. М.: Наука, 1987. 280 с.
  30. Морфологический анализ научного текста на ЭВМ / Перебейнос В. И., Грязнухина Т. А., Дарчук Н. Д. и др. Киев: Наукова думка, 1989. 264 с.
  31. Р.Г. Инженерная лингвистика и теория языка. Л.: Наука, 1979. 112 с.
  32. Р.Г. Информационные измерения языка. Л.: Наука, 1968. 116 с.
  33. Пел Ирэ Объектно-ориентированное программирование с использованием С++: Пер. с англ. Киев: «ДиаСофт Лтд.», 1995. — 480 с.
  34. Р.К. Речь: коммуникация, информация, кибернетика. М.: Радио и связь, 1997. — 528 с.
  35. Русская грамматика / Под ред. Шведовой Ю. Н. М.: Русский язык, 1990. -639 с.
  36. Т. Принятие решений: Метод анализа иерархий: Пер. с англ. М.: Радио и связь, 1993. 314 с.
  37. H.A. Ценность и валентность лингвистических единиц. // Синтагматика, парадигматика и их взаимоотношения на уровне синтаксиса (материалы научной конференции). Рига, 1970. — с. 160 — 162.
  38. В.М. Язык как системно-структурное образование. М.: Наука, 1977.344 с.
  39. Н.М. Информационные семантические системы / Перспективы развития вычислительной техники / Под ред. Смирнова Ю. М. Кн. 1, — М.: Высш. шк., 1989.- 127 с.
  40. Л., Шапиро Э. Искусство программирования на языке ПРОЛОГ: Пер с англ. М.: Мир, 1990. — 235 с,
  41. .В. Выделение морфем в текстах без пробелов между словами. -М.: Наука. 1984.
  42. .В. Исследование грамматики числовыми методами. М.: Наука, 1990.- 175 с.
  43. .В. Оптимизационные методы исследования языка. М.: Наука, 1976.
  44. ТурыгинаЛ.А. Моделирование языковых структур средствами вычислительной техники. М.: Наука, 1990.
  45. Уровни языка в речевой деятельности: К проблеме лингвистического обеспечения автоматического распознавания речи / Под ред. Бондарко Л. В. Л.: изд-во ЛГУ, 1986. — 260 с.
  46. A.A. О ценности информаг- л //' Нзбр. тр. М.: Наука, 1973. Т. 3. с. 489−494.
  47. Хэмминг Р. В. Теория кодирования и теория информации: Пер. с англ. -М.:Радио и связь, 1983. 176 с.
  48. А.М., Яглом И. М. Вероятность и информация. 3VL: Наука, 1973. -512 с,
  49. Р. Лингвистика и теория связи // Звегинцев В. А. История языкознания XIX—XX вв.еков в очерках и извлечениях. Ч. II. М., 1965. — с. 435−444.
  50. Л.Д., Лифшиц Е. М. Теоретическая физика. Т. П. Теория поля. М.: Наука, 1983. 512 с.
  51. Малый тематический выпуск «Защита информации». //ТИИЭР, том 76, N5, 1988 г.
  52. С. Теоретико-множественные модели языков: Пер. с англ.: М.: Наука, 1970. 332 с.
  53. Щур Г. С. Теории поля в лингвистике. М.: Наука, 1974. — 256 с.
  54. Beker H., Piper F. Cipher Systems. The Protection of Communications. -Northwood Books. London, 1982. p. 406.
  55. Numerical Recipes. The Art of Scientific Computing. / William H. Press, Brian P. Flannery, Saul A. Teukolsky, William T. Vetterling. Cambridge Universitv Press, 1986. -p.818.
  56. В.Г., Сычев A.B. Использование знаковой природы языка для передачи информации через канал связи с шумом. // Межвузовский сборник научных трудов «Синтез, передача и прием сигналов управления и связи». Воронеж, 1995. с.8−13.
  57. В.Г., Сычев A.B. Кодирование сообщений на основе их знаково-языковой природы // Межвузовский сборник научных трудов «Синтез, передача и прием сигналов управления и связи». Воронеж, 1996. -179−186.
  58. A.B., Хромых В. Г. Применение языковой грамматики для управления параметрами кода // Сборник докладов научно-технической конференции «Направления развития систем и средств радиосвязи». Воронеж, 1996., т. IL, с. 595−601.
  59. В.Г., Сычев A.B. Оценка информационной емкости систем передачи информации, основанных на морфемном кодировании // Вестник ВГУ. Серия 2, Естественные науки. 1996. № 2, с. 140−147.
  60. В.Г., Сычев A.B. Поморфемная шифрация сообщений // Прикладные вопросы цифровой и защиты информации: Межвузовский сборник научных трудов. Воронеж: ВВШ МВД России, 1997. — с. 4−6.
  61. В.Г., Сычев A.B. Экспериментальное исследование корректирующей способности языковых структур. // Межвузовский сборник научных трудов «Синтез, передача и прием сигналов управления и связи». Воронеж, 1998. с.4−7.
  62. В.Г., Сычев A.B. Машинная оценка избыточности текстовых сообщений на естественном языке // Сборник докладов 4-ой Международной научно-технической конференции «Радиолокация, навигация, связь». Воронеж, 1998. — т. 1, с. 557 — 565.
  63. В.Г., Сычев A.B. Повышение устойчивости зашифрованных сообщений к криптоанализу путем сокращения избыточности // Сборник докладов научно-технической конференции «Информационная безопасность автоматизированных систем». Воронеж, 1998. с. 337−342.
  64. В.Г., Сычев A.B. Исследование корректирующей способности поморфемного кодирования текстовых сообщений, передаваемых через канал связи с шумом // Изв. высш. учеб. заведений. Радиоэлектроника. 1998. № 10. С. 35−42.
Заполнить форму текущей работой