Задачи анализа текущей деятельности и принятия управленческих решений для холдингов и больших предприятий металлургической отрасли требуют обработки большого объема текстовой информации, которая в настоящее время содержится в электронном виде во всех областях науки и техники. Так, Московский Институт Стали и Сплавов, как ведущий металлургический вуз страны, обладает большими массивами металлургической и материаловедческой информации.
В прикладных системах поддержки принятия решений (С1111Р) появилась возможность использования знаний, заложенных в текстовой информации больших массивах электронных документов. Для эффективного использования такой информации в задачах поддержки принятия решений [1] основными требованиями стали автоматическое извлечение знаний (АИЗ) из текста, высокая производительность операций анализа текста и поиска знаний, высокое качество извлекаемых знаний и их представления в удобном, агрегированном виде.
Развитие глобальной сети Интернет привело к реализации крупнейшего в истории человечества хранилища информации в электронном виде. При этом плохая структурированность описательной (текстовой) части информации значительно снижает эффективность ее использования [2]. Аналогичная ситуация складывается в корпоративных информационных системах, в которых файлсервера и хранилища данных содержат тысячи и сотни тысяч документов на естественном языке (ЕЯ). Возникла ситуация, когда лицо, принимающее решение (ЛПР), при поиске знаний в доступных ему документах не способно в разумное время их качественно проработать без использования специальных программных средств.
Программные средства, организующие поиск по содержимому документов, значительно улучшили ситуацию [3]. Но даже при сильном сужении перечня найденных документов, этот результат нельзя считать достаточным, так как ЛПР сталкивается с необходимостью анализа всего содержимого найденных документов. Использование морфологического анализа во многом улучшило качество результатов поиска, но не более того.
В задачах принятия решений на основе большого количества текстовых документов на ЕЯ необходимо проводить предварительный программный смысловой анализ текста, реализуемый с использованием синтаксического и семантического анализа.
В настоящее время задача предметно независимого семантического анализа текста на естественном русском языке (ЕРЯ), реализуемого в виде высокопроизводительного программного обеспечения (ПО), работающего в автоматическом режиме, не решена. В отличие от множества европейских языков, семантический анализ текста которых успешно используется во многих программных продуктах, слабая формализация русского языка и, как следствие, его неоднозначность, делает задачу смысловой обработки русскоязычных текстов весьма сложной.
Таким образом, задача построения СППР на основе системы хранилища знаний (СХЗ), основанного на ЕРЯ документах, весьма актуальна.
Цель работы.
Цель работы заключается в разработке подхода к построению СППР на основе СХЗ, осуществляющей работу с электронными текстовыми документами на ЕРЯ, выделение из них знаний и использование выделенных знаний для различных целей принятия решений.
Основные задачи, которые ставятся в работе: ¦ провести многокритериальный анализ существующих подходов к построению СППР на основе информационных систем извлечения и управления знаниямиразработать концептуальный подход к построению СППР на основе СХЗ с интеллектуальной обработкой текстовой информации на ЕРЯ, отличающийся высокой производительностью и качествомразработать модели представления знаний на различных этапах обработки текста и работы системыопределить в ходе системно-функционального анализа методы обработки электронных текстовых документов на ЕРЯ с целью извлечение из них знаний, независимо от предметной области и тематики текстаразработать для работы ЛПР удобный графический пользовательский интерфейс, позволяющий использовать все функции системыразработать систему хранения исходных документов и знаний, систематизировать процессы добавления документов, удаления документов из системы и доступ к документам для их чтения и анализаразработать методы и алгоритмы быстрого смыслового контекстного поиска (СКП) по накопленным знаниям, оптимизированные с учетом специфики модели знанийразработать подсистемы с использованием технологии клиент-сервер для реализации одновременной работы нескольких пользователей с единым хранилищем знаний, для чего разработать новый протокол передачи данных между приложениями клиента и сервера.
Фундаментом работы является представление знаний в виде объектной семантической сети (ОСС). Внешний модуль АТЕЯ [4] используется для проведения анализа электронного текста на ЕРЯ с целью построения ОСС.
Объекты и задачи работы.
Исходя из поставленной цели решения сложной проблемы, проведена декомпозиция цели и сформированы локальные цели.
1. В отношении представления знаний: провести многокритериальный анализ существующих понятий и моделей знаний, подходов к представлению знанийконкретизировать понятие знания согласно поставленной задачеформализовать язык описания знаний в качестве универсальной формы представления знаний для передачи знаний на различных этапах работы системы между ее компонентами.
2. В отношении разработки СППР на основе СХЗ: провести многокритериальный анализ существующих подходов к разработке СППР на основе текстовой информации и извлечения знаний из текста на ЕРЯразработать концептуальный подход к разработке СППР на основе СХЗ согласно поставленным целям.
3. В отношении архитектуры хранилища знаний: разработать многокомпонентную архитектуру системы, с использованием технологии системы клиент-сервер, позволяющую реализовать многопользовательский режим работыразработать модель представления знаний в каждом из компонентов системыразработать модули анализа текста, реализующие преобразование электронного документа в хорошо структурированный текстовый вид, проведение лексического анализа документа и вызов внешнего модуля смыслового анализа текста для построения ОССразработать протоколы и механизмы взаимодействия компонентов системы;
4. В отношении алгоритмов работы со знаниями: и разработать методы работы со знаниями, включающие проведение СКП в хранилище знаний на основе текста запроса на ЕРЯразработать быстрые алгоритмы преобразования представления знаний при передаче знаний между модулями системыразработать алгоритмы быстрого СКП в хранилище, оптимизированные с использованием особенностей модели ФПЗразработать базу данных, выполняющую задачу хранения данных системы в представлении, необходимом для проведения поиска и использования знаний в системеразработать представление результатов выделения знаний из СХЗ.
Практическая ценность работы.
Результаты работы позволяют организовывать СППР на основе корпоративных и отраслевых хранилищ знаний, реализуемых с использованием предложенных методов и алгоритмов обработки и хранения текстовой информации. Реализовано накопление электронных документов из различных источников и извлечение заложенных в эти документы знаний.
Решение научной проблемы СКП знаний является основополагающей при использовании знаний в других задачах работы со знаниями, заложенными в тексте на ЕЯ. Исходя из этого, разработано прикладное алгоритмическое решение быстрого СКП на стороне СУБД. Результаты работы позволяют решить следующие общие научные проблемы:
Автоматическое интеллектуальное реферирование групп электронных документов на ЕРЯ с учетом целей реферирования в виде запроса на ЕРЯ или искусственно сформированных сегментов ОСС.
Выделение из текста электронных документов неявных (явно не изложенных) знаний.
Выделение целевых знаний из больших массивов электронных текстовых документов, расположенных в глобальной сети Интернет, за счет вторичного анализа результатов работы поисковых систем на основе статистического и частотных методов.
Автоматическое определение авторства, стиля изложения и тематики электронных документов.
Изменение стиля изложения документа на ЕЯ и его перефразирование с целью упрощения.
Использование ОСС позволило достичь хорошего качества результатов смыслового контекстного поиска в хранилище при соблюдении условия соблюдения высокой производительности при проведении операции поиска. Качество определяется соответствием и полнотой результатов проведения СКП запросу на ЕЯ.
Реализация и внедрение результатов исследования.
Реализованное хранилище является программным решением для персональных компьютеров с операционной системой семейства Windows 2000 и Windows ХР и сервером баз данных MSDE 2000 либо MS SQL 2000.
Модуль интерпретации SONML, языка ФПЗ, реализованный в форме UDF1, работает независимо от выбранного SQL сервера и может быть адаптирован на интерфейсном уровне для других СУБД, с доработкой выражений на языке SQL, поддерживаемого сервером.
Практическое использование системы проведено в ходе организации хранилища знаний на основе содержательной части новостей информационного портала «Металлургическая отрасль России» www.rusmet.ru, на массиве статей.
1 UDF — User-Defined Function (англ.), функции, определяемые пользователем. Как правило внешние модули, подключаемые с серверу баз данных, содержащие функции, которые могут быть вызваны из программ, выполняемых сервером. по тематикам металлургии, расположенных в свободном доступе на Web сервере этой системы, а также на основании ряда других источников статей и работ на металлургические темы2.
Апробация системы проведена на массиве научно-исследовательских отчетов по госбюджетной тематике НИЧ МИСиС, а также информационного наполнения системы АКТИН, используемой НИЧ для предоставления отчетной информации вышестоящим организациям.
Апробация системы на предмет возможной эксплуатации, развития и использования, проведена сотрудниками компании «Гмбх САС Институт», российского представительства компании SAS Institute — лидера ПО для разработки хранилищ данных и построения аналитических систем.
На защиту выносятся следующие основные научные результаты.
Результаты системного анализа существующих подходов к построению информационных систем накопления и управления знаниями как основы СППР в виде новой модели СХЗ. Результаты декомпозиции исходных целей построения СХЗ, как сложной системы, на локальные цели более простых задачанализ состояния проблемы и необходимость создания СХЗ на основе ОСС.
Подход к построению СХЗ, реализующего автоматическое накопление документов, выделение из них знаний, предоставление возможности работы со знаниями в СППР и проведение поиска знаний с учетом смысловых связей.
2 В качестве печатных источников статей рассматриваются журналы «Известия высших учебных заведений. Цветная Металлургия», «Известия высших учебных заведений. Черная Металлургия», «Интернет Бизнес Металл», «Наука МИСиС в 2001 году «Наука МИСиС в 2002 году «.
3 Программа АКТИН предназначена для эксплуатации руководителями и исполнителями научно-исследовательских работ (НИР) и научно-исследовательскими управлениями (НИУ) вузов и организаций Министерства образования Российской Федерации (далее Министерства) при подготовке отчетных документов о НИР, финансируемых из средств бюджета и выполняемых по единому заказ-наряду (E3H), а также по отдельным заказ-нарядам.
Логическая структура представления знаний в виде динамической структуры и в формате таблиц данных на стороне СУБД. Концептуальный подход к хранению древовидной структуры свойств и алгоритм поиска на множестве покрывающих деревьев.
Алгоритмы СКП на сегментах ОСС хранилища и их реализация.
Конкретизация понятия «знания», разработка новой модели знаний и разработка формального языка описания знаний и операций над ними.
Апробация работы.
Основные положения и результаты диссертации докладывались и обсуждались на следующих научных конференциях:
Международная конференция ДИАЛОГ'2003 «Компьютерная лингвистика и интеллектуальные технологии» (Протвино, ABBYY, 2003);
5-я международная конференция «Интерактивные системы: проблемы человеко-компьютерного взаимодействия» IS-2003 (Ульяновск, УГ-ТУ, 2003);
7-й Российской научно-практической конференции «Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями» РБП-СУЗ-2004 (Москва, МЭСИ, 2004);
Virtual Forum on Decision Engineering (http://www. virtualconf.com, 2002).
Публикации.
По материалам диссертации опубликовано 4 работы:
1. Крапухина Н. В., Кузнецов Д. Ю., Тригуб Н. А. Подход к созданию интеллектуальной системы извлечения знаний из текстовых электронных документов на основе объектной семантической сети // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог-2003» (Протвино, 11−16 июня 2003 г.). — М.: Наука, 2003. С.327−336.
2. Krapukhina N.V., Kuznetsov D.Y. Practical Use Of Objective Analysis Of Natural Russian Technical Text. // Interactive Systems: The Problems of Human — Computer Interaction. Proceedings of the International Conference, 23−27 September 2003 Г Ulyanovsk: UISTU, 2003. C.211−214.
3. Крапухина H.B., Кузнецов Д. Ю .Возможности системы извлечения и поиска знаний, основанной на использовании объектной семантической сети // Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями. Сб. докладов (РБП-СУЗ-2004 14−15 апреля) -.М.: МЭСИ, 2004. С. 208−212.
4. Крапухина Н. В., Кузнецов Д. Ю. Подход к разработке системы хранилищ знаний // Экономика, информационные технологии и управление в металлургии: Сб. научных трудов./ Под ред. А. Г. Дьячко. — М.: МИСиС, 2003. С.71−76.
Работа над диссертацией соответствует целям и задачам развития приоритетных направлений науки, технологии и техники Российской федерации на 2000 — 2010 год, сформулированным в «Федеральной целевой программе «Электронная Россия» [5].
Структура и объем работы.
Диссертационная работа изложена на 150 страницах машинописного текста, иллюстрирована 13 рисунками и 3 таблицами. Она состоит из введения, глоссария, 4 глав, заключения, библиографического списка из 120 наименований и 13 приложений.
результаты работы, как правило, собираются в едином хранилище.
Рассмотрим три продукта, реализующие задачи сбора и классификации информации с различными целями и различной степенью содержательной обработки текста.
1.1.5.1 Системы на основе InfoStream.
Технология InfoStream, разработка компании «ЭЛВИСТИ», решает задачу контент-мониторинга [41]. Задача системы — организация мониторинга определенных источников информации постоянно, без остановок, с целью получения информации из источников по мере ее поступления. Цель разработки — служить мостом между пользователями и информационными источниками, предоставляя информацию, очищенную от рекламы и прочего информационного мусора.
Документы в разных вариантах исполнения системы, могут целиком выкачиваться из источников, либо индексироваться, как в поисковых системах.
Ядром механизма обработки содержимого документов является полнотекстовая информационно-поисковая система InfoReS. Технология позволяет создавать полнотекстовые базы данных и осуществлять поиск информации, формировать тематические информационные каналы, автоматически рубрици-ровать информацию, формировать классификаторы, таблицы взаимосвязей понятий (относительно встречаемости их в сетевых публикациях), гистограммы распределения весовых значений отдельных понятий, а также динамики их встречаемости по времени.
1.1.5.2 Семейство продуктов «Экспресс — Досье» .
Система конкурентной разведки «Экспресс-Досье «предназначена для организаций, которым необходимо автоматизировать и повысить эффективность сбора, обработки и анализа неструктурированной информации.
Особенностью системы является возможность проводить анализ на основе данных, поступающих как в формальном виде (таблицы, отчеты), так и текстовых данных. Исходные документы, которые служат основой для анализа, хранятся в архиве наряду с результатами анализа.
Система «Экспресс-Досье. Факты» позволяет вести единый внутренний архив, собирая досье на персоны, компании, их взаимоотношения, связанные с ними основные события. Обработка информации проводится путем выделения из нее основных фактов и знаний об объектах мониторинга, регистрации связей объектов друг с другом и происходящих с ними событий.
Источниками информации могут служить печатные материалы, сообщения электронных СМИ, аналитические отчеты, справочные базы данных министерств и ведомств, сведения с сайтов Интернета.
Система требует настройки модели, и, исходя из этого, поставляется вместе с настроенной моделью предметной области, которая включает список объектов, отношений и событий, представляющих интерес для заказчика.
Данная система реализует работу по предварительно разработанным шаблонам. Для автоматизированного регулярного сбора информации из источников Интернет система требует установку так называемых роботов. Источниками информации могут быть различные системы, и для каждого конкретного источника требуются доработка системы — разработка конвертора.
1.1.5.3 Система Galaktika-Zoom.
Система Galaktika-Zoom — продукт российской корпорации «Галактика» [42], представляет собой гибрид поискового робота и системы анализа текстов. Основное назначение системы — интеллектуальный поиск по ключевым словам с учетом морфологии русского и английского языков, а также формирование информационных массивов по конкретным аспектам. Что характерно, семантика самого текста, его смысл, не анализируется, для анализа «Галактика-Zoom» использует исключительно методы математической статистики для решений задач Text mining.
Согласно информации, опубликованной на официальном сайте продукта [42] «. система позволяет: проводить поиск и формирование информационных массивов по конкретным аспектам исследуемой проблематикианализировать объективные смысловые связи отобранных данныхсравнивать несколько состояний проблемы, выявление закономерностей и тенденций (или частностей и случайностей) динамики развития изучаемой проблемы.» .
Заявлено, что обрабатываемый объем исходных массивов данных может достигать до сотен гигабайт. А источников этих данных в виде электронных текстовых документов более чем достаточно: сообщения и статьи электронных СМИ, нормативная документация, электронная деловая переписка и материалы внутреннего документооборота предприятия, информация сайтов Интернет и т. д. Для получения текста из распространенных форматов RTF, DOC, HTML разработаны конверторы.
Алгоритм работы основана на [43] «. получении по запросу так называемого «информационного портрета» (текстовых массивов — К.Д.), или упорядоченного по значимости списка «главных тем» выборки. В основе определения главных тем и вычисления их ранга лежит идея о количественном и качественном (лексическом) различии распределения слов в конкретной выборке (документов — К.Д.) по отношению к целой базе (документов — К.Д.). При это результат запроса, набор найденных документов, ранжируется [43] «. по степени соответствия инфопортрета (то же, что и «информационного портрета «- К.Д.) каждого документа инфопортрету выборки в целом.» .
Как результат — первые из найденных документов, обладающие наибольшим рангом, представляют собой наиболее точное контекстное описание темы, а пользователь может эффективно уточнять запрос даже при поверхностным знакомством с темой, значительно улучшая качество результатов поиска.
Подводя итог рассмотрения систем сбора и классификации информации, необходимо заметить, что, с одной стороны, достигается высокая производительность таких систем за счет использование статистических и частотных методов анализа текста, но, с другой стороны, непосредственное выделение знаний из текста не проводится, проводится только классификация документов. Единицей информации в этих системах является документ небольшого объема, так как в основном это новости электронных СМИ и рекламные публикации.
Необходимо заметить, в этих системах решается задача хранения накапливаемой информации. Накопление и эффективная обработка — это задачи следующей группы информационных систем.
1.1.6 Хранилища данных.
Хранилища Данных решают комплекс задач, главная цель которых — получение знаний за счет эффективного использования данных большого объема.
Основываясь на работе классиков исследований и разработки информационных хранилищ Ральфа Кимбела (Ralph Kimball) [44] и Билла Инмона (Bill Inmon) [45], и общей практике построения информационных хранилищ, можно выделить следующие задачи, решаемые при разработке информационного хранилища: установление доступа к разрозненным источникампреобразование формата хранения данных к формату данных хранилищаочистка данныхорганизация хранения данных в едином хранилище и предоставления к ним санкционированного доступаобновление данных хранилища путем регулярной загрузкиподготовка на основе данных информационных витрин;
Главное отличие подхода информационных хранилищ от хранения данных в СУБД является проведение агрегации данных перед их использованием, формирования витрин [46]. Если СУБД являются, как правило, транзакционны-ми системами [47], организующими многопользовательский режим изменения данных, хранилища направлены на многопользовательский режим работы предоставления доступа на чтение данных.
Для подготовки витрин проводится как простая агрегация (суммирование данных, расчет статистик), так и решение задач Data Mining (разработка числовых данных с целью добычи из них знаний) и Text mining (разработка текстовых данных с целью добычи из них знаний), которые будут более детально рассмотрены в разделе «О». Например, разработка витрины прогнозирования каких-либо показателей, включает использование механизма прогнозирования показателей на основе исторических данных.
Как правило, результатом подготовки витрин являются многомерные базы данных, MDDB (Multidimensional Data Base), основа OLAP приложений [48], содержащие данные в агрегированном виде согласно назначению витрины.
Несмотря на различия информационных хранилищ, естественным является наличие ряда характеристик, которые свойственны всем хранилищам. Прежде всего, в хранилище всегда выделяются так называемые зерна, минимальные элементы данных или элементы знаний в хранилищах знаний, и основные тематические предметы, темы хранилища. Архитектура хранилищ предполагает проведение денормализации исходной информации и построение ее в одной из заранее выбранной конструкции — звезда, снежинка и т. п.
Физическое распределение серверов хранилища должно предоставлять различным пользователям возможность доступа к данным согласно привилегиям доступа пользователей. Например, для этого используется технология HOLAP (Hybrid On-line Analytical Processing). Архитектура HOLAP организует единообразный доступ к данным, разделенным по некоторым признакам на различные базы данных, и нередко располагаемых на различных серверах. Как результат, достигается высокая производительность за счет физического разделения данных, при этом логически они составляют часть единого источника.
Примером разработки крупнейших информационных хранилищ в России можно привести информационные хранилища таких организаций, как «МПС России» [49] (ныне ОАО «Российские Железные Дороги») и «Газпром» [50].
Разработка информационного хранилища наукоемка и трудоемка. В связи с этим для построения хранилища всегда используются соответствующие программные средства. Крупнейшими поставщиками ПО для разработки информационных хранилищ из множество компаний можно выделить крупнейших. К ним относятся SAS Institute (www.sas.com), IBM (www.ibm.com), Oracle (www.oracle.com), NCR (www.ncr.com), Microsoft (www.microsoft.com).
Возвращаясь к цели разработки хранилища знаний на основе текста на ЕРЯ, необходимо отметить, что класс информационных хранилищ наиболее близок поставленной в работе цели, архитектуре системы и операциям по обработке исходных данных.
Несмотря на большое количество поставщиков программного обеспечения, решение задач анализа текста сталкивается с проблемой языкового барьера. Разработки ведущих компаний направлены для потребителей европейского либо американского рынка. Как следствие, в их развитии наибольшее внимание уделялось европейским языкам, анализ которых проще, благодаря их более строгой форме изложения. В связи с этим, для построения информационных хранилищ, с целью извлечения знаний из текста на ЕРЯ, необходимы дополнительные лингвистических разработки.
1.1.7 Хранилища знаний и системы выделения смысла из текста.
Системы этого класса содержат не информацию, которую люди могут использовать, а знания. Нет единого определение знания, но объединяющим критерием систем хранилищ знаний является выделение смысловых связей, заключенных в тексте, и хранение текста вместе с его семантическим описанием.
Существует множество разработок хранилищ знаний и систем по извлечению смысла из текста, но до промышленного уровня они редко доводятся.
1.1.7.1 Группа продуктов Ontos.
Группа продуктов «Ontos Series», разработанных швейцарской компанией «Ontos AG» [51] решают две основные задачи: получение информации из различных гетерогенных источников (базы данных, Интернет, поисковые машины, файловые серверы и т. д.) и ее последующая обработка с использованием оригинальных лингвистических алгоритмов.
Основой продуктов является механизм OntosMiner аналитической обработки текстов, основу которого составляет патентованная технология обработка текста на ЕЯ. Сокращение анализируемых комбинаций слов достигается с изначальным учетом конкретной предметной области текста.
Необходимо отметить, что механизм OntosMiner основан на бесплатно распространяемом продукте GATE (General Architecture for Text Engineering) (http://gate.ac.uk/).
В ходе анализа документов проводится морфологический анализ текста, затем синтаксический, после чего строится семантический образ документа. Построение семантического образа происходит с использованием словарей, разработка которых проводится либо специалистами компании-производителя, либо пользователями системы при локализации ее для конкретной тематической области.
1.1.7.2 Системы TWINS и ConExt.
Задачей проект TWINS, инициативной разработкой компании НооЛаб, является разработка системы с элементами искусственного интеллекта, предназначенной для смыслового поиска информации в Интернет.
Авторами проекта сказано следующее. «Основными функциями системы являются: семантический анализ текстов на русском и английском языках, анализ запросов пользователя (на этих же языках), аналитические действия по поиску интересующей пользователя информации» [52].
Заявлено, что продукт проводит анализ текста с выделением смысла, используя синтаксический, грамматический и лексический анализ. В основе смыслового анализа лежит использование нейронной сети.
При семантическом анализе текста строятся так называемые вектора, «.которые описывают каждый объект, встречающийся в текстах, через взаимодействие его с другими объектами.» [52]. Форма представления информации в виде векторов получило название «Е-5 структуры». Составляют этот вектор пять элементов: тематические объект и предикат, связка, рематический объект и рематический предикат.
Проведение семантического анализа подразумевает наличие описания знаний и их рекурсивного представления, включая причинно-следственные связи. Сам семантический анализ заключается в выделении новых знаний путем выделения из фраз объектов и отношений между ними. При этом определяется контекст, связи между обнаруженными во фразе объектами, а также отношения их к объектам, имеющимся в системе. Результат семантического анализа встраивается в уже существующую семантическую сеть.
Заявлено, что в системе происходит проверка знаний на непротиворечивость.
Алгоритмически работа системы основана на операциях с множествами упомянутых выше пятикомпонентных векторов. По оценке авторов [52]:
Предложенная рекурсивная сетевая модель (пятимерные вектора и подобная им низкоуровневая структура атомов) является существенным принципиальным развитием классических сетевых и фреймовых моделей, в первую очередь это достигается внесением рекурсивности" .
Другая разработка компании под названием ConExT (Content Extracting Technology) является технологией по разработке системы автоматизированного извлечения знаний из текстов на ЕЯ, цель которой заключается в получении знаний из больших массивов текстовых документов без необходимости их про-читывания.
Под знаниями понимается информация об объектах и связях между ними.
Основой работы системы является язык программирования tExp [53], специально созданный для решения задач структурного анализа неформализованных текстов на ЕЯ, который позволяет проводить лексический, синтаксический и семантический анализ текстов на русском языке.
При использовании этой технологии в программных продуктах необходимо на языке tExp онтологически описать предметную область для выделения из текста содержательно-значащие единицы.
Учитывая использование онтологического описания в алгоритмах извлечения смысла из текста, можно сделать заключение, что TWINS является системой, требующей вмешательство человека для 1) выделения специфических знаний из текста определенной тематики, и 2) адаптации уже существующих алгоритмов и систем при изменении целей анализа текста или изменения тематики.
1.1.7.3 Системы класса Semantic Web.
Проектов по накоплению знаний непосредственно в Интернет с использованием HTML документов было немало. Смысл подхода «Semantic Web» заключается в дополнении стандартного формата HTML метаданными для хранения семантическое описание смысла, излагаемого в документе.
Из множества проектов, представление знаний в которых основано на HTML с включением информации об онтологии, наиболее известны разработки SHOE [54] и Ontobroker [55].
В проекте SHOE (Simple HTML Ontology Extensions) для описания метаQ данных используется дескриптивная логика. Авторам документов предлагается включать аннотацию содержимого в документе, для последующего автоматического разбора этих знаний агентами при работе с документом. Проблема такого подхода заключается в том, что не существует стандарта описания аннотации документа, а форма изложения аннотации зависит от автора. Как следствие, документы могут быть тяжелы для качественного разбора даже при человеко-машинном режиме, и могут трактоваться неоднозначно при использовании разных онтологий.
В проекте Ontobroker реализована логика, основанная на фреймах. Пользователям предлагается реализация онтологии, также как и в предыдущей рассмотренной системе, с сопровождением текста документов аннотацией в виде семантической информации элементов текста. Но, в отличие от SHOE, в Ontobroker предусмотрен централизованный администратор онтологий. Пользователи могут использовать все термины единой справочной онтологий как основу для формального описания знаний в своих документах. Как следствие наличие единой системы ведения онтологической информации, система Ontobroker включает многофункциональный механизм вывода ответа на запрос.
1.2. Описание новой альтернативной системы.
Подводя итог проведенного исследования, учитывая экспертной оценки локальных значения критериев рассмотренных альтернатив, можно сделать следующие выводы.
8 Description Logic — логика, которая на уровне концептов позволяет описывать классы через наборы свойств и наборы логических операторов.
Г&tradeРОССИЙСКАЯ-1.
4i гаШШЗ.
Наиболее эффективной и востребованной формой представления знаний для пользователя является текст на ЕЯ. Наилучшей формой представления знаний пользователю обладают системы G, но извлечение знаний в них не поводит ЛПР. Системы реферирования группы G3 автоматически формируют текст на ЕРЯ [56]. Но, с точки зрения естественности языка изложения и полноты извлеченных знаний, качество результатов работы таких систем, как правило, низкое и требуется доработка результатов с привлечением ЛПР. Более того, при реферировании не учитывается цель реферирования — какие именно знания пользователь хочет извлечь из текста, относительного какого объекта или темы. Производительность систем также не соответствует требованиям.
Системы группы G6 обладают свойством высокой производительность как операции автоматического извлечения знаний из большого объема исходной информации, так и использования знаний. Выделение «витрин» для организации работы пользователя с извлеченными знаниями предоставляет пользователю только ту информацию, которая ему необходима, что является очень удобным при условии наличия очень большого объема информации. Минусом этих систем является использование в качестве источников только массивов численных данных и текста на европейских языках.
Высокой производительностью и качеством также обладают системы G2. Минусом таких систем является то, что носителями знаний остаются люди, система содержит только «метазнания» — кто и какими знаниями обладает. Это.
• делает системы такого класса полностью непригодными для решения поставленных в работе целей.
Условию автоматического извлечения знаний из текста отвечают системы G3, но они ограниченны заранее определенной структурой электронного документа и информацией о его жизненном цикле. В системах G3 также реализуется подход на основе семантических сетей, которые стоятся автоматически. Но использование полученных знаний осуществляется при визуальном отображении участков получаемых сетей, режим автоматического поиска знаний не предусматривается. Исходя из исходных целей построения таких семантических сетей, можно предположить, что количество извлекаемой информации недостаточно для качественной автоматической работы. Результатом работы является весь исходный документ. Так как работа осуществляется в человеко-машинном режиме, а элементами сети являются отдельные слова, а не контекстно связанные слова, естественность результатов работы и удобство работы с ними являются низкими.
Поисковые системы группы систем G4 и G5 позволяю искать электронные текстовые документы с высокой производительностью. Данные в распределенных информационных сетях хранятся в неструктурированном текстовом формате, что позволяет их индексировать с помощью поисковых систем без проведения смыслового анализа документов. Элементарные знания систем 4 имеют много общего с моделью знаний систем управления корпоративными знаниями — они указывают в каком источнике можно найти искомую текстовую информацию, что при условии постоянства доступа к ресурсам Интернет. .
.
Системы поиска направлены на обработку очень большого количества документов с целью их нахождения, а не выделения из них смысла. Они также характеризуются отсутствием учета смысловых связей между словами искомой фразы, чувствительностью к правильности подготовки электронных документов при добавлении в систему (индексации) и отсутствием выделения знаний из исходных документов. Как следствие, пользователь может пользоваться только поиском документов по содержанию слов и фраз в лучшем случае с использованием морфологии русского языка.
Смысловой поиск в текстовых документах реализован в системах группы G7. Это достигается за счет снабжения текстовой информации семантической информацией. Но эти системы требуют описания семантики текста вручную, что не удовлетворяет требованию извлечения знаний в автоматическом режиме. Более того, многие из работ по организации хранилищ знаний не были признаны из-за разночтений в подходах и форматах описания онтологий — элементов описания знаний. Алгоритмы большинства разработок на основе продукционного подхода функционально непригодны для автоматического анализа документов общего содержания, так как их использование требует дополнительной работы по описанию предметных областей и поддержания таких описаний в актуальном состоянии.
Существующие подходы образуют Парето оптимальное множество альтернатив [57] (см. «Таблица 1»). Каждый из рассмотренных подходов обладает серьезными недостатками относительно поставленной цели, но при этом ярко выделяются факторы, максимизирующие значения отдельных критериев.
Анализ показал, за счет каких особенностей подходов достигается максимизация отдельных критериев. Оценка альтернатив позволила выявить факторы, которым должна соответствовать идеальная система. Таким образом, наиболее подходящей системой для достижения поставленной цели является система, модель которой соответствует новой альтернативе Gs особенностями которой является максимизация значений критериев: представление извлеченных знаний в виде найденных контекстных упоминаний (К2), выделенных из текста исходных документов большого объема (Кю). использование текста на ЕРЯ в качестве исходной информации (К6, К4), без заранее определенной тематики и структуры, подобно поисковым системам, в одном из нескольких наиболее распространенных форматах (Къ) — высокая производительность использования и извлечения знаний подобно информационным хранилищам за счет автоматического анализ исходного текста (к7) на стадии добавления электронного документа в систему и снабжением полученных знаний служебной, избыточной информацией, снижающих трудоемкость алгоритмов использования знаний (?8) — организация единого хранилища знаний (ЛГ,) на основе большого количества электронных документов (К10), регулярно пополняемое новыми знаниями (К9У, выделение знаний из хранилища за счет проведения СКП на основе запроса на ЕРЯ (Къ), подобно поисковым системам, но с учетом смысловых связей между словамисодержание в результатах поиска не только перечня документов, но найденных контекстных упоминаний на ЕРЯ (К2) подобно экспертным системам и системам автоматического реферирования текста, с последующим развитием до синтеза текста на ЕРЯ на основе выделенных знаний.
Множество альтернатив, дополненное Gs, остается Парето — оптимальным (см. таблицу 1). Но при этом G8 позволяет максимизировать значения всех наиболее значимых критериев К1 — Кд, оставляя не оптимальным наименее значимый К10. Учитывая поставленную цель, объем обрабатываемой информации заведомо ограничен, и среднее значение этого критерия является хорошим для достижения цели.
Требование обработки текста на ЕЯ является одним из главных. Определение понятия знания для решения проблемы быстрого смыслового анализа текста на ЕРЯ и описание извлекаемых из текста знаний значительно влияет на структуру и функции разрабатываемой прикладной системы [58], и является другой сложной наукоемкой проблемой, которая требует дополнительного исследования.
ЗАКЛЮЧЕНИЕ
.
В работе осуществлено решение научной проблемы создания представления знаний на основе текстовых электронных документов на естественном русском языке и организации их использования путем осуществления смыслового контекстного поиска.
В процессе исследований и разработок получены новые научные данные, а именно:
В ходе выполнения диссертационной работы разработан подход к организации хранилища знаний на естественном русском языке, алгоритмические решения задач представления знаний и организации смыслового контекстного поиска. При этом получены следующие научные результаты:
1. Проведен всесторонний анализ с многокритериальной оценкой существующих альтернативных подходов к построению информационных систем, работающих со знаниями, в результате которого была обоснована необходимость разработки информационной системы нового вида и построена новая альтернатива, описывающая модель идеальной СХЗ. Проведен анализ сложной научной проблемы разработки СХЗ согласно полученной модели, проведена декомпозиция целей исходной задачи на локальные цели более простых задач.
2. Предложена новая организация СППР на базе автоматически формируемых массивов текстовой информации, содержащей агрегированные знания по различным аспектам принимаемых решений в виде витрин знаний.
3. На основе анализа подходов к извлечению знаний показано, что существующие подходы к семантическому анализу текста мало эффективны для анализа текста большого количества электронных документов на ЕРЯ, без описания конкретной предметной области. В то же время в данной работе было показано, что для смысловой обработки текста можно эффективно проводить анализ текста на ЕЯ без использования онтологических знаний об окружающем мире, на основе предложенного подхода.
4. На основе математической модели конечного автомата разработан модуль лексического анализа текста.
5. Разработан новый концептуальный подход к разработке систем хранилища знаний на ЕРЯ, конкретизировано новое понятие «знания» и формальное логическое представление знаний в виде сегментов ОСС.
6. Проведен теоретико-множественный и теоретико-информационный анализ модели ФПЗ и возможных конфигураций ОСС, получаемых при проведении поиска из запроса на ЕЯ.
7. Разработаны и реализованы алгоритмы смыслового контекстного поиска, оптимизированные с использованием последовательного усиления критериев отбора, позволяющие решать задачу смыслового поиска с трудоемкостью О (п).
8. Разработано бинарное представление знаний в виде языка ФПЗ и операций над знаниями на основе размеченного текстового электронного документа, также бинарное представление знаний на стороне СУБД.
9. Для решения оптимизации алгоритмов СКП разработанное формальное представление древообразной иерархической структуры множеств свойств позволяет решать задачу поиска покрывающих деревьев с трудоемкостью О (п), за счет хранения дополнительной информации о пути от вершины до корня дерева.
Ю.Предложена и реализована модульная архитектура СХЗ на основе разработанной объектно-ориентированной библиотеки обработки ОСС на язьжеPascal, для работы которой разработан сетевой протокол высокого уровня передачи данных между клиентским и серверным приложениями, а также удобный визуальный интерфейс для работы ЛПР со знаниями хранилища и его функциями.
11.Проведена апробация прикладной системы, реализующей разработанный подход и разработанные алгоритмы.
Разработанный сетевой протокол высокого уровня позволяет решить задачу передачи информации между клиентским и серверным приложениями в многопользовательском режиме. Разработанная и реализованная архитектура системы эффективно решила задачу реализации разработанного подхода к построению системы хранилища знаний. Разработанный визуальный интерфейс предоставляет удобные средства для проведения анализа сегментов объектной семантической сети, извлекаемых из хранилища знаний.
Задача организации быстрого смыслового контекстного поиска является первой и наиболее демонстративной задачей, решенной с применением модуля АТЕЯ в прикладных системах.
Сформулированный и реализованный подход к витринам знаний является основополагающим для проведения автоматизированного реферирования и аннотирования документов.
Задачи, решаемые с использованием результатов работы.
Представление знаний в хранилище организовано, с одной стороны, сегментами ОСС, соответствующими контекстам электронных документов, и единой базой данных с другой стороны.
Учитывая это, с алгоритмической и практической точек зрения представляют интерес следующие задачи: смысловой контекстный поиск с учетом описок и синонимовнахождение неявных связей между объектамирешение направленного реферирования текста (задача суммариза-ции) — синтез текста на естественном языкеразвитие подхода к витринам знанийновые возможности в решении задач Text mining.
Задача организации смыслового контекстного поиска с учетом описок и синонимов является следующей по сложности задачей относительно реализованного смыслового контекстного поиска. Решение задачи требует усложнение модели представления знаний и разработки словаря синонимов и алгоритмов идентификации описок.
Задача идентификации описок, опечаток, арифметических и грамматических ошибок [119] должна решаться еще на этапе морфологического анализа текста. В случае неоднозначного толкования слова, появляется ситуация, схожая с учетом синонимов и омонимией.
Перечень синонимов слова можно использовать как на основе программного заключения о тематике искомого, либо на основе запроса пользователя относительно тематики документа, посредством предоставления пользователю возможности выбора тематики в интерактивном режиме из вариантов, предусмотренных в словаре синонимов.
Организация поиска с учетом синонимов потребует доработку визуального интерфейса системы, алгоритмов поиска и разработку словаря синонимов.
Задача нахождение неявных связей между объектами заключается в выделении связи между заданными объектами, в явном виде не изложенные в источниках. Алгоритмы поиска могут быть различными, приведем два примера.
Первый алгоритм заключается в нахождении цепочки из ссылок и объектов между двумя искомыми объектами. Задача соответствует задаче выделения путей на графе.
Второй алгоритм заключается в анализе соответствия набора связей и свойств различных объектов на выявления их, идентичности с высоким уровнем уверенности.
Задача направленного реферирования текста заключается в выделении из текста одного или более документов информации, запрошенной пользователем.
Термин «направленное реферирование» приведен для подчеркивания того, что результатом работы должен быть текст, выделенный из источников относительно определенной цели, задаваемого в виде сегмента ОСС перед проведением реферирования. Необходимо заметить, что такой сегмент строится на основе анализа запроса на естественном языке, либо искусственно с использованием специального визуального интерфейса.
Алгоритмы реферирования заключаются в решении задачи детерминированного выделения из сегментов ОСС информации, удовлетворяющей запросу с определенным высоким уровнем уверенности, и последующего синтеза текста на естественном русском языке.
Задача синтеза текста на естественном языке заключается в построении текста на естественном русском языке на основе содержимого витрин знаний. Синтез текста требует привлечение дополнительных знаний об окружающем мире, правил построения предложений на русском языке.
Правила синтеза текста должны реализовывать различные стили изложения знаний в виде текста, зависящие от поставленной при синтезе задачи. Это может быть: отчет о выделенных из текста знанияхлитературно изложенный текст на естественном русском языке, описывающий выделенные из хранилища знанияагрегат выделенных знаний, изложенный так же на естественном русском-языке.
Развитие подхода к построению витрин знаний может проводиться в следующих основных направлениях: проведение автоматизированного контекстного поиска среди поступающих в систему документовпроведение вторичного объектного семантического анализа текста с учетом уже полученных сегментов ОССрешения задач Text miningпредставление содержимого витрины в виде синтезированного текста на естественном русском языке.
Новые возможности в решении задач Text mining заключаются в использовании структуры ОСС для выделения последовательностей объектов и связей между ними, типовых сегментов ОСС и наборов свойств элементов сети в отличие от статистических и частотных методов анализа текста.