Исследование и разработка автоматизированной системы смысловой обработки текстов в системе управления электронными архивами
В настоящее время в мире существуют и активно развиваются системы смыслового поиска в полнотекстовых базах данных, которые поддерживаются ведущими фирмами — производителями серверов баз данных, например, Oracle, Microsoft, IBM и др. Такие системы строятся на основе многомерных хранилищ, из которых данные извлекаются и обрабатываются с помощью алгоритмов для заранее определенных субъект-объектных… Читать ещё >
Исследование и разработка автоматизированной системы смысловой обработки текстов в системе управления электронными архивами (реферат, курсовая, диплом, контрольная)
Содержание
- ГЛАВА 1. АВТОМАТИЗИРОВАННАЯ СИСТЕМА СМЫСЛОВОЙ ОБРАБОТКИ ТЕКСТОВ
- 1. 1. Обзор существующих программных продуктов анализа текстов
- 1. 2. Смысловая обработка текстов в полнотекстовых базах данных
- 1. 3. Описание работы системы автоматизированного смыслового анализа текстов
- Выводы
- Глава 2. Архитектура системы, процессы и методы обработки ЕЯ-текстов
- 2. 1. Архитектура системы
- 2. 2. Функциональная схема 8егпТех1Ргосез50г
- 2. 3. Формализация представления данных
- 2. 4. Общий процесс смыслового анализа текста
- 2. 5. Методика смыслового анализа текстов в 8етТех1Ргосез5ог
- Выводы
- Глава 3. Инженерия знаний в системе 8етТех1Ргосе550г
- 3. 1. Процесс инженерии знаний в нотации ЮЕРЗ
- 3. 2. Представление знаний с применением семантических сетей
- 3. 2. 1. Основная семантическая сеть системы
- 3. 2. 2. Семантическая сеть понятия «слово»
- 3. 2. 3. Семантическая сеть понятия «прилагательное»
- 3. 2. 4. Семантическая сеть понятия «местоименное»
- 3. 3. Таксономии предметной области
- 3. 4. Фреймовая модель представления знаний предметной области
- 3. 4. 1. Фрейм «Корпус»
- 3. 4. 2. Фрейм «Домен»
- 3. 4. 3. Фрейм «Кластер»
- 3. 4. 4. Фрейм «Пользователь»
- 3. 4. 5. Фрейм «Текст»
- 3. 4. 6. Фрейм «Раздел»
- 3. 4. 7. Фрейм «Абзац»
- 3. 4. 8. Фрейм «Предложение»
- 3. 4. 9. Фрейм «Термин»
- 3. 4. 10. Фрейм «Словосочетание»
- 3. 4. 11. Фрейм «Слово»
- 3. 4. 12. Фрейм «Толкование»
- 3. 4. 13. Фрейм «Тезаурус»
- 3. 4. 14. Фрейм «Ключевой термин»
- 3. 4. 15. Фрейм «Язык»
- 3. 4. 16. Фрейм «Буква»
- 3. 4. 17. Фрейм «Смысловая сеть»
- 3. 4. 18. Фрейм «Прилагательное»
- 3. 4. 19. Фрейм «Притяжательное»
- 3. 4. 20. Фрейм «Относительное»
- 3. 4. 21. Фрейм «Качественное»
- 3. 4. 22. Фрейм «Наречие»
- 3. 4. 23. Фрейм «Артикль»
- 3. 5. Регистрация правил вывода с применением логики предикатов первого порядка
- 3. 5. 1. Правило смыслового поиска по запросу
- 3. 5. 2. Правило классификации текстов по предметной области
- 3. 5. 3. Правило смысловой кластеризации текстов
- 3. 5. 4. Правило формирования реферата
- 4. 1. Онтология естественного языка
- 4. 2. Онтология текста на естественном языке
- 4. 3. Методы статистической обработки текстов
- 4. 3. 1. Методы взвешивания термов
- 4. 3. 2. Взвешивание предложений текста
- 4. 3. 3. Взвешивание абзацев текста
- 4. 3. 4. Взвешивание разделов текста
- 4. 3. 5. Взвешивание отношений в семантической сети (онтологии) текста
- 4. 3. 6. Статистические матрицы анализа текстов
- 4. 4. Пересечение онтологии текстов
- 4. 4. 1. Алгоритм пересечения онтологии текстов
- 4. 4. 2. Оценка степени пересечения онтологии текстов
- 4. 5. Алгоритм смыслового поиска по запросу
- 4. 6. Алгоритмы классификации текстов по предметным областям
- 4. 7. Алгоритм кластеризации текстов
- 4. 8. Алгоритм реферирования текста
- 5. 1. Систематизация знаний в области онтологии
- 5. 2. Процесс онтологического инжиниринга
- 5. 3. Уровни описания и работы с онтологией
- 5. 4. Природа онтологического исследования
- 5. 5. Онтологическое моделирование в среде protege
- 5. 5. 1. Терминология среды Protege
- 5. 5. 2. Структурная модель среды Protege
- 5. 5. 3. Моделирование в protege
- 5. 6. Извлечение знаний из онтологии с помощью SPARQL
- 5. 7. Программная реализация и внедрение разработанных структур
- 5. 7. 1. Форма ведения онтологии
- 5. 7. 2. Формы смысловой обработки текстов
Актуальность работы. Несмотря на широкое использование мультимедиа, текст остается одним из основных видов информации в большинстве электронных хранилищ. Огромное количество информации скапливается в многочисленных текстовых базах, хранящихся в информационных агентствах, библиотеках, корпорациях, в личных ПК и во всемирной глобальной сети. Объем информации увеличивается с поражающей скоростью и люди не в состоянии решать проблемы, связанные с этим ростом. Ввиду большого роста объемов текстовой информации и сложной структурированности естественно-языковых (ЕЯ) текстов, анализ текстов представляет собой актуальную проблему. Человечество нуждается в интеллектуальных электронных помощниках, которые могут справиться со смысловым анализом текста. Разработка эффективных подходов к обработке текстов с целью фильтрации, формирования смыслового портрета, навигации по базе текстов и т. д. является одним из наиболее актуальных направлений современных информационных технологий. В связи же с практическими потребностями быстрой переработки и поиска информации все более актуальной становится проблема смыслового преобразования текстов. Под преобразованием понимается такой процесс переработки текстов, результатом которого является создание некоторых вторичных текстов, близких по смыслу к исходным, но не заменяющих их полностью. В практическом плане эта проблема заключается в разработке конкретных методов автоматического аннотирования, реферирования, индексирования и др.
В настоящее время в мире существуют и активно развиваются системы смыслового поиска в полнотекстовых базах данных, которые поддерживаются ведущими фирмами — производителями серверов баз данных, например, Oracle, Microsoft, IBM и др. Такие системы строятся на основе многомерных хранилищ, из которых данные извлекаются и обрабатываются с помощью алгоритмов для заранее определенных субъект-объектных отношений менаду ними. Крупные поисковые серверы в Интернете (например, Google, Yahoo, Yandex) поддерживают алгоритмы поиска текстов «схожих» с данным и расчета релевантности найденных документов исходному запросу. Специализированные системы полнотекстового анализа (например, в России это «Следопыт», «ТекстАналист») позволяют проводить автоматическую классификацию и реферирование текстов.
Классически в основе задачи обработки ЕЯ-текстов лежат морфологический и морфемный анализ, синтаксический и семантический анализ, результатами которых являются модели текста, адекватно отражающие его словообразовательные, грамматические и смысловые конструкции. В этом смысле, основные методы анализа текста достаточно подробно изложены в трудах Апресяна Ю. Д., Виноградова Д. В., Гладкого А. В., Клосса Б. М., Кожуновой О. С., Мельчука И. Д., Солтона Г., Н.С., Филмора Ч., Финна В. К., Шведовой Н. Ю., Дж.Дж.Катца, Дж.А.Фодора, Б. Патти, А. Вежбицкой и др. Ряд современных усовершенствованных методов представлены в статьях Ермакова А. Е., Леонтьевой Н. Н., Мозгового М. В., Плешко В. В., Сокирко А., Толпегина П. В., Тузова В. А. и др.
В настоящее время успешно решена задача морфологического анализа текстов, результаты которого применяются в поисковых Интернет-машинах, текстовых редакторах, подсистемах проверки орфографии и пр. Задачи синтаксического и, в особенности, семантического анализа не решены в полной мере. Синтаксический анализ (анализ грамматики) можно встретить в системах перевода, в подсистемах проверки грамматики. Несмотря на богатую теорию в области семантического анализа, применение находят лишь методы анализа основанные на статистических (факторных) характеристиках слов и словосочетаний анализируемого текста. Следует отметить, что подсистемы, реализующие указанные методы анализа текста, не предоставляют средств настройки процесса анализа, средств пополнения баз правил грамматики языка и часто эти подсистемы дают грубые результаты.
Семантические модели (СМ) текста, являющиеся результатом комплексного анализа, позволяют оценить корректность текста, в наглядной форме, визуально представить структуру сюжета, взаимосвязь объектов и процессов текста, их атрибуты. Последовательность моделей простых предложений текста и результирующая визуальная модель текста позволяют реализовать обратную связь «воздействие на модель — реакция в тексте», благодаря чему можно в интерактивном режиме отлаживать процессы анализа текстов и доказательства объективности (однозначности) истолкования текстов на естественных языках.
Применение семантических моделей актуально в автоматизированных обучающих системах, при решении задач извлечения знаний из текстов, информационного поиска, реферирования, контроля корректности словарей терминов и определений, автоматической генерации ассоциативных связей в гипертекстовых базах данных (ГБД) и пр.
Учитывая вышеизложенное, а также то, что проблема смыслового анализа ЕЯ-текстов до настоящего времени не решена в полной мере, считаем, что совершенствование методов анализа ЕЯ-текстов и повышение степени их достоверности является актуальной задачей.
Разработанность проблемы. Исследования в области автоматической обработки текстов в Европе и США привлекают внимание крупнейших частных фирм и государственных организаций самого высокого уровня. Европейский Союз уже несколько лет координирует различные программы в области автоматической обработки текстов (например, проект 1ST, 1998;2001 гг.). В США с 1991 по 1998 гг. существовал проект TIPSTER, организованный Департаментом обороны совместно с Национальным институтом стандартов и технологий и Центром военно-воздушных и военно-морских вооружений. В работе консультативного совета этого проекта участвовали также ФБР, Национальный научный фонд и некоторые другие организации. Основной целью проекта было сравнение и оценка результатов работы различных поисковых систем и систем реферирования. По результатам проекта был опубликован подробный обзор и даны рекомендации по использованию этих систем. В США среди систем подобного рода наиболее известной является электронная архивная система «Excalibur RetrievalWare» производства компании Excalibur Technologies. Программные продукты этой компании используются Госдепартаментом, Библиотекой Конгресса, ЦРУ, компаниями Ford Motors, Lockheed, Reynold Electrical & Engineering, Maine Yankee Atomic Power.
Современные системы смыслового анализа текстов, особенностью которых являются: предпочтение скорости обработки текстов, точности семантического и морфологического анализа, выявление смысла текста, реферирование, автоматическое индексирование, эффективная навигация по текстовой базе, статистический частотный анализ словоупотреблений, автоматическая классификация и кластеризация текстов, смысловой поиск и расчет релевантности текстов поисковому запросу.
• OLAP-технологии. Сегодня все больше организаций, в том числе и банков, используют в качестве инструмента анализа своей деятельности OLAPтехнологии. OLAP, использует многомерное представление совокупных данных, чтобы обеспечить быстрый доступ к стратегической информации для дальнейшего анализа.
Недостатки OLAP-технологий: а) функциональность систем ограничивается возможностями SQL, так как аналитические запросы пользователя транслируются в SQL-операторы выборкиЬ) сложно пересчитывать агрегированные значения при изменениях начальных данныхс) сложно поддерживать таблицы агрегатовd) сложно изменять измерения без повторной агрегациие) снижение скорости обработки из-за вычислений по требованиюf) ограничение на объем данных- • система автоматического анализа текста TextAnalyst разработана в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов.
Недостатки: а) не имеет готового словаря русского языкаЬ) не применяет сколько-нибудь развитых лингвистических средств, например синтаксического и морфологического анализа;
• Oracle InterMedia Text. Одним из наиболее мощных продуктов, позволяющих реализовать поддержку полнотекстовых баз данных с доступом через интернет, является система InterMedia Text в составе СУБД Oracle8i. В InterMedia Text интеллектуальная обработка текста (тематическая классификация, аннотирование) сочетается с поисковыми возможностями, доступными при работе с реляционными базами данных.
Недостатки: а) большинство возможностей InterMedia оказывается доступно в полной мере лишь для английского языка и, в меньшей мере, еще для ряда европейских и восточно-азиатских языковЬ) не задействует лингвистические технологии, которые зависят от лексики, грамматики и семантики языкас) не устанавливает смысловые связи между темами;
• Russian Context Optimizer (RCO). Адаптацией технологий Oracle к русскоязычным базам данных занимаются специалисты компании «Гарант-Парк-Интернет», которая выпускает продукт под названием Russian Context Optimizer (RCO), предназначенный для совместного использования с системой InterMedia Text.
Основной недостаток — функциональность системы ограничивается возможностями SQL, так как аналитические запросы пользователя транслируются в SQL-операторы выборки;
• Система PoIyAnalyst. Система PolyAnalyst предназначена для автоматического анализа числовых и текстовых данных с целью обнаружения в них ранее неизвестных, нетривиальных, практически полезных и доступных пониманию закономерностей, необходимых для принятия оптимальных решений в бизнесе и в других областях человеческой деятельности. Недостатки: а) поддерживается только платформа Windowsb) ограниченные возможности выявления структуры данныхс) невозможность объединения данных из различных баз данных в единый набор для просмотра. Это создает неудобства при одновременном анализе нескольких групп информации;
• WebAnalyst — это корпоративный аналитический сервер, представляющий собой интегрированную платформу для хранения и обработки информации и адаптированный для работы с веб-данными и для решения задач e-business. WebAnalyst включает в себя все математические модули для Data и Text Mining систем PolyAnalyst и TextAnalyst, а также специальную аналитическую математику. Недостатки: а) в основном ориентирована на интернетЬ) недостаточная оперативностьс) слабо развитые средства обобщения данных;
• Система «Ключи от Текста» — смысловой поиск и индексирование текстовой информации в электронных библиотеках.
Недостатки: а) большие затраты интеллектуальной работы как при обработке первоисточника, так и при наполнении БДЬ) в ней не учитывается коллективный характер использования Сети, а именно то обстоятельство, что ресурсы разделяемы;
• Интеллектуальная система «СЛЕДОПЫТ» помогает быстро находить текстовые фрагменты документов, и предназначена для тех, кто в результате своей деятельности имеет дело с большим объемом информации. «СЛЕДОПЫТ» позволяет оперативно находить необходимые документы, и представляет полученную информацию в удобном для пользователя виде. Следопыт ищет информацию на русском и английском языках. «СЛЕДОПЫТ» позволяет в качестве запроса использовать фразы на естественном языке. Допускаются комбинированные запросы на смешанном русско-английском языке.
Недостатки: а) ограничение на объем данныхЬ) зависит от сторонних программных продуктов, например, MS Office;
• В корпорации «Галактика» создан новый продукт — автоматизированная система поиска и аналитической обработки информации. Сферы применения: a) развитие предвыборных технологий и социологических исследований в целях позиционирования и продвижения интересов политических партий и движенийb) поддержка информационных подразделений, службы маркетинга и службы безопасности крупных предприятий и банковc) поддержка средств массовой информации.
Недостатки: а) Система не является управляющейЬ) Система не имеет механизма определения и контроля процедур выполнения конкретных операций или группы операций (например, определение процедуры СНАБЖЕНИЕ: способ формирования заявки — заявка — выбор поставщика — формирование заказа — отслеживание его выполнения — процедура получения на склад), что не позволяет руководителю быть уверенным, что его управляющие решения исполняютсяс) Система не имеет функций, необходимых для обеспечения деятельности крупных корпораций (Централизованное снабжение, распределение функций между организациями, передача полномочий от одной организации к другой, взаиморасчеты внутри корпорации и т. д.);
Большинство возможностей этих известных систем оказывается доступно в полной мере лишь для английского языка и, в меньшей мере, еще для ряда европейских и азиатских языков. Практически не поддерживают персидского языка. А также недостаточная защита данных.
Тенденцией развития рынка является разработка модулей лингвистического прикладного обеспечения для разработчиков систем автоматизации. Так как цены на данные программные продукты сопоставимы с ценами на системы автоматизации корпораций, необходимо расширять возможности существующих систем. В настоящее время в России и не только сложилась ситуация, что системы автоматизации управления корпоративными электронными архивами не поддерживают технологии автоматизированного смыслового анализа текстов, а современные системы анализа текстов не адаптированы к работе с электронными текстовыми архивами корпорации. Необходима разработка алгоритмов и методики автоматизированной смысловой обработки текстов и реализация программно-технического комплекса для внедрения смыслового полнотекстового анализа в технологию обработки электронных архивов. Данный комплекс также должен поддерживать персидский и другие азиатские языки.
Исходя из всего, что сказано выше, в данном диссертационном исследовании были сформулированы:
Объект исследования работы — математическое, информационное и программное обеспечение человеко-машинного взаимодействия на естественном языке. Предмет исследования — модели, методы и алгоритмы смыслового анализа естественноязыкового текста.
Цель работы — исследование, разработка и научно-практическое обоснование алгоритмов и методики автоматизированной смысловой обработки текстов и внедрение их в технологию обработки текстов в системе управления электронными архивами.
Для достижения поставленной цели требуется решение следующих основных научных н практических задач:
1. Аналитический обзор существующих методов и систем анализа ЕЯ-текстов.
2. Исследование и разработка архитектуры автоматизированной системы смысловой обработки текстов, а также принципов смыслового анализа текстов.
3. Исследование и разработка онтологии предметной области «смысловая обработка текстов на естественном языке» и правил логического вывода как информационной основы построения системы с целыо хранения и извлечения знаний о грамматиках естественных языков и о предметной области текста, а также выявления основных направлений снижения трудоемкости при проектировании алгоритмов смыслового анализа текстовой информации.
4. Разработка методов (статистических методов предварительного смыслового анализа текста, методики построения пересечения онтологий) и алгоритмов смыслового анализа текстов (алгоритм поиска, классификации, кластеризации, реферирования и т. д.), базирующихся на онтологиях ЕЯ.
5. Программная реализация автоматизированной системы комплексного смыслового анализа текстов и экспериментальное исследование предложенных методов и алгоритмов.
Методы исследования. Теоретические исследования выполнены с использованием моделей и методов системного анализа, статистического анализа, онтологического инжиниринга, теории множеств, семантических сетей, математической логики, теории проектирования баз данных. При разработке программного обеспечения использовались технологии объектно-ориентированного программирования и семантического web.
Достоверность и обоснованность полученных в работе результатов и выводов подтверждается корректностью разработанных математических моделей, положительными результатами проведенных экспериментальных исследований и опытом практической эксплуатации разработанных программных систем.
Научная новизна.
1. Предложена архитектура автоматизированной системы смысловой обработки текстов.
2. Разработаны онтология предметной области «смысловая обработка текстов на естественном языке», включающая декларативные и императивные знания о грамматиках естественных языков и правила вывода с применением языка логики предикатов первого порядка.
3. Разработаны методы и алгоритмы смыслового анализа ЕЯ-текстов.
4. Программно реализована автоматизированная система комплексного смыслового анализа ЕЯ-текстов.
Практическая полезность. Проведение смысловой обработки ЕЯ-текстов по предложенной технологии позволит облегчить процесс их обработки, повысить доверие к результатам обработки, снизить издержки на обработку, обеспечить дальнейшее развитие систем смысловой обработки ЕЯ-текстов. Кроме того, результаты, полученные в работе, окажут положительное влияние на конгломерацию частных систем смысловой обработки ЕЯ-текстов в общую систему смысловой обработки ЕЯ-текстов, поскольку в настоящее время средств, позволяющих осуществить полную смысловую обработку ЕЯ-текстов, не существует. Также практическая значимость исследования заключается:
• в программной реализации разработанного автором семантического ядра системы;
• в применении предложенных моделей, методов и алгоритмов для разработки автоматизированной системы комплексного смыслового анализа текстов;
• в возможности использования созданного семантического ядра системы в крупных системах смысловой обработки ЕЯ-текстов.
На защиту выносятся:
1. Архитектура автоматизированной системы смыслового анализа текстов.
2. Онтология предметной области «смысловая обработка текстов на естественном языке», включающая декларативные и императивные знания о грамматиках естественных языков и правила вывода.
3. Методы и алгоритмы смыслового анализа ЕЯ-текстов.
4. Разработанная и программно реализованная автоматизированная система комплексной смысловой обработки ЕЯ-текстов.
Реализация результатов работы. Результаты работы использованы на кафедре «САПР» в преподавании дисциплины «Онтологический инжиниринг» для магистрантов направления «Информатика и вычислительная техника». Получено 2 акта о внедрении (использовании) результатов диссертационной работы.
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах:
Материалы 63-й научно-технической конференции профессорско-преподавательского состава СПбГЭТУ. 2011.
Публикации. Основные теоретические и практические результаты диссертации опубликованы в 7 публикациях, включая 3 в изданиях, рекомендуемых ВАК, 3 статьи в международных журналах, 1- материалы научно-технической конференции.
Структура и объем работы. Диссертационная работа состоит из введения, пяти глав, и заключения. Основной текст изложен на 126 машинописных страницах с иллюстрациями.
Список литературы
включает 34 наименования.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ.
Основной результат работы заключается в совершенствовании технологий смыслового анализа естественно-языкового текста. Полученные результаты относятся к направлению исследований «Визуализация, трансформация и анализ информации на основе компьютерных методов обработки информации».
В работе получены следующие выводы и результаты:
1. Анализ существующих технологий семантического анализа ЕЯ-текстов позволил определить основные направления снижения трудоемкости проектирования алгоритмов анализа текстовой информации: сокращение объема описания грамматик ЕЯ и понятийного аппарата заданных предметных областей и совершенствование инструментальных средств создания правил для анализа ЕЯ-текста и онтологического описания понятий. Установлено, что излишняя сложность формализации терминов и правил грамматики языка приводит к возрастанию объемов его описания. Ограниченность расширяемости понятийного аппарата анализа ЕЯ-текста, обусловленная, как правило, сложностью его формализации, приводит к необходимости обращения к разработчикам таких методов с целью постоянной доработки системы.
2. Предложена архитектура автоматизированной системы смыслового анализа ЕЯ текстов.
3. Разработаны онтология предметной области «смысловая обработка текстов на естественном языке», включающая декларативные и императивные знания о грамматиках естественных языков и правила вывода.
4. Разработаны методы и алгоритмы смыслового анализа ЕЯ-текста, основанные на онтологии естественного языка и онтологическом описании предметов и процессов предметной области текста, а также выделении ролевых отношений между участниками процесса и ассоциативных отношений с понятиями предметной области.
5. Разработана и программно реализована автоматизированная система комплексной смысловой обработки ЕЯ-текстов «SemTextProcessor».
Публикации в журналах, входящих в перечень ВАК.
1. Фаррохбахт Фумани Мехди, Автоматизированная система смысловой обработки текстов в системе управления электронными архивами// Известия СПбГЭТУ «ЛЭТИ» № 3. 2011.С. 40−44.
2. Фаррохбахт Фумани Мехди, методика автоматической смысловой обработки текстов в системе управления электронными архивами // Известия СПбГЭТУ «ЛЭТИ». № 4. 2011.С. 40−44.
3. Фаррохбахт Фумани Мехди, архитектура web-ориентированных подсистем оптимизации электронных схем //Перспективы науки № 1(03). 2010. С. 90−94.
Статьи, опубликованные в других изданиях:
4. Farrokhbakht Foumani Mehdi, Automated semantic text processing in the management of electronic archives // The International Journal of Artificial Intelligence, Neural Networks, and Complex Problem-Solving Technologies, June 2012. http://springer.com.
5. Farrokhbakht Foumani Mehdi, The technique of automatic semantic text processing in the management of electronic archives // The International Journal of Artificial Intelligence, Neural Networks, and Complex Problem-Solving Technologies, July 2012. http://springer.com.
6. Farrokhbakht Foumani Mehdi, An ontological approach to semantic processing of natural language texts // The International Journal of Computer Science and Network Security, October 2012. http://www.IJCSNS.org.
— Материалы конференций:
7. Фаррохбахт Фумани Мехди. Смысловой анализ текстов на основе алгоритма определения пересечения онтологий этих текстов // Материалы 63-й научно-технической конференции профессорско-преподавательского состава СПбГЭТУ. 2011.
Список литературы
- http://vladimir.socio.msu.ru/lKM/theme24.htm.
- TextAnalyst Electronic resource. Режим доступа: http://www.analyst.ru/ и http://www.megaputer.ru/textanalyst.php
- Компания «Гарант-Парк-Интернет» Электронный ресурс. Режим доступа: www.rco.ru.
- Media Lingva «Следопыт» Electronic resource. Режим доступа: http://www.sIedopyt.ru.
- Корпорация «Галактика Galaktika-ZOOM» Электронный ресурс. Режим доступа: www.galaktika.ru.
- Леонтьева Н. Н. Автоматическое понимание текстов: системы, модели, ресурсы: учеб. Пособие для студ. лингв, фак. Вузов / Нина Николаевна Леонтьева. М.: Издательский дом «Академия» 2006. — 306 с. 9. http://www.citforum.ru/consulting/BI/xolapclassification/
- Бешелев С.Д. Математико-статистические методы экспертных оценок/С.Д. Бешелев, Ф. Г. Гурвич. М&bdquo- 1980.- 263 с.
- Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах/ В. Ш. Рубашкин. М.: Наука, 1989.
- Гитис Л.Х. Кластерный анализ: основные идеи и методы: Препринт/ Л. Х. Гитис. -М., 2000. -61 е.: ил.
- Zipf G.K. Human behavior and the principle of least effort/ G.K. Zipf. Cambridge: Univer. Press, 1949.
- Совпель И.В. Инженерно-лингвистические принципы, методы и алгоритмы автоматической переработки текста/ И. В. Совпель. -Минск: Вышэйш. шк., 1991. -118 е.: ил.
- Н. Н.ЛЕОНТЬЕВА. Автоматическое понимание текстов: системы, модели, ресурсы: Учеб. Пособие для студ. Линг. Фак. вузов / Нина Николаевна Леонтьева. М.: Издательский центр «Академия», 2006. — 304 с.
- ШЕМАКИН Ю. И. Начала компьютерной лингвистики: Учеб. пособие. М.: Иэд-во МГОУ, А/О «Росвузнаука», 1992.
- ALEXANDROV, M., SBOYCHAKOV, К. Searching in full text Data Bases by using text patterns. In Proceedings of International Computer Symposium CIC'99 (Mexico, 1999). National Polytechnic Institute, Mexico. 1999. Pp. 17−29.
- Gruber T. R. A translation approach to portable ontologies // Knowledge Acquisition, 1993, V. 5(2), P. 199−220.
- Ермаков A.E. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтеза. // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2003. Москва, Наука, 2003.-С. 136−140.
- И. В. ГЕРАСИМОВ А. И. МАЙГА Л. Н. ЛОЗОВОЙ Онтологический инжиниринг. Средства и спецификации онтологического моделирования. Учебное пособие. Санкт-Петербург Издательство СПбГЭТУ «ЛЭТИ» 2009 г.
- OWL Web Ontology Language Guide. W3C Recommendation 10 February 2004 http://www.w3.org/TR/2004/REC-owl-guide-2 004 021.
- RDF Primer. W3C Recommendation 10 February 2004. http://www.w3.org/TR/2004/REC-rdf-primer-20 040 210/.24. http://ru.wikipedia.org/viki/4acTbpe4H и далее по гиперссылкам.
- Скорлуповская Е. В., Снетова Г. П. Толковый словарь современной лексики русского языка. м.: «ИРИСЪ»: «Новая Волна», 2003. — 592 с.
- Ахманова О.С. Словарь лингвистических терминов. М., 1966. с. 89.
- Зализняк А. А. Грамматический словарь русского языка: Словоизменение. 4-е изд. -М.: «Русские словари», 2003, стр. 71.28. http://rusgram.narod.ru/indexl .html.
- Разработкаонтологий 101: http://ifets.ieee.org/russian/depository/ontologyl01rus.doc
- Руководоство по Protege: http://www.ittal.kstu.ru/publ/ONTOLOGYUserGuider.doc
- The Protege Ontology Editor and Knowledge Acquisition System HTML. (http://protege.stanford.edu/)
- Введение в RDF и Jena RDF API: http://www.semantictools.ru/tools/iena tutorial. shtml
- Фаррохбахт Фумани Мехди, Автоматизированная система смысловой обработки текстов в системе управления электронными архивами// Известия СПбГЭТУ «ЛЭТИ» № 3. 2011.С. 40−44.
- Фаррохбахт Фумани Мехди, методика автоматической смысловой обработки текстов в системе управления электронными архивами // Известия СПбГЭТУ «ЛЭТИ». № 4. 2011.С. 40−44.