Методы автоматической классификации и статистического анализа входного потока текстовой информации в информационных системах

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Методы автоматической классификации и статистического анализа входного потока текстовой информации в информационных системах (реферат, курсовая, диплом, контрольная)

Содержание

ГЛАВА 1. Общая характеристика проблемы автоматической обработки входного потока текстовой информации и статистического анализа полученных результатов
- 1. 1. Проблема автоматической классификации и статистического анализа
- 1. 2. Развитие технологий обработки текстовой информации в МИД России
- 1. 3. Общие требования к средствам автоматической классификации и статистического анализа входного потока текстовой информации
- 1. 4. Показатели’универсальности системы и основные требования к их реализации
- 1. 5. Общая характеристика предлагаемой методики решения задачи автоматической классификации и статистического анализа входного потока текстовой информации
ГЛАВА 2. Методика автоматической классификации входного потока текстовой информации с применением конструктивных решений СПО «Автоклассификация»
Раздел
- 2. 1. Принцип построения морфологического анализа в программе «Автоклассификация»
  - 2. 1. 1. Программа «Автоклассификация». Основные понятия и допущения
  - 2. 1. 2. Таблица классов слов
  - 2. 1. 3. Таблица окончаний
  - 2. 1. 4. Таблица особых условий
  - 2. 1. 5. Таблица последних букв основ слов
  - 2. 1. 6. Основные действия с кодами
  - 2. 1. 7. Предварительный анализ слова словаря. Разбивка на основу и окончание
  - 2. 1. 8. Определение возможной беглой гласной
  - 2. 1. 9. Чередование согласных
  - 2. 1. 10. Изменение буквы «Е» на «Ь» при склонении слов
  - 2. 1. 11. Чередование смягчающей гласной — «И»
  - 2. 1. 12. Проверка падежного согласования комбинаций
  - 2. 1. 13. Полное сравнение слов
Раздел
- 2. 2. Структура ключевых словосочетаний словарей. Принцип индексирования словарей
  - 2. 2. 1. Основные понятия
  - 2. 2. 2. Структура ключевых словосочетаний
  2.2.3. Сведение поисковых запросов других поисковых систем к формату ключевых словосочетаний СПО «Автоклассификация». Дизъюнкивная нормальная форма запросов. Объяснение структуры ключевых словосочетаний СПО «Автоклассификация»
  2.2.4. Комбинации «прилагательное + существительное»
  2.2.5. Реестр комбинаций
  2.2.6. Корректировка результата вхождения ключевого словосочетания в предложение при наличии комбинаций «прилагательное + существительное»
  2.2.7. Алгоритм принятия решения о вхождении ключевого словосочетание в обрабатываемое предложение текста
  2.2.8. Синтаксические правила ввода словосочетаний в СПО «Автоклассификация»
  2.2.9. Построение и структура индексных файлов словаря
  2.2.10. Поля, используемые в индексных файлах словаря
  2.2.11. Некоторые особенности программы «Автоклассификация» по работе с классификаторами и словарями
  Раздел
  2.3. Обработка текстов и принятие решений о присвоении классов в СПО «Автоклассификация»
  2.3.1. Основные понятия
  2.3.2. Формат исходных данных и результатов обработки
  2.3.3. Особенности построения текстовых файлов и параметры настроек
  2.3.4. Обработка предложений
  2.3.5. Определение численной характеристики (веса) вхождения ключевого словосочетания в текст
  2.3.6. Основные параметры настроек, связанные с принятием решения
  2.3.7. Общие и частные параметры настроек
  2.3.8. Результаты автоматической обработки текстов
  2.3.9. Перспективы использования программы «Автоклассификация»
  ГЛАВА 3. Методика статистического анализа, формирования и ведения аналитических задач с применением конструктивных решений СПО «Судак»
  Раздел
  3.1. Постановка аналитической задачи, проведение предварительных расчетов статистических данных в процессе выполнения автоматической классификации СПО «Автоклассификация»
  3.1.1. СПО «Судак». Основные функции и предназначение
  3.1.2. Понятие аналитической задачи
  3.1.3. Методика определения предварительных численных характеристик
  3.1.4. Основные параметры настроек, связанные с определением веса класса
  3.1.5. Использование предварительных результатов статистики для формирования статистических баз данных
  Раздел
  3.2. Формирование и ведение аналитических задач с применением конструктивных решений СПО «Судак»
  3.2.1. Статистическая запись в базу. Принцип двойной записи
  3.2.2. Построение статистической базы данных аналитической задачи
  3.2.3. Учетная политика. Принцип ввода данных в статистическую базу данных
  3.2.4. Физический смысл итоговых значений весов статистических записей по всем классам и по отдельно взятому классу
  3.2.5. Таблица значимости классов
  3.2.6. Форма представления данных статистического анализа
  3.2.7. Анализ документов по их значимости
  3.2.8. Методы автоматической идентификации событий
  3.2.9. Абсолютные и относительные величины значимости классов
  3.2.10. Уточнение результатов идентификации событий путем разбиения входной информации на потоки
  3.2.11. Построение аналитических задач по трем определяющим классификаторам. Работа с промежуточным классификатором
  3.2.12. Многоклассификаторные аналитические задачи

Актуальность работы. В процессе эксплуатации различных информационных систем возникают актуальные проблемы, связанные со сбором, классификацией и предметным анализом больших потоков текстовой информации, поступающих как из российских, так и из зарубежных источников. Текстовая информация поступает на многих языках, с использованием различных стилей изложения материала. Большой объем информации на различных языках невозможно анализировать вручную, требуется компьютерный поиск, тематический и статистический анализ потока информации. Современные условия ставят новые требования к процессу обработки информации, ее автоматической классификации и статистическому анализу результатов обработки.

С ростом объема информационного потока специалистам-аналитикам становится все труднее заниматься тематическим анализом информации и ведением аналитических задач вручную при существующих средствах автоматизации. Возникает потребность в создании системы, позволяющей выполнять автоматическую классификацию информации входного потока и автоматизировать процесс ведения аналитических задач. Программные разработки по автоматической классификации информационных массивов существуют, но они, как правило, лишь частично решают проблему автоматической классификации или ведения аналитических задач и, в основном, жестко привязаны к конкретному языку, конкретным классификаторам или к конкретным аналитическим задачам.

Жесткая привязанность к конкретному языку позволяет осуществить более точный синтаксический, семантический и морфологический анализ для данного языка, но при этом качество обработки информации на других языках оставляет желать лучшего. Средства морфологического анализа могут быть усовершенствованы только на уровне программиста, а настроить разработку на новый язык в большинстве случаев вообще не представляется возможным.

В этой связи актуальной является проблема автоматической классификации входного потока текстовой информации с последующим формированием и ведением тематического анализа и аналитических задач, представляющих собой статистический анализ некоторых промежуточных результатов, полученных в процессе автоматической классификации информации. Предлагается решение проблемы универсальности по отношению к языкам, к классификаторам и к аналитическим задачам и решение по переносу проблем настроек системы на различные режимы работы на пользовательский уровень. Данная диссертационная работа посвящена решению проблемы автоматической классификации и статистического анализа результатов автоматической классификации входного потока текстовой информации.

Степень научной разработанности проблемы автоматической классификации текстовой информации и статистического анализа автоматической классификации. Важность проблемы автоматической классификации и статистического анализа определяется необходимостью обеспечения универсальности данной задачи по отношению к иностранным языкам, к классификаторам и к тематической направленности аналитических задач, решаемых во многих организациях.

Многие теоретические и практические вопросы автоматической классификации текстов и статистического анализа результатов автоматической классификации получили свое решение на достаточно высоком уровне в работах российских специалистов: Белоногова Г. Г., Буркова В. Н., Зеленкова Ю. Г., Новоселова А. П., Хорошилова А. В., Дубинского А. Г., Ермакова А. В. и др., а также ряда зарубежных специалистов: Штейна В., Жоачимса Т. и др.

Несмотря на то, что проблема автоматической классификации текстовой информации представлена на достаточно высоком уровне, предлагаемые разработки не являются универсальными по отношению к иностранным языкам и к стилю изложения текстов. Несмотря на высокий уровень решения задачи автоматической классификации, предлагаемые системы являются практически закрытыми и не имеют возможности настроек на пользовательском уровне на работу с новыми иностранными языками. Отсутствие предложений по методике статистического анализа, позволяющего связывать между собой классы нескольких классификаторов, по ведению многоклассификаторных аналитических задач, универсальных по тематической направленности, а также цельных предложений, связывающих между собой задачи автоматической классификации и статистического анализа, обусловили выбор темы настоящей диссертации.

Основной целью настоящей работы является разработка и программная реализация методов автоматической классификации входного потока текстовой информации и методов ведения тематического анализа и аналитических задач на основе статистического анализа результатов автоматической классификации.

Объектом исследования является ведомственная информационная система.

Предметом исследования являются методы автоматической классификации и статистического анализа информации в информационных системах.

В настоящей диссертационной работе были поставлены и решены следующие задачи:

• сформулировать системный подход к совершенствованию методов автоматического анализа текста;

• определить технические требования к системам автоматической классификации входного потока текстовой информации и к средствам статистического анализа результатов обработки текстов;

• разработать методику автоматической классификации с применением морфологического анализа, универсальную по отношению к различным иностранным языкам и стилю изложения текстов;

• разработать структуру и методику ведения словарей ключевых словосочетаний;

• разработать методы оптимизации поиска без предварительного индексирования обрабатываемого массива текстовой информации;

• разработать методику статистического анализа результатов автоматической классификации текстов и формирования статистических баз данных и аналитических задач;

• разработать методику ведения тематического анализа и аналитических задач с автоматическим определением тематик или фактов, представляющих особый интерес.

Методы исследования. Исследование проводилось путем анализа логико-математических закономерностей морфологии русского языка, анализа структуры существующих словарей и поисковых запросов и логических моделей возможных запросов, математического анализа методики оценки релевантности запросов, путем создания экспериментальных баз данных и разработки экспериментальных вспомогательных программных продуктов, моделирующих научные решения по данной проблеме. Для обоснования предлагаемых научных и технологических решений, для оптимизации работы системы и для решения многих вспомогательных задач широко использовались современные математические методы в области вычислительной математики, теории вероятности, алгебры логики, математической статистики и других областей.

Научная новизна диссертационной работы заключается в следующем:

— разработаны научные и технологические решения по созданию классификационно-аналитической системы, отличающейся от существующих аналогов универсальностью по отношению к языкам, классификаторам и к специфике задач предметного анализа текстовой информации в информационных системах;

— разработана и обоснована структура и методика ведения словарей ключевых словосочетаний с учетом оптимизации по быстродействиюразработана методика статистического анализа результатов автоматической классификации текстов и формирования и ведения статистических баз данных, позволяющая проводить предметный анализ текстов, опирающийся на любой набор классификаторов. Отличительной особенностью данной методики является то, что она позволяет учитывать взаимоотношения классификаторов и систематизирует связи между классами различных классификаторовразработана методика ведения тематического анализа и аналитических задач, позволяющая идентифицировать объекты аналитического учета (действия, события и пр.) по результатам статистических расчетов.

Теоретическая значимость. Предложенная комплексная методика автоматической классификации и статистического анализа является совершенствованием существующих подходов и в дальнейшем может быть расширена и дополнена функциями автоматического и автоматизированного тематического анализа потоков текстовой информации. Структура статистических баз данных, формируемых с помощью предложенной технологии, позволяет ставить и решать большой спектр статистических и математических расчетных задач и задач, связанных с принятием решений, имеющих место в информационных системах. Развитие данной разработки может осуществляться путем дополнения ее новыми решениями в области морфологического, синтаксического и семантического анализа языков, для усовершенствования методов морфологического анализа, разработки методов семантического и синтаксического анализа языков, с последующим предложением решения о принципах ввода правил семантического и синтаксического анализа на пользовательском уровне.

Практическая значимость. Данная разработка может иметь широкий спектр применения для различных предметных областей. Предложенная разработка позволяет формировать текстово-фактографические базы данных, содержащие классифицированную информацию, в автоматическом режиме. На основании результатов классификации имеется возможность формировать аналитические задачи и статистические базы данных по результатам обработки текстов, автоматизировать работу специалистов-аналитиков, осуществляющих тематический анализ текстовой информации и ведение аналитических задач в различных предметных областях, что может послужить функциональным дополнением и развитием информационных систем различных организаций.

Самостоятельное практическое значение имеют:

— методика обработки текстов на различных иностранных языках;

— методика статистического анализа результатов автоматической классификации.

Внедрение и апробация результатов исследования.

Программа автоматической классификации текстовой информации «Автоклассификация» и программа статистического учета данных автоматической классификации, разработанные на основе диссертационного исследования, прошли испытания и успешно внедрены в подсистеме «Центр-МИД» в рамках опытно-конструкторской работы «Центр» Федеральной целевой программы.

Основные результаты работы докладывались на IX Международной научно-практической конференции «Документация в информационном обществе: административная реформа и управление документацией» (Москва, 2004) и на заседании научно-технического совета ФГУП «НИЦИ при МИД России».

Публикации. Основные положения диссертационного исследования отражены в четырех публикациях автора общим объемом 3,5 печатных листа, в том числе две — в журнале, рекомендуемом ВАК России.

Структура и объем диссертации

Диссертация состоит из введения, трех глав, заключения, списка литературы и трех приложений.

Список литературы

включает 99 наименований. Общий объем диссертационной работы 203 страницы, содержащих машинописный текст, 8 рисунков и 34 таблицы.

ЗАКЛЮЧЕНИЕ

В результате диссертационных исследований разработана комплексная методика и ее техническая реализация по решению задачи автоматической классификации и статистического анализа входного потока текстовых сообщений. Задачи автоматической классификации и статистического анализа являются основными составными компонентами обработки текстов. Предлагаемые научные и технические решения обеспечивают как полноту, так и универсальность по отношению ко многим иностранным языкам и по отношению к классификаторам. Модульный принцип построения системы допускает как частичное использование возможностей предлагаемых программных продуктов, так и их доработку и модернизацию, путем замены отдельных блоков на более совершенные разработки.

Предлагаемое решение задачи автоматической классификации имеет три составляющих: морфологический анализ, ведение и индексирование словарей ключевых словосочетаний и критерии принятия решения о присвоении текстам «соответствующих классов.

Реализован морфологический анализ текстов, основанный на использовании таблиц морфологического анализа, что позволяет на уровне продвинутого пользователя настраивать систему без вмешательства разработчиков на новые иностранные языки. Основными действиями анализа являются побитовые конъюнкции — действия низкого уровня, которые выполняются вычислительными машинами гораздо быстрее, чем обычные арифметические действия, что значительно ускоряет процесс обработки текстов.

Предлагаемая методика ведения и индексирования словарей ключевых словосочетаний позволила вводить данные, эквивалентные контекстным поисковым запросам любой логической сложности, что доказано в настоящей работе. В работе приведено математическое обоснование предлагаемой структуры ключевых словосочетаний. Предлагаемая структура ключевых словосочетаний поддерживает также и обычные простые запросы.

Индексирование словарей выполнено с использованием методов оптимизации поиска с учетом того, что обработка текстовой информации выполняется с неиндексированными текстовыми массивами. В индексных файлах содержатся данные предварительного морфологического анализа ключевых слов словосочетаний, что сокращает количество операций при выполнении анализа текстов. Структура и взаимосвязь шести индексных файлов позволяют сократить до минимума количество операций сравнения слов при обработке текстов, что также значительно повышает быстродействие программы.

При принятии решения о присвоении > обрабатываемого текста соответствующего класса рассчитываются предварительные данные статистического анализа. Это позволяет в процессе однократного прочтения обрабатываемого текста собрать все необходимые данные об этомтексте. Параметры настроек, вынесенные на пользовательский уровень, позволяют настраивать программу на обработку текстов разного стиля изложения, с использованием различных классификаторов, что обеспечивает универсальность предлагаемого решения по отношению к классификаторам и к стилю изложения материала в обрабатываемых текстах.

При формировании статистических баз данных, аналогия элементарной статистической записи, связывающей два класса, дату и обрабатываемый документ, и бухгалтерской проводки послужила основанием к использованию веками отработанной методики бухгалтерского учета для статистического анализа. За основу структуры взаимосвязи статистических отчетов взята журнально-ордерная форма ведения бухгалтерского учета. За основу структуры статистической базы данных взята мемориально-ордерная форма бухгалтерского учета, по аналогии с самыми популярными программными продуктами по ведению бухгалтерского учета «1С — бухгалтерия» и «ИнфоБухгалтер». Предложенная структура статистической базы данных оптимизирована для проведения статистических расчетов. В настоящей работе предложен вариант адаптации методики бухгалтерского учета к постановке и ведению аналитических задач, строящихся на любом количестве классификаторов, начиная с двух. Предложенный анализ документов по их значимости позволяет специалистам аналитикам получать наиболее интересные материалы для целей текущей аналитической задачи без предварительного поиска. Методика построения представлений статистики наглядно указывает специалистам, на какие объекты учета и материалы следует обратить внимание, что снижает влияние различных человеческих факторов.

Предложенная методика автоматической классификации и статистического анализа может быть использована для различных задач предметного анализа потока текстовой информации. В Министерстве иностранных дел опробована методика для анализа сообщений средств массовой информации на предмет кризисных ситуаций, террористических акций и антитеррористических мероприятий. Несмотря на сложную постановку аналитической задачи и на использование значительного количества классификаторов, были получены результаты, позволяющие отслеживать ситуацию в различных странах мира. Универсальность предлагаемого решения по отношению к классификаторам и аналитическим задачам позволяют рассмотреть возможность об использовании описанных в настоящей работе программных продуктов для задачи анализа проблем мирового океана и других аналитических задач, решаемых в Министерстве иностранных дел Российской Федерации.

Показать весь текст

Список литературы

Айвазян С.А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989.
Алексенцев А.И. Автоматизация делопроизводства. М.: ЗАО Бизнес-школа «Интел-синтез», 2004.
Андреев A.M., Березкин Д. В., Сюзев В. В., Шабанов В. И. Модели и методы автоматической классификации текстовых документов // Вестник МГТУ. Сер. Приборостроение. М.: Изд-во МГТУ, 2003.- № 3.
Андронов A.M., Копытов Е. А., Гринглаз Л. Я. Теория вероятностей и* мат. • статистика. — С-Пб.: Питер, 2004. ^
Артемьева Е. Правила русского языка. Справочник. М.: Мартин, 2007.
Астапов Ю.М., Медведев B.C. Статистическая теория систем автоматического регулирования и управления. М.: Наука, ГРФМЛ, 1982.
Ахметов И. Поиск подстрок с помощью конечных автоматов : Курсовая 1 работа.- С-Пб. Государственный университет информационных технологий, механики и оптики.
Ахо А. Структура данных и алгоритмы. М.: Издательский дом «Вильяме», 2000.
Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции. Т.1. Синтаксический анализ. М: Мир, 1978.
Баглей С.Г., Антонов Л. В., Мешков B.C., Суханов Л. В. Кластеризация документов с использованием метаинформации // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006». М., 2006.
Бакина С.И., Злобина Л. В., Исаева И. А., Исаев С. П. Самоучитель по бухучету. — М.: Бератор, 2004.
Баркалов С.А., Бурков В. Н., Воропаев В. И. Математические основы управления проектами. -М.: Высшая школа, 2005.
Белоногов Г. Г., Гиляревский Р. С., Козачук М. В., Новоселов А. П., Хорошилов А. А. Автоматическая классификация текстов // Сборник «Научно-техническая информация». Сер.2, М.: ВИНИТИ, 2001.-№ 1.
Белоногов Г. Г., Зеленков Ю. Г. Еще раз о принципе аналогии в морфологии //НТИ. Сер. 2., 1995, № 3.
Белоногов Г. Г., Зеленков Ю. Г., Новоселов А. П., Хорошилов А. В. Автоматизация обработки текста. // Научно-технический сборник. Сер. 2, выпуск 1. М.: ВИНИТИ, 2000.
Белоногов Г. Г., Кузнецов Б. А. Языковые средства автоматизированных информационных систем. — М.: Наука, 1983.
Белоногов Г. Г. Об использовании принципа аналогии при автоматической обработке текстовой информации // Проблемы кибернетики, 1974, № 28.
Белоусов А. Дискретная математика. М.: Издательство МГТУ им. Н. Э. Баумана, 2001.
Брайан К. Практика программирования.- С-Пб., Невский диалект, 2001.
Браславский П.И., Вовк Е. А., Маслов М. Ю. Фасетная организация интернет-каталога и автоматическая жанровая классификация документов. -М.: Наука, 2002.
Бурков В.Н., Заложнев А. Ю., Новиков Д.А.Теория графов в управлении организационными системами. -М.: Синтег, 2001.
J Ветров Д. П., Кропотов Д. А. Алгоритмы выбора моделей и построения коллективных решений' в задачах классификации, основанные на принципе устойчивости. -М.: КомКнига, 2006.
Вирт Н. Алгоритмы и структуры данных.- М.: Мир, 1989.
Гаврилова Т.А. Базы знаний интеллектуальных систем. С-Пб.: Питер, 200 Г.
Гайдамакин Н.А. Автоматизированные информационные системы, базы и банки данных. М.: Гелиос АРВ, 2002.
Галеев Э.М. Оптимизация. Теория, примеры, задачи (2 изд). М.: КомКнига, 2006.
Голанов И.Г. Морфология современного русского языка. М.: Академия, 2007.
Грешилов А.А. Математические методы принятия решений. М.: Издательство МГТУ им. Н. Э. Баумана, 2006.
Григорьев С.В. Автоматизация документооборота. / Под ред. В. А. Федоовой и др. М.: Технология, 2004.
Джонс Т.М. Программирование искусственного интеллекта в приложениях. М.: ДМК-Пресс, 2006.
Добров Б.В., Лукашевич Н. В., Автоматическая рубрикация полнотекстовых документов по классификаторам сложной структуры // Восьмая национальная конференция по искусственному интеллекту. Коломна- 20 021
Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. 2001, № 4.
Дягилева А.В., Киселев С. Л., Сомин Н. В. Статистическая модель1, рубрикации текстов на примере сообщений СМИ. «Дистанционное образование» 1998, № 7, с. 16−21
Емельянова Н.З., Партыка Т. Л., Попов. И. И. Основы, построения информационных систем. М.: Инфра-М, 2007.
Ермаков А.Е., Плешко В. В. Ассоциативная модель порождения текста в задаче классификации. // Информационные технологии. 2000. — N 12.
Ермаков А.Е., Плешко В. В. Синтаксический разбор в системах статистического анализа текста. // Информационные технологии. 2002, № 7.
Ермаков А.Е. Полнотекстовый поиск: проблемы и их решение // Мир ПК. -2000, № 5.
Ермаков А.Е. Проблемы полнотекстового поиска и их решение. // Мир ПК. -2001, № 5.
Ермаков А.Е., Плешко В. В. Тематическая навигация в полнотекстовых базах данных. // Мир ПК. 2001, № 8.
Загорулько Ю.А., Кононенко И. С., Сидорова Е. А., КостовЮ.В. Подход к интеллектуализации документооборота // «Информационные технологии», 2004, № 11.
Зарецкий Д-А. Дистрибутивно-статистический метод установления парадигматических отношений между понятиями // Вопросы информационной теории и практики. — 1989, № 58.
Журавлев Ю.И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006.
Клини С.К. Математическая логика (3 изд). М.: Едиториал-УРСС, 2005.
Когаловский М.Р. Перспективные технологии информационных систем. — М.: ДМК Пресс, 2003.
Когаловский М.Р. Энциклопедия технологий баз данных. М.: Финансы и статистика, 2002.
Костюкова Н.И. Графы и их применение. Комбинаторные алгоритмы для программистов. М.: Бином, 2007.
Кормен Т. Алгоритмы: построение и анализ / Т. Кормен, Ч. Лейзерсон, Р. Ривест М.: МЦНМО, 2002.
Котляров В.П., Коликова Т. В. Основы тестирования программного обеспечения. -М.: Бином, 2006.
Кузнецов С.В., Титов В. В. «Классификация: системно-морфологический подход», М., РНЦ «Курчатовский институт», препринт ИАЭ-6075/1, 1998.
Кузнецов С.Д. Основы баз данных. Курс лекций. М.: Интернет-университет информационных технологий, 2005.
Лаптев В., Митченко И., Щербакова М. Практическая работа в 1С бухгалтерии 7.7. М.: 1С-Паблишинг, 2007.
Левин М.Д. Методы поиска информации в Интернет. М.: Солон-Пресс, 2003.
Леоньтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы. М.: Издательский центр «Академия», 2006.
Лукас В.А. Теория автоматического управления. М.: «Недра», 1990.
Люгер Д.Ф. Искусственный интеллект. Стратегии и методы решения сложных проблем. -М.: Издательский дом «Вильяме», 2005.
Макальская М.Л., Денисов А. Ю. Самоучитель по бухгалтерскому учету. — М.: АО «ДИС», 1996.
Малыхина М.П. Базы данных. Основы, проектирование, использование (2 изд). С-Пб.: БХВ-Петербург, 2004.
Мартин Дж. Организация баз данных в вычислительных системах. М.: Мир, 2000.
Месарович М., Мако Д., Такахара И. Теория иерархических многоуровневых систем. М.: Мир, 1973.
Михайлов А.И., Черный А. И., Гиляревский Р. Э. Основы информатики. М.: Наука, 1978.
Могилев А.В. Информация и информационные процессы. Социальная информатика. С-Пб.: БХВ-Петербург, 2006.
Модин А.А. Основы разработки и развития АСУ. М.: Наука. 1981.
Мышкис А.Д. Элементы теории мат. моделей (3 изд). М.: КомКнига, 2006.
Наголкин А.Н. Алгебра логики в золотом сечении. М.: Макс Пресс, 2006
Новоселов А.П., Хорошилов А.А.-Алгоритм автоматической/нормализации слов // Вопросы информационной теории и практики. 1985, № 53.
Оре О. Графы и их применение (3 изд). М.: КомКнига, 2006.
Панин В.В. Основы теории информации. М.: Бином, 2007.
Перепелкин Е.А. Модель баланса ориентированного графа // Информационные технологии. — 2004, № 10, с. 19−24.
План счетов бух. учета фин.-хоз. деятельности организации и Инструкции по его применению (2 изд) / Под ред. Бакаева А. С. Mi: Юрайт-Издат, 2004.
Половко A.M., Бутусов П. Н. Интерполяция. Методы и компьютерные технологии их реализации. С-Пб.: БХВ-Петербург, 2006.
Половко A.M. Основы теории надежности М.: Наука, 1964.
Попов И.И. Информационные ресурсы и системы: реализация, моделирование, управление: Монография. М.: ТПК Альянс, 1996.
Просцевичюс В.Э. Все правила современного русского языка. Ростов-на-Дону: Баро-пресс, 2007.
Протасов К.В. Статистический анализ экспериментальных данных.- М.: Мир, 2005.
Раскин Д. Интерфейс. Новые направления в проектировании компьютерных систем. С-Пб.: Символ-Плюс, 2005.
Роб П., Коронел К. Системы баз данных. Проектирование, реализация и управление. С-Пб.: БХВ-Петербург, 2004.
Росин М.Ф., Булыгин B.C. Статистическая- динамика и теория эффективности систем управления. М.: Машиностроение, 1981.
Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. -М.: Наука, 1989.
Рыжиков Ю.И. Вычислительные методы. С-Пб.: БХВ-Петербург, 2004.
Сегалович И., Маслов М. Русский морфологический анализ и синтез с генерацией моделей словоизменения для не описанных в словаре форм. Казань: ООО «Хэтер», 1998.
Советов Б.Я., Цехановский В. В., Чертовский В. Д. Базы данных. Теория и практика (2 изд). М.: Высшая школа, 2005.
Стассман Поль А. Информация в век электроники: (Проблемы управления): Пер. с англ. с сокр. / науч. ред. и авт. предисл. Б. З. Мильнер. М.: Экономика, 1987.
Сулицкий В.Н. Методы статистического анализа в управлении. М.: Дело, 2002.
Тейз А., Грибомон П., Юлен Г. и др. Логический подход к искусственному интеллекту. От модальной логики к логике баз данных: Пер. с франц. М.: Мир, 1998.
Теслер Г. С. Интенсификация процесса вычислений // Математические машины и системы.- 1999, № 2.
Теслер Г. С. Новая кибернетика.- Киев: Логос, 2004.
Торрес Р. Дж. Практическое руководство по проектированию и разработке пользовательского интерфейса. Пер. с англ. — С-Пб.: Вильяме, 2002.
Федоров А.Г. Базы данных. М.: КомпьютерПресс, 2001.
Хапаева Т. Автоматическая классификация документов // Софтерра. — 2002, № 2
Харламов А.А. Ассоциативный процессор на основе нейроподобных элементов для структурной обработки информации. // Информационные технологии. 1997, № 8
Харрингтон Джен JI. Проектирование реляционных баз данных. М.: Лори, 2006.
Шайкевич А.Я. Дистрибутивно-статистический анализ в семантике. Принципы и методы семан тических исследований. —М.: Наука, 1976.
Шень А. Программирование: теоремы и задачи. М.: Московский центр непрерывного математического образования, 1995.
Ширяев В.И. Исследование операций и численные методы оптимизации (2 изд). М.: КомКнига, 2006.
Якубайтис Э.А. Информатика-электроника-сети. М.: Финансы и статистика, 1989.
Joachims Т., Learning to Classify Text using Support Vector Machines, Kluwer/Springer, 2002.
Joachims Т., Making Large-scale support vector machines learning practical // Advances in Kernel Methods: Support Vector Machines / B.Scholkopf. C. Burges, A. Smola (eds.) MIT Press: Cambrige, MA — 1998.
Kurtz St. Fundamental Algorithms For A Declarative Pattern Matching System. -Bielefeld:. Universitat Bielefeld, 1995.
Stein В., Meyer zu Eissen S. Document Categorization with MajorClust // Proceedings of the 12th
Stein В., Niggemann O. On the Nature of Structure and its Identification // P. Widmayer, G. Neyer, S. Eidenbenz (eds.). Graph-Theoretic Concepts in Computer Science. LNCS 1665. Springer-Verlag, 1999.
Примерная схема процесса обработки входного потока текстов
Таблицы морфологического анализа

Заполнить форму текущей работой