Помощь в написании студенческих работ
Антистрессовый сервис

Разработка и исследование метода классификации библиографической текстовой информации

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Для автоматизации процесса отслеживания и обработки публикаций на Internet-сайтах, увеличения его эффективности необходимо применение методов интеллектуального анализа и обработки текстовой информации (Text Mining). Одним из важных и наиболее эффективных направлений обработки и анализа текстовой информации является классификация. Классификация текстовой информации заключается в разбиении набора… Читать ещё >

Разработка и исследование метода классификации библиографической текстовой информации (реферат, курсовая, диплом, контрольная)

Содержание

  • ГЛАВА 1. ОБЗОР МЕТОДОВ КЛАССИФИКАЦИИ ТЕКСТОВОЙ ИНФОРМАЦИИ И ПОСТАНОВКА ЗАДАЧИ ИССЛЕДОВАНИЯ
    • 1. 1. Интеллектуальный анализ текстовой информации
    • 1. 2. Характерные особенности обработки текстовой информации
    • 1. 3. Модели представления документов в задачах текстовой классификации
    • 1. 4. Полнотекстовые и библиографические (реферативные) научно-технические документы
    • 1. 5. Процесс классификации текстовой информации
      • 1. 5. 1. Предварительная обработка текстовых документов
      • 1. 5. 2. Математические модели текстовых документов
      • 1. 5. 3. Индексация текстовых документов
      • 1. 5. 4. Сокращение размерности в задачах классификации текстовых документов
      • 1. 5. 5. Оценка качества классификации
    • 1. 6. Обзор методов классификации текстовой информации
    • 1. 7. Сравнительный анализ методов классификации текстовой информации
  • Выводы
  • ГЛАВА 2. РАЗРАБОТКА МОДИФИЦИРОВАННОГО МЕТОДА БЛИЖАЙШЕГО СОСЕДА
    • 2. 1. База данных библиографических документов Compendex
      • 2. 1. 1. Методика формирования обучающей и тестовой выборок с помощью БД Compendex
      • 2. 1. 2. Формирование выборок для исследований
    • 2. 2. Метод аг-ближайших соседей
    • 2. 3. Модификации метода аг-ближайших соседей
      • 2. 3. 1. Редуцированные методы ближайшего соседа
      • 2. 3. 2. Модифицированные методы ближайшего соседа
    • 2. 4. Разработка модифицированного метода ближайшего соседа
      • 2. 4. 1. Алгоритм модифицированного метода ближайшего соседа
      • 2. 4. 2. Исследование влияния количества и месторасположения опорных точек на ошибку и время классификации ММБС
    • 2. 5. Сравнительный анализ ММБС и МБС (МагБС)
  • Выводы
  • ГЛАВА 3.
  • ГЛАВА 3. ИССЛЕДОВАНИЕ МОДИФИЦИРОВАННОГО МЕТОДА БЛИЖАЙШЕГО СОСЕДА. i 3.1 Факторы, влияющие на ошибку и время классификации
    • 3. 1. 1. Выделение информативных признаков
    • 3. 1. 2. Исследование влияния длины обучающей выборки на ошибку и время классификации
    • I. ® 3.1.3 Исследование влияния меры определения близости между документами на
    • I. ошибку и время классификации
      • 3. 1. 4. Исследование влияния количества классов в выборке на ошибку и время классификации
      • 3. 2. Сравнение ошибки классификации различными методами
  • Выводы
    • ГЛАВА 4. РАЗРАБОТКА ПРОГРАММНОГО КОМПЛЕКСА ДЛЯ АВТОМАТИЧЕСКОГО ОТСЛЕЖИВАНИЯ ПУБЛИКАЦИЙ НА INTERNET-САЙТАХ НАУЧНО-ТЕХНИЧЕСКИХ ЖУРНАЛОВ
  • 4. 1. Разработка программного комплекса классификации библиографических текстовых документов «СКАТ» (Система Классификации и Анализа Текста)
    • 4. 1. 1. Функциональные возможности разработанного ПО
  • 4. 2. Методика использования ПК «СКАТ» для классификации библиографических статей из научно-технических журналов
    • 4. 2. 1. Формирование обучающей выборки и обучение классификатора
    • 4. 2. 2. Отбор журналов, публикующих статьи по интересующим пользователя предметным областям
    • 4. 2. 3. Пополнение базы данных и автоматическая классификация статей
    • 4. 2. 4. Просмотр статей
  • 4. 3. Использование ПК «СКАТ» для классификации библиографических документов из научно-технических журналов
  • 4. 4. Использование ПК «СКАТ» в учебном процессе
  • Выводы
  • Актуальность проблемы. При проведении научных исследований одной из основных задач, которая стоит перед специалистом, является своевременное получение информации об изменениях в интересующей его предметной области. Для решения этой задачи необходимо постоянно отслеживать публикации в специализированных журналах, просматривать материалы конференций. До недавнего времени эти действия приходилось выполнять вручную. Однако с развитием сети Internet значительно расширились возможности специалистов получать ценные сведения по научно-технической проблематике, используя специализированные ресурсы, такие как виртуальные библиотеки, электронные версии профильных журналов и конференций, сайты университетов и т. д. Таким образом, сегодня отслеживать публикации можно не выходя из дома с помощью компьютера и программы просмотра Internet-сайтов.

    Необходимо отметить, что в настоящее время существует значительное число специализированных научно-технических Internet-pecypcoB и со временем их количество будет только увеличиваться. Поиск и анализ релевантной (соответствующей запросу) информации уже сейчас требует больших временных затрат со стороны исследователя.

    Для автоматизации процесса отслеживания и обработки публикаций на Internet-сайтах, увеличения его эффективности необходимо применение методов интеллектуального анализа и обработки текстовой информации (Text Mining). Одним из важных и наиболее эффективных направлений обработки и анализа текстовой информации является классификация. Классификация текстовой информации заключается в разбиении набора документов на группы с целью обеспечения максимальной «близости» документов одной группы и максимального различия между группами. В качестве меры «близости «обычно используются метрики расстояния: евклидова метрика, квадрат евклидовой метрики, манхэттенское расстояние, метрика Чебышева и др.

    Важной особенностью является то, что на сайтах журналов и конференций обычно находятся не полные тексты статей и докладов, а только их краткие описания (при этом полные тексты доступны только за деньги). Такие документы принято называть библиографическими. Как правило, библиографические научно-технические документы состоят из названия, фамилий авторов, краткого описания (аннотации) и ключевых слов. При этом библиографические научно-технические документы представляют сжатое изложение полнотекстового документа, его квинтэссенцию.

    В настоящее время разработано значительное количество методов классификации текстовой информации, использующих ряд положений теории вероятностей, математической статистики, систем искусственного интеллекта. Многие из них требуют выполнения большого числа нереалистичных предположений, громоздки, требуют сложной процедуры обучения и настройки собственных параметров и далеко не всегда проходят проверку практикой. Необходимо также отметить, что большинство известных методов не способны проводить группировку документов с малой ошибкой и с высоким быстродействием и при этом быть легко обучаемыми и дообучае-мыми. Вместе с тем для ряда практических задач обработки больших массивов информации (в частности, при обработке и анализе потока научных публикаций на сайтах журналов и конференций) представляется необходимым разработка такого метода классификации, который обеспечивал бы высокое быстродействие без существенного увеличения ошибки классификации, был бы несложным для обучения и дообучения, представлял бы легко интерпретируемые результаты.

    Использование поисковых систем Internet для отслеживания публикаций невозможно по той причине, что поисковые системы лишь облегчают поиск необходимой информации, а анализ полученных результатов (в частности классификация) по-прежнему возлагается на исследователя. На рынке программного обеспечения представлено значительное количество программных пакетов, в число основных функций которых входит классификация текстовой информации, однако применять эти программы для решения задачи отслеживания электронных публикаций проблематично, т.к. большинство программных продуктов не ориентированы на обработку библиографических научно-технических документов. Кроме того, большие программные продукты обладают излишней функциональностью и дорогостоящи. Таким образом, на данный момент не существует программного обеспечения, которое можно напрямую использовать для автоматического отслеживания библиографических публикаций на Internet-сайтах журналов. Следовательно, актуальной представляется задача разработки программного комплекса для автоматизации процесса получения и обработки научных публикаций с Internet-сайтов журналов по заданным пользователем предметным областям.

    Целью диссертационной работы является разработка и исследование метода, который ориентирован на решение задачи классификации библиографических документов, расположенных на Internet-сайтах научно-технических журналов, обеспечивает малое время классификации и ошибку, сопоставимую с ошибкой известных методов.

    В соответствии с указанной целью были определены следующие задачи исследования.

    1. Проведение обзора и сравнительного анализа существующих методов классификации текстовых документов. Выявление характерных особенностей классификации библиографических текстовых документов по научно-технической проблематике.

    2. Разработка метода классификации библиографических текстовых документов, обеспечивающего малое время классификации и ошибку классификации, сопоставимую с ошибкой других известных методов.

    3. Исследование характеристик разработанного метода на различных выборках из библиографических текстовых документов и проведение сравнительного анализа с известными методами.

    4. Разработка программного комплекса (ПК) для проведения классификации библиографических текстовых документов и составление методики, позволяющей использовать разработанный ПК для обработки и анализа библиографических документов на Internet-сайтах научно-технических журналов.

    Методы исследования. Полученные в диссертации результаты основываются на применении аппарата теории вероятностей, математической статистики, численных методов, линейной алгебры, вычислительной геометрии.

    Научная новизна.

    1. Разработан новый метод классификации библиографических текстовых документов — модифицированный метод ближайшего соседа, основанный на методе ближайшего соседа, в котором с целью увеличения быстродействия предложено ввести опорные точки.

    2. Обосновано количество и месторасположение опорных точек, даны рекомендации по выбору настраиваемых параметров в разработанном методе.

    3. Получена оценка количества вычислительных операций, необходимых для классификации библиографических текстовых документов с помощью разработанного метода и показано, что он требует меньшего количества вычислительных операций по сравнению с прототипом (методом ближайшего соседа).

    4. Выявлено влияние способа взвешивания терминов, меры близости между документами, длины документа, длины выборки и количества классов на ошибку и время классификации разработанного метода.

    5. На основе сравнительного анализа ошибок классификации разработанного метода с ошибками известных методов показано, что при существенном снижении времени классификации (по сравнению с прототипом) ошибка разработанного метода остается сопоставимой с ошибками известных методов.

    Практическая ценность результатов.

    1. Разработан ПК «СКАТ» («Система классификации и анализа текста»), реализующий предложенный в диссертации метод классификации.

    2. Для обоснования выбора наиболее эффективного метода (для решения конкретной задачи) в ПК «СКАТ» реализованы также другие методы (метод-ближайших соседей, метод центроидов и наивный байесовский метод).

    3. Разработанный ПК «СКАТ» позволяет пользователям получать и обрабатывать в автоматизированном режиме библиографические текстовые документы с Internet-сайтов электронных журналов.

    4. ПК «СКАТ» ориентирован на использование широким кругом пользователей, не имеющих специальных знаний в области теории классификации и программирования.

    5. Теоретические результаты и опыт использования ПК «СКАТ» в экспериментальных исследованиях обобщены в методике использования данного ПК для классификации библиографических документов из научно-технических журналов, получаемых из сети Internet.

    Реализация результатов. Разработанный ПК «СКАТ» внедрен в эксплуатацию в Федеральном государственном учреждении Научно-исследовательском институте «Республиканский исследовательский научно-консультационный центр экспертизы» (ФГУ НИИ РИНКЦЭ) для автоматазированного получения и классификации англоязычных публикаций по профильным научно-техническим тематикам с сайтов электронных издательств, что подтверждается актом о внедрении.

    Апробация работы. Материалы диссертации докладывались на трех международных конференциях «Информационные средства и технологии» (в 2001, 2002, 2003 гг. Москва, МЭИ) и на четырех научных сессиях МИФИ (2002, 2003, 2004,2005 гг. Москва, МИФИ).

    Публикации. Основные результаты исследований опубликованы в 11 печатных работах.

    Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 102 наименований. Диссертация изложена на 125 страницах основного текста, содержит 31 рисунок и 5 таблиц.

    Основные результаты работы состоят в следующем:

    1. Проведен обзор и сравнительный анализ наиболее распространенных и эффективных методов классификации текстовых документов. Показано, что в настоящее время не существует методов, одновременно обеспечивающих малое время классификации, малую ошибку классификации, высокую скорость обучения, простоту реализации, легкую интерпретацию результатов на различных выборках текстовых документов.

    2. Разработан новый метод классификации библиографических текстовых документов — модифицированный метод ближайшего соседа, основанный на методе ближайшего соседа, в котором с целью увеличения быстродействия предложено ввести опорные точки. Обосновано количество и месторасположение опорных точек, даны рекомендации по выбору настраиваемых параметров в разработанном методе.

    3. Получена оценка количества вычислительных операций, необходимых для классификации библиографических текстовых документов с помощью разработанного метода и показано, что он требует меньшего количества вычислительных операций по сравнению с прототипом (методом ближайшего соседа).

    4. На основе сравнительного анализа ошибок классификации разработанного метода с ошибками известных методов показано, что при существенном снижении времени классификации (по сравнению с прототипом) ошибка разработанного метода остается сопоставимой с ошибками известных методов.

    5. Разработан ПК «СКАТ» («Система классификации и анализа текста»), реализующий предложенный в диссертации метод классификации. Для обоснования выбора наиболее эффективного метода (для решения конкретной задачи) в ПК «СКАТ» реализованы также другие методы (метод-ближайших соседей, метод центроидов и наивный байесовский метод). Разработанный ПК позволяет пользователям получать и обрабатывать в автоматизированном режиме библиографические текстовые документы с Internet-сайтов электронных журналов и ориентирован на широкий круг пользователей, не имеющих специальных знаний в области теории классификации и программирования.

    6. Теоретические результаты и опыт использования ПК «СКАТ» в экспериментальных исследованиях обобщены в методике использования данного ПК для классификации библиографических документов из научно-технических журналов, получаемых из сети Internet.

    Заключение

    .

    Показать весь текст

    Список литературы

    1. A. Akkus, Н.А. Guvenir. к Nearest Neighbour Classification on Feature Projections. 1. Proceedings of SDAIR-94, 3rd annual symposium on Document Analysis and Information Retrieval, 1994, pp.126−138.
    2. C. Chang. Finding Prototypes for Nearest Neighbour Classifiers. IEEE.: IEEE Transactions on Computers, Volume C-23, Number 11, 1974, pp. 11 791 184
    3. C. Papadimitriou, J.L. Bently. A Worst-Case Analysis of Nearest Neighbor Searching by Projection. Automata Languages and Programming, Volume 85, 1980, pp. 470−482.
    4. D. Lewis, M. Ringuette. A Comparison of Two Learning Algorithms for Text Categorization. In Proceedings of SDAIR-94 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, 1994, pp. 81−93
    5. D. Wettschereck. A Hybrid Nearest-Neighbour and Nearest-Hyperrectangle Algorithm. Machine Learning, 9, 1995, pp.5−28.
    6. E. Han, G. Karypis, V. Kumar. Text Categorization Using Weight Adjusted k-Nearest Neighbour Classification. Proceedings of PAKDD-01, 5th Pacific-Asia Conference on Knowledge Discovery and Data Mining (Hong Kong, CN, 2001), pp. 53−65.
    7. E. Han, G. Karypis. Centroid-Based Document Classification: Analysis and Experimental Results. University of Minnesota, Minneapolis, Technical report: #00−017, 2000, pp. 1−15.
    8. E. Wiener, J.O. Pedersen, A.S. Weigend. A neural network approach to topic sorting. In Proceedings of SDAIR-95, 4th annual symposium on Document Analysis and Information Retrieval, 1995, pp.317−332.
    9. F. Sebastiani. A Tutorial on Automated Text Categorization. In A. Amandi and
    10. R. Zunino Eds., Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence (Buenos Aires, AR, 1999), pp. 7−35.
    11. G.L. Ritter, H.B. Woodruff, S.R. Lowiy, T.L. Isenhour. An Algorithm for a Selective Nearest Neighbour Decision Rule. IEEE. IEEE Transactions on Information Theory, volume IT-21, Number 6, 1975, pp. 665−669.
    12. H. Neimann, R. Goppert. An Efficient branch-and-bound nearest neighbour classifier. Pattern Recognition Letters, Volume 7, 1988, pp. 67−72.
    13. K. Aas, L. Eikvil. Text Categorisation: A Survey. Technical report, Norwegian Computer Center, 1999.
    14. M.A. Wani. SAFARI: A Structured Approach for Automatic Rule Induction. IEEE. IEEE Transactions on Systems, Man and Cybernetics. Volume 31, Number 4, 2001, pp 650−657.
    15. S. Berchtold, B. Ertl, D. Keim, H.P. Kriegel, T. Seidl. Fast Nearest Neighbour Search in High-dimensional Space. In Proceedings of 14th conference on data engineering, 1998, pp.121−130
    16. T. Joachims. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. ECML-98, 1998, pp. 137−142.
    17. V. Lashkia, S. Aleshin. Test Feature Classifiers: Performance and Applications. IEEE. IEEE Transactions on Systems, Man and Cybernetics. Volume 31, Number 4, 2001, pp 643−649.
    18. Y. Jung, H. Park, D.Z. Du. An Efficient Term-Weighting Scheme for Information Retrieval. In Proceedings of ICCPOL-99, 18th International Conference on Computer Processing of Oriental Languages (Tokushima, JP, 1999), pp. 153−158.
    19. Y. Yang, C. Chute. An Applications of Least Squares Fit Mapping to Text Information Retrieval. Proceedings of the 16th Annual Information ACM SIGIR Computer Science on Research and Development in Information Retrieval, 1993, pp. 281−290.
    20. Y. Yang, C.G. Ghute. An Example-Based mapping method for text categorization and retrieval. ACM Transactions on Information Systems. Volume 12, Number 3, 1994, pp.252−277.
    21. Y. Yang, J.O. Pedersen. A Comprehensive Study on Feature Selection in Text Categorization. In Proceedings of ICML-97, 14th International Conference on Machine Learning, 1997, pp. 412−420.
    22. Y. Yang, S. Slattery, R. Ghani. A Study of Approaches to Hypertext Categorization. Journal of Intelligent Information Systems, 18. 2002, pp. 1−25.
    23. Y. Yang, X. Liu. A re-examination of text categorization methods. Proceedings of SIGIR-99, 22nd ACM International Conference on Research and Development in Information Retrieval (Berkeley, US, 1999), pp. 42−49. ACM Press, New York, US.
    24. Y. Yang. An Evaluation of Statistical Approaches to Text Categorization. Kluwer Academic Publishers, Information Retrieval, 1(1−2), pp. 69−90, 1999.
    25. Y. Yang, J. P. Pedersen. Feature Selection in Statistical Learning of TextiL m
    26. Categorization. In the 14 International Conference of Machine Learning, pp. 412−420, 1997.
    27. Victor Fresno, Angela Ribero. An Analytical Approaches to Concept Extraction in HTML Environments. Journal of Intelligent Information Systems, Volume 22, Number 3, 2004, pp. 213−236. Kluwer Academic Publishers.
    28. Darmendra S. Modha, W. Scott Spangler. Feature Weighting in k-Means Clustering. Machine Learning, volume 52, Number 3,2003, pp. 217−236.
    29. Рэй Э. Изучаем XML. СПб.: Символ-плюс. 2001.
    30. Спенсер YI.XML. Проектирование и реализация. М.: Лори. 2001.
    31. Кэй. М. XSLT. Справочник программиста (2-е издание). СПб.: Символ-плюс. 2002.
    32. S. Cost, S. Salzberg. A Weighted Nearest Neighbor Algorithm for Learning with Symbolic Features. Machine Learning, 10(1), 1993.
    33. Peter E. Hart. The condensed nearest neighbor rule. IEEE Transactions on Information Theory, IT-14:515−516, May 1968.
    34. Gates, G.W. The Reduced Nearest Neighbour Rule. IEEE Transactions on1. formation Theory 18, pp. 431−433.
    35. T. Roos. Dynamic Vorony Diagrams. Ph. D. Thesis. University of Wurz-burg. 1991.
    36. Б. Дюран, П. Оделл. Кластерный анализ. М.: Статистика, 1977
    37. В.В. Корнеев, А. Ф. Гареев, С. В. Васютин, В. В. Райх. Базы данных. Интеллектуальная обработка информации. — М.: Нолидж, 2001.
    38. В.Д. Байков. Интернет: Поиск информации и продвижение сайтов. — СПб.: БХВ-Петербург, 2000.
    39. Т Ault, Y. Yang. kNN, Rocchio and Metrics for Information Filtering. In Proceedings of the TREC-10.
    40. И.В. Некрасов., В. О. Толчеев. Разработка программного комплекса для классификации текстовых документов. Международная конференция «Информационные средства и технологии» том 2. М. Станкин, 2002, стр. 160−163.
    41. И.В. Некрасов., В. О. Толчеев. Современные средства поиска, обработки и анализа текстовой информации. Вестник МЭИ. М. МЭИ, 2002, стр. 52−55.
    42. И.В. Некрасов., В. О. Толчеев. Информационно-поисковая система для обработки научно-технческой информации. Международная конференция «Информационные средства и технологии» том 1. М. Станкин, 2001, стр. 114−117.
    43. И.В. Некрасов., В. О. Толчеев. Модифицированный метод ближайшего соседа с использованием опорных точек для классификации текстовых документов. Вестник МЭИ. М. МЭИ, 2004, стр. 76−81.
    44. И.В. Некрасов., В. О. Толчеев. О выборе опорных точек в модифицированном методе ближайшего соседа. Международная конференция «Информационные средства и технологии» том 2. М. Станкин, 2003, стр. 202 204.
    45. И.В. Некрасов., В. О. Толчеев. Разработка алгоритма модифицированного метода ближайшего соседа. Международная конференция «Информационные средства и технологии» том 2. М. Станкин, 2003, стр. 198 201.
    46. И.В. Некрасов., В. О. Толчеев. Методика модификации запросов в информационно-поисковой системе LAS. Международная конференция «Информационные средства и технологии» том 1. М. Станкин, 2001, стр. 118 121.
    47. И.И. Елисеева, В. О. Рукавишников. Группировка, корреляция, распознавание образов. М.: Статистика, 1977
    48. С.А. Айвазян, В. М. Бухштабер, И. С. Енюков, Л. Д. Мешалкин. Классификация и снижение размерности. — М.: Финансы и статистика, 1989
    49. Дж. Динамические библиотечно-информационные системы. -М.: Мир, 1979.
    50. С. Н. Papadimitriou, J.L. Bentley. A Worst-Case Analysis of Nearest Neighbor Searching by Projections. Lecture Notes in Computer Science, V. 85, Automata Languages and Programming, 1980, Springer.
    51. H. Heimann, R. Goppert. An Efficient Branch-and-Bound Nearest Neighbour Classifier. Elsevier Science. Pattern Recognition Letters, V. 7, 1988.67. www.yahoo.com
    52. А. А. Дорофеюк. Алгоритмы автоматической классификации. Автоматика и телемеханика, № 12, стр. 78−113, 1971.
    53. Milkov, N. Nicolov, and N. Nikolov Eds., Proceedings of RANLP-97, 2nd International Conference on Recent Advances in Natural Language Processing (Tzigov Chark, BL, 1997).
    54. И.Н. Архиреева, В. П. Бородюк, Ю. Е. Голяс, В. Г. Киреева. Факторный аналнз в задачах обработки экспериментальных данных. Учебное пособие. М.: МЭИ, 1994.
    55. D. W. Aha, D. Kiber, М. К. Albert. Case-Based Learning algorithms. Machine Learning, 6, pp. 37−66, 1991.
    56. D. W. Aha (Ed). Lazy Learning. Kluwer Academic Publishers, 1997.
    57. S. Salzberg. A Nearest Hyperrectangle Learning Methods. Machine Learning, 6, pp. 277−309, 1991.
    58. Quinlan J.R. Induction of decision trees. Machine Learning, 1(1) pp. 81 106. 1986.
    59. Apte C., Damerau F., Weiss S. Text mining with decision rules and decision trees. In Proceedings of the Conference on Automated Learning and Discovery, Workshop 6: Learning from Text and the Web. 1998.
    60. А. И. Галушкин. Теория нейронных сетей. М.: ИПРЖР, 2000.
    61. В. К. Правдоподобные рассуждения в интеллектуальных системах типа ДСМ. Итоги науки и техники. Сер. Информатика т. 15. М.: ВИНИТИ, стр. 54−101, 1991.
    62. В. К. Об интеллектуальных системах типа ДСМ для наук о жизни и социальном поведении. Научно-техническая информация. Серия 2: Информационные процессы и системы. № 6, стр. 1−4, 2002.
    63. Е. С., Панкратов Д. В., Финн В. К., Шабанова И. П. Научно-техническая информация. Серия 2: Информационные процессы и системы. № 6, стр. 22−26,2002.
    64. И. И., Рукавишников О. В. Группировка, корреляция, распознавание образов. М.: Статистика, 1977.
    65. Breimann L. Bagging Predictions. Machine Learning, V. 24, pp. 123−140, 1996.
    66. Freund Y, Shapire R. E. Experiments with a new Boosting Algorithm. In Proc. 13th Int Conf. On Machine Learning, pp. 148−156, 1996.
    67. Martinez A.F., Gruian F. Document Classification for Computer Science Related Articles. 2002.
    68. Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Издательство института математики. 1999.
    69. С. А., Мхитарян B.C. Теория вероятностей и прикладная статистика. Том 1. М.: ЮНИТИ. 2001.
    70. М.П., Автоматическая классификация в системах обработки информации: Поиск документов. М.: Радио и связь. 1983.
    71. P., Харт П. Распознавание образов и анализ сцен. М.: Мир. 1976.
    72. В.Н., Червоненкис А. Я. Теория распознавания образов. М.: Наука. 1974.92. protege.stanford.edu
    Заполнить форму текущей работой