Помощь в написании студенческих работ
Антистрессовый сервис

Исследование и разработка методов и программных средств классификации текстовых документов

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Классификация текстов — сортировка текстовых документов по заранее определенным категориям — один из способов структурирования данных. Методы классификации текстовых документов лежат на стыке двух областей — информационного поиска и машинного обучения. Общие части двух этих подходов — способы представления документов и способы оценки качества классификации текстов, а различия состоят только… Читать ещё >

Исследование и разработка методов и программных средств классификации текстовых документов (реферат, курсовая, диплом, контрольная)

Содержание

  • 1. Задача классификации текстовых документов
    • 1. 1. Неформальная постановка задачи классификации текстовых документов
    • 1. 2. Задачи автоматической обработки текстов
      • 1. 2. 1. Вопросы предварительной обработки текстов
      • 1. 2. 1. Стеммипг и лемматизация
      • 1. 2. 3. Алгоритм лемматизации
      • 1. 2. 4. Способы представления текстовой информации
    • 1. 3. Формализация задачи классификации текстов в терминах задачи машинного обучения с учителем
  • 2. Классификация текстовых документов методами машинного обучения
    • 2. 1. Классификация текстовых документов известными методами
      • 2. 1. 1. Применение байесовских методов классификации
      • 2. 1. 2. Применение метрических методов классификации
      • 2. 1. 3. Применение линейных методов классификации
      • 2. 1. 4. Применение логических методов классификации
      • 2. 1. 5. Применение алгоритмических композиций
    • 2. 2. Метод градиентного бустинга па «невнимательных"деревьях решений
    • 2. 3. Сравнительный анализ качества классификации алгоритмов
    • 2. 4. Анализ алгоритмической сложности и затрат памяти алгоритмов классификации
  • 3. Классификация текстовых документов с учетом некоторых структурных особенностей
    • 3. 1. О конструировании признаков текста
    • 3. 2. Применение принципа конечной топологии распознавания топологических форм в задаче классификации текстов
    • 3. 3. Результаты численных экспериментов
  • 4. Методы снижения размерности признакового описания
    • 4. 1. Мотивация для снижения размерности
    • 4. 2. Лингвистический подход к снижению размерности признакового описания
    • 4. 3. Методы машинного обучения снижения размерности признакового описания
      • 4. 3. 1. Метод главных компонент
      • 4. 3. 2. Критерий отбора признаков по принципу минимальной избыточности и максимальной релевантности
      • 4. 3. 3. Метод главных признаков
    • 4. 4. Сравнительный анализ качества классификации для методов снижения размерности
    • 4. 5. Анализ алгоритмической сложности и затрат памяти алгоритмов снижения размерности
  • 5. Создание и исследование программного обеспечения задач классификации текстовых документов
    • 5. 1. Описание архитектуры системы классификации текстовых документов
    • 5. 2. Реализация лемматизатора
      • 5. 2. 1. Представления словаря в виде сжатого префиксного дерева
    • 5. 3. Реализация алгоритма GBOT
      • 5. 3. 1. Мета-алгоритм градиентного бустинга
      • 5. 3. 2. Представление «невнимательных"деревьев решений в виде решающих таблиц
      • 5. 3. 3. Алгоритм конструирования «невнимательного"дерева решений
      • 5. 3. 4. Эффективное вычисление ансамбля «невнимательных"решающих деревьев
    • 5. 4. Реализация модифицированного метода главных признаков
      • 5. 4. 1. Вычисление корреляционной матрицы
      • 5. 4. 2. Вычисление собственных значений и собственных векторов
      • 5. 4. 3. Параллельная реализация самоорганизующейся карты
    • 5. 5. Новая технология программирования задач машинного обучения

Стремительное развитие сети Интернет привело к резкому росту количества электронных документов. По оценкам экспертов, в настоящее время около 70% накопленной и используемой обществом цифровой информации находится в неструктурированной (текстовой) форме и лишь 30% составляют другие виды данных. Экспоненциальное с течением времени увеличение количества неструктурированных данных привело по существу к коллапсу традиционной системы получения и распределения текстовой информации, превратили рутинную операцию поиска и анализа необходимых сведений в трудоемкий и малоэффективный процесс, вызывающий информационную перегрузку пользователей. В этой ситуации особую актуальность приобретают работы по созданию систем обработки текстовой информации, так как даже высококвалифицированные эксперты испытывают затруднения по организации поиска документов и распределении полученных текстовых данных по тематикам. Как показывает практика, результаты определения предметной области документа «вручную», т. е. путем экспертного отнесения к имеющейся рубрике, обычно не превышает 80% [23].

Классификация текстов — сортировка текстовых документов по заранее определенным категориям — один из способов структурирования данных [95]. Методы классификации текстовых документов лежат на стыке двух областей — информационного поиска и машинного обучения. Общие части двух этих подходов — способы представления документов и способы оценки качества классификации текстов, а различия состоят только в способах собственно поиска.

Несмотря на то, что проблемы классификации текстовых документов находятся в центре внимания целого ряда научных коллективов, по многим вопросам до сих пор не найдено удовлетворительных ответов. Точность различных методов существенно зависит от выполнения априорных предположений и допущений, а также структуры текстовых данных (количество классов, размеры и однородность классов, вид «пограничной» области между классами).

При обработке текстовой информации возникают следующие трудности. Во-первых, количество информативных, т. е. полезных для классификации признаков, или терминов обычно существенно превосходит количество документов в выборке, затрудняя обучение методов и определение наилучших оценок параметров. Во-вторых, объем вычислительных операций при обработке и анализе текстовых документов чрезвычайно велик, что делает процесс классификации дорогостоящим и крайне трудоемким. В-третьих, получаемая матрица «документ — термин» [78] оказывается сильно разреженной, так как большое число терминов встречается только в одном или нескольких документах. В-четвертых, в отличие от структурированной информации, которая обычно содержит фактические сведения в виде чисел, неструктурированная информация не имеет единого текстового формата и общепринятых правил, что делает обработку и анализ документов практически невозможным без разработки комплексной модели процесса обработки текстовой информации.

Основными областями применения классификации текстов в современных поисковых Интернет системах являются:

• фильтрация спама;

• фильтрация неприемлемых материалов;

• определение языка документа;

• классификация пользовательских запросов;

• ранжирование новостей;

• составление интернет-каталогов;

• контекстная реклама;

• снятие неоднозначности слов при переводе фраз в автоматических переводчиках.

Для решения перечисленных задач требуется применение методов классификации на основе машинного обучения, поскольку состав и содержимое анализируемых документов постоянно изменяется, и одним из путей адаптации к этой динамике является использование таких методов. Цель методов машинного обучения для задачи классификации текстовых документов заключается в построении модели классификации на основе обучающего набора и применении построенной модели для предсказания класса или набора классов, релевантных для нового документа. Обучающий набор для рассматриваемой задачи классификации состоит из документов, каждому из которых сопоставлено множество классов, к которым данный документ относится. Такой подход обеспечивает качество классификации, сравнимое с качеством классификации, производимой человеком. Разработке и тестированию алгоритмов данного вида, а также связанным с ними алгоритмам представления текстов в настоящее время посвящены труды таких авторов как Агеев М. С., Кураленок И. Е., Joachims Т., Schapire R.E., Schutze Н., Scbastiani F. Стоит отметить, что в современных прикладных задачах обучающие наборы имеют достаточно большой размер (речь идет о сотнях тысяч обучающих примеров), ввиду чего интерес представляет разработка эффективных методов машинного обучения, допускающих параллельную программную реализацию.

На сегодняшний день в задачах текстовой классификации лучше всего зарекомендовали себя метод опорных векторов [100] и методы построения алгоритмических композиций на основе бустинга (улучшения) [93]. Анализ российских и зарубежных публикаций показывает, что основные усилия исследователей [58, 66] сконцентрированы на построении классификаторов, обладающих высокими полнотой и точностью [78]. Однако при разработке методов классификации текстовых данных, имеющих высокую размерность (большое число терминов, описывающих документ), особое внимание требуется также вопросам быстродействия (т.е. уменьшению времени, затрачиваемого на отнесение документа к одному из классов). В литературе практически нет работ, посвященных проблемам производительности классификаторов [38]. Фактически, проблемы быстродействия классификаторов ложатся на плечи разработчиков систем машинного обучения. На практике реализация мер, направленных на увеличение точности классификации, обычно приводит к снижению быстродействия. Обеспечение высокого быстродействия имеет особую важность в крупных поисковых системах при решении таких задач как анализ поисковых запросов [97], поступающих от пользователей в режиме реального времени, приоритезации URL (Uniform Resource Locator) адресов web страниц [90], число которых достигает нескольких миллиардов, для их загрузки поисковым роботом. Стоит отметить, что подобные системы относятся к классу высоконагруженных, т. е. обладающих либо большим количеством одновременных сессий пользователей, либо большим объемом данных, или совокупностью этих критериев. При решении конкретной задачи быстродействие является ключевым фактором при выборе того или иного метода для таких систем.

Таким образом, на сегодняшний день для современных поисковых Интернет систем является актуальным проведение исследований и разработка программных средств классификации текстовых документов на основе методов машинного обучения, обеспечивающих высокое быстродействие при сохранении или повышении качества (полноты и точности) классификации.

Цель диссертационной работы. Целыо диссертационного исследования является повышение быстродействия и качества классификации текстовой информации поисковых Интернет систем на основе современных технологий программирования задач машинного обучения.

Под современными технологиями программирования задач машинного обучения в данной работе будем понимать применение современного аппарата методов машинного обучения с использованием технологий параллельного программирования, актуальных на сегодняшний день.

Для достижения указанной цели в диссертации решаются следующие задачи:

1. Разработка программной реализации средства лингвистического анализа текстовых документов — лсмматизатора.

2. Обоснование выбора метода векторного представления текстового документа.

3. Определение возможности использования некоторых структурных особенностей документов в задаче текстовой классификации и оценка эффективности использования подобной информации.

4. Комплексный сравнительный анализ известных методов машинного обучения применительно к задаче текстовой классификации.

5. Разработка метода машинного обучения, обладающего более высоким качеством и быстродействием, обусловленным возможностью эффективного распараллеливания вычислений на этапе классификации, по сравнению с известными методами.

6. Комплексный сравнительный анализ традиционных методов снижения размерности признаковых описаний документов применительно к задаче классификации текстов и обоснование метода, обеспечивающего более высокое быстродействие.

7. Оценка эффективности предложенных решений на характерной коллекции текстовых документов проведением численных экспериментов.

8. Разработка на основе предложенных в работе процедур и известных методов программных средств обработки и аиализа массивов текстовой информации, удовлетворяющих требованиям современных высо-конагруженных поисковых Интернет систем.

Методы исследования. Полученные в диссертации результаты основываются на применении методов статистического и лингвистического анализа текстов, теории вероятностей, теории информации, математической статистики, линейной алгебры, теории алгоритмов, теории параллельного программирования, численных методов.

Научная новизна. Основные результаты работы являются новыми и заключаются в следующем:

• Разработан и реализован лингвистический модуль (морфологический анализатор), позволяющий проводить лемматизацию [78] текстов на русском и английском языках. С помощью разработанной методики, обоснован выбор используемых в работе процедур предварительной обработки текстовых документов.

• Исследована применимость принципа конечной топологии распознавания топологических форм [24] к задаче классификации текстов с оценкой эффективности его использования.

• Разработан новый метод классификации, являющийся методом градиентного бустинга (gradient boosting) [47] на «невнимательных» деревьях решений (oblivious decision trees) [70], допускающий распараллеливание вычислений на этапе классификации. Даны рекомендации по выбору настраиваемых параметров разработанного метода, приведены оценки вычислительной сложности и затрат памяти. Предложены стратегии регуляризации.

• Предложена модификация метода главных признаков [41], использующая самоорганизующиеся карты Кохоиена (self-organizing maps) [71] вместо метода k-средних (k-means) [98]. Даны рекомендации ио выбору размера самоорганизующейся карты. Представлены оценки вычислительной сложности и затрат памяти.

Практическая ценность.

• Осуществлена программная реализация предложенного метода градиентного бустипга на «невнимательных"деревьях решений с использованием различных современных технологий параллельного программирования (SSE (. Streaming SIMD Extensions, потоковое SIMD-расширепие процессора) [65], OpenMP (Open Multi-Processing) [40], MPI (Message Passing Interface) [3], MapReduce [45]).

• В результате исследований на коллекции текстовых документов Reuters-21 578 [59] было установлено, что разработанный метод градиентного бустинга на «невнимательных» деревьях решений в среднем на порядок увеличивает быстродействие и, как правило, показывает более высокое качество классификации по сравнению с традиционными методами классификации текстов.

• Осуществлена программная реализация предложенной модификации алгоритма главных признаков с использованием современных технологий параллельного программирования (SSE [65], OpenMP [40]).

Результаты данной работы внедрены в проект «noHCK@Mail.Ru», разрабатываемый ООО «Мэйл.Ру"и используются для решения следующих задач:

• классификация поисковых запросов;

• классификация страниц коммерческих сайтов по степени релевантности запросу;

• приоритезация URL адресов web-страниц для их загрузки поисковым роботом.

Разработанное программное обеспечение может быть адаптировано к различным предметным областям и требованиям.

Апробация. Основные положения диссертационной работы докладывались на XIX международной научно-технической конференции «Информационные средства и технологии» 2011, XX международной научно-технической конференции «Информационные средства и технологии» 2012, XVIII международной научно-технической конференции студентов и аспирантов «Радиоэлектноника, электротехника, энергетика» (2012), научном семинаре «Дискретные математические модели» кафедры математического моделирования, научном семинаре кафедры вычислительных машин, систем и сетей (НИУ «МЭИ «).

Публикации. По теме диссертации опубликовано 9 научных работ, в том числе 3 в изданиях по перечню ВАК. Зарегистрировано 2 объекта интеллектуальной собственности: свидетельства о регистрации программ № 2 013 612 095 и № 2 013 612 097.

Объем и структура работы. Диссертация состоит из введения, 5 глав, заключения и 4 приложений. Список использованной литературы содержит 101 наименование. Текст диссертации содержит 172 страницы машинописного текста, включая 32 рисунка.

Основные результаты диссертационной работы заключаются в следующем :

1. Разработан и реализован лингвистический модуль (морфологический анализатор), позволяющий проводить лемматизацию текстов на русском и английском языках.

2. Исследована и обоснована применимость принципа конечной топологии распознавания топологических форм к задаче классификации текстов.

3. Разработан новый метод классификации, являющийся методом градиентного бустинга (gradient boosting) на «невнимательных"деревьях peuicHHft (oblivious decision trees), допускающий распараллеливание вычислений на этапе классификации. Даны рекомендации по выбору настраиваемых параметров разработанного метода, получены оценки вычислительной сложности.

4. Проведена программная реализация предложенного метода градиентного бустинга на «невнимательных"деревьях решений на языке С++ с использованием различных современных технологий параллельного программирования (SSE, OpenMP, MPI, MapReduce).

5. Проведен вычислительный эксперимент, показавший, что разработанный метод градиентного бустинга на «невнимательных"деревьях решений в среднем на порядок увеличивает быстродействие и, как правило, показывает более высокое качество классификации по сравнению с традиционными методами.

6. Предложена модификация метода главных признаков, использующая самоорганизующиеся карты Кохопена (self-organizing maps) вместо метода k-средних (k-means). Даны рекомендации по выбору размера самоорганизующейся карты. Выведены оценки вычислительной сложности.

7. Проведена программная реализация предложенной модификации алгоритма главных признаков на языке С++ с использованием современных технологий параллельного программирования (SSE, ОрепМР).

8. Разработана и обоснована методика использования наиболее подходящих процедур обработки и анализа текстовых данных.

9. Разработанное программное обеспечение внедрено в проект «noncK@Mail.Ru», разрабатываемый ООО «Мэйл.Ру"и используется для решения задач классификации поисковых запросов, классификации страниц коммерческих сайтов по степени релевантности запросу и приоритсзации URL адресов web-страниц для их загрузки поисковым роботом. Реализованный пакет прикладных программ может быть адаптирован к различным предметным областям и требованиям.

Перечисленные результаты получены лично автором.

Заключение

.

Показать весь текст

Список литературы

  1. С.А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Классификация и снижение размерности М.: Финансы и статистика, 1989
  2. A.A., Дубинский Ю. А., Копченова Н. В. Вычислительные методы для инженеров. М.: Изд-во МЭИ, 2003
  3. A.C. Параллельное программирование с использованием технологии MPI. -M.: Изд-во МГУ, 2004.-71 с.
  4. Р.Н. Об одном подходе к распознаванию оптических образов текстов // Вестник МЭИ, 2005, № 2, с. 134−141
  5. В.П., Головина Е. Ю., Загорянская A.A., Фомина М. В. Достоверный и правдоподобный вывод в интеллектуальных системах М.: ФИЗМАТЛИТ, 2004.
  6. В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
  7. В. Н., Червоненкис А. Я. Теория распознавания образов. -М.: Наука, 1974
  8. В.В., Воеводин Вл.В Параллельные вычисления СПб.: БХВ-Петербург, 2002
  9. К.В. Машинное обучение. Курс лекций (machinelearning.ru)
  10. М.В., Морозов А. Б. Влияние морфологического анализа на качество информационного поиска // Труды RCDL-2006, стр. 224 228, 2006
  11. В. В. Сравнительный анализ методов классификации текстовых документов // Вестник Московского энергетического института, № б, -С.100−108, 2011
  12. В.В. Исследование метода градиентного бустинга на «невнимательных «деревьях решений в задаче классификации текстовых документов // Вестник МЭИ, № 6, 124−131, 2012.
  13. В. В. Методы снижения размерности признакового описания документов в задаче классификации текстов. Вестник МЭИ № 2 2013. — С. 115−121.
  14. В.В. Объект интеллектуальной собственности свидетельство об офицальной регистрации программы для ЭВМ № 2 013 612 097. Система лингвистического анализа текстовых документов «МогрЬАпа1угег" — Москва, 2013, 1с.
  15. В.В. Объект интеллектуальной собственности свидетельство об офицальной регистрации программы для ЭВМ № 2 013 612 095. Библиотека алгоритмов машинного обучения «МЫлЬгагу" — Москва, 2013, 1с.
  16. Деммель Дэю. Вычислительная линейная алгебра. Теория и приложения -М.: Изд-во Мир, 2001
  17. Ю.И. Об алгебраических методах в задачах распознавания и классификации // Распознавание, классификация, прогноз. — 1988. Т. 1. — С. 9−16.
  18. Журавле в Ю. И., Рязанов В. В., Сепъко О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006.
  19. В.В., Андреев А. Е. Теория тестового распознавания. Интеллектуальные системы. 2006. Т. 10. Вып. 1−4. С. 95−166.
  20. Ю. Курс «Алгоритмы для Интернета», http://yury.name/internet/
  21. A.B. Распознавание образов: Введение в методы статистического обучения М.: Едиториал УРСС, 2011.
  22. А.Н., Арсении В. Я. Методы решения некорректных задач. М.: Наука, 1986.
  23. A.B. Принцип конечной топологии распознавания топологических форм // Известия РАН. Теория и системы управления, 2010, № 1, 68−76
  24. А.И., Яблонский С. В. Логические способы контроля работы электрических схем // Тр. математического ин-та им. Стеклова, 1958. Т. 51. с. 270−360.
  25. Aho A., Corasick M. Efficient string matching: An aid to bibliographic search // Communications of the ACM 18 (6), Pp. 333−340, 1975
  26. Baeza- Yates R., Navarro G. Integrating Contents and Structure in Text Retrieval // ACM SIGMOD Record, Vol. 25, 1996, No. 1, pp. 67−79.
  27. Bartlett P., Shawe-Taylor J. Generalization performance of support vector machines and other pattern classifiers // Advances in Kernel Methods. MIT Press, Cambridge, USA, 1999. — Pp. 43−54
  28. Baum L., Petrie T. Statistical Inference for Probabilistic Functions of Finite State Markov Chains // The Annals of Mathematical Statistics 37 (6): 1554−1563, 1966
  29. Bishop C. Pattern Recognition and Machine Learning // Springer, 2006
  30. Bonnans J., Gilbert J., and etc. Numerical optimization: Theoretical and practical aspects // Universitext (Second revised ed. of translation of 1997 French ed.). Berlin: Springer-Verlag. pp. xiv+490, 2006.
  31. Bottou L. Stochastic Learning // Advanced Lectures on Machine Learning, 146−168, Edited by Olivier Bousquet and Ulrike von Luxburg, Lecture Notes in Artificial Intelligence, LNAI 3176, Springer Verlag, Berlin, 2004
  32. Bramer M. Pre-pruning Classification Trees to Reduce Ovcrfitting in Noisy Domains // Intelligent Data Engineering and Automated Learning — IDEAL Lecture Notes in Computer Science Volume 2412, pp 7−12, 2002
  33. Breiman L. Bagging predictors // Machine Learning 24, 123−140, 1996
  34. Breiman L., Friedman J. Classification and regression trees // Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software, 1984.
  35. Buttcher C., Clarke G., Cormack G. Information Retrieval: Implementing and Evaluating Search Engines // MIT Press, 2010
  36. Cambazoglu B., Zaragoza H., Chapelle 0. Early exit optimizations for additive machine learned ranking systems // Proceeding WSDM '10 Proceedings of the third ACM international conference on Web search and data mining pp. 411−420, 2010
  37. Cavnar W., Trenkle J. N-Gram-Based text categorization // In Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval, 1994
  38. Chandra R., Menon R., Dagum L., Kohr D., May dan D., McDonald J. Parallel Programming in OpenMP // Morgan Kaufmann, 2000.
  39. Cohen /., Tian Q., Zhou X., Huang T. Feature selection using principal feature analysis // Proceedings of the 15th international conference on Multimedia, pages 301−304, 2007
  40. Cormen TLeiserson C., Rivest R., Stein C. Introduction to Algorithms (3rd cd.) // MIT Press and McGraw-Hill, 2009
  41. Cortes C., Vapnik V. Support-vector // Machine Learning, 1995, Vol. 20, no. 3. Pp. 273−297.
  42. Croft B., Metzler D. Strohman T. Search Engines: Information retrieval in practice // Addison Wesley, 2010
  43. Dean J., Ghemawat S. Map Reduce: Simplified Processing on Large Clusters // OSDI'04: Sixth Symposium on Operating System Design and Implementation, San Francisco, CA, December, 2004
  44. Freund Y., Schapire R. A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting // Journal of Computer and System Science, no. 55. 1997
  45. Friedman J. H. Stochastic gradient boosting // Computational Statistics and Data Analysis, 38:367−378, 1999
  46. Friedman J. H. Greedy function approximation: A gradient boosting machine // Annals of Statistics, 29: 1189−1232, 2001
  47. Frolov A., Jako E., Mezey P. Logical models of molecular shapes and their families // Mathematical Chemistry, 2001. No.30(4). Nov. pp.389−409.
  48. Frolov A., Jako E.- Mezey P. Metric properties of factor space of molecular shapes // Mathematical Chemistry, 2001. No.30(4). Nov. pp. 411−428.
  49. George H., Langley J. Estimating Continuous Distributions in Baycsian Classifiers // Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence, pp. 338−345, Morgan Kaufmann, San Mateo, 1995
  50. Gerber R., Bik A., Smith K., Tian X. The sofware optimization cookbook (second edition) // Intel Press, 2010
  51. Gusfield D. Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology // Cambridge University Press, 1997
  52. Harris, Zellig Distributional Structure // Word 10 (2/3): 146−62, 1954
  53. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction // Springer Series in Statistics, 2009
  54. Haykin S. Neural networks and learning machines (3rd edition) // Prentice Hall. 2009
  55. Ho, Tin The Random Subspace Method for Constructing Decision Forest // Transactions on Pattern Analysis and Machine Intelligence, 1998
  56. Intel 64 and IA-32 Architectures Software Developer’s Manual. Volume 1: Basic Architecture, 2011
  57. Joachims T. Text Categorization with Suport Vector Machines: Learning with Many Relevant Features // Proceeding ECML '98 Proceedings of the 10th European Conference on Machine Learning, pp. 137−142, 1998
  58. Jolliffe I. Principal Component Analysis // Springer Series in Statistics, 2010
  59. Jurafsky D., Martin J. Speach and language processing (second edition) // Prentice Hall, 2008
  60. Kohavi R. A study of cross-validation and bootstrap for accuracy estimation and model selection // Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence 2 (12): 1137−1143.(Morgan Kaufmann, San Mateo, CA), 1995
  61. Kohavi R., Li C. Oblivious decision trees graphs and top down pruning. //In Proceedings of the 14th international joint conference on Artificial intelligence Volume 2, pages 1071−1077, San Francisco, CA, USA, 1995. Morgan Kaufmann Publishers Inc.
  62. Kohonen T. Self-organizing maps (Third extended edition) // Springer, 2001
  63. Krishnakumar A. TEXT CATEGORIZATION Building a kNN classifier for the Rcuters-21 578 collection, 2006
  64. Kweku-Muata, Osei-Bryson Post-pruning in decision tree induction using multiple performance measures // Computers and Operations Research, 34, pp. 3331−3345, 2007
  65. Lafferty J., McCallum A., Pereira F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data // Proc. 18th International Conf. on Machine Learning. Morgan Kaufmann. pp. 282−289, 2001
  66. LeCun Y., Bottou L., Orr G. B., Muller K. Efficient BackProp // Neural Networks: tricks of the trade. Springer, 1998
  67. Lovins J. Development of a stemming algorithm. Translation and Computational Linguistics 11(1):22−31. 33, 527, 1968
  68. Mackay D. Information theory, inference, and learning algorithms. Cambridge, 2007.
  69. Manning C., Raghavan P., Schutze H. Introduction to information retrieval // Cambridge University Press, 2008
  70. Manning D., Schutze H. Foundations of statistical natural language processing // MIT Press, 1999
  71. Marsland S. Machine Learning: An Algorithmic Perspective // Chapman & Hall/CRC Machine Learning & Pattern Recognition, 2009
  72. Mezey P.G. Shape in Chemistry: An Introduction to Molecular Shape Topology // N.Y.: John k Sons, 1993
  73. Mitchell T. Machine learning // McGraw-Hill, 1997
  74. Paice C. Another stemmer. SIGIR Forum 24(3):56−61. 33, 528, 1990
  75. Parlett B. The Symmetric Eigenvalue Problem // Prentice Hall, Englewood Cliffs, NJ, 1980
  76. Pearson, K. On Lines and Planes of Closest Fit to Systems of Points in Space // Philosophical Magazine 2 (11): 559−572, 1901
  77. Peng H., Long F., Ding C. Feature selection based on mutual information: criteria of max-depcndency, max-rclcvance, and min-redundency // IEEE Transactions on pattern analysis and machine intelligence, vol. 27, no. 8, 2005
  78. Porter M. An algorithm for suffix stripping. Program 14(3): 130−137. 33, 529, 1980
  79. Quinlan J.R. C4.5: Programs for Machine Learning. // Morgan Kaufmann Publishers, 1993
  80. Quinlan J. R. Induction of Decision Trees, Machine Learning 1 // Kluwcr Academic Publishers, pp. 81−106, 1986
  81. Richardson M., Prakash A., Brill E. Beyond PageRank: machine learning for static ranking // Proceeding WWW '06 Proceedings of the 15th international conference on World Wide Web, pp. 707−715, 2006
  82. Salton G., McGill M. Introduction to modern information retrieval // McGraw-Hill, 1983
  83. Salton G., Wong A., Yang C. A Vector Space Model for Automatic Indexing // Communications of the ACM, vol. 18, nr. 11, pages 613−620, 1975
  84. Schapire R. The Strength of Weak Learnability. Machine Learning (Boston, MA: Kluwer Academic Publishers), pp. 197−227, 1990
  85. Scott S., Matwin S. Feature engineering for text classification // Proceedings of ICML-99, 16th International Conference on Machine Learning, 1999
  86. Sebastiani F. Machine Learning in Automated Text Categorization, // ACM Computing Surveys, Vol. 34, No. 1, March 2002, pp. 1−47
  87. Shawe-Taylor J., Cristianini N. Robust bounds on generalization from the margin distribution: Tech. Rep. NC2-TR-1998−029: Royal Holloway, University of London, 1998.
  88. Shen D. Learning-based Web query understanding // Thesis (Ph.D.)-Hong Kong University of Science and Technology, 2007
  89. Steinhaus H. Sur la division des corps materiels en parties. Bull. Acad. Polon. Sei., CI. Ill vol IV: 801−804, 195 699. van Rijsbergen C. J. Information Retrieval (2nd ed.). Butterworth, 1979
  90. Vapnik V. The Nature of Statistical Learning Theory // SpringerVerlag, 1995.
  91. Vapnik V., Chapelle O. Bounds on error expectation for support vector machines // Neural Computation. 2000. — Vol. 12, no. 9. — Pp. 20 132 036.
Заполнить форму текущей работой