Помощь в написании студенческих работ
Антистрессовый сервис

Анализ неструктурированных текстов (Text mining)

РефератПомощь в написанииУзнать стоимостьмоей работы

В условиях современной действительности огромный объем информации создается, хранится и распространяется в формате текстовых документов. Однако в случае необходимости извлечения из них части данных (например информации о клиентах) и размещения в базах данных такое преобразование практически невозможно организовать без потери семантического значения, смысла текста. Как правило, в тексте… Читать ещё >

Анализ неструктурированных текстов (Text mining) (реферат, курсовая, диплом, контрольная)

В условиях современной действительности огромный объем информации создается, хранится и распространяется в формате текстовых документов. Однако в случае необходимости извлечения из них части данных (например информации о клиентах) и размещения в базах данных такое преобразование практически невозможно организовать без потери семантического значения, смысла текста. Как правило, в тексте (в веб-страницах, сообщениях электронной почты, нормативных документах) скрыто огромное количество информации, однако в силу сложности работы с ней необходимы специальные методы извлечения и анализа неструктурированного текста (Text Mining). Text mining представляет собой частный случай data mining и, как правило, служит одним из его элементов/этапов.

Процесс анализа текстовых документов можно представить как последовательность нескольких шагов:

  • • поиск информации (определение источников данных, с которыми необходимо работать);
  • • предварительная обработка документов (удаление/замена слов);
  • • извлечение информации и применение методов Text Mining (идентификация структур и шаблонов фраз в тексте, отдельных ключевых понятий и имен; морфологический поиск, удаление стоп-слов и неинформативных слов; автоматическое аннотирование — извлечение самого важного содержимого и описание его «своими словами»);
  • • интерпретация результатов (публикация результатов на естественном языке или их представление в графической форме; может дополняться отдельными функциями вроде анализа трендов, который проводится для целых наборов документов, за какой-то период времени).
Показать весь текст
Заполнить форму текущей работой