Исследование и разработка инфологического подхода для построения тематических антологий при мониторинге интернет-среды

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Существующие Интернет-технологии автоматизируют процесс накопления, распространения и обработки данных, представленных в различных текстовых форматах. Для анализа текстов рекламируются различные сервисные и интерфейсные компьютерные программы информационного поиска для осуществления интеллектуальных функций: самообразования («аутопедия», e-learning), аналитического исследования, составления… Читать ещё >

Исследование и разработка инфологического подхода для построения тематических антологий при мониторинге интернет-среды (реферат, курсовая, диплом, контрольная)

Содержание

Основные обозначения и сокращения
Положения, выносимые на защиту
Глава 1. Аналитический обзор существующих методов построения информационно-поисковых систем
- 1. 1. Программы лингвистического анализа текстов
- 1. 2. Корпусная лингвистика
- 1. 3. Системы аналитической обработки текстов
- 1. 4. Современные подходы к понятийной визуализации семантического содержания текстов
Выводы по главе 1
Глава 2. Инфологический подход семантико-смыслового анализа текстов
- 2. 1. Логистико-лингвистический подход к обработке текстов
- 2. 2. Ассоциативно-понятийная идентификация
- 2. 3. Эволюционная эпистемология
- 2. 4. Смысл как составная часть проблемно-ориентированной среды
- 2. 5. Память и знание
- 2. 6. Контекстно-интерпретируемая семантика
Выводы по главе 2
Глава 3. Разработка инфологического подхода к аналитическому мониторингу проблемно-ориентированных предметных областей
- 3. 1. Преобразование формата документа
- 3. 2. Формат текста в нормальной форме
- 3. 3. Структурная декомпозиция текста
- 3. 4. Формат компьютерного представления семантики текста
- 3. 5. Метод формирования терминологических ядер предметных антологий
- 3. 6. Методы оценки тематической близости текстов
- 3. 7. Тематическая кластеризация текстов
- 3. 8. Визуально-динамический интерфейс представления понятийных ядер тематических топиков
- 3. 9. Аналитическое реферирование текстов
- 3. 10. Перспективные направления развития инфологических систем
Выводы по главе 3
Глава 4. Реализация системы аналитического мониторинга Интернет-среды
- 4. 1. Кластеризация тем научных исследований
- 4. 2. Аннотационные системы. Музейные системы
- 4. 3. Новостные системы
Выводы по главе 4
Глава 5. Экспериментальная апробация
- 5. 1. Испытания методов тематической кластеризации
- 5. 2. Испытания метода аналитического реферирования текстов
Выводы по главе 5

Информационные Интернет-технологии — инструмент управления знаниями. Однако основной ресурс знаний представляется в традиционной форме текстов, лингвистические законы которых ориентированы для удобства и адекватности их восприятия и понимания содержания человеком.

В действительности же известные информационно-поисковые системы и технологии (Web 3.0, Semantic Web и пр.) ориентированы лишь на те функциональные расширения, которые вытекают из возможностей Интернет и компьютерных технологий. Они в большей степени занимаются компьютерной обработкой документов, атрибутикой внешней стороны текстов, а не работают с семантическим содержанием текстов.

Понятия семантики и онтологии применительно к Web 3.0 и Semantic Web имеют отношение к сугубо утилитарным сервисным функциям компьютерной программной реализации — разметке текстов метками. Суть концепции Web 3.0 — дополнение текстовых данных (текстов) компьютерно-читаемой разметкой (метками). Концепция Web 3.0 описывает подход (Resource Description Framework, Web Ontology Language) и формат разметок, позволяющие автору текста снабдить документ специальной разметкой, упрощающей его компьютерную обработку.

Указанные системы принципиально не способны реализовать перечисленные выше интеллектуальные функции. Wikipedia — система накопления и поиска текстов по запросу — не отвечает за достоверность информации и представления знаний. Возникшее понятие «корпуса текстов» вызывает хаотизацию построения словарей и глоссариев, так как глоссарий и тезаурус — язык тематического описания и кластеризации предметной областиоснова интерфейсного понимания и однозначной семантико-смысловой интерпретации текстов.

В данной диссертационной работе используется инфологический подход, основа которого состоит в итерационном процессе формирования тематических знаний посредством выявления тематических антологий (предметно-ориентированных корпусов текстов), выявления их тезаурусов и глоссариев, а также построения иерархий онтологических понятий и составления семантического окружения содержания выбранных текстов. Изменение словарного состава тезауруса и семантического окружения заданной предметной области является критерием адекватности и кластеризации тематического знания. Развитие проблемно-ориентированного (тематического) знания рассматривается как итерационный процесс интерпретации пользователем отклика системы («аутопедия») на запрос и поступающие данные (тексты).

Анализ существующих исследований выявил крайне незначительное число готовых и апробированных методов и программ выявления семантико-смыслового содержания текстов. Причиной этого является отсутствие эффективных методов представления семантико-смыслового содержания текстовых данных в компьютере. Решение указанных задач, применительно к реализации аналитического мониторинга Интернет-среды, и составляет суть диссертационной работы.

Целью работы является разработка методов и программ итерационного формирования тематических антологий (топиков) и выявления их понятийных ядер. Для достижения указанной цели в диссертационной работе поставлены и решены следующие задачи:

1. Анализ основных подходов к извлечению, представлению и обработке тематических знаний проблемно-ориентированных предметных областей.

2. Разработка итерационного процесса адаптивного формирования тематических антологий, основанного на инфологическом подходе.

3. Разработка метода структурной декомпозиции текстов тематических антологий на основе рейтинго-рангового распределения связей между словами и совокупностью слов.

4. Разработка алгоритма формирования понятийного ядра (иерархии онтологических понятий) тематических антологий.

5. Проектирование и разработка комплекса программ, реализующих указанные методы и алгоритмы.

Основные методы исследования. Для решения поставленных задач в работе используются методы компьютерной лингвистики, логистические методы, теория множеств, теория графов, реляционная алгебра. При разработке архитектуры программного комплекса применены объектно-ориентированный и компонентно-ориентированный подходы.

Научная новизна предлагаемой диссертации состоит в следующем:

1. Предложен подход для тематической кластеризации текстов, выявления и выбора предметно-ориентированных антологий, являющийся развитием инфологического подхода, отличающийся от традиционных способов работы с текстами представлением текста в виде системы идентификаторов, а не синтаксических конструкций.

2. Предложен иерархический рангово-рейтинговый метод выявления понятийного ядра, онтологического глоссария и тезауруса тематической совокупности текстов. Предложен и разработан формат TNF для представления текстов в нормализованном виде, сохраняющем семантику текстов. По сравнению с традиционным текстовым форматом, содержит компрессированную семантическую основу документа (сообщения), а также сокращает сложность компьютерной обработки семантики текстов.

3. Разработаны алгоритмы и программы построения тезаурусов и глоссариев тематических текстов для выявления анахронизмов и диахронизмов терминологического и семантического окружения.

4. Разработан метод структурной декомпозиции текстов тематических антологий на основе иерархических уровней рангового распределения связок слов в нормализованном тексте. В отличие от методов, основанных на использовании семантических словарей, он позволяет производить декомпозицию текстов, содержащих большое количество новых терминов или узкоспециализированные тематические тексты.

5. Разработана архитектура и реализован программный комплекс итерационного формирования тематических антологий для аналитического мониторинга Интернет-среды, реализующий визуальный интерфейс для быстрого ознакомления пользователя с содержанием проблемно-ориентированных предметных областей, ассоциативный поиск, аннотирование текстов.

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечиваются тщательным анализом состояния исследований в данной области на сегодняшний день. Корректность предложенных методов и алгоритмов подтверждается согласованностью результатов, полученных при практической реализации этих методов и алгоритмов, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на научных российских и международных научных конференциях.

Практическая ценность работы заключается в создании программной системы, реализующей теоретические результаты работы, которые могут использоваться в системах самообразования, семантического поиска, тематической кластеризации и автоматического реферирования текстов, аналитического мониторинга и ранней понятийной идентификации возникающих тенденций в проблемно-ориентированных предметных областях, заданных антологическими текстами.

Предложенные в диссертационной работе подходы, методы и алгоритмы позволяют значительно повысить качество предоставляемых интеллектуальных функций тематической кластеризации, автоматического реферирования текстов, семантического поиска.

Реализация результатов работы. Представленные в работе методы и алгоритмы были реализованы в программном исполнении в виде объектно-ориентированной библиотеки классов на языке Java и других вспомогательных программ. Библиотека нашла применение в подсистеме обработки новостных сообщений поисковой системы VisualWorld.ru для ассоциативного поиска по новостям, тематической кластеризации сообщений в компактные новостные топики, визуализации семантического содержания топика, а также для построения глоссария и визуализации их скрытых связей на корпусе антологии. Результаты работы были использованы в рамках госконтракта с ЦИПБ РАН № 14/08−07 НИР «Определение необходимого состава функциональных программных компонент автоматизированной системы учета музейных предметов (АС учета МПр) в рамках обеспечения безопасности хранения и использования культурных ценностей в Российской Федерации», грантов РФФИ ОИТВС РАН, проектов СПбНЦ РАН, 2007;2010.

Апробация результатов работы. Научные результаты и основные положения работы представлялись на конференциях: Distributed Intelligent Systems and Technologies Workshop (Санкт-Петербург, 2009) — Distributed Intelligent Systems and Technologies Workshop (Санкт-Петербург, 2008) — XI Санкт-Петербургская международная конференция «Региональная информатика-2008» (Санкт-Петербург, 2008).

Публикации. Автором опубликовано по теме диссертации 9 печатных работ, среди них 6 работ в журналах из перечня ВАК.

Структура и объем диссертационной работы. Диссертация объемом 130 машинописных страниц содержит введение, 5 глав и заключение, список литературы (142 наименования), 33 рисунка, 3 таблицы и 2 приложения.

Выводы по главе 5.

Тестирование программной реализации разработанных методов и алгоритмов показало высокую работоспособность и корректность полученных результатов. Разработанные методы и алгоритмы позволяют автоматизировать процесс тематического реферирования и аннотирования.

Проведена экспериментальная апробация методов построения глоссариев предметных областей, ассоциативного поиска и аналитического реферирования на полнотекстовых версиях научно-технических материалов электронных фондов библиотеки академии наук (Санкт-Петербургский научный центр) и на архиве полнотекстовых электронных версий научных публикаций по астрофизике (), которая подтверждает применимость и эффективность инфологического подхода в задачах аналитического мониторинга и кластеризации научных тем.

Апробация методов тематической кластеризации и классификации новостных сообщений показала применимость и эффективность предложенных методов оценки тематической близости новостных текстовполученные при этом тематические топики (проблемно-ориентированные антологии) являются компактным представлением события, отраженного в новостных сообщениях, входящих в новостную тематику. Предложенный метод кластеризации позволяет группировать тематически близкие новостные сообщения в один компактный топик, сокращая при этом объем входных сообщений и повышая удобство использования информационной системы новостных лент. Алгоритмы выявления терминологического ядра топика и интерфейс визуализации терминологического ядра, топика дают эффективный инструмент для быстрого ознакомления с проблематикой топика.

Заключение

Совокупность разработанных в работе методов и программ, а также их практическая реализация представляют собой решение актуальной научно-технической задачи анализа семантико-смыслового содержания тематических антологий при мониторинге Интернет-среды, имеющей большое значение для развития информационных технологий в области интеллектуальной обработки текстов. В ходе решения данной задачи были получены следующие результаты:

1. Проведен анализ современного состояния информационно-поисковых систем для решения задач анализа текстов и аналитического мониторинга Интернет-среды с целью создания самообучающих систем типа «аутопедия», e-learning.

2. Предложен подход для тематической кластеризации текстов, выявления и выбора предметно-ориентированных антологий, являющийся развитием инфологического подхода.

3. Предложен иерархический рангово-рейтинговый метод выявления понятийного ядра, онтологического глоссария и тезауруса тематической совокупности текстов. Предложен и разработан формат TNF — представления текстов в нормализованном виде, сохраняющий семантику текстов.

4. Разработаны алгоритмы и программы построения тезаурусов и глоссариев тематических текстов для выявления анахронизмов и диахронизмов терминологического и семантического окружения.

5. Разработан метод структурной декомпозиции текстов тематических антологий на основе иерархических уровней рангового распределения связок слов в тексте.

6. Разработана архитектура и реализован программный комплекс итерационного формирования тематических антологий для аналитического мониторинга Интернет-среды, визуального интерфейса быстрого ознакомления пользователя с содержанием проблемно-ориентированных предметных областей, ассоциативного поиска, аннотирования текстов. Проведены экспериментальные исследования на следующих категориях текстов: новостные, аннотационные, научно-исследовательские.

Программное обеспечение, разработанное в рамках диссертационной работы, нашло свое применение в проводимых в лаборатории автоматизации научных исследований СГШИРАН НИР в 2007;2010 годах в качестве модулей обработки текстовых данных в системах аналитического мониторинга.

В качестве направлений дальнейших исследований можно выделить:

— разработку автономного Internet-сервиса для формирования новостных потоков по заданной тематике;

— интеграцию методов обработки новостных потоков в универсальные поисковые системы.

Таким образом, диссертационное исследование выполнено в соответствии с положениями п.п. 3 и 5 областей исследований паспорта специальности 05.13.11.

Показать весь текст

Список литературы

Публикации соискателя
Кокорин 77. 77. Мифологическая система аналитического мониторинганаучно-технических фондов библиотек. — «Информационно-измерительные и управляющие системы», № 4, т.7, 2009. — С. 11−15.
Андреева Н. А., Кокорин П. 77. Система построения понятийной иерархии для ассоциативного поиска по текстам. — «Информационно-измерительные и управляющие системы», № 4, т.6, 2008. — С. 9−13.
Кокорин П. П., Фролов К. В. Поиск и идентификация музыкальных произведений. «Информационно-измерительные и управляющие системы», № 4, т.6, 2008. — С. 28−32.
Кокорин 77. П., Колесников Р. А. Селекция контекстных фрагментов в потоке данных. — «Информационно-измерительные и управляющие системы», № 10, т.6, 2008. — С. 95−98.
Кокорин П. П. Семиология и понятийная кластеризация для каталогизации текстов. — «Информационно-измерительные и управляющие системы», № 10, т.6, 2008. —С. 62−66.
Апьхрейсат X., Кокорин П. П. Метод встраивания цифровых водяных знаков в звуковые файлы формата МРЗ.— «Известия вузов. Приборостроение», № 10, т.50, 2007. — С.13−16.
Andreeva N., Kokorin P., Kuleshov S. VisualWorld.ru the internet-educational resource. — Proceedings of the Distributed Intelligent Systems and Technologies Workshop, St. Petersburg, 2008, pp. 163−168.
Агеев М. Некоторые способы определения географической привязки IP адресов // «Интернет-Математика-2005»: семинар в рамках Всеросс. науч. конф. RCDL'2005. — М.: Яндекс, 2005. — С. 216−234.
Александров В. В. Интеллект и компьютер.— СПб.: Анатолия, 2004.— 285 с.
Александров В. В., Андреева Н. А., Кулешов С. В. Методы построения информационно-логистических систем. — СПб.: Анатолия, 2005. — 109 с.
Александров В. В., Арсентьева А. В. Информация и развивающиеся структуры. — Л.: ЛИИАН, 1984. — 182 с.
Александров В. В., Арсентьева А. В. Структурный анализ диалога.— Л.: ЛНИВЦ АН СССР, 1983. — 50 с.
Александров В. В., Кулешов С. В., Цветков О. В. Цифровая технология инфокоммуникации. Передача, хранение и семантический анализ текста, звука, видео. — СПб.: Наука, 2008. — 244 с.
Анил Хемраджани Гибкая разработка приложений на Java с помощью Spring, Hibernate и Eclipse. — М.: Вильяме, 2008. — 352 с.
Ахо А., Хопкофт Д., Ульман Д. Структуры данных и алгоритмы.— М.: Вильяме, 2009. — 400 с.
Басакер Р., Саати Т. Конечные графы и сети. — М.: Наука, 1974. — 368 с.
Беленький А. Текстомайнинг. Извлечение информации из неструктурированных текстов.— «КомпьютерПресс», 10'2008 (электронное издание) 20.11.2008. .
Браславский П., Соколов Е. Автоматическое извлечение терминологии с использованием поисковых машин интернета // Компьютерная лингвистика и интеллектуальные технологии: Труды Междунар. конф. Диалог'2007. — М.: Изд-во РГГУ, 2007. — С. 89−94.
Браславский П., Соколов Е. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста // Компьютерная лингвистика и интеллектуальные технологии: Труды Междунар. конф. Диалог'2006. — М.: Изд-во РГГУ, 2006. — С. 88−94.
Брасласвский П., Колычев И. eXtragon: экспериментальная система для автоматического реферирования веб-документов // Труды РОМИП-2005. — СПб.: 2005. — С. 40−53.
Буч Г. Объектно-ориентированный анализ и проектирование примерами приложений на С++. — М.: Бином, 2001. — 517 с.
Валиков А. Технология XSLT. — СПб.: ВНУ-СПб, 2001. — 544 с.
Гайдышев И. Анализ и обработка данных: специальный справочник. — СПб.: Питер, 2001. — 752 с.
Гамма Э., Хелм Р., Джонсон Р., Влиссидес Дэю. Приемы объектно-ориентированного проектирования. Паттерны проектирования.— СПб.: Питер, 2007.— 366 с.
Делез Ж. Логика смысла. — М.: Академия, 1995. — 298 с.
Доброе Б. Н., Лукашевич Н. В., Сыромятников С. В. Формирование базы терминологических свловосочетаний по текстам предметной области // Электронные библиотеки: Труды конференции RCDL'2003.— СПб.: 2003. —С. 201−210.
Дремайлов А. В. АДИТ и движение к организации Российской сети культурного наследия— Информационное общество, вып. 1, 2000.— С. 62−65. (электронный ресурс) .
Дунаев Е. В., Шелестов А. А. Автоматическая рубрикация web-страниц в интернет-каталоге с иерархической структурой. // Интернет-математика 2005. Автоматическая обработка веб-данных. — М.: «Яндекс», 2005.
Дэвид Хантер, Джефф Рафтер XML. Базовый курс.— М.: Вильяме, 2009. — 1344 с.
Дэвис Э. Техногнозис: миф, магия и мистицизм в информационную эпоху. — М.: Ультра. Культура, 2008. — 480 с.
Капустин В. А., Ямсен А. А. Ранговая статистика встречаемости слов в большой текстовой коллекции // Электронные библиотеки: Труды конференции RCDL'2006. — Суздаль, Россия, 2006.
Карл Р. Поппер Эволюционная эпистемология. // «Эволюционная эпистемология и логика социальных наук: Карл Поппер и его критики». — М.: Эдиториал УРСС, 2000. — 464 с.
Кибрик А. А. Модус, жанр и другие параметры классификации дискурсов // Вопросы языкознания. — № 2, 2009. — С. 3−20.
Кириченко К. М, Герасимов М. Б. Обзор методов кластеризации текстовых документов // Материалы международной конференции Диалог'2001, Таруса, 2001.
Кнут Д. Искусство программирования, том 3. Сортировка и поиск, 2-е издание. — М.: Вильяме, 2008. — 824 с.
Кормен Т. X. Алгоритмы: построение и анализ. — 2-е изд. — М.: Вильяме, 2006. — 1296 с.
Крижановский А. А. Автоматизированный поиск семантически близких слов на примере авиационной терминологии // Автоматизация в промышленности. — т. 4, 2008. — С. 16−20.
Кристофидес Н. Теория графов. Алгоритмический подход.— М.: Мир, 1978. —429 с.
Кузнецов Р. Ф. Извлечение значимой информации из web-страниц с использованием предложений. // Сборник тезисов постерных докладов восьмой всероссийской конференции RCDL'2006. — СПб.: НУ ЦСИ, 2006. — 274 с.
Кукушкина О. В., Поликарпов А. А., Хмелёв Д. В. Определение авторства текста с использованием буквенной и грамматической информации // Проблемы передачи информации. Вып.2, т.37, 2001. — С. 96−108.
Куратовский К., Мостовский А. Теория множеств / Под ред. Тайманова А. Д. — М.: Мир, 1970. — 416 с.
Лейбниц Г. Новые опыты о человеческом разумении автора системы предустановленной гармонии. Сочинения в 4-х томах, т.2. —- М.: Мысль, 1983. —686 с.
Милославский И. Г. Великий, могучий русский язык. — «Наука и жизнь», № 6, 2009. (электронное издание) .
Народный рейтинг-плюс (элекстронный ресурс) .
Опарин А. Системы мониторинга и анализа СМИ.— PCWeek, (413) 47'2003 (электронное издание) 16.12.2003. .
Плунгян В. А. Зачем мы делаем национальный корпус русского языка? — «Отечественные записки», № 2, 2005. (электронное издание) .
Плунгян В. А. Почему современная лингвистика должна быть лингвистикой корпусов.— Публичные лекции «Полит.ру», 23.10.2009. (электронное издание) .
Попов Э. В. Общение с ЭВМ на естественном языке. — М.: Наука, 1982. — 360 с.
Пресс-портреты по запросу: организация: «Россия» (электронный ресурс) .
Ратушин Ю. А., Поленок С. П., Ткаченко С. Г. Онтология информационного общества в сети информационно-маркетинговыхцентров стран СНГ: организация электронного экономического взаимодействия. — Финансовые риски, 2008.
Реймонд Э. Искусство программирования для Unix. — М.: Вильяме, 2005. —544 с.
Сегалович И. В. Как работают поисковые системы // Мир Internet, № 10, 2002. (электронный ресурс) .
Смит Б. Методы и алгоритмы вычислений на строках. Теоретические основы регулярных вычислений. — М.: Вильяме, 2006. — 496 с.
Сокирко А. В. Морфологические модули на сайте www.aot.ru // Материалы конференции «Диалог-2004». (электронный ресурс) .
СолтонДж. Динамические библиотечно-информационные системы.— М.: Мир, 1979. —558 с.
СтрауструпБ. Язык программирования С++. Специальное издание.— СПб.: Бином, 2008. — 1104 с.
Ступин В. С. Система автоматического реферирования методом симметричного реферирования // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог'2004». («Верхневолжский», 2004 г.).— М.: Наука, 2004.— С. 579−591.
Телефонные коды городов и стран мира (электронный ресурс) .
ТойнбиА. Дж. Постижение истории: Пер. с англ. / Сост. Огурцов А. П.— М.: Прогресс, 1996. — 608 с.
Френкель А., Бар-Хиллел И. Основания теории множеств / Перевод с английского Гастева Ю. А. под редакцией Есенина-Вольпина А. С.— М.: Мир, 1966. —366 с.
Хан У., МаниИ. Системы автоматического реферирования // Открытые системы. № 12, 2000. (электронный ресурс) .
Хмелев Д. Распознавание автора текста с использованием цепей Маркова // Вестник МГУ, сер.9: Филология. № 2, 2000. — С. 115−126.
Ходов A. Wolfram Alpha знает почти все. — Lenta.ru (электронное издание) 21.05.2009.
Хорстманн К., Корнелл Г. Java 2. Библиотека профессионала, том 2. Тонкости программирования, 8-е издание — М.: Вильяме, 2010. — 992 с.
Цимбал А. А., Ангиина М. Л. Технологии создания распределенных систем. Для профессионалов. — СПб.: Питер, 2003. — 576 с.
Эко У. Отсутствующая структура. Введение в семиологию.— СПб.: Симпозиум, 2006. — 544 с.
Эндрюс Г. Основы многопоточного, параллельного и распределенного программирования. — М.: Вильяме, 2003. — 512 с.
Якобсон Р. О. Речевая коммуникация. Язык в отношении к другим системам коммуникации. // Избранные работы.— М.: Прогресс, 1985.— 460 с.
Alexandrov V. V., Arsentyeva A. V. Dialogue structure. Part 2.-— Leningrad, 1984.
Alonso L., Castellon I., Climent S., Fuentes M., Padro L., Rodriguez И. Approaches to Text Summarization: Questions and Answers. In Revista Iberoamericana de Inteligencia Artificial, No. 20, pp. 34−52, 2003.
AmitayE. etal. Web-a-Where: Geotagging Web Content, SIGIR'2004.
Barzilay R., Michael Elhadad Using Lexical Chains for Text Summarization. In Proceedings of the Intelligent Scalable Text Summarization Workshop (ISTS'97), ACL Madrid, 1997.
Bjorn Lundell, Brian Lings Expressiveness within Enhanced Models: An Infological Perspective. In ER'97, 1997. Available online: .
Bras lavs ki P. Combining Relevance, Genre-Related Rankings: an Exploratory Study. In Proc. of the Workshop «Towards Genre-Enabled Search Engines: The Impact of NLP», 2007.
Braslavski P., Tselishchev A. Style-Dependent Document Ranking. RCDL'2005.
Brin S., Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Available online: .
Bubenko Janis jr. (1993) Extending the Scope of Information Modelling, Invited paper: 4th International Workshop on Deductive Approach to Information Systems and Databases, Lloret, Costa Brava, Sept. 20−22 1993.
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schiitze Introduction to Information Retrieval, Cambridge University Press, 496 pages, 2008.
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze, Introduction to Information Retrieval, Cambridge University Press, 2008.
Chuang Wang et al. Web Resource Geographic Location Classification and Detection, WWW2005.
Collins-Thompson К., CallanJ.P. A Language Modeling Approach to Predicting Reading Difficulty. HLT/NAACL'2004.
Ding J., Gravano L., Shivakumar N. Computing Geographical Scopes of Web Resources, VLDB2000.
Extensible Markup Language (XML) 1.0 (Fifth Edition). W3C Recommendation 26 November 2008. (электронный ресурс) .
Frank E., Paynter G. W., Witten I. H., Gutwin C., Nevill-Manning C. G. Domain-specific keyphrase extraction. In Proc. of IJCAI-99, pages 668−673, 1999.
GeoNames .
Hearst M. A. Automatic Acquisition of Hyponyms from Large Text Corpora // Proc. of the 14th International Conference on Computational Linguistics, Nantes, France, 1992.
Henzinger M. et al. Query-Free News Search, WWW2003, 1−10.
Iatsko V. (2001). Linguistic Aspects of Summarization. In Philologie im Netz, 18, 33−46. Available online: .
Jones R., Hassan A., Diaz F. Geographic Features in Web Search Retrieval. GIR'08.
Joshua Bloch Effective Java, 2nd Edition. Prentice Hall, 2008.
Langefors Borje (1973) Theoretical Analysis of Information Systems (4th ed.), Studentlitteratur, Lund, Sweden, AUERBACH Publishers Inc., Philadelphia.
Langefors Borje (1995) Essays on Infology: Summing up and Planning for the Future, Edited by Bo Dahlbom, Studentlitteratur, Lund.
Lars Backstrom, Jon Kleinberg, Ravi Kumar, Jasmine Novak. Spatial Variation in Search Engine Queries. WWW 2008.
Lim C. S. et al. Multiple sets of features for automatic genre classification of web documents. IPM, 2005.
LuhnH. The automatic creation of literature abstracts. In IBM Journal of Research and Development, Vol. 2(2), pp. 159−165, 1958.
Manning C.D., Schutze H. Foundations of Statistical Natural Language Processing. MIT Press, 2000.
Maslov M., Golovko A., Segalovich /., Bras lavs ki P. Extracting news-related queries from web query log. WWW '06, 931−932.
Meyer zu Eissen S., Stein B. Genre Classification of Web Pages: User Study and Feasibility Analysis. КГ2004.
Michael J. Welch, Junghoo Cho. Automatically Identifying Localizable Queries. SIGIR'08.
Nenkova A. Automatic Text Summarization of Newswire: Lessons Learned from the Document Understanding Conference. In Proc. of AAAI 2005, pp. 14 361 441.
Nomoto Т., Matsumoto Y. (2003). The diversity-based approach to open-domain text summarization. In Information Processing & Management, 39, 363−389.
Paul J. Perrone, Venkata S. R., R. Chaganti, Tom Schwenk J2EE Developer’s Handbook. Sams, 2003.120 .PyallingA., Maslov M., Bras lavs ki P. Automatic geotagging of Russian web sites, WWW2006, 965−966.
R. Baeza-Yates, B. Ribeiro-Neto Modern Information Retrieval. Addison-Wesley, 1999.
Radev D. R., Jing H., Stys M., Tarn D. Centroidbased summarization of multiple documents. In Information Processing and Management, vol. 40, pp. 919−938, 2004.
Rauber A., Mueller-Koegler A. Integrating Automatic Genre Analysis into Digital Libraries. JCDL'2001.
Rehm G., Santini M., Mehler A., Bras lavs ki P., Gleim R., StubbeA., Symonenko S., Tavosanis M, Vidulin V. Towards a Reference Corpus of Web Genres for the Evaluation of Genre Identification Systems. LREC 2008.
Renaud Pawlak, Lionel Seinturier, Jean-Philippe Retaille Foundations of AOP for J2EE Development. Apress, 2005.
S. Beitzel et al. Automatic web query classification using labeled and unlabeled training data. SIGIR 2005 poster.
Santini M. State-of-the-Art on Automatic Genre Identification. Technical Report ITRI-04−03, Information Technology Research Institute, Univ. of Brighton, UK (2004).
Semantic Web — (элекстронный ресурс) .
Si L., CallanJ. A Statistical Model for Scientific Readability. In: Proceedings of CIKM'2001, pp. 574—576 (2001).
Srinivas Vadrevu, Ya Zhang, Belle Tseng, Gordon Sun, Xin Li. Identifying Regional Sensitive Queries in Web Search. WWW 2008 poster.
StubbeA., Ringlstetter Ch., GoebelR. Elements of a Learning Interface for Genre Qualified Search. Proceedings of the Workshop «Towards Genre-Enabled Search Engines: The Impact of NLP», 2007.
The Extensible Stylesheet Language Family (XSL) (электронный ресурс) .
Turney P. D. Learning to Extract Keyphrases from Text. National Research Council, Institute for Information Technology, Technical Report ERB-1057, 1999.
Turpin A. et al. Fast Generation of Result Snippets in Web Search, SIGIR 2007.
W3C Semantic Web Activity-— (электронный ресурс) .
W3C Semantic Web Standard— (электронный ресурс) .
WangJ., OardD. W. Combining Bidirectional Translation and Synonymy for Cross-Language Information Retrieval, SIGIR'06.
White R. W., JoseJ.M., Ruthvenl. A task-oriented study on the influencing effects of query-biased summarisation in web searching. In Information Processing & Management, 39, 707−733.
William Grosso Java RMI. O’Reilly Media, 2001. — 572 p.
World Wide Web Consortium — (электронный ресурс)
XML Schema specification (электронный ресурс) .

Заполнить форму текущей работой