Помощь в написании студенческих работ
Антистрессовый сервис

Становление проекта и первые результаты

РефератПомощь в написанииУзнать стоимостьмоей работы

Модификация и расширение состава GATE-компонент (модификация базового модуля лексического форматирования входных текстов (Tokenizer); создание wrapper-ов для свободно распространяемых POS-модулей для французского и немецкого языков (POS Tagger); модификация блока русской морфологии С. Старостина и включение его в состав базовых обработчиков среды GATE (Morph); модификация базового блока словарей… Читать ещё >

Становление проекта и первые результаты (реферат, курсовая, диплом, контрольная)

Понимание того, что поставленная перед проектом задача, в силу своей наукоемкости, не под силу даже высокотехнологичным, но традиционным IT-компаниям, привело к тому, что для формирования проектного коллектива в качестве консультанта был приглашен В. Ф. Хорошевский из ВЦ РАН, а затем и другие специалисты из институтов РАН и МГУ. В разное время в работах по проекту OntosMiner принимали участие такие известные в нашей стране специалисты, как Н. В. Перцов и Н. Н. Перцова, Н. Н. Леонтьева, а основной костяк лингвистической команды OntosMiner, благодаря поддержке и вниманию А. Е. Кибрика, был сформирован из выпускников и аспирантов кафедры теоретической и прикладной лингвистики МГУ. В команду также вошли выпускники и аспиранты ВМиК МГУ и МФТИ. В результате был образован работоспособный коллектив программирующих лингвистов и достаточно глубоко понимающих проблемы компьютерной лингвистики системных программистов, к работам которых были также подключены специалисты по базам данных и другие IT-специалисты ЗАО «Авикомп Сервисез».

Опыт привлеченных к проекту специалистов, а также проведенный анализ состояния исследований и разработок показал, что основные усилия разработчиков во всем мире сосредоточены в области создания систем типа IE (Information Extraction) для обработки мультиязычных коллекций документов из различных источников в заданных предметных областях. С учетом вышесказанного проект OntosMiner был также сориентирован на создание семейства систем типа MIE (Multilingual Information Extraction).

При этом подход OntosMiner к обработке ЕЯ-текстов отличается от подходов большинства других исследовательских коллективов и коммерческих компаний, прежде всего, в следующем: в OntosMiner НЕ решается и даже НЕ ставится задача абсолютно полного и правильного анализа произвольных ЕЯ-текстов. Задача OntosMiner — не пропустить те конструкции, которые могут быть обработаны правильно и которые содержат информацию, релевантную для заданной предметной области, и не обрабатывать то, что пока правильно обработано быть не может. Такой подход, как показывает опыт, позволяет пользователям получать адекватное интегральное видение проблемы.

Следующим принципом, положенным в основу проекта OntosMiner, является принцип разработки и многоплатформенной реализации повторно используемых компонент, интеграция которых в рамках мощной инструментальной среды позволяет достаточно быстро проектировать и реализовывать коммерческие системы извлечения информации из ЕЯ_текстов в заданных предметных областях.

И, наконец, последним по счету, но не по важности является принцип использования для управления анализом ЕЯ-текстов моделей предметных областей, специфицированных в виде предметных онтологий.

Таким образом, основные требования, которые предъявляются к системам семейства OntosMiner, следующие:

Работа с мультиязычными коллекциями документов.

Обработка монотематических коллекций документов одной версией системы.

Достаточно полное и точное выделение из текстов основных объектов и отношений между ними в соответствии с предметной онтологией.

Представление результатов обработки в виде когнитивных карт, которые являются семантическими сетями специального вида.

Масштабируемость решений и многоплатформенность всех систем семейства.

С учетом перечисленных выше требований, а также с учетом понимания того, что разработка собственного инструментария «с нуля» была бы непозволительной роскошью, в качестве технологичесого базиса проекта OntosMiner была выбрана мощная многоплатформенная среда GATE (General Architecture for Text Engineering), созданная в Шеффилдском университете Великобритании [Cunningham et al., 2002] и распространяемая на условиях Open Source.

При этом уже на начальной стадии проекта OntosMiner были развернуты работы по развитию и модификации среды GATE. На первом этапе проекта эти работы велись в 3-х направлениях:

Модификация ядра среды GATE Компоненты ядра переданы Шеффилдскому университету и распространяются с релизом GATE 3.0. (разработка и реализация интерактивного отладчика для базового ЯПЗ Jape среды GATE; разработка собственного расширения ЯПЗ Jape (Jape+) и реализация компилятора с этого языка [Karasev et al., 2004]).

Модификация и расширение состава GATE-компонент (модификация базового модуля лексического форматирования входных текстов (Tokenizer); создание wrapper-ов для свободно распространяемых POS-модулей для французского и немецкого языков (POS Tagger); модификация блока русской морфологии С. Старостина и включение его в состав базовых обработчиков среды GATE (Morph); модификация базового блока словарей среды GATE для обработки структурных атрибутов (Gazetteer); разработка модуля генерации когнитивных карт (XML Generator)).

Разработка и реализация новых инструментальных компонент (создание системы Dix для формирования и сопровождения словарей терминов; создание системы LightOntos для спецификации предметных онтологий и визуализации когнитивных карт).

Одновременно с разработкой инструментария были развернуты работы по реализации новых ресурсов-обработчиков, например, модуля выделения из текстов предикатных конструкций (глаголов и аналитических глагольных форм).

Одним из первых прототипов систем извлечения информации из русскоязычных текстов, разработанных в рамках проекта OntosMiner, стала система анализа сводок об угонах автомобилей — OntosMiner/CarCrime [Khoroshevsky, 2003], а в 2004 году были начаты планомерные исследования и разработки по первым системам семейства OntosMiner, которые, с одной стороны, подтвердили правильность основных принципов, положенных в основу проекта, а с другой — показали необходимость вовлечения в процессы обработки текстов более мощных методов (по сравнению с т.н. shallow-методами [Engels et al., 2000]).

Практически значимыми результатами I этапа проекта OntosMiner можно считать формирование работоспособного коллектива, создание (на базе среды GATE) основы собственной технологической платформы обработки текстов, а также государственный заказ на создание прикладной системы извлечения информации из документов-сводок.

Показать весь текст
Заполнить форму текущей работой