На втором этапе выполнения проекта внимание разработчиков было сфокусировано и на лингвистических процессорах семейства OntosMiner, общая архитектура которых представлена на рис. 1.
Рис. 1. Архитектура систем семейства OntosMiner
В данной архитектуре задействованы как классические модули систем типа IE (Tokenizer, MorphTagger, Gazetteer, NE-extractor), так и такие «нетипичные» и/или новые для этого класса систем модули, как Parser, Minimizer, Coreferencer, Semantic Tagger и Triples Converter.
Parser играет в структуре систем семейства OntosMiner роль модуля, обеспечивающего выполнение частичного синтаксического анализа в объеме, продиктованном требованиями практики.
Основной задачей модуля Minimizer является разрешение неоднозначностей на выходе модуля NE-extractor. Для этого используется достаточно сложная система весов и правил, которые их учитывают.
Как известно [Orasan et al., 2008], автоматический анализ кореферентных и анафорических связей является одной из самых сложных проблем современной прикладной лингвистики, которая до настоящего времени не имеет полного решения. Поэтому в системах семейства OntosMiner модуль Coreferencer решает несколько практически важных, но частных задач. Это обработка наиболее частотных случаев местоименной анафоры и простейших эллипсисов, а также установление кореферентных связей между именованными сущностями с использованием как лингвистических правил, так и статистических методов.
Принципиально новым для IE-систем модулем в системах семейства OntosMiner является модуль Semantic Tagger. На уровне этого модуля из обрабатываемого текста под управлением предметной онтологии с помощью системы семантико-синтаксических правил извлекаются отношения между именованными сущностями и атрибуты этих отношений, что соответствует связям между объектами и событиям реального мира.
Новым для IE-систем модулем является и модуль Triples Converter, поскольку в классических системах его простейшую функцию — вывод результатов обработки — берет на себя инструментальная среда. В нашем случае этого недостаточно, и в системах семейства OntosMiner Triples Converter не только конвертирует результаты обработки текста во внешнее представление в соответствии со стандартами W3C, но и осуществляет отображение их на внешние предметные онтологии, что позволяет использовать единое внутреннее представление для разных языков (русский, английский, немецкий и др.).