Общие замечания
Очевидно, что для проверки предложенных метрик необходимо иметь реальную систему типа IE, которая бы поддержала соответствующие эксперименты. В данной работе для этого использовался процессор OntosMiner/Russian, разработанный и реализованный в проекте OntosMiner, ориентированном на создание семейства систем типа MIE (Multilingual Information Extraction) [Хорошевский, 2004]. В этом проекте создана и запатентована технология создания прикладных систем обработки ЕЯ-текстов, опирающаяся на мощную многоплатформенную инструментальную среду GATE (General Architecture for Text Engineering) из Шеффилдского университета Великобритании [Cunningham et. al., 2002]. В рамках этой технологии модифицирована часть компонент среды GATE, а также разработаны и реализованы специализированные компоненты обработки ЕЯ-текстов, в том числе лексическое форматирование текстов, что обеспечивает выделение элементарных единиц (слова, знаки препинания, числа и т. п.), необходимых для дальнейшей обработки;
фрагментирование текстов на предложения;
морфологический анализ отдельных лексических единиц;
выделение в тексте предикатных конструкций (глаголов и аналитических глагольных форм);
выделение в тексте отдельных поименованных сущностей, фиксирующих семантически значимые с точки зрения предметной онтологии понятия;
семантический анализ и семантическая интерпретация полученных предыдущими компонентами результатов, выполняемые под управлением предметной онтологии с целью построения когнитивных карт, описывающих смысл обрабатываемых текстов.
Процессор OntosMiner/Russian ориентирован на обработку корпоративных документов и статей с новостных сайтов Интернет, в основном, по тематике «Бизнес: Люди и Компании». В текущей версии он обрабатывает семантически значимые объекты и отношения, перечисленные в Табл.1.
Табл. 1. Типы объектов и отношений, обрабатываемых OntosMiner/Russian.
|
Объекты (Поименованные сущности). |
1. | Person. | Физические лица (ФИО). | |
2. | JobTitle/Title. | Должности и титулы. | |
3. | Organization. | Юридические лица (компании, университеты и т. п.). | |
4. | Location. | Геоимена (страны, города и т. п.). | |
5. | Date/Period. | Время. | |
6. | Money/Percent. | Деньги/Проценты. | |
Семантические отношения. | |
1. | BeEmployeeOf. | Работать-Служить (в организации). | |
2. | LocatedIn. | РасполагатьсяВ (для организаций). | |
3. | TheSame? | Отношение орфо-синонимии между объектами. | |
4. | ConnectedWith. | Возможна семантическая связь между объектами. | |
5. | PresentedIn. | Объекты представлены в одном документе. | |
|
Предполагается развитие этого процессора в части номенклатуры типов объектов и отношений, значимых для полномасштабной обработки документов указанных выше типов.