Помощь в написании студенческих работ
Антистрессовый сервис

Количественные результаты исследования

РефератПомощь в написанииУзнать стоимостьмоей работы

Также нужно отметить, что выбранные три класса именованных сущностей — Персона, Локация и Организация — не лучшим образом отражают специфику текстов. В частности, сущности типа Организация вызвали наибольшие проблемы у обеих систем в связи с тем, что, во-первых, были хуже представлены в корпусе, и во-вторых, газеттиры для них оказались недостаточно адаптированными. Анализ результатов показывает… Читать ещё >

Количественные результаты исследования (реферат, курсовая, диплом, контрольная)

Результаты эксперимента приведены в таблицах3 и 4.

Таблица 3. Результаты работы двух систем.

P.

R.

F1.

Микроблоги.

Томита.

0.63.

0.58.

0.61.

Gate.

0.52.

0.49.

0.51.

Новости.

Томита.

0.79.

0.81.

0.80.

Gate.

0.76.

0.82.

0.79.

Таблица 4. Результаты на корпусе микроблогов с разбиением по типам именованных сущностей.

P.

R.

F1.

Томита.

Org.

0.59.

0.53.

0.56.

Per.

0.71.

0.68.

0.69.

Loc.

0.59.

0.54.

0.56.

Gate.

Org.

0.42.

0.37.

0.39.

Per.

0.61.

0.59.

0.60.

Loc.

0.54.

0.51.

0.52.

Выводы, направления дальнейшей работы Оба инструмента показали неплохие результаты (хотя и значительно ниже state-of-the-art показателей) на корпусе микроблогов.

Несмотря на учет особенностей предметной области и разработку специфических словарей для обработки текстов микроблогов, новостные тексты всё же представляют меньшие трудности для обработки.

Так как оба инструмента являются системами, опирающимися на правила, точность их работы может быть весьма высока, т. е. составленные газеттиры и словари замен были недостаточно полными.

Невысокие показатели системы Gate объясняются отчасти, скорее всего, тем, что специфический модель частеречной разметки с учетом особенностей текстов Твиттера не был использован, а примененный вместо него модуль для русского языка не был построен с учетом данной специфики. Очевидно также, что при таком подходе размер словарей замен (коррекции орфографии и расшифровки аббревиатур) должен быть значительно увеличен.

Также нужно отметить, что выбранные три класса именованных сущностей — Персона, Локация и Организация — не лучшим образом отражают специфику текстов. В частности, сущности типа Организация вызвали наибольшие проблемы у обеих систем в связи с тем, что, во-первых, были хуже представлены в корпусе, и во-вторых, газеттиры для них оказались недостаточно адаптированными.

Включение же в область исследования других типов сущностей, в частности Продукт (Товар), могло бы положительно повлиять на общий результат.

Анализ результатов показывает, что с точки зрения разбиения на классы ИС результаты, полученные при помощи Томита-парсерабыли более однородны, система Gate же показала большую вариативность, что говорит о недостаточной адаптациивсех модулей системы.

Учёт этих недостатков в дальнейшей работе может способствовать улучшению результатов.

Кроме того, представляется интересным применить созданный корпус, газеттиры и признаки, использованные при написании правил, для тестирования методами машинного обучения, в частности с использованием метода условных случайных полей.

Показать весь текст
Заполнить форму текущей работой