Помощь в написании студенческих работ
Антистрессовый сервис

Оценки результатов обработки

РефератПомощь в написанииУзнать стоимостьмоей работы

Результаты ручного тегирования сравнивались с результатами обработки этих же текстов системой OntosMiner/Russian. Вычисления оценок производились по классическим формулам и формулам, предложенным в данной работе. 6 текстов, случайно выбранных из контрольного корпуса, тэгировали эксперты-лингвисты. Процедура оценки была организована следующим образом: Табл. 4. Предлагаемые оценки (отношения… Читать ещё >

Оценки результатов обработки (реферат, курсовая, диплом, контрольная)

Для оценки результатов обработки текстов из указанного корпуса было решено использовать объекты типа Person, JobTitle/Title, Organization и Location, а также отношения типа BeEmployeeOf и ConnectedWith. С одной стороны, такой набор является практически стандартным для оценок на конференциях TREC/MUC/DUC [TREC, 2003; MUC, 1993; Hovy, et al., 2005], а с другой — дает интересную информацию по сравнению классической и предложенной системы метрик.

Процедура оценки была организована следующим образом:

  • · 6 текстов, случайно выбранных из контрольного корпуса, тэгировали эксперты-лингвисты.
  • · Результаты ручного тегирования сравнивались с результатами обработки этих же текстов системой OntosMiner/Russian.
  • · Вычисления оценок производились по классическим формулам и формулам, предложенным в данной работе.

При этом, для простоты, предполагалось, что точность и полнота имеют одинаковые веса (в=1), а веса атрибутов и Offsets, если они используются при вычислениях, тоже одинаковы (г=1/k, где k — кол-во атрибутов, и щStartOffset = щEndOffset = ½).

Оценки результатов обработки представлены в Табл. 2, 3, 4. В силу значительного объема «ручных» вычислений, результаты по новым метрикам получены только для первых трех текстов.

Табл. 2. Классические оценки.

Объект/.

Параметр

Док.

Именованные сущности.

Person.

JobTitle.

Organization.

Location.

Correct / Partial /.

Spurious /.

Miss.

1.

4 / 1 / 0 / 0.

10 / 0 / 0 / 0.

15 / 3 / 1 / 2.

9 / 0 / 0 / 0.

2.

13 / 0 / 0 / 1.

9 / 0 / 1 / 5.

12 / 1 / 0 / 1.

30 / 0 / 0 / 0.

3.

21 / 0 / 0 / 0.

11 / 1 / 0 / 4.

16 / 1 / 0 / 6.

15 / 0 / 0 / 0.

4.

56 / 0 / 2 / 0.

34 / 0 / 1 / 3.

103 / 4 / 1 / 23.

35 / 0 / 2 / 5.

5.

12 / 0 / 0 / 4.

10 / 1 / 1 / 1.

11 / 2 / 2 / 5.

22 / 0 / 1 / 1.

6.

25 / 2 / 1 / 1.

26 / 0 / 0 / 0.

22 / 2 / 1 / 7.

13 / 0 / 2 / 0.

Точность /.

Полнота /.

F-мера.

1.

0,90 / 0,90 / 0,90.

1,00 / 1,00 / 1,00.

0,89 / 0,82 / 0,85.

1,00 / 1,00 / 1,00.

2.

1,00 / 0,93 / 0,96.

0,90 / 0,64 / 0,75.

0,96 / 0,89 / 0,92.

1,00 / 1,00 / 1,00.

3.

1,00 / 1,00 / 1,00.

0,94 / 0,72 / 0,82.

0,97 / 0,76 / 0,85.

1,00 / 1,00 / 1,00.

4.

0,97 / 1,00 / 0,98.

0,97 / 0,92 / 0,94.

0,97 / 0,81 / 0,88.

0,95 / 0,88 / 0,91.

5.

1,00 / 0,75 / 0,86.

0,87 / 0,87 / 0,87.

0,80 / 0,67 / 0,73.

0,96 / 0,96 / 0,96.

6.

0,93 / 0,93 / 0,93.

1,00 / 1,00 / 1,00.

0,92 / 0,74 / 0,82.

0,87 / 1,00 / 0,93.

Табл. 3. Предлагаемые оценки (объекты).

Объект/.

Параметр

Док.

Именованные сущности.

Person.

JobTitle.

Organization.

Location.

Correct / Partial /.

Spurious /.

Miss.

1.

4 / 1 / 0 / 0.

10 / 0 / 0 / 0.

15 / 3 / 1 / 2.

9 / 0 / 0 / 0.

2.

13 / 0 / 0 / 1.

9 / 0 / 1 / 5.

11 / 1 / 1 / 1.

30 / 0 / 0 / 0.

3.

21 / 0 / 0 / 0.

11 / 1 / 0 / 4.

16 / 1 / 0 / 6.

15 / 0 / 0 / 0.

Точность /.

Полнота /.

F-мера.

1.

0,90 / 0,90 / 0,90.

1,00 / 1,00 / 1,00.

0,83 / 0,79 / 0,81.

1,00 / 1,00 / 1,00.

2.

1,00 / 0,93 / 0,96.

0,90 / 0,64 / 0,75.

0,94 / 0,88 / 0,91.

1,00 / 1,00 / 1,00.

3.

0,98 / 0,99 / 0,99.

0,99 / 0,72 / 0,82.

0,96 / 0,71 / 0,82.

1,00 / 1,00 / 1,00.

Табл. 4. Предлагаемые оценки (отношения).

Объект/.

Параметр

Док.

Отношения.

BeEmployeeOf.

ConnectedWith.

Correct / Partial /.

Spurious /.

Miss.

1.

2 / 0 / 0 / 2.

24 / 0 / 0 / 0.

2.

4 / 0 / 0 / 1.

21 / 0 / 0 / 0.

3.

2 / 0 / 0 / 3.

35 / 0 / 0 / 0.

Точность /.

Полнота /.

F-мера.

1.

1,00 / 0,50 / 0,67.

1,00 / 1,00 / 1,00.

2.

1,00 / 0,80 / 0,89.

1,00 / 1,00 / 1,00.

3.

1,00 / 0,40 / 0,57.

1,00 / 1,00 / 1,00.

2.4 Сравнение оценок

Как показывает анализ полученных результатов, новые метрики более «чувствительны» к ошибкам в определении Offsets, но, вместе с тем, учитывают важность атрибутов и правильность их выделения. Так, например, если среди атрибутов объекта типа Person (Gender, FirstName, PatrName, FamName) один выделился неверно, точность и полнота будут выше, чем в тех случаях, когда ни один из атрибутов не обработался правильно. Аналогичная ситуация имеет место и для оценок отношений.

Показать весь текст
Заполнить форму текущей работой