Эксперимент 2 (syntax2)
Добавление новых четырех признаков улучшило показатели классификатора на 0.03 (F1-score был 0.55, стал 0.58). Это говорит о том, что синтаксические отношения связывающие антецедент с анафором (расстояние, отношение уровней), положительно влияют на работу системы. Поскольку предыдущий эксперимент оказался успешным, внедрение следующих признаков будет независимым, то есть все признаки, которые уже… Читать ещё >
Эксперимент 2 (syntax2) (реферат, курсовая, диплом, контрольная)
Поскольку предыдущий эксперимент оказался успешным, внедрение следующих признаков будет независимым, то есть все признаки, которые уже были использованы, останутся, а к ним будут добавлены новые, а именно:
- 1) тип синтаксической связи антецедента со словом, его контролирующим;
- 2) глубина антецедента (расстояние от антецедента до корня в дереве).
Однако глубину антецедента и анафора в дереве можно объединить, то есть из этой комбинации можно получить два признака:
- 3) разница уровней в дереве (уровень антецедента vs уровень местоимения);
- 4) расстояние от анафора до антецедента.
Последний признак можно посчитать, только если анафор и потенциальный антецедент находятся в одном предложении. Для тех кандидатов, которые расположены в других предложения (т.е. не в том, где анафор), было решено добавить коэффициент, который отражал бы разницу в предложениях. То есть, к примеру, если взять коэффициент «+100» для каждого предложения получатся следующие результаты: данный признак в первом предложении должен выдавать значения от 0 до 100, то есть предполагается, что максимальная длина от антецедента до анафора в одном предложении не должна превышать 100; тогда во втором предложении данный признак будет получать значения от 100 до 200 и т. д. Алгоритм поиска расстояния от анафора до антецедента в одном предложении следующий:
- 1) для анафора и антецедента получить список из узлов от анафора/антецедента до корня;
- 2) посчитать путь до общего узла для антецедента и анафора (первый узел, встретившийся в двух списках сразу);
- 3) сложить полученные пути и вычесть 1.
Ожидается, что четыре новых признака повысят результаты работы алгоритма, потому как они добавляют характеристики антецедента, которых ранее не было.
Аналогично таблице о типах синтаксических отношений для анафора была подсчитана такая же статистика и для антецедентов. Поскольку таблица слишком большая, она доступна в приложении 2. Однако можно рассмотреть диаграмму распределения, она представлена в диаграмме 2.
Из диаграммы 2 видно, что основное распределение идет на следующие отношения: предл, 1-компл, предик, квазиагент, соч-союзн, аппоз). Аналогично методу, примененному в первом эксперименте, было решено закодировать самые частотные отдельными номерами, а остальные оставшиеся нулевым.
Неописанные синтаксические отношения, вошедшие в список самых частотных:
- 1) соч-союзн: Х — сочинительный союз, Y — вершина второго из однородных членов или предложений;
- 2) аппоз: Х — существительное, Y — следующее за ним приложение. Обычно X и Y согласованы по падежу и числу.
Результаты работы классификатора с новым алгоритмом представлены в таблице 5.
Таблица 5.
Precision. | Recall. | F1-score. | |
Baseline. | 0.81. | 0.33. | 0.47. |
Baseline + syntax1. | 0.75. | 0.42. | 0.54. |
Baseline + syntax1 (1/5) fixed. | 0.76. | 0.43. | 0.55. |
Baseline + syntax1 fixed + syntax2. | 0.78. | 0.46. | 0.58. |
Добавление новых четырех признаков улучшило показатели классификатора на 0.03 (F1-score был 0.55, стал 0.58). Это говорит о том, что синтаксические отношения связывающие антецедент с анафором (расстояние, отношение уровней), положительно влияют на работу системы.