Помощь в написании студенческих работ
Антистрессовый сервис

Эксперимент 2 (syntax2)

РефератПомощь в написанииУзнать стоимостьмоей работы

Добавление новых четырех признаков улучшило показатели классификатора на 0.03 (F1-score был 0.55, стал 0.58). Это говорит о том, что синтаксические отношения связывающие антецедент с анафором (расстояние, отношение уровней), положительно влияют на работу системы. Поскольку предыдущий эксперимент оказался успешным, внедрение следующих признаков будет независимым, то есть все признаки, которые уже… Читать ещё >

Эксперимент 2 (syntax2) (реферат, курсовая, диплом, контрольная)

Поскольку предыдущий эксперимент оказался успешным, внедрение следующих признаков будет независимым, то есть все признаки, которые уже были использованы, останутся, а к ним будут добавлены новые, а именно:

  • 1) тип синтаксической связи антецедента со словом, его контролирующим;
  • 2) глубина антецедента (расстояние от антецедента до корня в дереве).

Однако глубину антецедента и анафора в дереве можно объединить, то есть из этой комбинации можно получить два признака:

  • 3) разница уровней в дереве (уровень антецедента vs уровень местоимения);
  • 4) расстояние от анафора до антецедента.

Последний признак можно посчитать, только если анафор и потенциальный антецедент находятся в одном предложении. Для тех кандидатов, которые расположены в других предложения (т.е. не в том, где анафор), было решено добавить коэффициент, который отражал бы разницу в предложениях. То есть, к примеру, если взять коэффициент «+100» для каждого предложения получатся следующие результаты: данный признак в первом предложении должен выдавать значения от 0 до 100, то есть предполагается, что максимальная длина от антецедента до анафора в одном предложении не должна превышать 100; тогда во втором предложении данный признак будет получать значения от 100 до 200 и т. д. Алгоритм поиска расстояния от анафора до антецедента в одном предложении следующий:

  • 1) для анафора и антецедента получить список из узлов от анафора/антецедента до корня;
  • 2) посчитать путь до общего узла для антецедента и анафора (первый узел, встретившийся в двух списках сразу);
  • 3) сложить полученные пути и вычесть 1.

Ожидается, что четыре новых признака повысят результаты работы алгоритма, потому как они добавляют характеристики антецедента, которых ранее не было.

Аналогично таблице о типах синтаксических отношений для анафора была подсчитана такая же статистика и для антецедентов. Поскольку таблица слишком большая, она доступна в приложении 2. Однако можно рассмотреть диаграмму распределения, она представлена в диаграмме 2.

Из диаграммы 2 видно, что основное распределение идет на следующие отношения: предл, 1-компл, предик, квазиагент, соч-союзн, аппоз). Аналогично методу, примененному в первом эксперименте, было решено закодировать самые частотные отдельными номерами, а остальные оставшиеся нулевым.

Неописанные синтаксические отношения, вошедшие в список самых частотных:

  • 1) соч-союзн: Х — сочинительный союз, Y — вершина второго из однородных членов или предложений;
  • 2) аппоз: Х — существительное, Y — следующее за ним приложение. Обычно X и Y согласованы по падежу и числу.

Результаты работы классификатора с новым алгоритмом представлены в таблице 5.

Таблица 5.

Precision.

Recall.

F1-score.

Baseline.

0.81.

0.33.

0.47.

Baseline + syntax1.

0.75.

0.42.

0.54.

Baseline + syntax1 (1/5) fixed.

0.76.

0.43.

0.55.

Baseline + syntax1 fixed + syntax2.

0.78.

0.46.

0.58.

Добавление новых четырех признаков улучшило показатели классификатора на 0.03 (F1-score был 0.55, стал 0.58). Это говорит о том, что синтаксические отношения связывающие антецедент с анафором (расстояние, отношение уровней), положительно влияют на работу системы.

Показать весь текст
Заполнить форму текущей работой