Эксперимент 2 (syntax2)

РефератПомощь в написанииУзнать стоимостьмоей работы

Добавление новых четырех признаков улучшило показатели классификатора на 0.03 (F1-score был 0.55, стал 0.58). Это говорит о том, что синтаксические отношения связывающие антецедент с анафором (расстояние, отношение уровней), положительно влияют на работу системы. Поскольку предыдущий эксперимент оказался успешным, внедрение следующих признаков будет независимым, то есть все признаки, которые уже… Читать ещё >

Эксперимент 2 (syntax2) (реферат, курсовая, диплом, контрольная)

Поскольку предыдущий эксперимент оказался успешным, внедрение следующих признаков будет независимым, то есть все признаки, которые уже были использованы, останутся, а к ним будут добавлены новые, а именно:

1) тип синтаксической связи антецедента со словом, его контролирующим;
2) глубина антецедента (расстояние от антецедента до корня в дереве).

Однако глубину антецедента и анафора в дереве можно объединить, то есть из этой комбинации можно получить два признака:

3) разница уровней в дереве (уровень антецедента vs уровень местоимения);
4) расстояние от анафора до антецедента.

Последний признак можно посчитать, только если анафор и потенциальный антецедент находятся в одном предложении. Для тех кандидатов, которые расположены в других предложения (т.е. не в том, где анафор), было решено добавить коэффициент, который отражал бы разницу в предложениях. То есть, к примеру, если взять коэффициент «+100» для каждого предложения получатся следующие результаты: данный признак в первом предложении должен выдавать значения от 0 до 100, то есть предполагается, что максимальная длина от антецедента до анафора в одном предложении не должна превышать 100; тогда во втором предложении данный признак будет получать значения от 100 до 200 и т. д. Алгоритм поиска расстояния от анафора до антецедента в одном предложении следующий:

1) для анафора и антецедента получить список из узлов от анафора/антецедента до корня;
2) посчитать путь до общего узла для антецедента и анафора (первый узел, встретившийся в двух списках сразу);
3) сложить полученные пути и вычесть 1.

Ожидается, что четыре новых признака повысят результаты работы алгоритма, потому как они добавляют характеристики антецедента, которых ранее не было.

Аналогично таблице о типах синтаксических отношений для анафора была подсчитана такая же статистика и для антецедентов. Поскольку таблица слишком большая, она доступна в приложении 2. Однако можно рассмотреть диаграмму распределения, она представлена в диаграмме 2.

Из диаграммы 2 видно, что основное распределение идет на следующие отношения: предл, 1-компл, предик, квазиагент, соч-союзн, аппоз). Аналогично методу, примененному в первом эксперименте, было решено закодировать самые частотные отдельными номерами, а остальные оставшиеся нулевым.

Неописанные синтаксические отношения, вошедшие в список самых частотных:

1) соч-союзн: Х — сочинительный союз, Y — вершина второго из однородных членов или предложений;
2) аппоз: Х — существительное, Y — следующее за ним приложение. Обычно X и Y согласованы по падежу и числу.

Результаты работы классификатора с новым алгоритмом представлены в таблице 5.

Таблица 5.


Precision.	Recall.	F1-score.
Baseline.	0.81.	0.33.	0.47.
Baseline + syntax1.	0.75.	0.42.	0.54.
Baseline + syntax1 (1/5) fixed.	0.76.	0.43.	0.55.
Baseline + syntax1 fixed + syntax2.	0.78.	0.46.	0.58.

Показать весь текст

Заполнить форму текущей работой

Другие работы

Стратегии модализации в научно-популярном дискурсе

Модальный компонент данной последовательности высказываний выражен, в первую очередь, с использованием яркой сюжетности: Die Mдnner haben wдhrend der Fahrt noch ein wenig gedцst. Jetzt stapfen sie die letzten Meter zu FuЯ ьber Eisenstege, klettern Treppen hinauf und wieder hinunter bis in den Bauch einer Maschine. Последовательность высказываний данного отрывка открывает следующий ход авторской…

Реферат