Помощь в написании студенческих работ
Антистрессовый сервис

Перплексивность. 
Обучение с нуля грамматики связей русского языка

РефератПомощь в написанииУзнать стоимостьмоей работы

Предсказательная сила модели языка часто оценивается через перплексивность на основе тестового корпуса. Перплексивность определяется как «2 в степени кросс-энтропия», и по сути является более удобным (растянутым) аналогом кросс-энтропии. Для одного и того же набора данных, меньшая перплексивность означает лучшую модель языка. Одна и та же модель, исследующая разные языки, характеризует сложность… Читать ещё >

Перплексивность. Обучение с нуля грамматики связей русского языка (реферат, курсовая, диплом, контрольная)

Предсказательная сила модели языка часто оценивается через перплексивность на основе тестового корпуса. Перплексивность определяется как «2 в степени кросс-энтропия», и по сути является более удобным (растянутым) аналогом кросс-энтропии. Для одного и того же набора данных, меньшая перплексивность означает лучшую модель языка. Одна и та же модель, исследующая разные языки, характеризует сложность самого языка. Впервые оценивать модели языка через перплексивность было предложено в работе [Bahl et al., 1977]. Перплексивность можно понимать как некий коэффициент неопределенности модели языка.

Перплексивность на наших тестовых корпусах была подсчитана для нашей грамматики связей и для биграмной модели [Brown et al., 1992]. Небольшой размер корпуса не позволяет сделать сравнение с триграмной моделью языка [Brown et al., 1992], поэтому для сравнения мы использовали биграмную модель, где каждое слово зависит только от предыдущего. Биграмная модель допускает только единственный последовательный вид связки, часто неправильный (рисунок 6), таким образом биграм модель не может на равных участвовать в соревновании «правильных разборов», но несмотря на это она обладает неплохой предсказательной силой и перплексивностью. Результаты сравнения модели биграм и модели грамматики связей показаны в таблице 3.

Вариация в оценках перплексивности в зависимости от тестового корпуса позволяет судить о достигнутой точности оценки. Из таблицы видно, что на всех трех случайных выборках показатели грамматики связей оказались лучше биграм модели.

Показать весь текст
Заполнить форму текущей работой