Сведение задачи оптимизации коэффициентов модели к задаче машинного обучения

РефератПомощь в написанииУзнать стоимостьмоей работы

Экспериментальные расчеты производились для данных, полученных из 200 предложений (запросов и ответов в сумме), состоящих из примерно 1000 неравенств в обучающей выборке и 500 в тестовой. Для обучающей выборки ошибка считается для тех же значений, по которым проводилось обучение. Ошибка на обучающей выборке. Ошибка на тестовой выборке. Полиномиальная. Полиномиальная. Полиномиальная… Читать ещё >

Сведение задачи оптимизации коэффициентов модели к задаче машинного обучения (реферат, курсовая, диплом, контрольная)

Одним из способов оптимизации коэффициентов функции релевантности является использование обучающей выборки правильно упорядоченных предложений, связанных с некоторым запросом. Данные получаются при помощи поиска Yahoo, через поисковый API Yahoo.

В рамках модели предложенной выше, на выборке отсортированной и отфильтрованной вручную из запросов на тему налогов, было произведено обучение с использованием метода опорных векторов, в частности пакета svm_rank (часть пакета svm_light, оптимизированного для обучения по наборам упорядоченных величин).

Результаты оцениваются по следующей мере: среднее отклонение верного порядка от порядка, получаемого при сортировке по функции релевантности. Отклонения порядков считаются как расстояния тау кендала между списками, которое определяется, как отношение количества пар элементов стоящих в неверном порядке, к общему числу пар элементов списка. Расстояние, таким образом, лежит в интервале [0; 1].

Компьютерный эксперимент и обсуждение результатов

Вычисления производились на персональном компьютере с процессором Intel Core 2DUO T8100 (2.1GHz) и 2Гб оперативной памяти под управлением ОС Ubuntu linux. Время, затраченное на обучение, зависело от параметров обучения и составляло от ~100 мс до ~100 с.

В таблице 1 приведены экспериментальные значения ошибок для некоторых обучающей и тестовой выборок, параметр «с» отвечает за соотношение важности ошибки обучения и зазора. Больший параметр «c» приводит к переобученности.

Ошибку следует сравнивать с ошибкой случайно упорядоченного списка, которая составляет примерно 0,5 (примерно, так как для части элементов списка функция релевантности будет совпадать, что будет считаться за неверный порядок).

Для обучающей выборки ошибка считается для тех же значений, по которым проводилось обучение.

Таблиця 1.


Описание.	Ошибка на обучающей выборке.	Ошибка на тестовой выборке.
Линейная (с=10).	0,36.	0,37.
Линейная (с=1).	0,35.	0,36.
Линейная (с=0,1).	0,36.	0,35.
Полиномиальная. (с=0,1).	0,26.	0,43.
Полиномиальная. (с=0,01).	0,29.	0,39.
Полиномиальная. (с=0,001).	0,34.	0,37.
Полиномиальная. (с=0,0001).	0,34.	0,34.

Используемая модель оценки сходства структур предложений позволяет среди поисковых ответов на заданный запрос частично восстановить верный порядок, отвечающий пользовательскому ранжированию релевантности ответов. Важно заметить, что ранжирование происходит среди уже отфильтрованных поисковой машиной по релевантности первых 30 отрывках документа (с удалением дубликатов), то есть среди отрывков, которые имеют большую оценку поискового движка схожести с запросом. Эта схожесть обычно выражается в наличии в отрывках документа слов запроса, в соответствии с моделью «Bag of words».

Показать весь текст

Заполнить форму текущей работой

Другие работы

Проектная часть. Проектирование модуля "Студенты" информационной системы "Кафедра Университета"

Системы прямого цифрового управления. ЭВМ непосредственно вырабатывает оптимальные управляющие воздействия и с помощью соответствующих преобразователей передаёт команды управления на исполнительные механизмы. Режим прямого цифрового управления позволяет применять более эффективные принципы регулирования и управления и выбирать их оптимальный вариант; реализовать оптимизирующие функции и адаптацию…

Реферат