Базовая идея логистической регрессии — использование логарифмической функции потерь и сигмоиды вместо нотации Аверсона в функции эмпирического риска, которая благодаря этому становится простой с точки зрения аналитического вычисления градиента:
После того как представлена функция потерь для логистической регрессии, нетрудно преобразовать метод градиентного спуска (или метод стохастического градиента) для обучения этого классификатора. Производная сигмоиды.
следовательно, легко определить шаг итерации для обновления вектора весов в методе стохастического градиента:
где а (х) — это сигмоида, т. е.
Представление метода обновления весов для пакетного метода градиентного спуска читателю предлагается в качестве упражнения.
Главное свойство логистической регрессии в том, что она позволяет не только определять класс объекта в задаче бинарной классификации, но и давать оценку вероятности того, что этот объект принадлежит этому классу, т. е. оценивать так называемые апостериорные вероятности, о которых речь пойдет в параграфе 5.3.
Возможность оценки вероятности принадлежности к какомулибо классу зачастую является важным свойством алгоритма машинного обучения, которое позволяет давать оценку рисков работы классификатора, т. е. матожидания каких-либо потерь (или штрафов) на классе[1]:
где Y — это все множество классов-ответов; X — штраф за неправильную классификацию объекта класса s как объекта класса у, Ру — вероятность такой неправильной классификации.
Соответственно, имея возможность оценить вероятность принадлежности объекта к некоторому классу, легко вычислить значение функции (5.3).
- [1] См.: Вапник В. //., Червоненкис Л. Я. Теория распознавания образов. Статистические проблемы обучения. М.: Наука, 1974.