Помощь в написании студенческих работ
Антистрессовый сервис

Регрессионные модели ИАД

РефератПомощь в написанииУзнать стоимостьмоей работы

Непараметрический подход в рамках регрессионного анализа данных нс предполагает априорного задания распределения ошибок (шума) и функционального вида искомой закономерности. Предварительное задание параметрической модели может оказаться слишком ограничительным или недостаточной размерности для аппроксимации скрытых характеристик, в то время как непараметрическое сглаживание предоставляет гибкие… Читать ещё >

Регрессионные модели ИАД (реферат, курсовая, диплом, контрольная)

Линейная и логистическая регрессии

Метод линейной регрессии заключается в нахождении коэффициентов уравнения линейной регрессии, которое имеет вид.

Регрессионные модели ИАД.

где у — выходная (зависимая) переменная модели; хь х, х,х" — входные (независимые) переменные; Ь, — коэффициенты линейной регрессии; 60 — свободный член.

Задача линейной репрессии заключается в подборе коэффициентов Ь-, уравнения (8.1) таким образом, чтобы на заданный входной вектор X регрессионная модель формировала желаемое выходное значение у.

Одним из наиболее востребованных приложений линейной регрессии является прогнозирование. В этом случае входными переменными х! модели являются наблюдения из прошлого (предикторы), а у — прогнозируемое значение.

Несмотря на универсальность, линейная регрессионная модель не всегда пригодна для качественного предсказания зависимой переменной. При применении линейной регрессии на значения зависимой переменной не накладывается никаких ограничений. Но на практике такие ограничения могут быть существенными (например, у может быть категориальной или бинарной). Поэтому используют различные модификации линейной регрессии.

Одной из модификаций является логистическая регрессия, предназначенная для предсказания зависимой переменной, принимающей значения в интервале от 0 до 1. Такая ситуация характерна для задач предсказания вероятности некоторого события в зависимости от значения независимых переменных. Логистическая регрессия используется для задач с бинарной выходной переменной.

Логистическая регрессия фактически служит не для предсказания значений зависимой переменной, а скорее для оценки вероятности того, что зависимая переменная примет заданное значение. Тогда, основываясь на доступных данных, можно вычислить вероятности появления обоих значений «О» и «» :

Регрессионные модели ИАД.

Иными словами, вероятность появления одного события равна единице минус вероятность появления другого, т. е. одно из них появится обязательно, и их общая вероятность равна единице.

Модель, которая определяет эти вероятности, называется логистической регрессионной моделью:

Регрессионные модели ИАД.

Правая часть формулы (8.2) эквивалентна обычному уравнению линейной регрессии (8.1), по вместо непрерывной выходной переменной у в ней фигурирует логарифм отношения вероятностей двух взаимоисключающих событий.

Функция р,/(1 —Р{) также известна как логит-преобразование и обозначается logit (/^).

Существуют и другие варианты регрессионного анализа.

восстановления регрессии

Сформулируем постановку задачи восстановления регрессии. В некоторой среде, которая характеризуется плотностью распределения вероятностей Р (х), случайно и независимо появляются «-мерные векторы х — контролируемые факторы. Каждому вектору х ставится в соответствие вещественное число (^-отклик), полученное в результате реализации случайного испытания согласно закону Р (.у|х). Свойства среды Р (х) и условный закон распределения Р (ух) неизвестны, но известно, что существует функция регрессии ух) = уР (ух)(1у.

Требуется, но случайной независимой выборке / пар (х, (/,),…, (х, г/,), таких, что у=у'(х), восстановить регрессию, т. е. в заданном классе функций {/(х, а)) отыскать функцию /(х, а*), наиболее близкую к регрессии у*(х). Здесь I = 1,/ — случайные ошибки.

Непараметрическая регрессия

Непараметрический подход в рамках регрессионного анализа данных нс предполагает априорного задания распределения ошибок (шума) и функционального вида искомой закономерности. Предварительное задание параметрической модели может оказаться слишком ограничительным или недостаточной размерности для аппроксимации скрытых характеристик, в то время как непараметрическое сглаживание предоставляет гибкие средства анализа неизвестных регрессионных зависимостей.

При отсутствии априорной модельной информации о кривой регрессии метод непараметрического анализа может оказаться полезным при определении подходящей простой параметрической формулировки регрессионного соотношения. В то же время непараметрический подход дает возможность оценивать функции более высокой сложности, например, выявляя бимодальность исследуемой закономерности.

Однако методы непараметрической регрессии целесообразно применять лишь в случае небольшого числа контролируемых факторов, поскольку точность оценивания функции регрессии падает с ростом размерности вектора независимых переменных. Это явление называют «проклятием размерности». Непараметрический подход в рамках регрессионного анализа данных, часто называемый непараметрическим сглаживанием, не предполагает априорного задания распределения случайных ошибок (шума) и функционального вида искомой закономерности. Непараметрический подход к оцениванию регрессионной модели имеет следующие достоинства: предоставляет гибкий метод исследования соотношения между откликом и контролируемыми факторами; позволяет предсказывать значения отклика без привязки к фиксированной параметрической модели; порождает гибкий способ подстановки пропущенных значений факторов; дает средство нахождения ложных наблюдений путем изучения влияния изолированных точек. Методы непараметрического сглаживания могут оказаться полезными при определении подходящей параметрической модели регрессии, а также при оценивании функций достаточно большой сложности.

Сглаживание данных {(х;, у,), I = 1, /} представляет собой аппроксимацию функции регрессии т (х) в регрессионной модели с аддитивным шумом.

Регрессионные модели ИАД.

Интерес могут представлять сама кривая регрессии, ее экстремумы или точки перегиба. Процедуру локального усреднения отклика (определяемого из малой окрестности значений фактора) можно рассматривать как основную идею сглаживания. Формально эта процедура может быть представлена как.

Регрессионные модели ИАД.

где {ге>ц (х)}, г = 1, / — последовательность весов, которые могут зависеть от всех значений фактора. Степень сглаживания регулируется этими весами, обычно зависящими от параметра сглаживания, который управляет размером окрестности точки х. Локальное усреднение по слишком большой окрестности ведет к смещению оценки регрессии т (х). При параметре сглаживания, соответствующем слишком малой окрестности, лишь небольшое количество наблюдений будет давать вклад в оценку в точке х, делая ее грубой и непредставительной, а дисперсия оценки будет большой. Поэтому возникает задача выбора параметра сглаживания: нужно подобрать такое его значение, которое соответствует компромиссу между чрезмерным и слабым сглаживанием.

Одним из основных методов непараметрической регрессии является ядерное сглаживание. В рамках этого подхода форма весовой функции описывается посредством ядра —непрерывной, ограниченной симметричной функции, имеющей свойства плотности распределения.

Не умаляя общности, рассмотрим однофакторную модель регрессии (/ = 1). Последовательность весов для ядерных оценок определяется как г&ц (х) = К, 1(х Xj)/-fhl (x), где Л,(*) = '-'?к/,(д' *" >¦ а K^") = h^K{n/h,). Функция /,(*) (=1.

является ядерной оценкой Розенблата — Парзена плотности распределения случайного фактора х. Оценка функции регрессии.

Регрессионные модели ИАД.

называется оценкой Надарая — Уотсона. Форма весов определяется ядром К, а величина весов контролируется посредством параметра масштаба /?, зависящего от объема выборки. Параметр к обычно называют шириной окна. Заметим, что сумма весов равна единице. Использование оценки Розен-блата — Парзена Д (#) способствует адаптации к локальной интенсивности независимой переменной. Разумно использовать такие ядерные функции, которые равны нулю вне некоторого фиксированного интервала, например ядро Епанечникова, обладающее некоторыми свойствами оптимальности:

Регрессионные модели ИАД.

Рассмотрим воздействие ядра Епанечникова на реальные данные. Чем меньше ширина окна, тем больше веса концентрируется вокруг точки х. В областях с редкими данными последовательность весов придает больший вес наблюдениям, близким к точке x.

Показано, что ядерная оценка является состоятельной оценкой функции регрессии. Смещение ее как функция параметра h возрастает, а дисперсия убывает. Поэтому сущность задачи сглаживания состоит в соблюдении баланса между дисперсией и квадратом смещения оценки.

В случае /г-мерного (п > 1) вектора независимых переменных в качестве оценки функции регрессии можно использовать произведение одномерных ядер. Однако дисперсия ядерной оценки быстро возрастает с увеличением п. На практике непараметрическое сглаживание обычно применяют для п < А и для выборок большого объема.

Показать весь текст
Заполнить форму текущей работой