Помощь в написании студенческих работ
Антистрессовый сервис

Методы восстановления данных

РефератПомощь в написанииУзнать стоимостьмоей работы

Одной из проблем методов однократной подстановки является то, что они недооценивают стандартные ошибки, поскольку считают подставленные значения реальными данными. Метод множественного восстановления данных борется с этой проблемой путем включения межгрупповой дисперсии в стандартную ошибку (этот член представляет собой дополнительный шум, который является результатом подстановки в набор данных… Читать ещё >

Методы восстановления данных (реферат, курсовая, диплом, контрольная)

Во всех областях науки исследователи сталкиваются с проблемой пропущенных данных, которые возникают, например, по причине того, что участники опроса не могут ответить на некоторые вопросы.

Дональд Рубин (1976) и коллеги (LittleR.J.A., RubinD.B., 2002) разработали классификацию пропущенных данных, которая используется и сегодня. В классификации выделено три типа:

  • 1) полностьюслучайныепропуски (missing completely at random (MCAR));
  • 2) случайныепропуски (missing at random (MAR));
  • 3) неигнорируемыепропуски (non-ignorable missingness).

Указанные три типа различаются по причинам, почему данные пропущены.

Данные являются MCAR, если вероятность пропуска данных в переменной X не связана с другими переменными и значениями самих X. Другими словами отсутствие данных полностью несистематично.

Тип MAR требует менее строгого предположения о причине пропуска данных, чем MCAR. Такой тип встречается, когда пропуски во всей совокупности данных случайно распределены не по всем переменным, а внутри определенных подгрупп этих переменных. Примером таких данных служит ситуация, когда пропуски в какой-то конкретной переменной чаще встречаются у мужчин, нежели чем у женщин, однако внутри подгрупп этой переменной, определенных по половому признаку, эти пропуски распределены случайно.

Наконец, данные являются MNAR, если вероятность пропуска данных систематично связана с предполагаемыми значениями этих пропущенных данных. Таким образом, такие данные отсутствуют из-за их значений. Например, при медицинском осмотре взвешивали только людей с избыточным весом.

В целом, цель анализа данных состоит в определении несмещенных оценок параметров и обеспечении точного безошибочноготестирования гипотез. Пропущенные данные приводят к двум главным проблемам: смещение и ошибки в результатах статистических тестов. Смещение относится к систематическому недоили переоцениванию параметров. Ошибки при проверках гипотез могут быть вызваны неточными стандартными ошибками (SEs), которые возникают, когда конкретный параметр, тестируемый на значимость, связан с размером выборки. Таким образом, пропущенные данные являются важной проблемой в исследованиях.

Существует несколько методов восстановления пропущенных данных. Среди них можно выделить традиционные и современные методы. К традиционным относятся:

  • 1) Методы удаления (deletionmethods). Первый метод — listwisedeletion — это удаление полностью наблюдений, которые содержат хотя бы одну пропущенную переменную. Таким образом, анализ ограничивается полными наблюдениями. Главные недостатки данного метода заключаются в том, что удаление неполных наблюдений сильно уменьшает размер выборки, в результате чего снижается мощность тестов на значимость. Второй — pairwisedeletion — это удаление наблюдений по необходимости, т. е. при анализе зависимости двух переменных будут удалены неполные наблюдения, в которых нет данных именно по этим двум переменным, однако они могут использоваться в другом анализе по этой выборке. Второй метод является улучшением первого, поскольку минимизирует объем не включаемых в анализ наблюдений. Методы удаления дают несмещенные оценки только при MCAR данных.
  • 2) Методы однократной подстановки (singleimputationmethods). К данной группе относятся следующие методы: подстановка среднего значения (meanimputation — на места пропущенных данных в переменной проставляется среднее арифметическое значение по выборке), подстановка с помощью регрессии (regressionimputation — вместо пропущенных данных проставляются предсказанные значения с помощью регрессии, где переменная с неполными данными выступает в качестве зависимой переменной, а переменные с полными данными — в качестве независимых), стохастическая регрессионная подстановка (stochasticregressionimputation — также вместо пропущенных данных проставляются предсказанные регрессией значения, однако к этим значениям добавляются случайные ошибки, сгенерированные с нормальным распределением, где среднее равно нулю, а дисперсия равна дисперсии остатков из полученной ранее регрессии). Методы данной группы возможно использовать, если пропуски имеют случайное распределение.

Исследователями доказано, что рассмотренные традиционные методы чаще всего приводят к смещенным оценкам (BaraldiA.N., EndersC.K., 2010). В связи с этим необходимо рассмотрение современных методов восстановления — метода множественного восстановления данных (multipleimputation — MI метод) и метода максимального правдоподобия (maximumlikelihoodestimation — MLE метод). Преимущество данных методов заключается в том, что они дают несмещенные оценки как с MCAR данными, так и с MAR. Более того они не требуют исключения неполных наблюдений. Оба метода на сегодняшний день могут быть реализованы с помощью многих статистических пакетов (MI — Stata, SPSS, R, SAS; MLE — SAS, SPSS (AMOS), R (cat)).

Метод множественного восстановлениягенерирует несколько значений пропущенной величины. Множественное восстановление данных содержит 3 этапа:

Imputationphase.

В рамках данной фазы генерируются на основе выбранной модели несколько наборов данных для неполных переменных, каждый из которых содержит различные оценки пропущенных данных. Множество алгоритмовпредлагаются для первой фазы, но процедура приращения данных (dataaugmentation), возможно, является самой широко распространенной для нормально распределенных данных (BaraldiA.N., EndersC.K., 2010). При приращении данных используется двухшаговый итерационный алгоритм. Первый шаг (I-step = imputationstep) по своей процедуре идентичен стохастической регрессионной подстановке. В частности, для создания набора уравнений регрессии, которые прогнозируют значения для неполных переменных на основе полных, используются оценки средних и ковариаций (начальные значения параметровдля первых подстановок можно получить с помощью алгоритма максимизации правдоподобия). Эти уравнения регрессии предсказывают значения для пропущенных данных, и к каждому полученному значению добавляется нормально распределенный остаточныйчлен. Заполненные данные переносятся на следующий шаг (P-step-posteriorstep), гдедля создания новых оценок средних и ковариаций (параметры, которые являются основополагающими в I-step) используютсябайесовские принципы оценки. На втором шагеоцениваются средние и ковариациина основе заполненных на первом шагу данных, а затем к каждой из полученных оценок добавляются случайные остатки. Эта процедура создает новый набор значений параметров, которые случайным образом отличаются от тех, которые были использованы для создания восстановленных значений на первом шаге. Используя эти обновленные значения параметров для создания нового набора уравнений регрессии, второй I-шаг производит новый набор оценочных значений, которые также отличаются отполученных, на предыдущем I-шаге. Повторяя этот двухступенчатый процесс много раз, получаем несколько копий набора данных, каждый из которых содержит уникальные оценки пропущенных значений.

Analysesphase.

На данном этапе каждая база данных, с заполненными пропусками сгенерированными значениями, статистически анализируется с помощью одинаковых техник, которые использовались бы, если данные были бы полные изначально. Таким образом, данная фаза определяется исследовательским вопросом.

Poolingphase.

На финальной стадии полученные оценки и их стандартные ошибки усредняются. Согласно Дональду Рубину (1987) агрегированные оценки параметров рассчитываются как среднее арифметическое оценок каждого набора данных. Агрегированные стандартные ошибки рассчитываются с помощью внутригрупповой и межгрупповой дисперсий.

Внутригрупповая дисперсия:

W =.

где t — индекс каждого набора данных, а m-общее число таких наборов.

Межгрупповая дисперсия:

B = ,.

где оценка необходимого нам в целях исследовательского вопроса параметра набора данных t, — среднее значение оценок параметра по всем наборам данных (агрегированное среднее).

В итоге агрегированная стандартная ошибка оценки параметра равна:

SE =.

Одной из проблем методов однократной подстановки является то, что они недооценивают стандартные ошибки, поскольку считают подставленные значения реальными данными. Метод множественного восстановления данных борется с этой проблемой путем включения межгрупповой дисперсии в стандартную ошибку (этот член представляет собой дополнительный шум, который является результатом подстановки в набор данных с разными оценками пропущенных значений). Таким образом, стандартные ошибки, полученные методом множественного восстановления, учитывают тот факт, что восстановленные значения являются подверженными ошибкам догадками об истинных значениях пропущенных данных.

Метод максимального правдоподобияиспользует все доступные данные как полные, так и неполные. Неизвестные данные определяются таким образом, чтобы они как можно лучше согласовывались с уже имеющимися данными.

Метод максимального правдоподобия состоит из двух шагов: Expectation (E-шаг) и Maximization (M-шаг) — EMалгоритм. На первом шаге пропущенные значения заполняются условными ожиданиями этих значений, заданных исследуемыми данными и начальными оценками ковариационной матрицы.

Для иллюстрации первого шага предположим, что вектор средних и ковариационная матрица, и = (µ, У), найдены для матрица данных (Y) nxk, которая содержит наблюдаемые (Yobs) и пропущенные (Ymis) значения. Используя Yobsи текущие оценки параметров и(t), получаем, что вычисления статистик в t-итерации на E-шаге выглядит следующим образом:

j=1,…, K.

j=1,…, K.

На втором шаге, на основе существующих и подставленных ожидаемых значений максимизируется функция правдоподобия. Данная процедура оценивает вектор средних значений и ковариационную матрицу, используя оценки, полученные на первом шаге. Полученные значения ковариационной матрицы и коэффициентов регрессии на шаге M затем используются для выведения новых оценок пропущенных данных на шаге E. Данный алгоритм повторяется до тех пор, пока разница между ковариационными матрицами в последующих шагах Mне достигнет определенного уровня, задаваемого необходимым уровнем точности. Таким образом, в результате решение приходит к локальномумаксимуму логистической вероятности математического ожидания наблюдаемых значений.

Показать весь текст
Заполнить форму текущей работой