Выбор наиболее достоверной модели в качестве текущей

РефератПомощь в написанииУзнать стоимостьмоей работы

В системе есть выходные формы, в которых для расчета достоверности применяется данное выражение, но здесь мы их не приводим, т.к. это не входит в задачи данной статьи. Это и есть «золотая середина». Надо искать модель, наилучшую по этому критерию, а не такую, которая дает наивысшую достоверность идентификации саму по себе, т.к. в этом случае мы от модели отрицательного псевдопрогноза кинемся… Читать ещё >

Выбор наиболее достоверной модели в качестве текущей (реферат, курсовая, диплом, контрольная)

В простейшем случае измерение достоверности моделей осуществляется путем решения задачи идентификации объектов обучающей выборки с использованием этих моделей. При этом объект считается относящимся к тому классу, о принадлежности к которому в его системе признаков содержится наиболее суммарное количество информации (это соответствует лемме Неймана-Пирсона). Количественно в СК-анализе и системе «Эйдос» эта степень сходства конкретного объекта с обобщенным образом класса рассчитывается с использованием двух интегральных критериев:

Интегральный критерий «Семантический резонанс знаний» представляет собой суммарное количество знаний, содержащееся в системе факторов различной природы, характеризующих сам объект управления, управляющие факторы и окружающую среду, о переходе объекта в будущие целевые или нежелательные состояния.

Интегральный критерий представляет собой аддитивную функцию от частных критериев знаний, представленных в help режима 3.3:

В выражении круглыми скобками обозначено скалярное произведение. В координатной форме это выражение имеет вид:

где: M — количество градаций описательных шкал (признаков);

— вектор состояния j-го класса;

— вектор состояния распознаваемого объекта, включающий все виды факторов, характеризующих сам объект, управляющие воздействия и окружающую среду (массив-локатор), т. е.:

В текущей версии системы «Эйдос-Х++» значения координат вектора состояния распознаваемого объекта принимались равными либо 0, если признака нет, или n, если он присутствует у объекта с интенсивностью n, т. е. представлен n раз (например, буква «о» в слове «молоко» представлена 3 раза, а буква «м» — один раз).

Интегральный критерий «Семантический резонанс знаний» представляет собой нормированное суммарное количество знаний, содержащееся в системе факторов различной природы, характеризующих сам объект управления, управляющие факторы и окружающую среду, о переходе объекта в будущие целевые или нежелательные состояния.

Интегральный критерий представляет собой аддитивную функцию от частных критериев знаний, представленных в help режима 3.3 и имеет вид:

где:

M — количество градаций описательных шкал (признаков);

— средняя информативность по вектору класса;

— среднее по вектору объекта;

— среднеквадратичное отклонение частных критериев знаний вектора класса;

— среднеквадратичное отклонение по вектору распознаваемого объекта.

— вектор состояния j-го класса;

Приведенное выражение для интегрального критерия «Семантический резонанс знаний» получается непосредственно из выражения для критерия «Сумма знаний» после замены координат перемножаемых векторов их стандартизированными значениями:

Свое наименование интегральный критерий сходства «Семантический резонанс знаний» получил потому, что по своей математической форме является корреляцией двух векторов: состояния j-го класса и состояния распознаваемого объекта.

Результаты измерения достоверности всех созданных моделей, и статистических, и когнитивных, представляются в соответствующей экранной форме (рисунок 11):

Как в АСК-анализе и системе «Эйдос» измеряется достоверность модели? Чтобы ответить на этот вопрос необходимо рассмотреть различные виды верных и неверных прогнозов того, что осуществится и того, что не осуществится.

Рассмотрим, на примере с шестигранным игральным кубиком, различные виды прогнозов: положительный и отрицательный псевдопрогнозы, идеальный и реальный прогнозы.

Рисунок 11. Экранная форма с результатами измерения достоверности моделей путем распознавания обучающей выборки.

Положительный псевдопрогноз.

Предположим, модель дает такой прогноз: выпадет 1, 2, 3, 4, 5 или 6. В этом случае у нее будет 100% достоверность идентификации, т. е. не будет ни одного объекта, не отнесенного к тому классу, к которому он действительно относится, но при этом будет очень большая ошибка ложной идентификации, т.к. огромное количество объектов будет отнесено к классам, к которым они не относятся (и именно за счет этого у модели и будет очень высокая достоверность идентификации). Ясно, что такой прогноз бесполезен, поэтому он и назван мной псевдопрогнозом.

Отрицательный псевдопрогноз.

Представим себе, что мы выбрасываем кубик с 6 гранями, и модель предсказывает, что не выпадет: 1, 2, 3, 4, 5 и 6, а что-то из этого естественно выпало. Конечно, модель дает ошибку в прогнозе в том плане, что не предсказала, что выпадет, зато она очень хорошо угадала, что не выпадет. Но ясно, что выпадет что-то одно, а не все, что предсказано, поэтому такого рода предсказания хорошо оправдываются в том, что не произошло и плохо в том, что произошло, т. е. в этом случае у модели будет 100% достоверность не идентификации, но очень низкая достоверность идентификации.

Идеальный прогноз.

Если в случае с кубиком мы прогнозируем, что выпадет, например 1, и соответственно прогнозируем, что не выпадет 2, 3, 4, 5, и 6, то это идеальный прогноз, имеющий, если он осуществляется, 100% достоверность идентификации и не идентификации. Идеальный прогноз, который полностью снимает неопределенность о будущем состоянии объекта прогнозирования, на практике удается получить крайне редко и обычно мы имеем дело с реальным прогнозом.

Реальный прогноз.

На практике мы чаще всего сталкиваемся именно с этим видом прогноза. Реальный прогноз в уменьшает неопределенность о будущем состоянии объекта прогнозирования, но не полностью, как идеальный прогноз, а оставляет некоторую неопределенность не снятой. Например, для игрального кубика делается такой прогноз: выпадет 1 или 2, и, соответственно, не выпадет 3, 4, 5 или 6. Понятно, что полностью на практике такой прогноз не может осуществиться, т.к. варианты выпадения кубика альтернативны, т. е. не может выпасть одновременно и 1, и 2. Поэтому у реального прогноза всегда будет определенная ошибка идентификации. Соответственно, если не осуществится один или несколько из прогнозируемых вариантов, то возникнет и ошибка не идентификации, т.к. это не прогнозировалось моделью.

Теперь представите себе, что у Вас не 1 кубик и прогноз его поведения, а тысячи. Тогда можно посчитать средневзвешенные характеристики всех этих видов прогнозов.

Таким образом, если просуммировать проценты верной идентификации и не идентификации и вычесть проценты ложной идентификации и ложной не идентификации, то это и будет критерий качества модели, учитывающий как ее способность верно относить объекты к классам, которым они относятся, так и ее способность верно не относить объекты к тем классам, к которым они не относятся.

В системе «Эйдос» достоверность идентификации «k-й» категории (класса) Sk равна:

N — количество объектов в распознаваемой выборке;

BTik— уровень сходства «i-го» объекта с «k-й» категорией, к которой он был правильно отнесен системой;

Tik — уровень сходства «i-го» объекта с «k-й» категорией, к которой он был правильно не отнесен системой;

BFik — уровень сходства «i-го» объекта с «k-й» категорией, к которой он был ошибочно отнесен системой;

Fik — уровень сходства «i-го» объекта с «k-й» категорией, к которой он был ошибочно не отнесен системой.

Отметим, что метрика, используемая для оценки достоверности модели в системе «Эйдос» имеет сходство с так называемой F-мерой и дает те же самые результаты рейтинга моделей по их достоверности.

Затем в соответствии с порядком преобразования данных в информацию, а ее в знания в СК-анализе и системе «Эйдос», представленным на рисунке 1, необходимо выбрать текущей моделью наиболее достоверную из них, с тем, чтобы затем решать в ней задачи идентификации, прогнозирования, принятия решений и исследования моделируемой предметной области. В нашем случае наиболее достоверной оказалась модель INF1, основанная на семантической мере информации А.Харкевича. Экранные формы режима присвоения наиболее достоверной или иной модели статуса текущей представлены на рисунке 12:

Рисунок 12. Экранные формы присвоения наиболее достоверной модели статуса текущей и отображение стадии исполнения.

Показать весь текст

Заполнить форму текущей работой