Модели интеллектуального анализа данных
В итоге, по результатам анализа заключения экспертной группы возможно извлечение новых знаний с занесением их в БЗ для последующего применения в автоматизированном контуре принятия решений. Такой подход позволит проводить не только выборочную экспертизу, но и осуществлять экспертную оценку и контроль в режиме реального времени, а в случае необходимости — и постоянно: для оперативного обнаружения… Читать ещё >
Модели интеллектуального анализа данных (реферат, курсовая, диплом, контрольная)
Актуальной задачей в области принятия решений органами государственной власти является своевременное, стабильное и эффективное информационное обеспечение всех участников и всего набора процедур принятия решений. В этой связи необходима организация и функционирование целого комплекса отдельных подсистем в рамках единой платформы для оперативного получения требуемой информации, организации эффективного взаимодействия участников процесса принятия решений и контуров обратной связи по «ключевым точкам». Описанные задачи являются чрезвычайно актуальными и своевременными, требуя для решения применения системного подхода и его реализации на базе современных информационных технологий. В такой ситуации наиболее эффективным средством для комплексного анализа, процедур информационного обеспечения, оценок и мониторинга в рамках принятия решений выступает Ситуационный центр, построенный на платформе интеллектуальной информационно-аналитической системы.
В настоящее время системы поддержки решений и методы ситуационного управления стали развиваться в направлении адаптации к сложной динамике развития политических, экономических и социальных управленческих ситуаций. Современные системы поддержки принятия решения в большинстве случаев функционируют в условиях нечёткости и противоречивости исходной информации. В этой ситуации становятся актуальными вопросы, связанные с описанием и формализацией проблемы, эффективного подбора экспертов с учётом специфики проблемной области и представления информации заинтересованным лицам для её последующей обработки и анализа. автоматизация алгоритм интеллектуальный экспертиза Существующие методы и алгоритмы для решения указанных вопросов либо отсутствуют или находятся на стадии разработки, либо недостаточно эффективны в использовании. В связи с этим особенно актуальным становится ряд проблем:
- · недостаточная эффективность процессов формализации проблемы, описанной на естественном языке,
- · недостаточная эффективность процедур, связанных с формализацией знаний об экспертах для последующего формирования проблемно-ориентированных экспертных групп,
- · недостаточная эффективность представления, визуализации и интерпретации получаемых данных и экспертных знаний.
В этой связи нами для детального исследования были поставлены следующие цели и задачи, соответствующие указанным проблемам:
- 1. Повышение эффективности использования методов формализации проблемы описанной на естественном языке
- · Разработка методик морфологического, синтаксического и лингвосемантического анализа описания проблемы на естественном языке.
- · Разработка методики формирования набора ключевых слов (тезауруса проблемы)
- · Разработка методики построения семантической сети (формальное представление проблемы)
- 2. Повышение эффективности процедур, связанных с формализацией знаний об экспертах для последующего формирования проблемно-ориентированных экспертных групп
- · Разработка методик морфологического, синтаксического и лингвосемантического анализа анкетной информации об экспертах (сфера научных интересов, тематика публикаций, опыт проведения экспертиз и т. д.).
- · Разработка методики формирования набора ключевых слов характеризующих сферу деятельности эксперта (тезауруса эксперта)
- · Разработка методики построения семантической сети (формальное описание эксперта в рамках модели специалиста)
- 3. Повышение эффективности представления, визуализации и интерпретации получаемых данных и экспертных знаний
- · Разработка методик визуализации данных, использования когнитивных графических образов и использования динамических интерактивных сред в процессе формировании мнений экспертов и ЛПР.
- · Разработка методики построения и применения когнитивных моделей в рамках совместного использования естественного и формального описаний в процедурах формирования и представления промежуточных и итоговых результатов отдельных этапов принятия решений
- · Разработка методики интерпретации информации (информационных потоков), возникающих в процессе взаимодействия участников информационного обмена в ходе принятия решений.
При решении указанных задач необходимо учитывать специфику как процесса принятия решений в целом, так и отдельных процедур между участниками процесса принятия решений (и отдельными подсистемами СППР), а именно:
- · Слабая (частичная) формализуемость обрабатываемой информации.
- · Высокая степень разнородности информационных потоков в СППР и отсутствие (слабое развитие) интерфейсов взаимодействия между ними, а также сложности представления информации в единой форме на всех этапах принятия решений.
- · Необходимость совместного использования разнородных режимов (регламентов) обработки данных;
- · Недостаточная степень автоматизации процессов интеграции экспертных знаний в контур СППР
На основе анализа выявленных особенностей представляется целесообразным использование нечёткого подхода в решении поставленных задач как платформы для применения методов и подходов лингвосемантического анализа и нечёткого когнитивного моделирования.
На этапе предварительной обработки и предметной классификации будем рассматривать экспертную информацию в ЕЯ-форме как текст, «набор слов», используя численные характеристики употребления тех или иных терминов, вне зависимости от порядка их употребления. Тогда вероятность того, что термин w, принадлежащий формируемому тезаурусу W, встречается в описании проблемы или корпусе анкет экспертов d (множества D тематического классификатор), т. е. принадлежит той или иной предметной области t:
(1),.
где t — элемент множества T предметных областей.
Для оценки максимального правдоподобия параметров модели, зависящей от скрытых переменных, используем EM-алгоритм. Параметры предварительного семантического анализа P (w|t) и P (t|d) определим следующим образом. Пусть r — число итераций. На E-шаге вычислим P (t|w, d)®:
На M-шаге оценим параметры:
где N (w, d) — число вхождения элемента тезауруса w в рассматриваемый текст d. Описанный процесс обучения повторяется до сходимости параметров. Однако при использовании данного алгоритма параметры часто попадают в область локального оптимума, соответственно, эффективность модели не улучшается в результате обучения. Введен дополнительный параметр 0<�в?1 для управления скоростью обучения. Выражение для M-шага примет вид:
Для достижения глобального оптимума изначально принимаем в=1 с последующим уменьшением посредством умножения на 0<�з<1, пока получаемые оценки правдоподобия не улучшатся.
Определим суммарные вероятности W (w, t) и D (d, t) следующим образом:
По формуле (5) получим:
Для формирования ребер семантической сети и оценки меры семантической близости выделенных понятий (элементов тезауруса) в настоящее время используются четыре распространенных оценки: меры Jaccard, Overlap, Dice и PMI (point-wise mutual information). Эти метрики исходят из предположения, что высокие частоты совместной встречаемости терминов в тексте указывают на значительную степень ассоциации, что в свою очередь обуславливает наличие семантических связей между ними.
Для формирования итоговых обобщений имеющихся описаний и получаемой экспертной информации предложен подход, заключающийся в формировании семантических пространств (ареалов) максимальной близости на основе применения EA-алгоритма к результатам лингвосемантического анализа.
Обозначим и1,…, иk — формализованная модель текста с k различными предметными областями полученной семантической сети и иB — модель набора текстов C. Термин w в тексте d оценивается следующей величиной:
где w — термин в тексте d, рd;j -вес текста d для выбора j-й предметной области иB (), и лB — вес иB .
Использование модели иB направлено на большее разделение моделей предметных областей, т.к. иB присваивает высокие вероятности незначимым и неинформативным словам, снижая их влияние на модели предметных областей. иB оценивается на наборе текстов C и не меняется в ходе дальнейших оценок:
Введем дополнительный параметр оценки Л = {иj, рd;j|dC, 1? j? k }. Логарифмическая оценка правдоподобия C:
(12).
где c (w; d) — число терминов w в тексте d.
Возникает задача найти такое значение параметра оценки Л, которое максимизирует (12). Другими словами, Введем «скрытые переменные», характеризующие термины: {zd, w} и p (zd, w=B) — вероятность того, что термин w в тексте d подчиняется выбранному фоновому распределению (модель набора текстов иB). p (zd, w=j) означает, что термин w в тексте d встречается в контексте предметной области j, и не учитывается притом общей моделью текста (не является незначимым). Получим выражения для шагов EM-алгоритма.
Е-шаг:
(14).
(15).
M-шаг:
(16).
(17).
Зная оценочные параметры каждого термина, группы терминов (семантические ареалы), принадлежащих предметной области j условно будем считать «псевдотекстом», итоговым обобщением по j-й предметной области текста. Используя модель (17), мы агрегируем все семантические ареалы термина w, принадлежащего предметной области j (по всем текстам), и нормализуем выражение {p (w|иj)}wV для достижения? wV p (w|иj)=1.
В рамках разрабатываемой системы, как было указано выше, должны решаться следующие основные и инфраструктурные задачи:
- · автоматизированные: сбор, обработка и хранение экспертных данных;
- · создание и ведение БД на основании полученных экспертных знаний;
- · повышение оперативности и качества управленческих решений на основе использования аналитических инструментальных средств;
- · проведение мониторинга и интеллектуального анализа текущей ситуации;
- · возможности визуализации информации;
- · инструментальная и информационная поддержка экспертно-аналитической деятельности ЛПР и специалистов;
- · обеспечение защиты, конфиденциальности и целостности информационных ресурсов системы.
На этапе практической реализации разработанных моделей, подходов и алгоритмов в рамках программного комплекса, в его составе целесообразно выделить ряд подсистем:
- — Подсистема визуализации и представления данных (интерактивное представление данных, построение когнитивных моделей, формализация результатов, интерпретация информации);
- — Подсистема формирования проблемно-ориентированных экспертных групп (подбор кандидатур с учётом специфики проблемной области на основе методик и алгоритмов анализа и формализации проблем, формализации данных об экспертах для формирования группы);
- — Подсистема организации и проведения экспертиз (в том числе формирование списка вопросов к обсуждению, сбор, обработку и анализ получаемых экспертных знаний с их последующей формализацией).
В итоге, по результатам анализа заключения экспертной группы возможно извлечение новых знаний с занесением их в БЗ для последующего применения в автоматизированном контуре принятия решений. Такой подход позволит проводить не только выборочную экспертизу, но и осуществлять экспертную оценку и контроль в режиме реального времени, а в случае необходимости — и постоянно: для оперативного обнаружения негативных факторов и выработки рекомендаций по их устранению с помощью сформированной проблемно-ориентированной экспертной группы. При этом вновь получаемые знаний интегрируются в базу знаний ситуационного центра, что позволяет при повторном возникновении аналогичной проблемы задействовать автоматизированный контур, что позволит экономить значительные ресурсы и время на принятие решений.
- 1. Ильин, Н. И. Новые направления развития ситуационных центров органов государственной власти/ Ситуационные центры и перспективные информационно-аналитические средства поддержки принятия решений: Матер. научно-практ. конф./ РАГС. — М.:Изд-во РАГС, 2008. — С. 12 — 16.
- 2. Трахтенгерц, Э. А. Субъективность в компьютерной поддержке управленческих решений. М.: СИНТЕГ, 2001. — 256 с.
- 3. Елагин В. В. Теоретические основы создания системы информационно-аналитического обеспечения государственного управления: диссертация доктора технических наук; 05.13.10: Челябинск, 2006. — 440 c.
- 4. Информационно-аналитические средства поддержки принятия решений и ситуационные центры// Материалы научно-практической конференции, РАГС, 2008 года / Под общ. ред. А. Н. Данчула. — М.: Изд-во РАГС, 2009. — 343 с.
- 5. Цикунов, Ю. Ф. Ситуационный центр в системе управления регионом/ Ю. Ф. Цикунов // Ситуационные центры и перспективные информационно-аналитические средства поддержки принятия решений: Матер. научно-практ. конф./ Российск. акад. гос. службы. — М.:Изд-во РАГС, 2008. — С. 16 — 20.