Помощь в написании студенческих работ
Антистрессовый сервис

Методика проектирования программных средств для интеллектуального анализа данных и принятия решений

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Результаты диссертационного исследования были применены в НИИ высшего образования для прогнозной оценки состояния системы высшего профессионального образования на период до 2010 года. Кроме того автор опубликовал основные положения диссертации в 6 опубликованных статьях, получено свидетельство об отраслевой разработке № 6018 от 04.04.06 г., выступал на конференциях в МГУПИ с докладами… Читать ещё >

Методика проектирования программных средств для интеллектуального анализа данных и принятия решений (реферат, курсовая, диплом, контрольная)

Содержание

  • Глава 1. Обзор и сравнение существующих методов интеллектуального анализа данных
    • 1. 1. Методы выявления знаний
    • 1. 2. Методы анализа данных
      • 1. 2. 1. Поиск ассоциативных правил
      • 1. 2. 2. Анализ последовательностей
      • 1. 2. 3. Индукция каузальных моделей
      • 1. 2. 4. Формальный концептуальный анализ
    • 1. 3. Постановка задачи исследования
  • Глава 2. Прогнозирование развития и мониторинг состояния высшего образования
    • 2. 1. Объективные предпосылки создания прогностических моделей развития образования
    • 2. 2. Принципы организации прогностических моделей
    • 2. 3. Влияние демографических факторов
    • 2. 4. Прогностические модели развития образования
      • 2. 4. 1. Регрессионные модели прогнозирования
      • 2. 4. 2. Модель на основе скользящего среднего
      • 2. 4. 3. Построение прогноза с помощью обучаемой нейронной сети
    • 2. 5. Выводы ко второй главе
  • Глава 3. Формирование правил логического вывода в системах принятия решений
    • 3. 1. Факторы, влияющие на принятие решений
    • 3. 2. Построение функций принадлежности
    • 3. 3. Нечеткие правила продукций
    • 3. 4. Прямой и обратный методы вывода в системах нечетких продукций
    • 3. 5. Этапы нечеткого логического вывода
    • 3. 6. Выводы к третьей главе
  • Глава 4. Программный комплекс поддержки принятия решений
    • 4. 1. Выводы к четвертой главе

1. Актуальность проблемы.

Построение модели предметной области имеет своей целью решение практически важных задач: управления, поддержки принятия решений и т. д. Конкретизация целевой задачи неизбежно приводит к необходимости различной глубины формализации предметной области, т. е. приближению в модели к адекватному отображению реальных отношений, их свойств, состояний и проявлений. Эта проблема значительно осложняется, когда речь идет о предметной области, плохо или мало поддающейся формализации. Кроме того, следует учесть несовпадение вербальных сообщений эксперта предметной области с его профессиональной интеллектуальной активностью.

К классу предметных областей, трудно формализуемых, следует отнести образование, представляющее стратегический ресурс любой страны и поэтому требующее постоянного мониторинга, принятия решений с целью эффективного управления. В дальнейшем будем именовать предметную область образования объектом исследования. Для него в настоящее время отсутствуют надёжные методы анализа данных оперативного мониторинга. Класс таких объектов характеризуется:

1. Невозможностью организации активного эксперимента с целью создания математической модели;

2. Большим числом параметров (как внутренних, так и внешних — межотраслевых, социальных и пр.), влияющих на качество образовательного процесса;

3. «Дрейфом» во времени отдельных параметров, переводящих объект в класс динамических нестационарных, поэтому усложняющих выбор стратегий управления;

4. Отсутствием обоснований для выбора параметров в качестве значимых;

5. Отсутствием точных данных о взаимосвязях между параметрами и их влиянии на качество наблюдаемых процессов.

В таких условиях построение модели с использованием аналитических методов невозможно. Поэтому мы приходим к необходимости применения подходов, базирующихся на знаниях о предметной области. Адекватность модели теперь будет зависеть от привлечения новых знаний, их аксиоматического, формального описания, логических отношений и т. д., образующих теорию. Очевидно, этому этапу должен предшествовать этап извлечения, приобретения знаний.

Таким образом, формируется триада: приобретение знаний (data mining), представление знаний и обработка знаний. Настоящая диссертационная работа посвящена разработке средств, реализующих два этапа: извлечение знаний и построение некоторой модели предметной области (объекта) и создание прикладной системы, сочетающей средства автоматизации построения статистических моделей и некоторые черты экспертности, способствующей принятию решений на основе анализа моделей.

Лишь сравнительно недавно интеллектуальный анализ данных с целью извлечения знаний (Data Mining) стал мультидисциплинарным научным направлением, возникшим и развивающимся на базе достижений прикладной статистики, методов искусственного интеллекта, теории баз данных [1]. Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, перестала удовлетворять требованиям содержательности результатов обработки в условиях неограниченных объемов информации, сложнейших скрытых причинно-следственных отношений между отдельными содержательными ее компонентами. Методы математической статистики оказались полезными, в основном, для проверки заранее сформулированных гипотез и первичного анализа, составляющего основу оперативной аналитической обработки данных (Online Analitical Processing — OLAP) [3].

В качестве примеров успешного применения методов интеллектуального анализа к проблемам из различных предметных областей служат работы: прогнозирования фьючерсных котировок [4], оперативного мониторинга атомных станций [5], в телекоммуникационных сетях [2].

В связи с этим актуальной является задача разработки программной системы многоаспектного анализа и обработки данных с целью построения модели прогноза оценки состояния образовательного потенциала России. Полученные результаты прогноза необходимы для принятия управленческих и организационных решений. Эта тема затрагивает также проблемы программы модернизации системы образования, утвержденной правительством РФ на период 2007;2010 годы.

2. Цели и задачи исследования.

Целями настоящего исследования являются:

1. Создание прогностических моделей оценки состояния образовательного потенциала России как на федеральном, так и на региональном уровнях.

2. На основе полученных моделей разработать теоретические положения для конструирования правил логического вывода.

3. Создание программного комплекса автоматизации формирования прогностических оценок и принятия решений.

4. Разработка методов и программных средств создания базы знаний и средств ее управления.

Для достижения поставленных целей сформулированы следующие задачи:

1. На основе корреляционного и регрессионного анализа определить статистически значимые факторы для построения статистически обоснованных моделей.

2. Оценить для последующего прогноза трендовую составляющую модели.

3. Определить структуру правил вывода и механизмы вывода в системе прогноза.

4. Разработать методику интеграции БД и БЗ в программной системе прогноза.

3. Научная новизна.

1. Разработаны программно-методические средства интеллектуального анализа данных.

2. На основе экспертных знаний предложена методика построения правил вывода принимаемых решений.

3. В целях построения базы знаний и интеграции ее с пассивной базой данных предложен метод, на основе которого решается проблема классификации данных и формирования правил вывода.

Методы исследований, примененные в диссертационной работе, опираются на теоретические и методологические основы статистики, теории машинного обучения, теории баз данных и методы интеллектуального анализа данных.

4. Практическая значимость результатов исследования и их внедрение в практику.

На основе исследований, предпринятых в рамках настоящей работы, реализован программный комплекс для прогнозирования развития образовательного потенциала России. Полученные результаты являются инструментом для принятия решений федеральными и региональными органами управления образованием.

Программная система внедрена в практику оперативного управления и планирования при выработке решений по выполнению госзаказа в Центре по формированию и конкурсному размещению государственного задания на подготовку специалистов с высшим профессиональным образованием при Московском Государственном Университете Приборостроения и Информатики и в Научно-Исследовательском Институте Высшего Образования при выполнении проекта.

5. Апробация работы.

Основные результаты диссертационной работы докладывались на конференциях и семинарах в Московском Государственном Университете Приборостроения и Информатики:

1. VI Всероссийская научно-техническая конференция с докладом по теме диссертационного исследования.

2. VII Всероссийская научно-техническая конференции с докладом по теме диссертационного исследования.

3. В учебном процессе на кафедре «ИТ-7» Московского Государственного Университета Приборостроения и Информатике.

6. Публикации.

По теме диссертации опубликовано 6 научных работ.

7. Объем и структура диссертации.

Диссертационная работа изложена на 108 страницах машинописного текста, состоит из введения, четырех глав, заключения, библиографического указателя, включающего 57 источников, иллюстрирована 18 рисунками и 10 таблицами.

Основные результаты исследования проведённого в настоящей диссертации состоят в следующем:

1. В процессе выполнения диссертационного исследования был проведен анализ методов прогнозирования развития трудноформализуемых систем к которым отнесена система подготовки высококвалифицированных специалистов (система профессионального образования). Применение методов корреляционного и регрессионного анализа для решения задач прогнозирования не позволяет в полной мере автоматизировать процесс принятия решений в этой сфере. Автором была исследована возможность применения современного метода интеллектуального анализа данных, который до сих пор не исследовался для оценки состояния образовательных систем.

2. Для определения текущего состояния системы образования была выявлена структура отношений между факторами, от которых зависит изменение состояния системы. Наиболее значимые факторы (показатели развития) были определены и показано, что пространство факторов может быть редуцировано в зависимости от жесткости бинарных отношений. Созданы прогностические модели основанные на различных подходах. Показано, что возможность применения каждого из рассматриваемых подходов определяется уровнем доступной априорной информации об объекте исследования. На этой основе разработаны программно-методические средства интеллектуального анализа данных.

3. Получены прогностические модели, основанные на различных подходах. Степень применимости каждого из этих подходов определяется уровнем априорной информации об объекте исследования.

4. Сделана попытка применить для решения задач прогнозирования методы обучающихся нейронных сетей. Показано, что прогнозирование на основе нейронной сети представляет собой наиболее «независимый» от знаний статистических характеристик распределений исследуемых факторов, и является более предпочтительным в ситуациях оперативного принятия решений.

5. В условиях неопределенности изменения факторов, влияющих на целевую переменную построен алгоритм нечеткого логического вывода на системе нечетких продукционных правил.

6. Формирование экспертных решений реализовано на основе прямого и обратного методов нечеткого логического вывода.

7. На базе разработанных методик и алгоритмов создан программный комплекс интеллектуального анализа данных, в том числе прогноза, по поддержке принятия решений в условиях неопределенности факторов, характеризующих объект исследования. Программный комплекс внедрен в НИИВО и зарегистрирован в Российском патентном ведомстве.

8. Результаты диссертационного исследования были применены в НИИ высшего образования для прогнозной оценки состояния системы высшего профессионального образования на период до 2010 года. Кроме того автор опубликовал основные положения диссертации в 6 опубликованных статьях, получено свидетельство об отраслевой разработке № 6018 от 04.04.06 г., выступал на конференциях в МГУПИ с докладами. В приложении представлен один из вариантов прогнозной оценки системы высшего профессионального образования.

Заключение

.

Показать весь текст

Список литературы

  1. Holsheimer М., Siebes А.Р. Data Mining: the search for knowledge in databases. //Report CS-R9406, Computer Science. Department of Algorithmic and Architecture, CWI, 1994.
  2. Manila H. Local and Global Methods in Data Mining: Basic Techniques and Open problems. // ICALP 2002,29-th Int. Colloquium on Automata. Languages and Programming. Malaga, Spain, July 2002
  3. A.A., Куприянов M.C. и др. Методы и модели анализа данных: OLAP и Data Mining. -С-Пб.: БХВ, 2004.
  4. К.С. Интеллектуальная система программирования для представления знаний и принятия решений. Диссертация на соискание ученой степени кандидата наук., -М.: 2001.
  5. А.А. Средства интеллектуального анализа структуры связей по данным мониторинга сложных технологических объектов. Диссертация на соискание ученой степени кандидата наук., -М.: 2004.1. Глава 1.
  6. R., Imielinski Т., Swami A., «Mining association rules between sets of items in large databases», // In Proc. Of the ACM SIGMOD Int’l Conf. On Management of Data (ACM SIGMOD '93), Washington, USA, May 1993.
  7. R., Srikant R. «Mining Sequential Patterns», // In Proc. of the 11th Int’l Conference on Data Engineering, Taipei, Taiwan, March 1995.
  8. R., Srikant R., «Fast algorithms for mining association rules», // In Proc. of the 20th Int’l Conf. on Very Large Databases (VLDB '94), Santiago, Chile, June 1994.
  9. Berry M., Linoff G/ Data Mining Techniques: for Marketing, Sales, Castomer Support. N.-J., J. Wiley & Sons, 1997.
  10. Clare P., Niblett T. The CN2 Induction Algorithms. //Machin Learning Journal, № 4, 1988.
  11. P.R., Ballesteros L.A., Gregory D.E., Amant R.St., «Regression Can Build Predictive Causal Models», // Technical Report 94/15 / Department of Computer Science, University of Massachusetts, 1994.
  12. Han J, Kamber M. Data mining: Concepts and Techniques. Morgan Kaufman Publishers, 2000.
  13. Han J., Fu Y., «Discovery of Multiple-Level Association Rules from Large Databases», // In Proc. of the 21th Int’l Conf. on Very Large Databases (VLDB '95), Zurich, Swizerland, 1995.
  14. Han J., Fu Y., «Dynamic Generation and Refinement of Concept Hierarchies for Knowledge Discovery in Databases» // In Proc. АААГ94 Workshop on Knowledge Discovery in Databases (KDD'94), p. 157−168, Seattle, WA, July 1994.
  15. C., Holldobler S., Strohmaier A., «Fuzzy Conceptual Knowledge Processing», // SAC 1996, p. 628−632,1996.
  16. Holsheimer M., Siebes A.P.J.M. «Data Mining: the search for knowledge in databases», // Report CS/R9406, Computer Science/Department of Algorith-mics and Architecture, CWI, 1994.
  17. Т., Brodley C.E. «An Application of Machine Learning to Anomaly Detection», // In Proc. 20th NIST/NCSC National Information Systems Security Conference, 1997.
  18. H., Toivonen H., Verkamo A.I., «Discovery of frequent episodes in event sequences», // Series of Publication C, Report C/1997/15, Department of Computer Science, University of Helsinki, Finland, 1997.
  19. H., Toivonen H., «Discovering generalized episodes using minimal occurrences» // 2nd International Conf. On Knowledge Discovery and Data Mining, August 1996.
  20. H., Toivonen H., Verkamo A.I., «Efficient Algorithms for Discovering Association Rules» // KDD Workshop 1994, pp. 181−192,1994.
  21. Michalski R., Bratco I. Machin learning & Data Mining: Methods and Application. N.-J., J. Wiley & Sons, 1998.
  22. J., Verma T.S., «A Theory of Inferred Causation», Statistics and Computing^, 1991.
  23. J., Verma TS., «A Statistical Semantics for Causation», // Preprint // Cognitive Systems Laboratory, Computer Science Department, University of California, 1991.
  24. S., «Logical Scaling in Formal Concept Analysis», // Preprint / Techn. Univ. Darmstadt, N1907,1998.
  25. R., Agrawal R., «Mining Generalized Association Rules», // Proceedings of 21th International Conference on Very Large Data Bases, September 11−15,1995, Zurich, Switzerland, pp. 407−419,1995.
  26. R., Agrawal R., «Mining Quantitative Association Rules in Large Relational Tables», Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data, Montreal, Quebec, Canada, June 4−6, pp. 1−12, ACM Press, 1996.
  27. Stumme G., R. Taouil, Y. Bastide, «Fast Computation of Concept lattices Using Data Mining Techniques», // KRDB 2000, p. 129−139.
  28. Stumme, G., Wille, R., Wille, U., «Conceptual Knowledge Discovery in Databases Using Formal Concept Analysis Methods», // PKDD '98, LNAI1510, p. 450−458,1998.
  29. Westphal Ch., Blacston T. Data Mmining Solution: Methods and Tools for Solving Real-World Problems. Wiley, John & Sons, Incorporated, 1998.
  30. R., «Conceptual Structures ofMulticontexts», // ICCS1996, p. 23−39.
  31. R., «Why can concept lattices support knowledge discovery in databases?», // Preprint / Techn. Univ. Darmstadt, N 2158:01,2001.
  32. P.А. Логические методы анализа данных.//Труды Международной конференции AIS'02, CAD-2002. -М.:Наука, 2002.
  33. Г. Теория решеток. -М.:Наука, 1984.
  34. Дж.Ф. Искусственный интеллект. Стратегии и методы решения сложных проблем. -М.: «Вильяме», 2003. -864с.
  35. Г. С. Приобретение знаний интеллектуальными системами.— М.:Наука, 1997, с. 112.42.0ссовский Ст. Нейронные сети для обработки информации. -М.: Финансы и статистика, 2002. -344с.
  36. С.А., Юдин Д. Н. Исследование эффективности применения интерполяционных функций на статистических рядах рождаемости /Моск. Гос. Акад. Приборостр. и информатики Москва, 2004. — 8с. — Деп. в НИИВО
  37. С.А., Юдин Д. Н. Методы принятия решений на основе прогнозов движения учащейся молодежи по уровням и ступеням системы образования /Моск. Гос. Акад. Приборостр. и информатики Москва, 2004. — 6 с. — Деп. в НИИВО
  38. С.А., Юдин Д. Н. Результаты применения коррелляционно-регрессионного анализа зависимости выпуска из 9-х классов от рождаемости /Моск. Гос. Акад. Приборостр. и информатики Москва, 2004. — 14 с.-Деп. в НИИВО
  39. С.А., Юдин Д. Н. Система автоматизации и прогнозирования движения ресурсов в образовании / Новые информационные технологии: сборник трудов VII Всероссийской научно-технической конференции -Москва: МГАПИ, 2004. С. 138−141.
  40. Дж. Линейный регрессионный анализ. -М. Мир, 1980. -380с.1. Глава 2.
  41. А. В., Савельев А. Я., Сазонов Б. А. Образовательный потенциал России: состояние и развитие. -М.: МГУП, 2004.
  42. В.В., Борисов В. В. Искусственные нейронные сети. Теория и практика. -М.: Горячая линия-Телеком, 2002
  43. А.Я., Зуев В. М. и др. Прогнозирование развития и мониторинг состояния высшего и среднего профессионального образования. -М.:НИИВО, 1999.
  44. Н.В., Дунин-Барковский И.В. Курс теории вероятностей и математической статистики. -М.:Наука, 1965
  45. Ю.Н., Макаров А. А. Анализ данных на компьютере. -М.:Инфра-М, 2003.1. Глава 3.
  46. Saatiy T.L. Measuring fuzzyness of sets. //J. of Cybernetics, 1074, v.4, pp.5361
  47. А.Н., Батыршин И. З. и др.Нечеткие множества в моделях искусственного интеллекта. /Под ред. Д.А.Поспелова-М.:Наука, 1986. -312с.
  48. Р.А. Логические методы в искусственном интеллекте. -М.: МГАПИ, 2001.
  49. Н.Г. Основы теории нечетких и гибридных систем. М.: Финансы и статистика, 2004. -320с.
  50. Министерство образования и науки Российской Федерации Московский государственный университет приборостроения и информатики1. На правах рукописи
  51. Петров Станислав Алексеевич
Заполнить форму текущей работой