Этапы АСК-анализа.
Типизация и идентификация респондентов в социологии по их астрономическим показателям на момент рождения
Этот этап осуществляется автоматически в системе «Эйдос» на основе баз данных, подготовленных на предыдущем этапе. Весь процесс для объема выборки 20 007 респондентов при указанном количестве классов и астропризнаков занимает несколько часов машинного времени на PC IBM Pentium-4. Этот этап представляет собой ортонормирование семантического пространства астропризнаков и состоит в удалении… Читать ещё >
Этапы АСК-анализа. Типизация и идентификация респондентов в социологии по их астрономическим показателям на момент рождения (реферат, курсовая, диплом, контрольная)
В работах [1−10] приведен перечень этапов системно-когнитивного анализа, которые необходимо выполнить, чтобы осуществить синтез и исследование модели объекта управления:
- 1. Когнитивная структуризация, а затем и формализация предметной области [5].
- 2. Ввод данных мониторинга в базу прецедентов (обучающую выборку).
- 3. Синтез семантической информационной модели (СИМ).
- 4. Оптимизация СИМ (в случае целесообразности).
- 5. Проверка адекватности СИМ (верификация модели, измерение внутренней и внешней, дифференциальной и интегральной валидности).
- 6. Решение задач идентификации состояний объекта управления, прогнозирование и поддержка принятия управленческих решений по управлению с применением СИМ.
- 7. Системно-когнитивный анализ СИМ.
Важной особенностью АСК-анализа является возможность единообразной числовой обработки разнотипных числовых и нечисловых данных [4]. Это обеспечивается тем, что нечисловым величинам тем же методом, что и числовым, приписываются сопоставимые в пространстве и времени, а также между собой, количественные значения, позволяющие обрабатывать их как числовые:
- — на первых двух этапах АСК-анализа числовые величины сводятся к интервальным оценкам, как и информация об объектах нечисловой природы (фактах, событиях) (этот этап реализуется и в методах интервальной статистики);
- — на третьем этапе АСК-анализа всем этим величинам по единой методике, основанной на системном обобщении семантической теории информации А. Харкевича, сопоставляются количественные величины (имеющие смысл количества информации в признаке о принадлежности объекта к классу), с которыми в дальнейшем и производятся все операции моделирования (этот этап является уникальным для АСК-анализа).
Краткое описание технологии применения АСК-анализа для решения поставленных задач.
- 1. В результате когнитивной структуризации предметной области:
- — сформирована база данных дерева категорий;
- — подсчитано количество категорий;
- — создана база данных респондентов с указанием категорий, к которым они относятся;
- — сформирована база данных событий жизни;
- — информация о событиях жизни включена в базу данных респондентов;
- — создана база данных, непосредственно-воспринимаемая стандартным интерфейсом для внешних баз данных системы «Эйдос», объединяющая данных из базы категорий и астропризнаков по всем респондентам обучающей выборки.
Все эти работы были выполнены с помощью специальной программы, разработанной для этой цели автором статьи (работа этой программы на объеме выборки 20 007 респондентов составляет несколько минут на P4). При этом в качестве исходной информации использовались Excel-файлы, содержащие для каждого респондента информацию о категориях, к которым он относится и полную характеристику в форме астропризнаков. Основным источником астрологической базы данных, подготовленной для системы ЭЙДОС, является Lois Rodden’s AstroDatabank (см. www.astrodatabank.com). Эта база содержит жизнеописание знаменитостей и простых людей, проживавших (или проживающих) в США. Достоинством этой базы данных является то, что, все события жизни классифицированы, а все профессиональные и иные категории упорядочены. На первом этапе данные были конвертированы в формат баз данных JDataStore фирмы Borland. Затем данные были тщательно отсортированы, с использованием SQL запросов и специальных функций на языке Java. В результате были получены астрологические и биографические данные для 20 007 уникальных персон и 16 360 записей событий, происходивших с ними. Для них всех с помощью библиотеки швейцарских эфемерид (см. www.astro.com) были вычислены координаты небесных тел (долгота и широта в градусах и расстояние в астрономических единицах). Для записей с точным временем вычислялись куспиды астрологических домов в системе Плацидуса, а также звездные стоянки Луны — накшатры (использовалась система из 27 стоянок). В анализе были использованы эфемериды следующих небесных тел: Солнца, Луны, Меркурия, Венеры, Марса, Юпитера, Сатурна, Урана, Нептуна, Плутона и Хирона. Следующим шагом является сортировка персон по категориям. В результате было получено XML дерево категорий исходной базы данных. Для этой цели была написана процедура, позволяющая безошибочно изменять категории, сортируя его. Далее база данных была полностью экспортирована в формат Excel, а из него в формат интеллектуальной системы ЭЙДОС. Архив исходных данных в формате Excel доступен по адресу: http://astro.proforums.ru/tmp/abank.rar. Отметим, что работа с категориями продолжается и в настоящее время, поэтому архив обновляется и пополняется по мере пополнения исходной базы данных.
Исполнимый и исходный текст программы преобразования исходных данных в файлы, непосредственно воспринимаемые одним из стандартных интерфейсов системы «Эйдос» для внешних баз данных, вместе со всеми исходными, промежуточными и результирующими базами данных, а полностью функциональном состоянии можно скачать с сайта автора по ссылкам:
http://lc.kubagro.ru/astrolog/astr-all.rar и http://lc.kubagro.ru/1/astr7.rar.
- 2. В результате формализации предметной области:
- — получены справочники классов (классификационные шкалы и градации), т. е. обобщенных категорий, включающие категории из дерева категорий, предоставленного В. Шашиным, а также события жизни;
- — получены справочники астропризнаков (49 описательных шкал с суммарным количеством градаций: 532, т. е. по 12 для всех шкал, кроме накшатр);
- — получена обучающая выборка, включающая данные о принадлежности к категориям и астропризнаки по 20 007 респондентам.
Первоначально справочник категорий включал 10 988 категорий (http://lc.kubagro.ru/1/astr8.rar), затем из него были удалены все наименее представленные респондентами категории, так что в результате осталось 500 категорий, каждая из которых была представлена не менее чем 27 респондентами. Это было необходимо сделать как для проведения обобщения (типизации), так и для того, чтобы модель просчитывалась на реально имеющихся в распоряжении авторов персональных компьютерах за разумное время.
Все эти работы выполнены автоматически одним из стандартных интерфейсов системы «Эйдос» с внешними базами данных.
3. Синтез семантической информационной модели (СИМ).
Этот этап осуществляется автоматически в системе «Эйдос» на основе баз данных, подготовленных на предыдущем этапе. Весь процесс для объема выборки 20 007 респондентов при указанном количестве классов и астропризнаков занимает несколько часов машинного времени на PC IBM Pentium-4.
4. Оптимизация СИМ (в случае целесообразности).
Этот этап представляет собой ортонормирование семантического пространства астропризнаков и состоит в удалении из модели тех из них, которые оказались наименее существенными для идентификации респондентов по категориям. В данном исследовании этого не делалось.
5. Проверка адекватности СИМ (верификация модели, измерение внутренней и внешней, дифференциальной и интегральной валидности).
Данный этап является весьма существенным по двум основным причинам.
Во-первых, если модель предметной области адекватна, то непосредственное исследование предметной области корректно можно заменить исследованием ее модели, т. е. считать исследование модели исследованием самой предметной области.
Во-вторых, если модель предметной области адекватна, то можно утверждать, что получен положительный результат в проводимом исследовании, т. е. выявлены значимые зависимости между астропризнаками и принадлежностью респондентов к тем или иным категориям.
В технологии АСК-анализа и системе «Эйдос» предусмотрено несколько способов и вариантов проверки модели на адекватность из которых мы воспользовались наиболее жестким: адекватность проверялась путем контрольной идентификации случайно отобранных 1000 респондентов, данные которых не использовались при синтезе модели (бутстрепный метод [4]).
6. Решение задач идентификации респондентов.
В исследовании решалось две задачи идентификации респондентов:
- 1. Идентификация группы из 1000 респондентов, выбранных случайным образом из исходной выборки объемом 20 007 респондентов, данные которых не использовались при синтезе модели, которая была построена на данных оставшихся 19 007 респондентов.
- 2. Идентификация группы из 69 респондентов, данные по которым были представлены участниками форума на сайте http://trounev.net. При этом использовались различные варианты моделей отличающиеся как наборами описательных шкал, так и количеством градаций в них.
Анализ результатов идентификации 2-й группы приведен в статьях авторов [10, 11], поэтому в данной статье мы на нем останавливаться не будем, а подробнее рассмотрим результаты измерения внешней валидности путем идентификации группы из 1000 случайно отобранных респондентов, данные которых не использовались при синтезе модели.
7. Системно-когнитивный анализ СИМ.
Возможности системно-когнитивного анализа семантической информационной модели кратко описаны выше и подробнее в работах [1−10]. Часть предварительных выходных форм, получающихся при проведении АСК-анализа СИМ размещено на сайте автора по ссылкам, которые даны на упоминаемых в начале статьи форумах. Однако полное исследование полученных моделей еще предстоит выполнить.