Анализ и классификация артефактов археологического памятника Лузанова Сопка-2
Результаты кластеризации, когда получилось 2 и 20 кластеров считаются не верными, потому что это означает, что-либо все сосуды принадлежат одному кластеру, либо каждый сосуд — это отдельный кластер. По этой причине, методы связь внутри групп, ближайший сосед, дальний сосед, кластеринг медиан и метод Уорда исключаются из анализа. По этой же причине исключаются из рассмотрения семь мер: различие… Читать ещё >
Анализ и классификация артефактов археологического памятника Лузанова Сопка-2 (реферат, курсовая, диплом, контрольная)
АНАЛИЗ И КЛАССИФИКАЦИЯ АРТЕФАКТОВ АРХЕОЛОГИЧЕСКОГО ПАМЯТНИКА ЛУЗАНОВА СОПКА-2
Анализ результатов археологических раскопок производится на данных памятника «Лузанова Сопка-2», который находится в Хорольском районе Приморского края.
Возраст этого памятника 5800 лет. Найденные фрагменты сосудов были изучены, распределены к разным сосудам, в зависимости от толщины стенок и материала изготовления сосудов, и зарисованы. Итак, каждый сосуд может быть представлен одним или несколькими обломками.
Сосуды имеют характерные признаки, которые можно разделить на четыре группы: форма венчика, наличие валика, форма среза венчика, техника орнаментации.
Признаки из групп «форма венчика» и «форма среза венчика» присутствуют на сосуде лишь один раз в отличие от признаков групп «наличие валика» и «техника орнаментации» .
Все признаки сосудов представлены графически. Каждый признак имеет свой буквенный и цифровой индекс, что упрощает дальнейшую обработку.
Таблица описания признаков | ||||||||
№ | код | признак | № | код | признак | |||
а | Прямой венчик | м | Треугольники по диагонали | |||||
б | Загнутый венчик | н | Ромбы в треугольнике | |||||
в | Валик на сосуде | о | Гребенка вертикальная | |||||
г | Горизонтальная кромка | п | Гребенка диагональная | |||||
д | Округлая кромка | р | Лопатки по горизонтали | |||||
е | Скошенная внутрь кромка | с | Лопатки в треугольнике | |||||
ж | Скошенная наружу кромка | т | Отступающая лопатка | |||||
з | Заостренная кромка | у | Овалы в линию | |||||
и | Орнамент на кромке | ф | Прочерченная линия | |||||
к | Ромбы в шахматном порядке | х | Прочерченная полукруглая линия | |||||
л | Ромбы в ряд | |||||||
Все признаки сосудов были закодированы: 1 — если признак присутствует на сосуде, и 0 — если отсутствует, и занесены в таблицу, которая и обрабатывалась.
Выбор основы типологии строится на наиболее информативных признаках. Информативность признаков находится в несколько приемов. Сначала строится таблица со встречаемости всех признаков. Все признаки разделены на 3 группы: венчик, кромка, орнамент. Вторая, третья и четвертая колонки таблицы относятся к выделенным группам. Пятая колонка обозначает количество сосудов имеющих одинаковые сочетания признаков. Всего различных возможных сочетаний 39. В шестой колонке подсчитаны частоты встречаемости признаков, как отношение количества сосудов с одинаковым сочетанием признаков к числу всех сочетаний, и обозначаются P. В седьмой колонке вычисляются P* log2P для соответствующего сочетания признаков.
Таблица
Таблица для определения энтропии для всех групп признаков | |||||||
№ | Форма венчика | Форма среза венчика | Орнамент | Число сосудов с i-ым сочетанием признаков | Частота сочетания (P) | Pi*log2P | |
а | з | о | 0,071 | 0,270 | |||
а | з | р | 0,035 | 0,170 | |||
а | д | ф | 0,047 | 0,208 | |||
а | ж | и | 0,012 | 0,075 | |||
а | е | и | 0,012 | 0,075 | |||
… | … | … | … | … | … | … | |
б | г | п | 0,012 | 0,075 | |||
б | д | р | 0,012 | 0,075 | |||
Далее суммируются данные последней колонки:
.
Аналогично строятся таблицы для определения энтропии распределения сочетаний вариантов признаков без значений признаков «форма венчика»), «форма среза венчика» и «орнамент. В таблицах анализ проводится по двум группам признаков.
Для этих случаев формулы для вычисления энтропии имеют вид:
,
.
Далее строится таблица встречаемости на сосудах признаков из группы «форма венчика». В первом столбце таблицы указываются два возможных признака из этой группы: прямой венчик и загнутый венчик, во втором — число сосудов с этими признаками. В третьей и четвертой колонке вычисляются частоты и P*log2P, аналогично описанным выше вычислениям.
Суммируя значения последней колонки, считается H1. Для определения неравномерности распределения сосудов по значениям признака «форма венчика» вычисляются:
; ,
где в формуле — идеальное значение энтропии для признака; R1 — коэффициент неравномерности.
Аналогично строятся таблицы встречаемости на сосудах признаков из групп «форма среза венчика» и «орнамент». Для них энтропия и коэффициент неравномерности посчитаны по формулам:
, .
, .
В итоге были посчитаны, использую вычисленные выше результаты, коэффициенты информативности (I1, I2, I3) и нормированной информативности (Q1, Q2, Q3) по формулам:
, , ,
.
Эти коэффициенты занесены в итоговую таблицу и проанализированы.
Наиболее информативным признаком оказался «орнамент» (Q3 = 0,128). Форма венчика и форма среза венчика менее информативны (Q1 = 0,064, Q2 = 0,101). Как дополнительная характеристика признаков был подсчитан коэффициент неравномерности их распределения ®. В итоге оказалось, что орнамент обладает самой высокой информативностью и самым малым коэффициентом неравномерности (R3 = 0,128). Признак «форма венчика» обладает наименьшим коэффициентом информативности и наибольшей неравномерностью (R1 = 0,574), надо отметить, что это следствие того, что большинство единиц анализа относится к одному значению, т. е. из 23 фрагментов 21 имеют признак «`прямой венчик» ', потому появление этого признака на керамике не определяет значения остальных. В свою очередь, так как только два сосуда (сосуд 6 и сосуд 12) имеют признак «загнутый венчик», то возможно эти сосуды будут определены в один кластер, состоящий только из этих двух сосудов.
Таким образом, в группировку введены элементы иерархии, позволяющие упорядочить признаки по степени их значимости (в статистическом смысле). Признак «орнамент», который имеет самую большую информативность и небольшой коэффициент неравномерности, является основанием типологии. Формы венчика и характер формы среза венчика характеризуют вариантные признаки памятника Лузанова Сопка-2.
Для проведения кластерного анализа были выбраны агломеративные иерархические алгоритмы, так как именно они позволяют получить наиболее полное представление о структуре кластеров в виде дендрограммы. В виду того, что не известны методы и меры, используемые для решения такого рода задач, была проведена кластеризация по всем 7 методам, которые реализованы в программе статистического анализа SPSS, для них использовались 25 мер. Число кластеров определялось по динамике изменения порога расщепления (слияния) кластеров. В программе SPSS по каждому методу выводится таблица агломерации, с помощью которой можно оценить число кластеров. Для этого необходимо проследить динамику увеличения расстояний по шагам кластеризации и определить шаг, на котором отмечается резкое возрастание расстояний. Оптимальному числу кластеров соответствует разность между числом объектов и порядковым номером шага, на котором было обнаружено максимальное расстояние.
Проанализировав таблицы агломерации, была построена таблица, в которой отмечено количество кластеров по всем методам и мерам.
Результаты кластеризации, когда получилось 2 и 20 кластеров считаются не верными, потому что это означает, что-либо все сосуды принадлежат одному кластеру, либо каждый сосуд — это отдельный кластер. По этой причине, методы связь внутри групп, ближайший сосед, дальний сосед, кластеринг медиан и метод Уорда исключаются из анализа. По этой же причине исключаются из рассмотрения семь мер: различие размера, вариация, дисперсия, лямбда, Рассел и Рао, Сокал и Снит 2, Сокал и Снит 5.
В большинстве случае анализ оставшихся 2 методов и 18 мер показывает, что сосуды делятся на 10 — 11 кл.
Сравнение результатов иерархических методов было проведено с результатом метода К-средних. Перед выполнением метода К-средних был проведен факторный анализ, для объединения зависимых признаков к меньшему количеству независимых между собой факторов. Таким образом, 21 признак был объединен в 7 факторов. Принадлежность признаков к факторам определяется по матрице вращения.
Матрица вращения состоит из факторных нагрузок. Максимальное абсолютное значение факторной нагрузки указывает на отношение данного признака к фактору, что позволяется разделить признаки на группы.
Для подтверждения правильности распределения признаков по факторам были построены матрица корреляций, используя коэффициент Пирсона, и граф связей признаков.
Граф связей признаков венчик энтропия пирсон сосуд
Двойной линией в графе соединены признаки, имеющие наибольший коэффициент корреляции, одинарной — наименьший, пунктирной линией — с обратной зависимостью. В графе связей объединяются в группы признаки, исходя из факторного анализа. Как видно из графа, группы не пересекаются между собой, что подтверждает их разделение факторным анализом.
Затем был проведен метод К-средних, использующий вместо признаков полученные значения факторов. В этом методе необходимо указывать количество кластеров. Так как иерархические методы показали, что должно быть 10−11 кластеров, то неиерархическим анализом была произведена кластеризация для такого количества кластеров.
Сравнения результатов иерархических и метода К-средних показывает совпадение разделения на кластеры 18 сосудов из 23, что составляет 78%. Окончательным решение задачи кластеризации является таблица, в которой указаны группы сосудов:
Группы сосудов | ||||||||||
Сосуд 7 | Сосуд4 | Сосуд8 | Сосуд6 | Сосуд13 | Сосуд22 | Сосуд1 | Сосуд2 | Сосуд3 | Сосуд17 | |
Сосуд14 | Сосуд26 | Сосуд9 | Сосуд12 | Сосуд15 | Сосуд23 | |||||
Сосуд18 | Сосуд27 | Сосуд28 | ||||||||
Сосуд19 | ||||||||||
Сосуд20 | ||||||||||
Сосуд21 | ||||||||||
Сосуд25 | ||||||||||
Наибольшей по количеству сосудов группе соответствуют признаки, присущие памятнику «Лузанова Сопка-2»: «прямой венчик», «заостренная кромка», «орнамент на кромке», «гребенка вертикальная», «гребенка диагональная».
В последних четырех группах присутствуют признаки, которых нет на остальных сосудах, но на них много признаков из основной (многочисленной) группы, что означает, что не сосуд пришел из другой «культуры», а лишь орнаментальный признак.
Также было выявлено, что орнамент на кромке влияет на форму среза венчика.
1. Барсегян А. А. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP.-2-е изд., прераб. и доп.-С-П., 2008.
2. Ким Дж.-О. Факторный, дискриминантный и кластерный анализ.-М.: Финансы и статистика, 1989.-215 с.:ил.
3. Наследов А. SPSS 15 профессиональный статистический анализ данных.-С-П., 2008.