Помощь в написании студенческих работ
Антистрессовый сервис

Решение задач ампелографии с применением АСК-анализа изображений листьев по их внешним контурам

РефератПомощь в написанииУзнать стоимостьмоей работы

Записывает в папку: .AID_DATAOut_data графические файлы, состоящие только из контуров с изображенными на них точками, которые были оцифрованы. Необходимо особо отметить, что при этом используется полярная система координат с центром в центре тяжести изображения, а результатами оцифровки являются расстояния от центров тяжести изображений до точек их контура при различных углах поворота… Читать ещё >

Решение задач ампелографии с применением АСК-анализа изображений листьев по их внешним контурам (реферат, курсовая, диплом, контрольная)

Раз он в море закинул невод, ;

Пришел невод с одною тиной.

Он в другой раз закинул невод, Пришел невод с травой морскою.

В третий раз закинул он невод, ;

Пришел невод с одною рыбкой, С непростою рыбкой, — золотою.

/А.С.Пушкин/.

Данная статья может рассматриваться как продолжение серии работ [1, 2, 3, 4, 5], посвященных применению автоматизированного системно-когнитивного анализа (АСК-анализ) [12] и его программного инструментария — системы «Эйдос» [10, 11] См. сайт автора АСК-анализа и системы «Эйдос»: http://lc.kubagro.ru/ для интеллектуальной обработки изображений, т. е. для их оцифровки, создания моделей конкретных изображений, формирования обобщенных изображений на основе ряда конкретных, относящихся к одной категории (классу), абстрагирования, идентификации, классификации обобщенных изображений и решения ряда других задач.

В частности, в работе [3] описаны основы АСК-анализа изображений по их внешним контурам. В этих работах описаны возможности применения АСК-анализа для решения задачи синтеза обобщенных изображений на основе ряда конкретных примеров. При этом в результате обобщения выясняется ценность признаков изображений для их дифференциации, а также степень характерности тех или иных признаков для конкретных изображений. Это позволяет без ущерба для адекватности модели удалить из нее малоценные признаки, т. е. осуществить абстрагирование обобщенных изображений, что обеспечивает в последующем сокращение затрат различных видов ресурсов на сбор и обработку графической информации. Над обобщенными изображениями возможны операции классификации, объединения наиболее сходных из них в кластеры и формирования систем наиболее сильно отличающихся друг от друга кластеров, т. е. конструктов. Можно также количественно оценивать степень сходства конкретных изображений с обобщенными, т. е. идентифицировать эти конкретные изображения.

Все это позволяет ставить и решать на практике ряд важных задач ампелографии:

  • 1) оцифровка сканированных изображений листьев и создание их математических моделей;
  • 2) формирование математических моделей конкретных листьев с применением теории информации;
  • 3) формирование моделей обобщенных образов листьев различных сортов;
  • 4) сравнение образа конкретного листа с обобщенным образом листа разных сортов и определение количественной степени сходства-различия между ними, т. е. идентификация сорта по листу;
  • 5) количественное определение сходства-различия сортов, т. е. кластерно-конструктивный анализ обобщенных образов листьев различных сортов.

Предлагается новый подход к оцифровке изображений листьев виграда, основанный на использовании полярной системы координат, центра тяжести изображения и его внешнего контура. Перед оцифровкой изображений могут применяться их преобразования, стандартизирующие положение изображений, их размеры и угол поворота. Поэтому результаты оцифровки и АСК-анализа изображений могут быть инвариантны (независимы) относительно их положения, размеров и поворота. Форма контура конкретного листа рассматривается как зашумленное информационное сообщение о сорте, включающее как информацию об истинной форме листа данного сорта (чистый сигнал), так и шум, искажающий эту истинную форму, обусловленный случайным воздействием окружающей среды. Программный инструментарий АСК-анализа — интеллектуальная система «Эйдос» обеспечивает подавление шума и выделение сигнала об истинной форме листа каждого сорта на основе ряда зашумленных конкретных примеров листьев данного сорта. Таким образом создается один образ формы листа каждого сорта, независящий от их конкретных реализаций, т. е. «Эйдос» этих изображений (в смысле Платона [6]) — прототип или архетип (в смысле Юнга [18]) изображений.

Рассмотрим на конкретном численном примере решение сформулированных выше задач ампелографии в АСК-анализе и системе «Эйдос-Х++» версии от 24.10.2015 и выше. Отметим, что система «Эйдос» имеет программные интерфейсы с внешними источниками данных различных типов: текстовые данные в форме текстовых файлов и значений полей Excel-таблиц, табличными данными dbf, xls и xlsx форматов, графическими объектами, анализируемыми по пикселям и внешним контурам.

Для решения поставленных в статье задач используем программный интерфейс с изображениями, которые анализируются по их внешним контурам в полярной системе координат. Программная реализация данного интерфейса разработана Д. К. Бандык по алгоритму и постановке проф. Е. В. Луценко [3, 4].

Для этого скачаем систему «Эйдос» с сайта автора по ссылке: http://lc.kubagro.ru/aidos/_Aidos-X.htm и установим ее в соответствии с инструкцией на сайте.

Запишем в папку .AID_DATAInp_data сканированные изображения листьев (рисунок 1):

Экранная форма, поясняющая расположение и структуру исходных данных.

Рисунок 1. Экранная форма, поясняющая расположение и структуру исходных данных: сканированных изображений листьев различных сортов Изображения листьев помещены в папки, имена которых содержат информацию о сорте и месторасположении куста (слева). Внутри каждой папки (справа) содержаться файлы сканированных изображений листьев с одного куста. Имена файлов состоят из имени сорта (класса) и номера листа на кусте и внутри папки (номер реализации). В рассматриваемом примере в обучающей выборке используются изображения 451 листа.

Затем запустим режим: 2.3.2.4. Оцифровка изображений по их внешним контурам (рисунок 2):

Начальная экранная форма режима 2.3.2.4. Оцифровка изображений по их внешним контурам.

Рисунок 2. Начальная экранная форма режима 2.3.2.4. Оцифровка изображений по их внешним контурам Вместо описания данного режима приведем на рисунке 3 Help данного режима:

Help режима 2.3.2.4. Оцифровка изображений по их внешним контурам.

Рисунок 3. Help режима 2.3.2.4. Оцифровка изображений по их внешним контурам В результате появляется главная экранная форма, отображающая процесс оцифровки сканов листьев, расположенных в виде файлов в указанных выше папках (рисунок 4):

Экранная форма с отображением стадии процесса исполнения оцифровки изображений листьев по их внешним контурам.

Рисунок 4. Экранная форма с отображением стадии процесса исполнения оцифровки изображений листьев по их внешним контурам Данный режим:

  • 1. Находит все поддиректории в папке: .AID_DATAInp_data и все графические файлы jpg и bmp в поддиректориях.
  • 2. Находит контуры в этих графических файлах и их центры тяжести.
  • 3. Записывает в папку: .AID_DATAOut_data графические файлы, состоящие только из контуров с изображенными на них точками, которые были оцифрованы. Необходимо особо отметить, что при этом используется полярная система координат с центром в центре тяжести изображения, а результатами оцифровки являются расстояния от центров тяжести изображений до точек их контура при различных углах поворота радиуса-вектора (эта идея, а также математическая модель и алгоритм ее реализации предложены проф.Е. В. Луценко в 2014 и реализованы в модуле 2.3.2.4 и режиме 4.7 системы «Эйдос» в 2015 году). При этом структура поддиректорий и имена файлов в папках: .AID_DATAInp_data и .AID_DATAOut_data совпадают. Пример контурного изображения листа приведен ниже на рисунке 5:
Пример контурного изображения листа.

Рисунок 5. Пример контурного изображения листа: c: Aidos-XAID_DATAOut_dataВиктор 3 15 0Виктор — 0010.jpg.

4. Затем режим 2.3.2.4 формирует Excel-таблицу с именем: .AID_DATAInp_datainp_data.xlsx, в которой содержаться результаты оцифровки изображений. Кроме того, он формирует таблицу: .AID_DATAInp_datainp_data_avr.xlsx с усредненными данными по классам. Пояснение по структуре этой таблицы дано в Help режима 2.3.2.4 (рисунок 3). Структура этой таблицы полностью соответствует требованиям универсального программного интерфейса системы «Эйдос» с внешними базами данных (режим 2.3.2.2), которые приведены в Help этого режима и представлены на рисунке 6:

Help универсального программного интерфейса системы «Эйдос» с внешними базами данных (режим 2.3.2.2).

Рисунок 6. Help универсального программного интерфейса системы «Эйдос» с внешними базами данных (режим 2.3.2.2).

В таблице 1 приведен фрагмент сформированного режимом 2.3.2.4 файла. AID_DATAInp_datainp_data.xlsx с результатами оцифровки изображений:

Таблица 1. — Файл c: Aidos-XAID_DATAInp_datainp_data.xlsx с результатами оцифровки изображений (фрагмент) Это изображение сделано с разрешением 600 dpi и четко просматривается при масштабе 500%/ Полный файл исходных данных включает еще 3 таких страницы и здесь не приводится из-за их большой размерности, как и базы данных, создаваемые в системе «Эйдос» в результате его нормализации и импорта в систему.

Решение задач ампелографии с применением АСК-анализа изображений листьев по их внешним контурам.

Сам этот программный интерфейс вызывается из главного меню системы «Эйдос» (режим 2.3.2.2), либо из режима: 4.7. АСК-анализ изображений. Главная экранная форма режима 2.3.2.2 приведена на рисунке 7, причем на ней показаны нужные параметры, которые формируются режимом 2.3.24 как параметры по умолчанию:

Главная экранная форма универсального программного интерфейса системы «Эйдос» с внешними базами данных (режим 2.3.2.2).

Рисунок 7. Главная экранная форма универсального программного интерфейса системы «Эйдос» с внешними базами данных (режим 2.3.2.2).

После запуска процесса ввода данных из файла: .AID_DATAInp_datainp_data.xlsx в базы данных системы «Эйдос» определяется количество заданных текстовых и числовых классификационных и описательных шкал и градаций [7] и выводится окно внутреннего калькулятора данного режима, в котором мы можем задать число интервальных значений в числовых шкалах (рисунок 8):

Экранная форма внутреннего калькулятора универсального программного интерфейса системы «Эйдос» с внешними базами данных.

Рисунок 8. Экранная форма внутреннего калькулятора универсального программного интерфейса системы «Эйдос» с внешними базами данных После клика по кнопке «Выйти на создание модели» начинается процесс импорта данных оцифровки изображений из файла .AID_DATAInp_datainp_data.xlsx в базы данных системы «Эйдос». При этом по сути происходит нормализация базы исходных данных, т. е. создаются справочники классификационных и описательных шкал и градаций и исходные данные кодируются с их использованием, в результате чего формируется обучающая выборка и база событий (эвентологическая база данных) (рисунок 9):

Экранная форма, отображающая этапы импорта данных из внешней базы данных в систему «Эйдос».

Рисунок 9. Экранная форма, отображающая этапы импорта данных из внешней базы данных в систему «Эйдос».

Сами справочники классификационных и описательных шкал и градаций, обучающая выборка и эвентологическая база данных могут быть просмотрены в режимах 2.1, 2.2, 2.3.1, 2.4 системы «Эйдос». В результате работы программного интерфейса с внешними базами данных 2.3.2.2 также формируется таблица .AID_DATAInp_datainp_davr.xls с усредненными данными по классам.

Затем запускается режим 3.5, обеспечивающий синтез и верификацию (оценку достоверности) моделей (рисунок 10):

Экранная форма режима синтеза и верификации моделей системы «Эйдос» (режима 3.5).

Рисунок 10. Экранная форма режима синтеза и верификации моделей системы «Эйдос» (режима 3.5).

Запускаем этот режим с параметрами по умолчанию. В результате работы данного режима создаются и верифицируются 3 статистических модели (корреляционная матрица, матрицы условных и безусловных процентных распределений) и 7 системно-когнитивных моделей:

Этапы последовательного повышения степени формализации модели от данных к информации, а от нее к знаниям Подробнее об этом можно прочитать в работе [7] и других работах, посвященных АСК-анализу.

Рисунок 11. Этапы последовательного повышения степени формализации модели от данных к информации, а от нее к знаниям Подробнее об этом можно прочитать в работе [7] и других работах, посвященных АСК-анализу.

Экранная форма отображения стадии исполнения режима синтеза и верификации моделей.

Рисунок 12. Экранная форма отображения стадии исполнения режима синтеза и верификации моделей Из рисунка 12 видно, что процесс синтеза и верификации моделей на выборке из 451 листа занял 16 минут 54 секунды.

Достоверность моделей оценивается в этом же режиме 3.5 в соответствии с предложенной проф. Е. В. Луценко метрикой, сходной по смыслу с известным F-критерием, но не основанной на предположении о нормальности распределения, независимости и аддитивности факторов (рисунки 13 и 14).

Оценка достоверности моделей с помощью непараметрической метрики, сходной с F-критерием.

Рисунок 13. Оценка достоверности моделей с помощью непараметрической метрики, сходной с F-критерием.

Help режима 4.1.3.6.

Рисунок 14. Help режима 4.1.3.6: пояснение смысла непараметрической метрики, сходной с F-критерием Из рисунка 13 мы видим, что наиболее достоверная модель, основанная на модифицированной мере Харкевича [7], дает среднюю достоверность определения сорта по листу около 80%, причем достоверность правильного отнесения листа к сорту, к которому он относится, составляет 83%, а правильного не отнесения к сорту, к которому он не относится — около 79%.

В соответствии со схемой, приведенной на рисунке 11, и информацией по достоверности моделей, приведенной на рисунке 13, в режиме 5.6 системы «Эйдос» зададим системно-когнитивную модель INF2 в качестве текущей (рисунок 15) и проведем в ней пакетную идентификацию в режиме 4.1.2 (рисунок 16):

Экранная форма, позволяющая задать любую модель в качестве текущей.
Решение задач ампелографии с применением АСК-анализа изображений листьев по их внешним контурам.

Рисунок 15. Экранная форма, позволяющая задать любую модель в качестве текущей.

Экранная форма с отображением этапов и стадии решения задачи идентификации листьев с обобщенными образами листьев сортов.

Рисунок 16. Экранная форма с отображением этапов и стадии решения задачи идентификации листьев с обобщенными образами листьев сортов Из данной экранной формы видно, что идентификация 541 листа с обобщенными образами листьев сортов выполнена за минуту 23 секунды.

На рисунке 17 представлен пример результатов идентификации:

Экранная форма с результатами идентификации листьев с обобщенным образом листьев сорта «Виктор».

Рисунок 17. Экранная форма с результатами идентификации листьев с обобщенным образом листьев сорта «Виктор».

При идентификации возникают ошибки неидентификации и ложной идентификации, снижающие достоверность модели. По мнению авторов, основной причиной этих ошибок является наличие в обучающей выборке по каждому сорту винограда «нетипичных» для данного сорта листьев, значительно отличающихся по своей форме от основной массы листьев сорта (явление полиморфизма). По сути это связано с не очень высоким качеством обучающей выборки.

В системе «Эйдос» есть много различных средств повышения качества моделей, в частности за счет улучшения качества обучающей выборки. Для поиска и удаления из обучающей выборки данных по нетипичным листьям может быть применен режим: 3.7.6. Разделение классов на типичную и нетипичную части. Этот режим был реализован в DOS-версии системы «Эйдос» [8, 9, 10], а во время работы над статьей он был реализован в несколько усовершенствованном виде и в новой версии системы «Эйдос-Х++» [11]. На рисунке 18 приведена экранная форма этого режима:

Экранная форма режима.

Рисунок 18. Экранная форма режима: 3.7.6. Разделение классов на типичную и нетипичную части Вместо описания данного режима приведем его Help (рисунок 19):

Help режима.

Рисунок 19. Help режима: 3.7.6. Разделение классов на типичную и нетипичную части В результате работы данного режима при параметрах, приведенных в экранной форме на рисунке 18, из обучающей выборки было убрано 182 нетипичных изображения листьев из 541, в результате чего осталось 359 изображений (рисунок 20):

Экранная форма с результатами удаления нетипичных объектов обучающей выборки и рекомендациями по последующим действиям.

Рисунок 20. Экранная форма с результатами удаления нетипичных объектов обучающей выборки и рекомендациями по последующим действиям Форма отчета по ним представлена в таблице 2:

Таблица 2. — Файл .AID_DATAA0000001SystemObj_err1.dbf с данными об отбракованных нетипичных объектах обучающей выборки (фрагмент) Это изображение сделано с разрешением 600 dpi и четко просматривается при масштабе 500%/.

Решение задач ампелографии с применением АСК-анализа изображений листьев по их внешним контурам.

После выполнения рекомендуемых режимов (параметры их работы задаются программно, т. е. для пользователя «по умолчанию»), достоверность моделей возросла за счет уменьшения вариабельности формы листьев внутри классов, соответствующих сортам винограда (рисунок 21). Из этого рисунка мы видим, что достоверность моделей, созданных на основе улучшенных обучающих выборок, повышается по сравнению с исходной (рисунок 13) примерно на 4−5% за итерацию. Отметим, что режим 3.7.6 сделан таким образом, чтобы можно было удобно применять его итерационно, т. е. просто запускать его последовательно несколько раз подряд. При этом сначала повышается качество обучающей выборки путем удаления из нее нетипичных объектов, затем на основе улучшенной обучающей выборки создается новое приложение, а потом это новое приложение готовится для следующего применения режима 3.7.6 (см. рисунок 20).

Оценка достоверности моделей, созданных на основе обучающей выборки с удаленными данными о нетипичных листьях на 1-й и 2-й итерациях (непараметрическая метрика, сходная с F-критерием).
Решение задач ампелографии с применением АСК-анализа изображений листьев по их внешним контурам.

Рисунок 21. Оценка достоверности моделей, созданных на основе обучающей выборки с удаленными данными о нетипичных листьях на 1-й и 2-й итерациях (непараметрическая метрика, сходная с F-критерием) Из рисунка 21 видно, что в наилучшей модели, созданной на 2-й итерации (INF4), достоверность идентификации, определения сорта винограда по форме листа (контуру) составляет 95,8%, а достоверность неидентификации, т. е. определения сортов, к которым данный лист не относится — 80,9%. Это уже результат, достаточно высокий для того, чтобы можно было говорить не только о научной новизне, но и о практической значимости предлагаемых подходов к решению некоторых сформулированных в работе важных задач ампелографии.

Отметим также, что дальнейшие итерации в данном случае проводить нецелесообразно, т.к. наиболее эффективны, т. е. наиболее сильно повышают достоверность моделей именно первые итерации, а последующие все в меньшей и меньшей степени, что вполне естественно, ведь достоверность модели асимптотически приближается к 100%. Кроме того, в результате проведенных итераций уже достигнут достаточный уровень достоверности. В исходной обучающей выборке был 541 объект (лист), в модели 1-й итерации — 359, а в модели 2-й итерации — 309.

Выберем в качестве текущей модель INF4 2-й итерации и решим в ней сформулированные в начале статьи важные задачи ампелографии:

  • 1) оцифровка сканированных изображений листьев и создание их математических моделей;
  • 2) формирование математических моделей конкретных листьев с применением теории информации;
  • 3) формирование моделей обобщенных образов листьев различных сортов;
  • 4) сравнение образа конкретного листа с обобщенным образом листа разных сортов и определение количественной степени сходства-различия между ними, т. е. идентификация сорта по листу;
  • 5) количественное определение сходства-различия сортов, т. е. кластерно-конструктивный анализ обобщенных образов листьев различных сортов.
Показать весь текст
Заполнить форму текущей работой