Спектроскопия представляет собой область физики, которая изучает свойства вещества путем анализа его спектров. Установление устойчивых связей между свойствами спектров и характеристиками вещества позволяет получать важную информацию о строении объекта, его состоянии, и о происходящих в нем процессах. При этом важной частью спектроскопического исследования является решение обратных задач, т. е. задач определения характеристик вещества (не являющихся непосредственно наблюдаемыми величинами) по свойствам его спектров (которые наблюдаются непосредственно и напрямую зависят как от определяемых характеристик, так и от внешних факторов).
Спектроскопические методы активно используются в самых разных областях науки и техники — от диагностики плазмы до мониторинга природных экосистем [1,2, 3, 4], причём весьма существенным достоинством оптической спектроскопии является возможность диагностики in situ, т. е. непосредственно в «среде обитания» объекта, бесконтактно, дистанционно, без какой-либо специальной подготовки объекта. В последнее десятилетие интерес к спектроскопии не только не угасал, но, напротив, возрастал вместе с развитием новых спектроскопических методов, с одной стороны, и усложнением объектов, которые исследуются с помощью спектроскопии, с другой. Такое усложнение сделало актуальным не только разработку и применение новых собственно спектроскопических методик, но и применение современных методов анализа данных.
Разработка новых спектроскопических методик происходит всё чаще в русле перехода от эмпирического подхода (установление корреляционных связей между свойствами спектров и обусловливающими их свойствами и состоянием вещества) к исследованию механизмов формирования спектров в результате взаимодействия электромагнитного излучения (в частности, оптического диапазона) с веществом. Подобное исследование, равно как и решение основной диагностической задачи спектроскопии, требует решения прямых и обратных задач, параметрами которых были бы характеристики вещества, часто на атомно-молекулярном уровне.
Применение в спектроскопии лазеров (появление лазерной спектроскопии) существенно расширило её возможности [3, 5], но и усложнило решение обратных задач. Основной причиной этого явилось увеличение числа параметров задачи, ставшее возможным благодаря увеличению первичной информативности лазерных спектрометров, как из-за возникновения новых возможностей традиционных методов при больших интенсивностях возбуждающего излучения, так и с введением принципиально новых «чисто лазерных» методов. Последние используют монохроматичность лазерного излучения, высокую концентрацию энергии излучения в коротких и сверхкоротких (от наносекунд до фемтосекунд) импульсах и возникновение нелинейных эффектов. Наличие нелинейности, в свою очередь, само по себе усложняет решение обратных задач из-за более сложной зависимости характеристик наблюдаемого спектра от исследуемых параметров среды.
В связи со всем сказанным, применение современных методов анализа данных в спектроскопии становится всё более актуальным. Такие методы должны помочь в первую очередь в ситуациях, когда традиционные методы решения обратных задач испытывают трудности или терпят неудачу. Несмотря на постоянные усилия (как физиков-спектроскопистов, так и математиков) но модернизации традиционных методов, порой приносящие свои плоды, очевидна потребность в новых подходах, адекватных по своим возможностям сложности решаемых задач. При этом необходимо как исследование свойств новых подходов к решению обратных задач, гак и разработка методик их применения и сравнение результатов с результатами традиционных подходов, для определения оптимальных областей применения каждого из них.
Одним из таких новых подходов является применение искусственных нейронных сетей (ИНС), которые, благодаря своим уникальным свойствам, подробно описываемым ниже (в разделе 2), зарекомендовали себя как весьма эффективный инструмент для решения задач распознавания образов самой разнообразной природы [б]. Постановка диагностической задачи спектроскопии как задачи распознавания спектральных образов и зависимостей характеристик спектра от параметров возбуждающего излучения и факторов среды, в комбинации с уже развитой техникой решения прямых задач (техникой расчёта спектральных характеристик на основе моделей, описывающих фотофизические процессы в веществе при воздействии на него оптического излучения, в т. ч. и лазерного), позволяет применить этот инструмент для решения обратных задач спектроскопии.
Однако на момент начала разработки автором темы данной диссертации (1997 г.) количество публикаций о применении ИНС в спектроскопии было невелико (отметим [7, 8, 9], а также работу [10], выполненную в лаборатории НИНЯФ МГУ, в которой работает автор диссертации). С тех пор ситуация несколько изменилась в лучшую сторону — появились, например, публикации [11, 12, 13], а также ряд работ, выполненных в группе лазерной спектроскопии водных сред кафедры квантовой электроники Физического факультета МГУ, в сотрудничестве с которой выполнены некоторые разделы данной диссертации [14, 15, 16].
Целью диссертационной работы было исследование новых возможностей, открывающихся в спектроскопии в связи с применением ИНС, что должно способствовать более широкому использованию ИНС для решения обратных задач спектроскопии. Для достижения поставленной цели в диссертационной работе должны были быть решены следующие основные задачи.
1) Исследовать свойства и установить принципиальные отличия ИНС как метода решения обратных задач;
2) Сформулировать возможные методические постановки при использовании ИНС для решения обратных задачпутем численного моделирования и экспериментальной апробации установить свойства и исследовать области применимости этих методических постановок в оптической спектроскопии;
3) Исследовать на разнообразных примерах влияние тренировки ИНС с шумом на устойчивость решения обратных задач в присутствии шумов входных данных.
Диссертация состоит из шести разделов, включая: данное введениеописание используемых нейросетевых и смежных алгоритмов (раздел 2) — формулировку, исследование свойств и описание методических постановок обратной задачи при использовании методов, управляемых данными, а также формулировку свойств, основных отличий от других методов и областей применения ИНС для решения обратных задач (раздел 3) — иллюстрацию сформулированных положений на примере пяти разнообразных обратных задач оптической спектроскопии (разделы 4 и 5) — заключения и выводов (раздел 6). Следует подчеркнуть, что, принимая во внимание прежде всего методический характер данной работы, конкретные задачи (из областей оптической спектроскопии водных сред и плазмы), используемые в разделах 4 и 5 в качестве «полигона» для тестирования сформулированных в диссертации положений, подбирались из соображений разнообразия методических подходов, необходимых для решения этих задач. Каждая из них позволит нам сформулировать и наглядно проиллюстрировать те или иные аспекты применения ИНС для решения обратных задач спектроскопии. Вместе с тем, конкретные результаты исследования каждой из этих задач представляют самостоятельный интерес.
Коротко изложим основное содержание последующих разделов. В разделе 2, носящем обзорный характер, приводятся сведения из области ИНС, необходимые для понимания дальнейшего материала. В частности, дается краткое описание используемых в диссертации нейросетевых алгоритмов и их свойств, излагаются основы предобработки и компрессии данных с помощью автоассоциативной памяти. В подразделе 2.7 рассматриваются общая постановка обратной задачи, понятия единственности и устойчивости решения, а также формулировка обратной задачи как задачи оценки для решения ее с помощью ИНС, обучаемой на примерах. Приводится краткий обзор литературы, посвященной решению обратных задач с помощью ИНС, в частности, обратных задач спектроскопии.
Раздел 3 содержит основные теоретические результаты диссертации. В подразделе 3.1 формулируются методические постановки задачи при использовании методов, управляемых данными — «от эксперимента», «от модели» и «квазимодельная» — сравниваются их свойства и области применения. В подразделе 3.2 уточняются свойства и формулируются принципиальные отличия ИНС как метода исследования обратных задач от традиционных методов решения задач оптимизации, прежде всего от градиентного метода.
Раздел 4 иллюстрирует положения, сформулированные в разделе 3, на примере решения трех обратных задач, для которых может быть реализована методическая постановка «от модели». В подразделе 4.1 рассматривается задача термометрии низкотемпературной плазмы СХТЭ-разряда по колебательно-вращательным спектрам собственного свечения СО низкого разрешения в отсутствие наложения спектральных полос и линий других веществ. Подраздел 4.2 посвящен определению постоянных времени затухания флуоресценции и относительных флуоресцентных вкладов компонент смесей органических соединений методом кинетической флуориметрии. В подразделе 4.3 ИНС применяются для определения молекулярных параметров органических соединений методом насыщения флуоресценции.
Раздел 5 посвящен решению обратных задач, для которых основной является методическая постановка «от эксперимента», и где может быть также использована «квазимодельная» постановка. В подразделе 5.1 рассматривается задача определения температуры морской воды по форме спектров комбинационного рассеяния (КР). В подразделе 5.2 ИНС применяются для выделения вкладов компонент в спектры флуоресценции смесей органических соединений. Как уже было сказано выше, результаты разделов 4 и 5 могут представлять интерес не только как иллюстрация положений, сформулированных в разделе 3, но и самостоятельно как результаты решения пяти актуальных обратных задач оптической спектроскопии. Раздел б содержит заключение и выводы. Основные результаты, выносимые на защиту.
1. Формулировка двух основных методических постановок задачи при использовании ИНС для решения обратных задач — «от модели «и «от эксперимента», а также промежуточной «квазимодельной» постановки. Результаты исследования свойств и областей применимости этих постановок.
2. Результаты исследования свойств и принципиальных отличий ИНС как метода решения обратных задач от других методов.
3. Подтверждение положительного влияния тренировки ИНС с шумом на устойчивость решения обратных задач в присутствии шумов входных данных (на примере обратных задач оптической спектроскопии).
4. Результаты решения пяти обратных задач из различных областей оптической спектроскопии, показавшие преимущества алгоритмов, использующих ИНС.
Данные защищаемые результаты диссертации сформулированы на основе частных защищаемых положений, которые формулируются в конце каждого подраздела с оригинальными результатами (разделы 3, 4 и 5).
Результаты, полученные в настоящей диссертации, доложены на следующих девяти Всероссийских и международных конференциях:
• 1-я Всероссийская конференция «Физические проблемы экологии (Физическая экология)», Москва, июнь 1997;
• «Adaptive Computing in Design and Manufacture (ACDM-98)», Totnes, UK, April 1998;
• 3-я Всероссийская конференция «Нейроинформатика-2001», Москва, январь 2001 г.;
• 14th International Florida Artificial Research Society Conference (FLAIRS-2001)", Key West, Florida, May 2001;
• 3-я Всероссийская конференция «Физические проблемы экологии (Экологическая физика)», Москва, май 2001 (приглашённый доклад);
• XVIIth International Conference on Coherent and Nonlinear Optics (1CON02001), Minsk, Belarus, June 2001;
• «Current Problems in Optics of Natural Waters (ONW-2001)», St Petersburg, Russia, September 2001 (invited paper);
• International Conference on Lasers, Applications, and Technologies (LAT-2002), Moscow, Russia, June 2002;
• VIII International Workshop on Advanced Computing and Analysis Techniques in Physics Research (ACAT-2002), Moscow, Russia, June 2002.
Результаты, полученные в настоящей диссертации, опубликованы в 14 статьях, в том числе в 5 статьях в реферируемых журналах [17, 18, 19, 20, 21], в 5 статьях в сборниках статей [22, 23, 24, 25, 26] и в 4 статьях в трудах конференций [27, 28, 29, 30].
5.2.3. Основные результаты.
Программа исследований данной обратной задачи включала в себя несколько численных экспериментов, а также апробацию метода в натурных условиях. Результаты данного раздела опубликованы в [19, 20, 21, 24, 25, 26, 28, 29, 30].
5.2.3.1. Постановка задачи численного моделирования.
Основными целями моделирования были: а) Сравнение эффективности различных нейросетевых алгоритмов и архитектур при решении данной обратной задачиб) Оценка чувствительности метода при работе на модельных данныхв) Сравнение результатов «квазимодельной» методической постановки с результатами постановки задачи «от эксперимента» — г) Исследование практической устойчивости решения по отношению к шумам входных данныхд) Исследование практической устойчивости решения по отношению к изменению параметров модели.
Отметим, что для этой задачи выглядит разумным применение предварительной обработки данных путём компрессии с помощью автоассоциативной памяти (см. раздел 2.6), подобно тому, как это было сделано в разделе 4.1.3.4. Исследование зависимости результатов решения данной обратной задачи от применения такой предобработки должно стать предметом дальнейших исследований в будущем.
5.2.3.2. Сравнение эффективности различных нейросетевых алгоритмов и архитектур и оценка чувствительности метода при работе на модельных данных.
По этой «линейной» модели были рассчитаны тренировочный, тестовый и экзаменационный наборы данных в пределах изменения параметров Форд: 0.01.20.0, Фош: 0.01.20.0. С использованием этих модельных спектров были натренированны различные архитектуры нейронных сетей.
Использовались следующие архитектуры селей и алгоритмы обучения:
1) трехслойный персептрон со стандартными соединениями, 16 или 32 нейронами в скрытом слое, логистической передаточной функцией в скрытом слое и линейной передаточной функцией в выходном слое,.
2) пятислойный персептрон со стандартными соединениями, 32, 16 и 8 нейронами в первом, втором и третьем скрытых слоях, соответственно, логистической передаточной функцией во всех скрытых слоях и линейной передаточной функцией в выходном слое;
3) сеть Ворда — трехслойный персептрон, включающий в скрытом слое три блока нейронов с различными передаточными функциями (логистическая, Гауссова и инверсная Гауссова) — каждый блок содержал по 11 нейронов;
4) нейронная сеть с общей регрессией с итерационным последовательным поиском оптимального параметра сглаживания на тестовом наборе;
5) нейронная сеть с общей регрессией с генетическим поиском оптимального параметра сглаживания на тестовом наборе.
Все персептроны обучались с использованием алгоритма обратного распространения ошибки.
Все нейронные сети имели 561 вход, эти входы соответствовали значениям интенсивностей спектров флуоресценции указанных смесей на длинах волн от 320 нм до.
600 нм с шагом 0.5 нм. В данном случае мы решали двухпараметрическую задачу. Поэтому у ИНС было два выхода, с которых снимались значения параметров Ф0ра и Фоьо, соответствующие вкладам ФК и ЛН во флуоресценцию образца.
В данном эксперименте, как для тренировки сети, так и в проверочных наборах использовался набор симулированных спектров, рассчитанных по линейной модели с применением парциальных флуоресцентных параметров Ф0ра и Фоьо — от 0.01 до 20.
Тренировочный набор содержал 2209 спектров, тестовый — 361, экзаменационный — 64 спектра. К спектрам основного экзаменационного набора добавлялся случайный шум с амплитудой от 1 до 10% для получения дополнительных «зашумлённых» экзаменационных наборов (это проделывалось по 10 раз для каждого спектра основного наборатаким образом, каждый из зашумлённых наборов содержал по 640 спектров).
С помощью РИС восстанавливались параметры Ф0ГА и Фоьо, и определялись их средние относительные отклонения от заданных значений (7) (т.е. погрешности восстановления) £рА и £ьоБыли апробированы все перечисленные выше архитектуры ИНС. Наилучшие результаты (наименьшие значения е) были получены при использовании пятислойного персепгрона.
Результаты иллюстрируются Рис. 29. Анализ полученных результатов показывает следующее.
ИНС оказалась способной определять вклад ЛН вплоть до значения флуоресцентного параметра Фоьо= 0.02 на фоне флуоресценции фульвокислоты со значениями параметра до Фора = 20.0. В этом случае погрешность в определении параметра Ф0ьо не превышала 10%. При увеличении значений параметра Фоьо погрешность уменьшается, так что значение погрешности, среднее по всему диапазону изменения Фош и Фора, составило около 2% (как для Фоьо, так и для Ф0рА). Минимальное определяемое значение Фош = 0.02 соответствовало концентрации немецкой нефти около 0.1 мкг/л.
Зашумление входных данных 3%-ным шумом существенно ухудшает результат: с 10%-ной погрешностью можно определить Ф (:ш до «1, что тем не менее соответствует достаточно высокой точности и чувствительности алгоритма. В значительной степени можно ослабить влияние шума входных данных, если тренировать сеть на зашумлённых спектрах (ср. кривые 2 и 3 на Рис. 29). К этому вопросу мы вернемся несколько ниже, в подразделе, посвященном анализу практической устойчивости решения рассмотренной обратной задачи.
Рис. 29. Зависимость погрешности определения ею параметра Ф0ю от значений Фош (Фора = 19.7): 1 — иезашумлённые данные предъявлялись сети, натренированной без шума, 2 — данные с 3%-ным шумом, предъявлялись сети, натренированной без гиума, 3 -данные с 3% -ным шумом, предъявлялись сети, натренированной с шумом.
Сейчас же обратим внимание на то, что столь высокие чувствительность и точность метода объясняются тем, что в работе с ИНС использовалась методическая постановка «от модели»: сеть тренировалась на основе принятой модели, что позволяло сформировать большой тренировочный набор данных, и сети предъявлялись данные, полностью удовлетворяющие этой модели. В этом случае чувствительность и точность метода ограничены лишь точностью самой сетиэто своего рода «инструментальный предел» .
5.2.3.3. Сравнение результатов «квазимодельной» методической постановки с результатами постановки задачи «от эксперимента» .
Назовем описанный выше эксперимент (применение ИНС, натренированной на «квазимодельных» данных, к набору рассчитанных тем же способом модельных спектров) численным экспериментом № 1. Зададимся теперь вопросом: как изменится погрешность определения флуоресцентных вкладов в ситуации, когда сети, натренированной на «квазимодельных» данных, будут предъявляться экспериментальные спектры?
Для ответа на этот вопрос был поставлен численный эксперимент № 2. В этом эксперименте наилучшие результаты среди перечисленных в разделе 5.2.3.2 нейросетевых архитектур дал трехслойный персептрон. Были сняты7 и предъявлены сети 85 спектров, в которых параметры Фо менялись в пределах: ФоШ = 0. .8.86, ФиРЛ = 0. .23.3.
Сравнение результатов численных экспериментов 1, 2 и 3 (см. ниже) приведено в Табл. 20.
Табл. 20. Сравнение результатов численных экспериментов. Эксперимент № 1 .
ИНС, натренированная на «квазимодели» — применение к спектрам, рассчитанным с использованием той же «квазимодели». Эксперимент № 2 — ИНС, натренированная на «квазимодели» — применение к экспериментальным спектрам. Эксперимент М’З — ИНС, натренированная на экспериментальных спектрах, применение к экспериментальным, спектрам.
Эксперимент № 1 Эксперимент № 2 Эксперимент № 3.
Архитектура £РА,% БЬО, % егА% вш, % 6РА,% Бш, %.
3-слойный персептрон 2.1 1.6 12.0 27.1 9.6 12.8.
5-слойный персептрон 0.1 0.2 10.6 29.4 12.2 14.6.
Как видно из таблицы, при применении ИНС, натренированной на «квазимодели», к экспериментальным спектрам погрешность возрастала на порядокво столько же раз выросла и минимально определяемая величина флуоресцентного вклада определяемой компоненты (в данном случае — нефти). Это означает, что спектр флуоресценции.
7 Экспериментальные спектры, используемые в разделе 5.2, были получены асл. И. В. Гердовой. реальной смеси не в полной мере соответствует модели, для которой тренировалась сеть. Причин для этого может быть несколько: большие погрешности входных данных, нарушение линейности из-за взаимодействия между компонентами, влияние органических соединений на полосу КР воды и т. д.
Отличие эксперимента № 3 от экспериментов № 1 и № 2 состоит в том, что здесь использовался подход «от эксперимента», т. е. ИНС тренировалась на массиве реальных (а не симулированных) спектров. Поэтому, с одной стороны, результаты решения задачи должны улучшиться, т.к. автоматически учитываются эффекты «старения» (изменения характеристик приготовленной смеси с течением времени) и взаимодействия между компонентами. Однако, с другой стороны, возникают свои трудности: необходимо иметь достаточно большой массив тренировочных спектров с известными значениями параметров Ф0 компонент, равномерно перекрывающих интересующий диапазон их изменения. Это условие в данном эксперименте не удалось выполнить в нужной степени: для тренировки сети использовались 54 спектра, для которых значения флуоресцентного параметра Фо менялись в пределах: Фош = 0. .8.86, Ф0ра = 0. .23.3. В качестве экзаменационного набора было оставлено лишь 7 спектров. Поэтому, как видно из Табл. 20, точность восстановления параметра Фош хотя и улучшилась по сравнению с экспериментом № 2, но далеко не достигла уровня, полученного в эксперименте № 1.
Отмечая причины существенного увеличения погрешности в экспериментах № 2 и № 3 по сравнению с экспериментом № 1, мы не указали на один общий для них источник ошибок, связанный с погрешностями приготовления смесей, точнее, с погрешностями экспериментального определения значений параметров Ф0ш и Ф0кл в этих смесях, используемых в качестве «истинных» значений этих параметров. А ведь в экспериментах № 2 и № 3 (в отличие от эксперимента № 1) погрешность е существенно зависит от того, насколько точно «истинные» значения параметров Ф0 совпадают с теми, которые действительно имеют место в реальной смеси в момент измерения.
Таким образом, погрешность 8 в экспериментах № 2 и № 3 зависит от точности приготовления смесей и «ухода» контуров полос флуоресценции компонент от таковых в базовых растворах к моменту снятия спектров смесей. Чувствительность результата к таким изменениям, а также к шумам входных данных определяется практической устойчивостью, которая обеспечивается характером обратной задачи и используемым алгоритмом ее решения. Исследованию этого важного вопроса посвящен следующий подраздел данного раздела диссертации. Мы рассмотрим последовательно устойчивость решения нашей задачи к уровню шумов входных данных и к изменению параметров модели.
5.2.3.4. Исследование практической устойчивости решения по отношению к шумам входных данных.
Как уже было отмечены выше (при обсуждении Рис. 29), появление шумов в спектрах, предъявляемых ИНС, приводит к тому, что погрешность определения параметра ФоШ резко возрастает. Приёмом тренировки ИНС на спектрах с добавлением шума в процессе тренировки её удаётся в некоторой степени сократить. Этот эффектпроявление признаков практической неустойчивости и иллюстрация одного из приёмов борьбы с ней. Этот приём оказывается эффективным и для данной обратной задачи.
Рис. 30 даёт более полное представление об этом.
Уровень шума, %.
Рис. 30. Зависимость погрешности определения еьо параметра Ф0ш=1.7 от шумов входных данных (Фора = 9.7): 1 — ИНС, натренированная без шума, 2 — ИНС, натренированная с шумом.
Как видно из рисунка, для выбранной смеси ЛН и ФК погрешность определения Фоьо сетью, натренированной без добавления шума к спектрам тренировочного набора, выходит за пределы интервала 0.20%, который представляется разумным с практической точки зрения, при уровне шума входных данных около 10%. Эту величину погрешностей в измерении спектра мы можем принять за условный порог практической неустойчивости. Тренировка ИНС с добавлением шума заметно поднимает порог практической неустойчивости (Рис. 30).
5.2.3.5. Исследование практической устойчивости решения по отношению к изменению параметров модели.
В качестве элементов модели, изменение которых может привести к неустойчивости решения, мы рассмотрим ширины полос флуоресценции компонент смеси — НЗ и ВГВ, а также расстояние между максимумами этих полос.
Начнем с ширины полосы ВГВ (ФК). Прежде всего, из опорного экспериментального спектра флуоресценции ФК был вычтен экспериментальный спектр КР дистиллированной воды, что позволило получить спектр флуоресценции ФК в чистом виде. Форма полученного «чистого» спектра аппроксимировалась с помощью метода группового учета аргументов (МГУА) (см. раздел 2.3) — осуществлялся поиск аналитической полиномиальной модели, оптимальным образом приближающей зависимость интенсивности в спектре от длины волны (начало координаты, соответствующей длине волны, устанавливалось в 0 в точке, соответствующей максимуму спектра, что обеспечивало оптимальную работу МГУА). Построенная модель представляла собой полный полином шестой степени. На Рис. 31 приведен вид «чистого» спектра и его аппроксимация с помощью МГУА.
Деформация модельного спектра осуществлялась путем умножения аргумента полинома на переменный деформационный множитель т| в диапазоне от 0.4 до 1.6. Значения деформационного множителя т|<1 соответствовали, таким образом, увеличению ширины спектра, а т|>1 — ее уменьшению. Получившиеся деформированные спектры (с шагом множителя 0.2) также приведены на Рис. 31.
Следует заметить, что смоделированные таким образом спектры с уменьшенной шириной начинали включать области, которые не учитывались при построении полинома. Ясно, что адекватное поведение полиномиальной модели в областях, где не было точек при ее построении, не гарантируется. Поэтому полученные «спектры» пришлось несколько подкорректировать: в коротковолновой части спектра заменить растущий с уменьшением длины волны участок полинома горизонтальным, в длинноволновой — заменить отрицательные значения полинома нулями. Такая коррекция представляется вполне допустимой. По понятным причинам, для спектров с увеличенной шириной такой проблемы не возникало. 9 8 7.
X (о л- 5 н о 0.
1 4 о X и IзJ 2 1 О.
360 380 400 420 440 460 480 500 520 540 560 580 600.
Длина волны, нм.
Рис. 31. Исходный «чистый» спектр ФК, его исходная аппроксимация с помощью МГУ, А (жирная линия) и деформированные спектры ФК с шагом множителя Ai~}=0.2.
Далее на основе каждого из деформированных таким образом спектров (с шагом множителя Лг|=0.05) по формуле (27) рассчитывался экзаменационный набор из 64 примеров, полностью аналогичный экзаменационному набору исходной задачи за тем исключением, что вместо опорного экспериментального спектра использовался деформированный спектр. К. «каждому такому экз&меи'лц, иош1ому «ivGupy «рмялемлп""*» ИНС (натренированная с добавлением шума) и рассчитывались статистические показатели, в том числе коэффициент множественной детерминации R2 (9) и относительная среднеквадратичное отклонение 5 (6). Для облегчения восприятия на всех приводимых ниже рисунках по оси абсцисс отложен не сам деформационный множитель «П, а обратная ему величина АУХ, смысл которой — относительное изменение ширины спектра.
Рис. 32. Зависимость относительной среднеквадратичного отклонения 5 (б) на экзаменационном наборе от величины относительного изменения ширины спектра ФК. Жирная линия — для флуоресцентного параметра ФК, тонкая линия — для флуоресцентного параметра ЛН.
На Рис. 32 приведены зависимости относительного среднеквадратичного отклонения 5 (6) на экзаменационном наборе от величины относительного изменения ширины спектра ФК. Обращает на себя внимание весьма высокая устойчивость НС к изменению формы спектра ФК. Так, при ЛХ/Х<1 (сужение спектра) погрешность определения флуоресцентного параметра ЛН Фоьо практически не изменяется и не превышает 5% (Я2 не падает ниже 0.977), что легко объясняется тем, что при уменьшении ширины спектра ФК он меньше перекрывается со спектром J1H. Однако и при увеличении ширины спектра ФК в 2.5 раза R2 уменьшается всего до 0.5, что представляет собой весьма примечательный результат. Точность определения флуоресцентного параметра самой ФК, напротив, быстрее уменьшается при сужении спектра ФК, однако и в этом случае R2 остается высоким. Если по исходным спектрам флуоресценции растворов ФК и ЛН нейросеть может определить параметры Фора и Фш. о с погрешностью 0.3% и 0.2%, соответственно, то при увеличении полуширины опорного спектра флуоресценции ФК на 60% погрешности определения величин Фога и Фош составляют 10% и 17%о, соответственнопри уменьшении полуширины опорного спектра флуоресценции ФК до 60% от первоначальной, точности определения Ф№А и Ф0ш равны 17% и 4.7% соответственно. Таким образом, условный порог неустойчивости при изменении ширины полосы ФК составляет ±60% изменения ширины, что намного выше экспериментально зарегистрированных вариаций этого параметра.
Столь высокая устойчивость ответов НС, по-видимому, объясняется свойствами НС как алгоритма обработки данных, сформулированными в разделе 3.2. Подобное поведение выгодно отличает нейросетевой подход к решению данной обратной задачи от подходов, использующих другие алгоритмы, и открывает возможность применения одной или нескольких НС, полученных на основании моделей, использующих природные спектры, для анализа спектров флуоресценции природных образцов, полученных в разных регионах и в разных условиях, когда спектральная форма флуоресценции ВГВ претерпевает достаточно значительные изменения.
Рассмотрим теперь устойчивость решения к изменению ширины полосы ЛН.
Проверка устойчивости решения к изменению ширины полосы ЛН осуществлялась аналогично описанному выше. Прежде всего, из опорного экспериментального спектра флуоресценции ЛН был вычтен экспериментальный спектр КР дистиллированной воды, что позволило получить спектр флуоресценции ЛН в чистом виде. Форма полученного «чистого» спектра аппроксимировалась с помощью метода группового учета аргументов (МГУА). Построенная модель представляла собой полный полином пятой степени. На Рис. 33 приведены вид «чистого» спектра и его аппроксимация с помощью МГУ А, а также деформированные спектры в дашгааоне изменения деформационного множителя г| от 0.4 до 1.6 с шагом 0.1.
ОI-1−1-1—-1−1-1−1-1−1—1—1——1—1−1——-1—-1——Н—1—1—4—-H——1——-1——-j.
360 380 400 420 440 460 480 500 520 540 560 580 600.
Длина волны, н м.
Рис. 33. Исходный «чистый» спектр ЛН, его исходная аппроксимация с помощью МГУ, А (жирная линия) и деформированные спектры ЛН с шагом, множителя Arj^O.J.
Рис. 34. Зависимость относительного среднеквадратичного отклонения 8 (б) па экзаменационном наборе от величины относительного изменения ширины спектра ЛИ. Жирная линия — для флуоресцентного параметра ФК, тонкая линия — для флуоресцентного параметра ЛН.
Результаты применения НС к спектрам, полученным на основе деформированных модельных спектров ЛН, приведены на Рис. 34.
Обращает на себя внимание существенное отличие поведения кривых для ФК и для ЛН. Погрешность определения Ф0ш в рассматриваемых пределах изменения ширины спектра ЛН весьма мала и зависит от ширины спектра ЛН достаточно слабо: при увеличении ширины спектра в 2.5 раза погрешность определения Ф0ьо не превышает 7% (И2 лишь незначительно уменьшается до 0.96) — при увеличении ширины на 60% погрешность не превышает 3%. При уменьшении ширины спектра до 60% от первоначальной погрешность не превышает 2.2% при К2 не хуже 0.996.
Напротив, качество определения Ф0ра оказывается весьма сильно зависящим от формы спектра ЛН. При уменьшении ширины спектра до 60% от первоначальной точность определения ФШ. А ухудшается с 0.25% до 11%, а Я2 падает до 0.9. При увеличении ширины спектра ЛН на те же 60% точность определения Ф0ра ухудшается до 22%, а при дальнейшем увеличении относительной ширины спектра ЛН до 2.2 значение II2 становится отрицательным, что говорит о полной непригодности модели для таких значений полуширины спектра.
Такое поведение кривых вполне объяснимо — при увеличении полуширины спектра ЛН он начинает сильнее перекрываться со спектром ФК, что и приводит к значительной деградации точности определения ФораНапротив, при уменьшении полуширины спектра ЛН уменьшается и его доля в суммарном спектре, и такое отличие формы спектра сказывается на точности определения параметров не столь существенно.
Устойчивость решения к изменению еще одного параметра модели — расстояния между максимумами полос флуоресценции НЗ и ВГВ А^тах — исследовалась путем предъявления сети, натренированной на исходной модели (см. численные эксперименты № 1 и 2), спектральных полос смесей, симулированных, как в численном эксперименте № 1, но с разными значениями АЯ, тах = ^&bdquo-х&trade- - Хтахш Величина ДА. тах° = 60 нм, соответствующая исходным полосам, увеличивалась на 15 нм и уменьшалась до ДА, шах -60 нм — 0. Результаты представлены на Рис. 35. Увеличение расстояния между максимумами полос в указанных пределах не привело к сколько-нибудь существенному снижению К2, погрешности определения 5 обоих параметров не превышали 3%. При сближении полос флуоресценции компонент задача с очевидностью усложнялась, что приводило к снижению точности определения параметров. Так, относительная погрешность 5 определения Фора и Фош увеличивалась до 10% при сближении полос на 20 и на 30 нм, соответственно, при этом Л2 уменьшался до уровня порядка 0.92 для обоих параметров. Тем не менее, следует отметить, что указанная величина допустимого (с точки зрения точности определения параметров) сближения полос флуоресценции компонент оказалась весьма велика.
Изменение расстояния между максимумами полос ЛН и ФК, нм.
Рис. 35. Зависимость погрешности определения флуоресцентных параметров от изменения расстояния между максимумами полос флуоресценции ЛН и ФК.
Таким образом, практическая устойчивость решения обратной задачи определения флуоресцентных параметров Ф0ьо и Ф0кд по полосе флуоресценции их смеси к параметрам модели оказалась неожиданно высокой, что существенно снижает требования к точности априорной информации о форме и взаимном расположении полос компонент. В то же время необходимо отметить, что при вариации указанных параметров функция зависимости контура от А, сохранена.
Отметим, что, хотя этот результат получен для полосы флуоресценции конкретного НЗ (легкой нефти, возбуждаемой на длине волны 337 нм), результаты могут быть обобщены и на другие типы НЗ.
5.2.3.6. Апробация метода в натурных условиях.
Натурная апробация8 разрабатываемого флуоресцентного метода определения in situ вклада НЗ в полосу флуоресценции прибрежной морской воды выполнялась следующим образом.
В качестве базового экспериментального спектра ВГВ использовался спектр пробы морской воды, из которой были удалены НЗ путём двукратного экстрагирования. В качестве базового экспериментального спектра НЗ использовался спектр раствора (эмульсии) дизельного топлива в воде. ИНС была натренирована на спектрах, представляющих собой линейную суперпозицию указанных базовых спектров, рассчитанную по формуле (27). Весовыми коэффициентами при составлении суммарных спектров служили величины флуоресцентных параметров Ф0ВГВ и Ф, ш.
ИНС предъявлялись спектры экспериментальных проб морской воды. Сравнивались величины параметров Ф0В1 В и Ф0ПЗ, полученные в результате решения двухпараметрической задачи (с помощью ИНС), с истинными величинами Ф0ШВ и Ф0Ю, полученными экспериментально с помощью специальной калибровочной процедуры. Отличие значений параметров при этом не превышало 20% [21].
Столь хорошие результаты, по-видимому, определяются тем фактом, что пробы морской воды брались у причала, где швартовались суда, которые заправлялись дизельным топливом, спектр которого использовался в качестве базового. Таким образом, был известен доминирующий загрязнитель и имелся спектр его флуоресценции. Полученные результаты свидетельствуют о применимости метода в натурном эксперименте, по крайней мере, в указанных условиях.
8 Отбор проб, их обработка и получение спектров на лазерном спектрометре с длиной волны возбуждения 337 нм были выполнены в экспедиции на Чёрном море (2001 г.) аспиранткой И. В. Гердовой.
5.2.4. Защищаемые положения раздела 5.2.
1) В отсутствие шумов входных данных ИНС обеспечивает очень высокую чувствительность метода. Минимальное определяемое значение параметра Ф0Ш для лёгкой нефти составляет 0.02 на фоне флуоресценции фульвокислоты (фракции ВГВ, доминирующей в морской воде) со значениями параметра до Ф0ЕА=20.0 («инструментальный предел» алгоритма). Это соответствует концентрации лёгкой нефти около 0.1 мкг/л (или Ю-3 от ПДК, установленной для НЗ природных вод российским ГОСТом).
2) Наилучшие результаты среди различных нейросетевых архитектур показали трёхслойный и пятислойный персептроны.
3) Точность решения при «квазимодельной» методической постановке ниже точности решения при постановке задачи «от эксперимента», что свидетельствует о преимуществе последней в случае, когда «квазимодель» недостаточно адекватно описывает объект.
4) Введение шумов в тренировочные данные в процессе тренировки положительно влияет на точность решения обратной задачи.
5) Алгоритмы, основанные на ИНС, обеспечивают высокую устойчивость решения по отношению к шумам и к изменению параметров модели.
6) Метод может быть использован в реальном натурном эксперименте, по крайней мере, в случаях, когда известен доминирующий загрязнитель и имеется спектр его флуоресценции.
7) Всё сказанное показывает перспективность применения ИНС для задачи выделения вкладов малых примесей (нефтяных загрязнений) в общую полосу флуоресценции, определяемую доминирующим веществом (ВГВ).
6.
Заключение
и выводы.
В настоящей диссертации были получены следующие наиболее значимые результаты, позволившие сделать заключение о перспективности применения ИНС для решения обратных задач оптической спектроскопии.
1. Исследованы свойства и установлены принципиальные отличия ИНС как метода решения обратных задач. Показано, что погрешность, обеспечиваемая ИНС, во многих ситуациях значительно ниже погрешности вариационного метода.
2. Сформулированы возможные методические постановки задачи при использовании ИНС для решения обратных задачпутем численного моделирования и экспериментальной апробации установлены свойства и исследованы области применимости этих методических постановок:
2.1. Показана высокая устойчивость нейросетевого метода относительно изменения параметров модели при применении методических постановок «от модели» и «квазимодельной» .
2.2. Продемонстрирована работа с ИНС в методической постановке «от эксперимента», когда другие постановки задачи оказываются невозможными ввиду высокой сложности объекта и невозможности его адекватного моделирования.
3. На разнообразных примерах исследовано и подтверждено положительное влияние добавления шума в процессе тренировки ИНС на устойчивость решения обратных задач в присутствии шумов входных данных.
4. Применение разработанных подходов к решению пяти обратных задач оптической спектроскопии принесло следующие результаты.
4.1. Продемонстрирована возможность с достаточно высокой точностью определять температуру по спектрам собственного свечения плазмы СУБ-реактора при различном уровне и природе шума. Стандартное отклонение определяемой температуры составило не более 23 К при 10% аддитивном шуме и не более 35 К при 10% мультипликативном шуме. На примере задачи термометрии плазмы было продемонстрировано применение компрессии данных с помощью автоассоциативной памяти и её положительное влияние на точность определения температуры (точность возросла в среднем на порядок).
4.2. Показано, что применение ИНС позволяет в некоторых ситуациях решать вместо задач кинетической флуориметрии в ее классической постановке, требующих наличия дорогостоящей аппаратуры с высоким временным разрешением, задачи флуориметрии с переменным стробированием, для решения которых достаточно гораздо более простой аппаратуры с наносекундным временным разрешением.
4.3. Показано, что благодаря применению ИНС оказалось возможным решение двух-и трёхпараметрической обратных задач флуориметрии насыщения с приемлемой точностью, несмотря на слабую зависимость формы кривой насыщения от определяемых параметров.
4.4. Применение ИНС позволило снизить погрешность определения температуры воды по спектрам КР до 0.3 °С.
4.5. Показана перспективность применения ИНС для задачи выделения вкладов малых примесей (например, нефтяных загрязнений) в общую полосу флуоресценции, определяемую доминирующим веществом (ВГВ) с весьма изменчивой полосой флуоресценции. При полном перекрытии полос флуоресценции компонент «инструментальный предел» алгоритма соответствует определению малой примеси с флуоресцентным вкладом порядка 10″ 3 от флуоресцентного вклада фоновой компоненты с точностью до 10%.
Благодарности.
Автор считает своим приятным долгом поблагодарить следующих людей, оказавших помощь при выполнении данной диссертационной работы.
• Своих научных руководителей Виктора Владимировича Фадеева и Игоря Георгиевича Персианцева за постоянное внимание и интерес к работе, предложение интересных задач и темы диссертации, плодотворные обсуждения результатов.
• Татьяну Альдефонсовну Доленко, Ирину Викторовну Гердову, Александра Фридриховича Паля, Александра Олеговича Серова, Анатолия Васильевича Филиппова и Алексея Рашидовича Сабирова, выполнивших некоторые эксперименты и расчёты, результаты которых были использованы в процессе выполнения данной диссертационной работы.
• Своих коллег по лаборатории Юрия Всеволодовича Орлова и Юлию Сергеевну Шугай за многолетние совместные исследования и обсуждения, плодотворный обмен идеями и творческую атмосферу в лаборатории.
Все нейросетевые вычисления в данной диссертации были выполнены с помощью русской версии нейросетевого пакета NeuroShell 2 американской компании Ward Systems Group, любезно предоставленной компанией НейроПроект.