Объект исследования и актуальность темы.
Интенсивное развитие технологий распределенных вычислений и инфраструктуры Грид требуют новых методов параллельной обработки и поиска данных в распределенных системах управления базами данных и базах знаний, а также создания новых инструментальных средств разработки интеллектуальных систем для поддержки принятия решений и обучения. Актуальность этих проблем в настоящее время становится особенно значимой: при интерактивном анализе данных в распределенных сверхбольших базах данных по окружающей средедля выбора реалистичных сценариев погоды в обучающих программах и виртуальных тренажерахдля оценки степени воздействия окружающей среды на техногенные системы (транспорт, коммуникации) в системах поддержки принятия решений.
В настоящее время наблюдаются быстрые глобальные изменения в окружающей среде, во многом определяя характер деятельности человека. Поэтому большое внимание уделяется сбору, анализу и прогнозу данных об окружающей среде. Полвека насчитывает история глобальных цифровых сетей наблюдений изменений среды и космического зондирования: сейсмология, метеорология, магнитосфера и ионосфера, космическая погода, архивы цифровых изображений и телеметрия со спутников. Выводы Межправительственной группы экспертов ООН по изменению климата, МГЭИК (Intergovernmental Panel on Climate Change, IPCC)1 во многом делаются на основании изучения цифровых моделей, использующие сверхбольшие базы данных по метеорологии, представляющие из себя временные ряды с географической привязкой по станциям или координатам. Оценки МГЭИК публикуются с 1991 г. каждые четыре года [1], пятый доклад.
1 http://www.ipcc.ch/languages/russian.htm намечен на 2013 г. На совещании центров данных МГЭИК по подготовке пятого доклада в Сиэтле в сентябре 2008 г. предполагается объем научных баз данных для пятого доклада 3 петабайта с зеркальным хранениемв трех центрах данных в США и Западной Европе и с оперативным доступом для 23 ведущих исследовательских центров по метеорологии, экологии, биохимии и численному моделированию [2]. Аналогичные показатели по объемам и топологии имеют центры данных по дистанционному зондированию администарций США по окенанам и атмосфере (NOAA) [3] и ислледованию космического пространства.
NASA)4 [4]. В сентябре 2008 г. первый параллельный кластер для научных баз данных объемом более 1 Пбайт был запущен в университете Джона Хопкинса, США. На нем предполагается хранить многомерные массивы данных по астрофизике и по сенсорным сетям для био-экологического мониторинга [5].
Нарастает процесс глобальной информатизации научных исследований на основе Интернета, веб-сервисов и динамических веб-приложений (порталов). На национальном уровне научным сети сегодня имеют емкости до терабит в секунду (Национальный центр добычи данных США в Чикаго)5. Сетевые емкости международных научных сетей (GLORIAD6, Geant7) сегодня находятся на уровне 10−100 Гбит/с с возможностью динамической перестройки топологии и выделения емкости по запросу от приложений. Это создает предпосылки для создания сервисов распределенной параллельной обработки и анализа сверхбольших баз данных (cloud computing). При этом предполагается доставка вычислительных задач на процессоры рядом с данными, а не передача больших объемов данных для обработки на удаленный суперкомпьютер.
2 http://go-essp.gfdl.noaa.gov/2008/agenda.html.
3 http://www.osd.noaa.gov/class/.
4 http://nssdc.gsfc.nasa.gov/.
5 http://www.ncdm.uic.edu/.
6 http://www.gloriad.org/.
7 http://www.geant2.net/.
Для виртуализации доступа и оптимизации нагрузки на вычислительную и сетевые ресурсы разрабатывается промежуточное программное обеспечение (ГОТО) и развертывается инфраструктура под собирательным именем Грид [6]. Первоначально Грид охватывал лишь распределенные вычисления, например, распределенную статистическую обработку экспериментальных данных на Большом адроном коллайдере в ЦЕРНе (инфраструктура LCG, позднее EGEE). К настоящему времени существует как минимум три различных пакета 111Ю и.
8 9 основанных на них инфраструктуры для грид-вычислений: EGEE, UNICORE и Globus Toolkit 410. Естественно, сложные вычислительные задачи моделирования глобальной циркуляции атмосферы, океана, магнитного поля и потоков частиц в околоземном пространстве, обработки данных дистанционного зондирования находят реализацию на всех доступных грид-инфраструктурах. При этом, в связи с высокой стоимостью вычислительных экспериментов (для климатических моделей нередки вычисления на самых мощных суперкомпьютерах в течение нескольких лет), необходимо не только гарантировать качество больших объемов входных данных, но и долговременно хранить результаты дорогостоящих расчетов с возможностью поиска и анализа данных.
Информационная поддержка сельскохозяйственной деятельности и землепользования, транспорт, туризм уже не могут обойтись без оперативных потоков данных о погоде, космоснимков и электронных карт. Виртуальные игровые миры и профессиональные тренажеры требуют детальных и реалистичных моделей окружающего мира. Это ускоряет доступ и интеграцию данных между различными областями науки и коммерческих приложений.
Чтобы поддерживать такие темпы информатизации, от информационных технологий требуется ускорение темпов развития, что мы сейчас и наблюдаем:
8 http://www.eu-egee.org/.
9 http://www.unicore.eu/.
10 http://www.globus.org/ распределенные Грид-вычисления, параллельные ГИС, локальные веб-сервисы на основе VirtualEarth и GoogleMaps, семантический веб, сверхбольшие базы данных и хранилища метаданных.
В итоге, сложилось два полюса в сфере IT: огромный объем исходных данных с одной стороны, и приложения, работающие с этой информацией с другой. Однако, многие терабайты информации не позволяют использовать их напрямую, простым скачиванием и перебором. От приложений требуется более «интеллектуальный» подход к определению области своих интересов. В результате, приходим к необходимости анализа данных не только в научных расчетах, но и в «бытовых» приложениях. Кроме того, со своим развитием, IT все больше стремятся к эмулированию «естественного языка» и человеческого мышления. Экспертные системы и искусственный интеллект развиваются быстрыми темпами. Не последнюю роль в этом играет тот факт, что объем данных растет в экспоненциальной прогрессии, в то время как число экспертов, их обрабатывающих, — в линейной. В связи с этим, условия выбора и анализ данных становится все более сложными, и зачастую, в погоне за «логичностью» теряют свою «математическую строгость». Поэтому все больше возникает потребность в коммуникаторе, который будет предоставлять достижения IT-технологии в пользование потребителей, нужен универсальный механизм поиска, анализа и добычи научных данных.
К настоящему времени довольно широкое развитие получил текстовый поиск и текстовое индексирование. Также существуют системы для поиска метаданных, такие например, как Global Change Master Directory (GCMD), разработанная в HACA или Master Environmental Library (MEL), созданная Отделом моделирования Министерства обороны США. Однако, поиск внутри цифровых данных пока неразвит. Весьма показательна ситуация с развитием поисковых систем корпораций Google и Microsoft:
1) Первый уровень: поиск по вебу (google, Yandex и др.).
2) Второй уровень: специализированный поиск (например, поиск внутри документов и изображений).
3) Третий уровень: поиск и визуализация данных с географической привязкой (Google Earth, Microsoft VirtualEarth).
На четвертом уровне должен стоять поиск и анализ внутри многомерных массивов научных данных, в первую очередь временных рядов.
Анализ временных рядов можно разделить на два основных вида: анализ трендов и анализ экстремальных выбросов. Первый можно представить как анализ движения во времени центра масс пространства данных, в то время как второй — анализ тенденции движения границ. Он имеет значение при анализе долгосрочных изменений климата. Последний вид также имеет немаловажное значение, поскольку анализирует граничные (предельные) состояния среды, зачастую являющиеся критическими для любой деятельности и инфраструктуры, которые обычно рассчитываются исходя из среднестатистических показателей.
Современная наука во многом междисциплинарная. Например, анализ влияния климата на биосферу, анализ причинных связей в метеорологии и космической погоде. Это накладывает дополнительные требования на систему добычи и анализа данных: во-первых, процесс анализа должен производиться в различных средах совместно, во-вторых, требуется унифицированный интерфейс доступа к данным в разных источниках. Назрела потребность в «глобализации» научных данных.
Актуальность данной работы обусловлена тем, что она посвящена поиску, междисциплинарному анализу (как трендов, так и экстремальных выбросов) и выборке данных в распределенных сверхбольших архивах данных по окружающей среде (междисциплинарной).
Цели и задачи работы.
Целью работы являлось разработка системы поиска, анализа и распределенной выборки данных в сверхбольших архивах данных по окружающей среде.
Для достижения указанной цели необходимо решить следующие задачи:
1) Разработать систему алгоритмов для распределенного поиска в сверхбольших архивах научных данных. Предоставить пользователю возможность формулировать запросы к архивам с помощью естественных языковых конструкций.
2) Разработать программное средство, которое бы реализовывало алгоритмы из п. 1, а также поддерживала распределенные выборки и добычи данных в сверхбольших архивах данных по окружающей среде.
3) Встроить данное ПО в инфраструктуру Грид.
4) Провести апробацию и оценить эффективность предложенных алгоритмов на различных прикладных задачах.
Научная новизна.
Для прогноза глобальных изменений климата строится множество теорий. Каждая из них выводит определенные закономерности и сценарии развития событий. Результаты данной работы могут применяться для проверки и отслеживания предполагаемых климатических сценариев. В работе формулируется определение сценария событий окружающей среды в терминах нечеткой логики, которое включает не только значение параметров, но и каузальные связи — изменение значений параметров во времени. В работе также формулируется алгоритм поиска таких сценариев на классе источников, подчиняющихся единой модели данных.
В работе предложен новый подход к системам поиска и анализа данных по окружающей среде. В отличие от аналогичных систем, в которых поиск осуществляется по метаданным и текстовой информации, в данной работе представлен подход к поиску по значениям временных рядов параметров среды, который оптимизирован для работы со сверхбольшими и распределенными массивами данных в интерактивном режиме. Разработана общая модель представления данных для подобной системы, а также методы оценки качества и сравнения результатов поиска.
Инфраструктура системы совместима с Грид-технологией, что дает возможности пользоваться всеми возможностями Грид: системой авторизации, Грид-инфраструктурой (ресурсы, мощности), и т. п. В работе также реализованы потоковые алгоритмы обработки данных, оптимизированные под работу в сети с большими объемами данных — пользователю не требуется ч закачивать данные и промежуточные результаты расчетов на свою машину. Это дает возможность использовать результаты работы для расчетов по числовым моделям в Грид-среде.
Практическая значимость работы.
В настоящей работе предложен абстрактный уровень веб-сервисов данных для виртуализации баз данных, с помощью которых выбираются временные ряды с параметрами окружающей среды для поиска событий. Интерфейс источника данных реализован в виде плагинов в контейнере OGSA-DAI с простыми XML-схемами ввода и вывода. Следование спецификации OGSA-DAT и использование языка программирования Java/J# позволяет нам погрузить виртуальные веб-сервисы данных в большинство из существующих сегодня контейнеров веби грид-сервисов, включая Microsoft ASP.NET, Apache Tomcat/Axis, WSRF Globus Toolkit 4, OMII, и EGEE gLite.
Представим, например, что пользователю не столько нужны все данные о погоде в Московской области за последние 50 лет, сколько нужны примеры атмосферных фронтов вблизи Москвы. Более того, представим, что пользователю нужны изображения со спутников в момент прохождения атмосферного фронта и оценка, как часто наблюдались эти события вблизи Москвы за последние 10 лет. Ответы на подобные вопросы можно получить с помощью разработанного в рамках настоящей работы ПО. Данная работа может быть использована также в исследовании глобального изменения климата, в агроклиматологии.
Настоящая работа выполнялась в Геофизическом центре (ГЦ) и в Институте космических исследований (ИКИ) РАН и на факультете вычислительной математики и кибернетики МГУ при поддержке грантов «Система поиска погодных сценариев — СППС» (Environmental Scenario Search Engine — ESSE) от Исследовательской лаборатории Майкрософт (MSR) в Кембридже, Великобритания, и «Интерактивный ресурс данных по солнечно-земной физике» (Space Physics Interactive Data Resource — SPIDR) от Национального управления по исследованию атмосферы и океана (NOAA) США.
Результаты работы нашли прямое применение в совместных междисциплинарных исследованиях ИКИ РАН и MSR для анализа региональных трендов и зависимостей между изменениями в климате, в растительности. Созданные в работе сервисы поиска и обработки сверхбольших баз данных по истории климата используются совместно с разработанными в ИКИ методами дистанционного зондирования растительности с использованием данных спутниковых наблюдений. Компания Майкрософт осуществляет техническую экспертизу, а также предоставляет необходимые вычислительные ресурсы, включая кластер параллельной обработки данных.
Созданные в результате работы Грид-сервисы OGSA-DAI для поиска и обработки данных установлены на ресурсном центре СКИФ-Грид в ГЦ РАН в Москве и в Национальном геофизическом центре NOAA в Болдере, штат Колорадо и регулярно используются для доступа к архивам данных по климату и космической погоде в системах доступа к распределенным архивам данных NOAA Comprehensive Large Array Stewardship System (CLASS) и Space Physics Interactive Data Resource (SPIDR).
Апробация работы и публикации.
Результаты диссертации опубликованы в работах [7]-[13] и обсуждались на следующих конференциях и семинарах:
1) Zhizhin M, EKihn, RRedmon, A Poyda, DMishin, DMedvedev, V Lyutsarev, Integrating and mining distributed environmental archives on Grids, VLDB DMG Workshop, Seul, September 2006.
2) Алексей Пойда, Михаил Жижин, Дмитрий Мишин, Дмитрий Медведев, Сергей Березин, Дмитрий Войцеховский, Василий Люцарев, Эрик Кин. Система поиска погодных сценариев. Пятая Юбилейная Открытая Всероссийская конференция «Современные проблемы дистанционного зондирования Земли из космоса» Москва, ИКИ РАН, 12−16 ноября 2007 г.
3) Zhizhin M, D Medvedev, A Poyda, V Lyutsarev, Grid data mining with CDM active storage, 3rd GRID e-collaboration Workshop for Earth Science and Space 16−17 January 2008, ESRIN, Frascati (Rome), Italy.
4) Пойда A.A. Поиск данных в Грид: соотношение производительности сетей, вычислительных кластеров, хранилищ данных. «Современные информационные технологии для научных исследований» Магадан, 2024 апреля 2008.
Объем и структура работы.
Диссертация состоит из введения, четырех глав, заключения, списка литературы (46 наименования) и приложения. Общий объем работы составляет 113 страниц, работа содержит 31 иллюстрацию и 5 таблиц.
Заключение
.
Разработана система алгоритмов для распределенного поиска в сверхбольших архивах данных по окружающей среде. Разработано программное средство, реализующее эти алгоритмы, поддерживающее распределенную выборку и добычу данных в сверхбольших архивах данных по окружающей среде в интерактивном режиме. Пользователь имеет возможность формулировать запросы к архивам с помощью естественных языковых конструкций. Система встроена в инфраструктуру Грид. Проведена апробацию и оценка эффективности предложенных алгоритмов на различных задачах.
Полученный результат несет в себе научную новизну. Для прогноза глобальных изменений климата строится множество теорий. Каждая из них выводит определенные закономерности и сценарии развития событий. Результаты данной работы могут применяться для проверки и отслеживания предполагаемых климатических сценариев. В работе формулируется определение сценария событий окружающей среды в терминах нечеткой логики, которое включает не только значение параметров, но и каузальные связи — изменение значений параметров во времени. В работе также формулируется алгоритм поиска таких сценариев на классе источников, подчиняющихся единой модели данных.
В работе предложен новый подход к системам поиска и анализа данных по окружающей среде. В отличие от аналогичных систем, в которых поиск осуществляется по метаданным и текстовой информации, в данной работе представлен подход к поиску по значениям временных рядов параметров среды, который оптимизирован для работы со сверхбольшими и распределенными массивами данных в интерактивном режиме. Разработана общая модель представления данных для подобной системы, а также методы оценки качества и сравнения результатов поиска.
Инфраструктура системы совместима с Грид-технологией, что дает возможности пользоваться всеми возможностями Грид: системой авторизации, Грид-инфраструктурой (ресурсы, мощности), и т. п. В работе также реализованы потоковые алгоритмы обработки данных, оптимизированные под работу в сети с большими объемами данных — пользователю не требуется закачивать данные и промежуточные результаты расчетов на свою машину. Это дает возможность использовать результаты работы для расчетов по числовым моделям в Грид-среде.
Работа представляет и практическую значимость. В настоящей работе предложен абстрактный уровень веб-сервисов данных для виртуализации баз данных, с помощью которых выбираются временные ряды с параметрами окружающей среды для поиска событий. Интерфейс источника данных реализован в виде плагинов в контейнере OGSA-DAI с простыми XML-схемами ввода и вывода. Следование спецификации OGSA-DAI и использование языка программирования Java/J# позволяет нам погрузить виртуальные веб-сервисы данных в большинство из существующих сегодня контейнеров веби грид-сервисов, включая Microsoft ASP.NET, Apache Tomcat/Axis, WSRF Globus Toolkit 4, OMII, и EGEE gLite.
Представим, например, что пользователю не столько нужны все данные о погоде в Московской области за последние 50 лет, сколько нужны примеры атмосферных фронтов вблизи Москвы. Более того, представим, что пользователю нужны изображения со спутников в момент прохождения атмосферного фронта и оценка, как часто наблюдались эти события вблизи Москвы за последние 10 лет. Ответы на подобные вопросы можно получить с помощью разработанного в рамках настоящей работы ПО. Данная работа может быть использована также в исследовании глобального изменения климата, в агроклиматологии.