Помощь в написании студенческих работ
Антистрессовый сервис

Информационные геофизические модели и потоки данных в среде Грид

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Созданная в диссертации система, осуществляющая сбор, хранение, анализ, обработку и визуализацию больших массивов геофизических данных, а также создание на основе этих данных геофизических моделей на платформе Грид, является инновационной технологией в геофизике. Система позволяет работать одновременно с различными типами данных: временными рядами наблюдений (в форматах сетка, набор точек, набор… Читать ещё >

Информационные геофизические модели и потоки данных в среде Грид (реферат, курсовая, диплом, контрольная)

Содержание

  • Список терминов и аббревиатур
  • Актуальность работы
  • Цели и задачи работы
  • Личный вклад автора
  • Научная новизна
  • Практическая значимость работы
  • Защищаемые положения
  • Апробация работы и публикации
  • Структура и объем диссертации
  • Благодарности
  • 1. Проблемы использования информационных технологий Грид в геофизике
    • 1. 1. Определение и архитектура вычислительной среды Грид
    • 1. 2. Компоненты Грид-систем
    • 1. 3. Инфраструктуры Грид
    • 1. 4. Выводы
  • 2. Сервис-ориентированная технология интеграции распределенных гетерогенных источников геофизических данных в среде Грид
    • 2. 1. Технологии хранения данных в науках о Земле
    • 2. 2. Разработка общей модели данных для многомерных массивов (Common Data Model, CDM)
    • 2. 3. Создание Грид-сервисов данных
    • 2. 4. Моделирование данных с использованием распределенных вычислительных систем
    • 2. 5. Выводы
  • 3. Создание специализированных Грид-порталов и распределенная визуализация данных в общей модели для геофизических
  • приложений
    • 3. 1. Клиентские
  • приложения визуализации данных
    • 3. 2. Порталы доступа к геофизическим данным
    • 3. 3. Виртуальные обсерватории
    • 3. 4. Выводы

Начиная со второй половины XX века наблюдается бурный рост объемов первичных и обработанных данных в геофизике и смежных науках о Земле и окружающей среде. Потоки данных регистрируются в цифровом виде или оцифровываются при архивации с целью их последующей компьютерной обработки и анализа. Наиболее быстро растут объемы данных в таких областях наук о Земле, как метеорология, сейсмология, прикладная геофизика и поиск полезных ископаемых, климатология, включая проблемы глобального изменения климата [10], дистанционное зондирование и наблюдение Земли из космоса, космическая погода и солнечно-земные связи [4]. Таким образом, проблема эффективной технологической и научной обработки и хранения огромных и непрерывно пополняющихся массивов информации становится одной из важнейших в геофизике и геоинформатике.

Особенно актуально эта проблема стоит перед Системой мировых центров данных [11], которые отвечают за координацию, сбор, хранение многодисциплинарных наборов данных по всему Земному шару. Представленные в диссертации алгоритмы, программные системы и распределенные сервисы данных былы созданы и применены для работы в Системе мировых центров данных по твердой Земле и солнечно-земной физике, а разработанные в диссертации технологии были применены для построения Грид-центров хранения и обработки данных в различных областях, включая сейсмологию, климатологию, дистанционное зондирование и космическую погоду. Напомним, что система 52 мировых центров данных включает в себя пять МЦД, функционирующих в нашей стране.

Для оценки масштаба рассматриваемой задачи приведем некоторые характеристики объемов изучаемых в работе данных. Для хранения глобального реанализа климатологических данных требуется хранилище размером в несколько терабайт [12]. Хранение всех данных со спутников NOAA с начала 70-х годов требует порядка 130 терабайт [14].

В то время как число исследователей в науках о Земле растет достаточно медленно, объемы хранимых данных в геоинформатике растут экспоненциально со временем, поэтому для обработки таких объемов требуется все больше компьютерных мощностей. Для увеличения скорости обработки данных используются распределенные вычисления на параллельных кластерах. [1].

Файловые хранилища.

Реляционная модель Базы данных.

Веб-сервисы.

Грид-и нфраструктура научных вычислений ш.

Рисунок 1. Развитие компьютерного хранения и обработки данных.

В начале развития компьютерной обработки данных, когда объем их был относительно невелик, основным принципом работы с данными было хранение и обработка файлов (рис. 1). Вся передача, выборка данных, обмен тоже базировался на файлах. Позже, с ростом объемов данных и появлением теории реляционной модели [16], данные стали храниться в базах данных, контролирующих целостность, упрощающих доступ и ускоряющих поиск в данных по индексам. В дальнейшем, с развитием высокоскоростных сетей передачи данных, ученые перешли па распределенные технологии. Стали активно использоваться распределенные веб-сервисы данных [17]. Под веб-сервисом понимается программа, принимающая запросы по протоколу HTTP (GET или POST), обычно на языке XML, и возвращающая запрошенные данные в ожидаемом клиентом формате. Веб-сервисы позволяют легко комбинировать различные ресурсы данных в рабочий поток, обеспечивая их связь для совместной работы, что снижает нагрузку на отдельные сервисы по сравнению с запросом данных из одного источника, а также предоставляет возможность оптимизации потоков данных (при выборе наиболее близкого к получателю сервиса).

Дальнейшим развитием веб-сервисов, объединяющим научные вычисления по всему миру, стала инфраструктура для научных вычислений, получившая название Грид. Согласно определению Я. Фостера и К. Кессельмана, «Грид (Grid) — это согласованная, открытая и стандартизованная среда, которая обеспечивает гибкое, безопасное, скоординированное разделение ресурсов в рамках виртуальной организации» [18]. Под виртуальной организацией понимается группа людей или организаций, разделяющих между собой вычислительные, дисковые, информационные и сетевые ресурсы Грида в общих целях. Устанавливая стандарты для научных учреждений, устанавливая протоколы и интерфейсы взаимодействия программных сред, Грид позволяет совместно использовать ресурсы удаленных компьютерных кластеров, включенных в общую сеть, для расчетов ресурсоемких задач [19].

Начало создания сети Грид в Европе было положено проектом LCG (LIIC Computing Grid, Вычислительный Грид Большого Адронного Коллайдера), начатым в 2002 году и запущенным в эксплуатацию [20] 3 октября 2008 года. Исходно проект был призван обеспечить вычислительные ресурсы для анализа данных, поступающих от большого адронного коллайдера (LHC) в ЦЕРН (Европейский центр ядерных исследований), в Женеве. Этот проект соединил вычислительные ресурсы для физики высоких энергий по всему миру, и должен был перерабатывать предсказанные 15 петабайт (1ГХБ ~1015Б) данных, ежегодно получаемых на экспериментах LHC. EGEE (Enabling Grids for Е-sciencE) начался с этой инфраструктуры, добавляя дополнительные ресурсы из всех частей земного шара и привлекая пользователей из других дисциплин для формирования того, что стало крупнейшей научной инфраструктурой Грид в мире. Созданная для целей обработки данных в сфере физики элементарных частих," инфраструктура EGEE и сейчас в основном ориентируется на предстоящую задачу обработки данных с LHC.

Входящий в состав EGEE российский консорциум RDIG (Российский грид для интенсивных операций с данными — Russian Data Intensive Grid) был организован в сентябре 2003 г. для создания, и поддержки Грид-инфраструктуры в России. При участии автора в Геофизическом центре РАН был создан ресурсный центр Грид-инфраструктуры RDIG, на котором были проведены первые эксперименты по сейсмическому моде-. лированию для геофизических приложений. Другим проектом, развивающим Грид-инфраструктуру в союзном государстве Россия-Беларусь, является суперкомпьютерная программа СКИФ Грид. В состав разработанного в рамках СКИФ-Грид программного комплекса вошли созданные в диссертации Грид-сервисы данных. На их основе в Геофизическом Центре РАН был развернут ресурсный центр геофизических данных инфраструктуры СКИФ-Грид.

Актуальность работы.

В диссертации изложены результаты одной из первых попыток адаптации и применения Грид-технологий в геофизике и других смежных науках о Земле. Автором разработана новая технология и построена Грид-среда, позволяющая хранить большие объемы геофизических данных, описывать их в метаданных, использовать данные для анализа и моделирования, сохранять результаты моделирования и загружать исходные данные и результаты выборок для дальнейшей работы. Автором впервые был произведен запуск модельной сейсмической задачи с использованием разработанных сервисов данных в среде Грид.

Для эффективной работы с геофизическими данными, в первую очередь, требуется обеспечить их надежное хранение с возможностью быстрого и гибкого доступа. Для решения этой задачи в диссертации создан новый системно-программный метод реализации распределенных хранилищ геофизических данных. В диссертации отражены результаты по следующим направлениям: каталоги метаданных для поиска в хранилищах, репликация коллекций файлов для ускорения доступа и повышения надежности,^ проблемы масштабирования и новые модели данных в сверх-болыних базах данных, параллельные файловые системы, и веб- (или грид-) интерфейсы управления данными. Значительными сторонними результатами по каждому из направлений являются соответственно каталог метаданных по информационным ресурсам об окружающей среде NASA Global Change Master Directory, система управления данными LCG Database and Replica Management Services, параллельная файловая система Apache Lustre, и система управления выборкой и обработкой данных OGSA-DAI. Во многих случаях, когда хранилище данных строится под конкретный набор приложений, схема метаданных и общая модель данных (Common Data Model) заранее известны, и все вышеупомянутые «универсальные» технологии можно объединить и оптимизировать в единой распределенной иерархической системе хранения и поиска данных, которые мы называем Common Data Model (СОМ)-хранилищем.

Продумы noir/Hwiibits hi сл/шниопых дапних.

Срит-нныгряпы наблюдшипогоды и роапашиа.

Географическая информация' оысога гидрология, .

Виртуальная сбссроагория.

Псрыяыпия/iaciyiin к данным.

Полмооагельсше сообтесгм.

Активное хранилище.

СО.ИПЮП Data Mcd^l SQL Server Cluster CGSA-DAI и M. UWj API.

Col K. liim It'.t-I metadata li vcr’toi’j-lfjfl rnotaiiata.

Ordering fxtwisions J г i"p)>irt нжодные данный— ¦^-Результат медолирозания.

Численное моделирование.

Мюошкалышя ьМогооралогачоскап модель ММ5.

Сейсмическая модель cv, V > >

Анллн. динных.

Enuronnertal Scenario Search Епзпе (ESSE).

Лп’оршми нагседения троидов.

Ч?

— Тренды и маиуосвизи-^.

Визуализация.

Microsoft Virtual Earth NASA Wacld Wind.

EVL UIC Scalable Graphics Envirarmen t (SAGS+SAIL).

Рисунок 2. Общая схема системы.

В диссертации создана система (рис. 2), работающая с наиболее часто используемыми в геофизике моделями данных — временными рядами наблюдений и спутниковыми гранулами, позволяя осуществлять запросы к хранилищам таких данных, производить их анализ, обработку, моделирование, пересылку и хранение. Большинство изученных в геофизике наборов данных укладываются в эту модель. Временные ряды представляют собой многомерные массивы данных, отличающиеся по структуре и количеству измерений, и при этом имеющие различный объем (от сотен мегабайт до десятков терабайт). В эту модель данных укладываются метеонаблюдения, реанализ и прогноз погоды, наблюдения и результаты моделирования космической погоды, результаты моделирования сейсмических волн и т. д. Спутниковые гранулы это объекты данных, чаще всего изображения или блоки данных, полученные со спутника при сканировании определенного участка земной поверхности, и имеющие геопривязку и другие параметры. В таком формате представлены изображения Земли со спутников, электронные карты, снимки Солнца, и другие изображения. Автором впервые была создана система, объединяющая доступ к разнородным источникам данных в единый сервис на основе общей модели данных и метаданных и языка запросов к сервисам выборки и обработки (рис. 3).

Рисунок 3. Поддерживаемые системой источники данных.

Используемая для сервиса данных платформа OGSA-DAI, работающая в различных Грид-средах (Globus toolkit 4, OMII, Unicore), расширенная компонентами для работы с геофизическими данными, позволяет в полной мере реализовать распределенную Грид-архитектуру сервисов данных с возможностью управления потоком данных.

Реализованная автором общая модель данных ESSE (Common Data Model, CDM) призвана существенно упростить обмен между разными сервисами данных по окружающей среде. Разработанная в диссертации общая модель данных делает возможным комбинирование и совместное изучение данных из различных предметных областей. Построенная в диссертации модель представляет собой надстройку над многомерным массивом численных данных, позволяющую производить многомерные выборки данных. Использованная модель является обобщением предложенного организацией UNIDATA формата хранения данных NetCDF.

Для хранения геофизических данных в формате CDM автором на основе рекомендаций UNIDATA был разработан ряд структур данных, рассмотренных в диссертации, таких как сетка, набор точек, набор станций, траектория. При этом, под структурой хранения данных понимается набор массивов, их атрибутов и типов, используемый для хранения определенного типа геофизических данных.

В диссертации автором обоснована возможность практического использования CDM как общей модели для хранения, обработки и передачи геофизических данных из различных источников.

Реализацией данной модели стала библиотека хранения данных в виде временных рядов в формате CDM [9]. Библиотека включает средства для представления данных в памяти компьютера и пересылки данных по сети. Примером реализации также остается формат хранения научных данных NetCDF, ориентированный на работу с файлами и привязанный к файловой системе. В целом, разработанная в диссертации реализация является упрощенной моделью NetCDF и совместима с ним.

Созданная модель представляет существенный шаг вперед по сравнению с хранением данных в файлах: повышенная скорость доступа к данным, единый формат работы с данными из любых баз данных, и как следствие этого — интероперабельность компонент системы. Следствием использования единой модели для различных данных является возможность эффективного слияния и сравнения таких данных для их совместного изучения. Таким образом, открывается возможность получения принципиально новых результатов. Доступны возможности преобразования данных с помощью специальных компонент (data processor), осуществления нечеткого поиска событий в данных (search engine), что открывает новые широкие возможности по обработке больших объемов геофизических данных.

Для работы с геофизическими сервисами данных также необходима система управления метаданными. Основная задача метаданных — описывать семантику и синтаксис данных в хранилище. При грамотной организации метаданных и обеспечении механизмов работы с ними, метаданные могут использоваться для поиска необходимых наборов данных в распределенных хранилищах, использоваться в балансировке нагрузки на хранилища в распределенных системах, содержать дополнительные сведения о данных. Возможен поиск по таким параметрам как пространственно-временное покрытие, вхождение слов в описание базы данных и т. д. Метаданные могут содержать такие дополнительные сведения как описание отдельных участков данных, пометки о качестве данных или история их обработки.

Также метаданные служат основой для поддержки сообществ пользователей данных, позволяют заинтересованным людям обмениваться мнениями и расширять существующие наборы данных, что особенно важно для развития системы МЦД. Это является шагом в сторону Web 2.0, являющейся быстро растущей и сильно востребованной технологией коллективной работы в Сети, и переносит эту новую Интернет-технологию в научное сообщество в области наук о Земле.

В главе «Виртуальная обсерватория» автором была разработана система, позволяющая не только хранить метаданные, описывающие сервис, но также формирующая запросы к ним на автоматическую выборку (Ordering extensions). Виртуальная обсерватория — это веб-приложение, созданное для управления структурированной базой данных XML-файлов, разбитой на отделы, содержащие файлы определенной структуры. Автором созданы средства управления структурой хранилища, поддержки сообществ пользователей, автоматизированной загрузки и доступа к хранящимся файлам, визуализации данных. Виртуальная обсерватория позволяет объединять распределенные хранилища метаданных в федерации с совместным доступом к ресурсам. Также автором разработаны Web 2.0-компонепты, предоставляющие ученым возможности общения, обмена информацией и совместной работы над содержимым хранилища (рис.

4).

Рисунок 4. Схема работы системы Виртуальная Обсерватория.

Потребителями геофизических данных могут быть как конечные пользователи, производящие исследования с их помощью, так и другие вычислительные системы. Под такими системами мы понимаем вычислительные модели реанализа и прогноза климата и космической погоды, сейсмологические модели для трехмерной реконструкции внутреннего строения Земли и прогноза залегания полезных ископаемых, и обработку изображений со спутников для анализа поверхности Земли, в частности, растительного покрова, метеорологических полей, динамики рельефа. Поэтому средства по выборке, обработке и визуализации данных, доступные пользователям через сторонние порталы и клиентские приложения, доступны также и для моделей в виде сервисов данных, разработанных автором и включенных в состав Виртуальной обсерватории. При этом для модельных приложений наряду с предоставлением входных данных также доступны сервисы сохранения результатов моделирования.

Цели и задачи работы.

Целью работы являлось создание системы управления потоками геофизических данных и численными моделями окружающей среды в Грид.

Для реализации этой цели в диссертации поставлены и решены следующие задачи:

1. Создание теоретико-методологических основ и действующего прототипа распределенной Грид-среды специализированных сервисов, легко расширяемой для хранения и обработки различных коллекций данных по геофизике и наукам о Земле, включая солнечно-земную физику, климатологию, сейсмологию.

2. Разработка системы управления рабочим потоком распределенных Грид-сервисов для передачи, предварительной обработки, научного анализа и визуализации данных.

3. Разработка системы управления метаданными для Грид-сервисов геофизических данных.

4. Разработка метода и компьютерной технологии обеспечения запуска существующих геофизических моделей на суперкомпьютерах с использованием разработанных сервисов данных для инициализации моделей,.

5. Интеграция созданных сервисов данных и численных геофизических моделей в единый рабочий поток, что позволит делать выборки исходных данных, использовать их для моделирования и сохранять результаты в Грид-среде. Проведение моделирования в среде Грид с использованием данных из баз данных по окружающей среде.

6. Апробация и оценка эффективности созданной системы для задач геофизики в области физики твердой Земли, солнечно-земной физики, климатологии.

Личный вклад автора.

1. Разработана архитектура и реализованы Грид-сервисы для доступа к распределенным хранилищам геофизических данных. Реализована система управления рабочим потоком обработки геофизических данных на Грид-сервисах.

2. Получена интеграция Грид-сервисов разнородных iеофизических данных на основе общей модели хранения геофизических данных, которая совместима со стандартом Common Data Model (UNIDATA, USA) и реализована автором в качестве внутренней модели хранения и внешнего обмена геофизическими данными между распределенными Грид-сервисами, а также для визуализации данных в клиентских приложениях и для экспорта данных пользователям.

3. Обоснована необходимость создания специализированного Грид-сервиса для совместной работы с метаданными из различных предметных областей — метеорологии, солнечно-земной физики, сейсмологии, и реализована оригинальная технология распределенного управления метаданными — «Виртуальная обсерватория» .

4. Разработан рабочий поток и сервисы запуска геофизических моделей в инфраструктуре Грид на базе европейской Грид-инфрастурктуры EGEE. С их помощью была обсчитана сейсмическая модель для определения анизотропных свойств литосферы и верхней мантии путем совместной инверсии волновых форм обменных волн и волн SKS.

5. Разработаны клиентские приложения, использующие преимущества созданной системы Грид-сервисов данных, позволяющие обрабатывать, преобразовывать и визуализировать геофизические данные.

6. Проведено внедрение разработанных программных продуктов в российских и зарубежных научных проектах СКИФ ГРИД (ИПС РАН, Переславль), CLIVT (ИКИ РАН, Москва), CLASS (NGDC NOAA, Boulder СО, USA), ESSE (Microsoft Research, Cambrige, UK).

Научная новизна.

Созданная в диссертации система, осуществляющая сбор, хранение, анализ, обработку и визуализацию больших массивов геофизических данных, а также создание на основе этих данных геофизических моделей на платформе Грид, является инновационной технологией в геофизике. Система позволяет работать одновременно с различными типами данных: временными рядами наблюдений (в форматах сетка, набор точек, набор станций, траектория) и спутниковыми гранулами. Использование Грид-инфраструктуры дает колоссальное преимущество при расчетах, требующих длительного процессорного времени, а также при обработке сверхбольших объемов данных. Построение системы на основе Грид-сервисов данных является первым подобным примером среди систем обработки геофизических данных и увеличивает гибкость и эффективность запросов. В то же время задействованное в системе совместное эффективное использование ресурсов других научных учреждений по всему миру при гибком масштабировании систем позволяет покрывать всё растущую необходимость в вычислительных ресурсах для задач геофизики без дополнительных затрат на развертывание суперкомпьютеров в отдельных институтах. Разработанная в диссертации система выполнения геофизических вычислений в сети Грид приводит к ускорению исследований и инноваций в этой области.

Созданная автором архитектура системы, её компоненты и использование общей модели данных позволяют эффективно провести совместный анализ огромных массивов данных из различных областей геофизики. Тем самым расширяется область исследований и многократно увеличиваются возможности анализа наблюдений окружающей среды, что показано в разделе про веб-порталы и клиентские приложения.

Практическая значимость работы.

Созданная автором система успешно используется как информационно-технологическая база для целого ряда задач вычислительной сейсмологии, систем визуализации погодной информации, оценки изменений климата и реанализа космической погоды. Благодаря использованию среды Грид, система является распределенной и имеет узлы, связанные в «Грид данных». Функционируют общедоступные порталы для доступа к данным конечных пользователей. Система предоставляет доступ к данным и вычислительные ресурсы всем геофизическим институтам и организациям, являющимся членами соответствующей виртуальной организации Грид-сети.

Результаты работы нашли прямое применение в совместных междисциплинарных исследованиях ИКИ РАН и MSR для анализа региональных трендов и зависимостей между изменениями в климате и растительности. Созданные в работе сервисы поиска и обработки сверхбольших баз данных по истории климата используются совместно с разработанными в ИКИ методами дистанционного зондирования растительности с использованием данных спутниковых наблюдений. Сервисы были использованы в расчетах модельной задачи по космической погоде AMIE [21], а также для расчета сейсмической модели [6].

Созданные в результате работы Грид-сервисы OGSA-DAI для поиска и обработки данных установлены на ресурсном центре СКИФ-Грид в ГЦ РАН в Москве и в Национальном геофизическом центре (NGDC NOAA) в Болдере, штат Колорадо, и регулярно используются для доступа к архивам данных по климату и космической погоде в системах доступа к распределенным архивам данных NOAA Comprehensive Large Array Stewardship System (CLASS) и Space Physics Interactive Data Resource (SPIDR).

Основные положения, выносимые на защиту.

1. Разработана архитектура Грид-сервиса геофизических данных и реализована система управления рабочим потоком для общей модели данных (СDM), что позволило интегрировать для совместного анализа распределенные разнородные источники данных по космической погоде, дистанционному зондированию, климатологии, геофизике и геотектонике общим объемом более 100 ТБ. Объединение вычислительных кластеров и распределенных хранилищ данных реализуется на основе использования сервис-ориентированной архитектуры, интеграции с общей моделью данных и Грид-инфраструктуры.

2. Разработана технология и программное обеспечение для управления метаданными «Виртуальная обсерватория» с функциями преобразования и отображения на многообразии схем (стандартов) метаданных для Мировых центров данных из различных предметных областей — метеорологии, солнечно-земной физики, сейсмологии. Это позволило объединять в общий рабочий поток Грид-сервисы и производить поиск необходимых источников геофизических данных.

3. Разработана технология запуска ресурсоемких геофизических задач на суперкомпьютерах, объединенных Грид-инфраструктурой, и решена обратная геофизическая задача через полный перебор всех решений прямой задачи. Определены параметры сейсмической анизотропии земной коры и верхней мантии под Тянь-Шанем. Был найден глобальный экстремум целевой функции, проведен анализ согласованности различных групп данных и проведена геофизическая интерпретация результатов моделирования.

Апробация работы и публикации.

По теме работы автором опубликованы 8 статей, раскрывающих основные научные результаты диссертации. Из них 2 входят в список ВАК ([2, 3]). (см. раздел публикации) Результаты диссертации обсуждались на следующих конференциях и семинарах:

1. Мишин, Д. Геофизические модели и потоки данных в среде ГРИД. Доклад на конференции «Итоги электронного геофизического года», 3—6 июня 2009 г., ИПС РАН, Переславль-Залесский, Россия.

2. Поляков, А., Жижин, М., Березин, С., Коковин, Д., Медведев, Д., Мишин, Д. ГРИД-сервисы параллельной визуализации научных массивов данных и цифровых карт. Доклад на конференции «Итоги электронного геофизического года», 3—6 июня 2009 г., ИПС РАН, Переславль-Залесский, Россия.

3. Жижин, М.- Медведев, Д.- Мишин, Д.- Пойда, А.- Андреев, А. Технология построения параллельных масштабируемых грид-центров хранения и анализа данных по окружающей среде. Вторая международная конференция «Суперкомпьютерные системы и их применение» SSA 2008, Беларусь, 27 октября 2008.

4. Zhizhin, М.- Kihn, Е.- Kokovin, D.- Mishin, D. VxOware tool for federation of Virtual Observatories. 3rd GRID e-collaboration Workshop for Earth Science and Space, 16 -17 January 2008 ESRIN, Frascati (Rome), Italy (Poster).

5. Zhizhin, M.- Kihn, E.- Luytsarev, V.- Berezin, S.- Poyda, A.- Mishin, D.- Medvedev, D.- Voitsekhovsky, D. Environmental Scenario Search and Visualization. Presentation and paper in Proceedings of ACM GIS 2007, Seattle, November 2007.

6. Zhizhin, M.- Kihn, E.- Medvedev, D.- Redmon, R.- Mishin, D. Space Physics Interactive Data Resource — SPIDR. Report at GRID User Forum, CERN, Switzerland, 01−03 March 2006.

Т. Mishin, D. Meteorology and Space Weather Data Mining Portal. Demonstration at the EGEE User Forum, CERN, Geneva, March 2006.

8. Zhizhin, M.- Kihn, E.- Redmon, R.- Poyda, A.- Mishin, D.- Medvedev, D.- Lyutsarev, V. Integrating and mining distributed environmental archives on Grids. VLDB DMG Workshop, Seul, September 2006.

Структура и объем диссертации

.

Диссертация включает введение, 3 главы основного текста, заключение и приложения. Объем диссертации — 126 страниц,. Библиография включает в себя 86 наименований. Диссертация содержит 46 изображений.

3.4 Выводы.

Сервисы данных, представленные в главе 2, позволяют пользователям запрашивать данные как напрямую, так и через другие приложения, такие как веб-порталы.

Рассмотренные в главе приложения используют созданную автором систему доступа к научным данным, позволяя комбинировать различные источники данных для совместной работы с ними. Средства визуализации временных рядов позволяют совместно визуализировать данные из различных источников, а также результаты их обработки. Совмещение данных в виде временных рядов и данных с геопривязкой, таких как спутниковых снимков, расширяет возможности анализа данных и является отличительной особенностью приложений для наук о Земле. В целом, объединение различных данных существенно повышает возможности анализа, а возможность обработки больших объемов данных очень важна в настоящее время при быстром росте объема и качества используемых данных.

Рассмотренные клиентские приложения позволяют:

• Производить поиск нужных источников данных в метаданных сервисов по заданным критериям.

• Автоматически создавать веб-форму запроса данных по метаданным источника данных.

• Визуализировать полученную выборку данных на клиенте.

• Сохранять выборку данных в локальном файле для дальнейшего использования.

• Сохранять параметры запроса данных и результат запроса в клиентской корзине на сервере для дальнейшей работы с данными.

• Совместно визуализировать различные виды данных для всестороннего изучения предметной области.

• Запускать параллельную обработку больших объемов геофизических данных на распределенных вычислительных узлах.

• Сохранять результаты вычислений и собственные данные пользователя в хранилище с возможностью дальнейшей работы с этими данными.

• Создавать сообщества ученых, заинтересованных в изучении отдельных областей знаний, на специализированных ресурсах, для облегчения общения и обмена научной информацией.

4 Заключение.

Основной задачей диссертации являлось создание системы управления потоками геофизических данных и численных моделей окружающей среды в Грид.

На основе сравнительного анализа возможностей современных инфраструктур и промежуточных слоёв программного обеспечения сети Грид были сделаны выводы об их преимуществах и недостатках для создания сервисов и управления данными, запуска численных моделей и создания веб-порталов и клиентских приложений для визуализации и работы с данными по окружающей среде, а также обозначены проблемы, которые необходимо решить для более эффективного использования ресурсов сети Грид в геофизике.

Была реализована общая модель хранения данных, совместимая со стандартом Common Data Model (UNIDATA, USA) и позволяющая хранить данные типа равномерной сетки, произвольных точек, станций, траекторий. Было дано обоснование необходимости создания новой оптимизированной модели для хранегога временных рядов наблюдений параметров окружающей среды с различной пространственной привязкой.

Была разработана архитектура и реализован Грид-сервис, а также реализована система управления рабочим потоком как расширение OGSA-DAI для общей модели данных и продемонстрирована возможность объединения распределенных разнородных источников данных в один сервис с возможностью совместной работы с различными данными.

Была обоснована необходимость создания специализированного Грид-сервиса для работы с метаданными и разработан такой сервис. Он позволяет совмещать метаданные в любых стандартизированных форматах из различных предметных областей — метеорологии, солнечно-земной физики, сейсмологии.

Для решения сложных вычислительных задач на суперкомпьютерах, в частности, для решения обратной задачи геофизики через полный перебор всех решений прямой задачи, разработан рабочий поток запуска геофизических моделей на основе данных, полученных с Грид-сервиса. Обеспечена возможность хранения полученных в результате моделирования данных на основе Грид-сервисов для их последующего анализа и визуализации.

На Грид-узлах ГЦ РАН и НИИЯФ МГУ была запущена сейсмическая модель для определения параметров сейсмической анизотропии коры и верхней мантии с использованием разработанного Грид-сервиса для хранения результатов моделирования и их последующего анализа. Был найден глобальный экстремум целевой функции, проведен анализ согласованности различных групп данных и проведена интерпретация результатов моделирования.

Разработаны клиентские приложения, использующие преимущества созданной системы источников данных. Приложения позволяют обрабатывать и преобразовывать данные, а также визуализировать как сами данные, так и результаты их обработки. Разнообразие приложений позволяет в полной мере использовать все возможности сервисов данных Грид. Разработаны следующие приложения:

• Картографический Java-апплет MapApplet.

• Лауа-апплет для визуализации временных рядов PlotApplet.

• Java-клиент для визуализации временных рядов Autoplot.

• Плагин визуализации геофизических данных VisualEsse для приложения NASA World Wind.

Показать весь текст

Список литературы

  1. Zhizhin, М.- Poyda, A.- Mishin, D.- Medvedev, D.- Kihn, E.- Lyutsarev, V.- «Grid Data Mining with Environmental Scenario Search Engine (ESSE)», Chapter 13 in Data Mining Techniques in Grid Computing Environments, Wiley, 2008, pp. 281 306
  2. Zhizhin, M.- Kihn, E.- Redmon, II.- Poyda, A.- Mishin, D.- Medvedev, D.- Lyutsarev, V.- «Integrating and mining distributed environmental archives on grids», Concurrency and Computation: Practice and Experience, vol. 19, pp. 2157 2170, 2007
  3. M.H. Жижин, A.A. Пойда, Д. Ю. Мишин, А. П. Платонов, А. А. Солдатов, В. Е. Велихов, М. Н. Боярский, P.P. Назиров. Поиск данных в Грид: соотношение производительности сетей, вычислительных кластеров, хранилищ данных. Открытое образование, № 4 2008, стр. 29−39
  4. Zhizhin, M.- Kihn, E.- Lyutsarev, V.- Berezin, S.- Poyda, A.- Mishin, D.- Medvedev, D.- Voitsekhovsky, D.- «Environmental scenario search and visualization», Proc. 15th ACM symposium on Advances in geographic information systems, 2007
  5. И.М. Алешин, Д. Ю. Мишин, М. Н. Жижин, В. Н. Корягин, Д. П. Медведев, A.M. Новиков, Д. В. Перегудов. Применение распределенных вычислительных систем при определении параметров сейсмической анизотропии коры и верхней мантии. Геофизические исследования, 2009.
  6. Zhizhin, М.- Poyda, A.- Mishin, D.- Medvedev, D.- Kihn, Б.- Lyutsarev, V. Environmental Scenario Search Engine (ESSE) distributed, optimized, visible. Microsoft Research Technical Report, May 2007
  7. Zhizhin, M.- Poyda, A.- Mishin, D.- Medvedev, D.- Kihn, E.- Lyutsarev, V. Scenario Search on the Grid of Environmental Data Sources. Microsoft Research Technical Report, July 2006
  8. А.А. Поиск сценариев событий на гриде источников данных об окружающей среде. Диссертация. Московский государственный университет имени М. В. Ломоносова. 2008
  9. National Research Council (U.S.). Committee on Geophysical and Environmental Data. Review of NASA’s distributed active archive centers. Compass series (Washington, D.C.). ISBN 10: 5 850 8579X, 309 063 310
  10. Rank, R.- Reynolds, R. G. Comprehensive Large Array-data Stewardship System (CLASS)A Fully-distributed System. American Geophysical Union, Fall Meeting 2005, abstract #IN24A-05. 12/2005
  11. It’s sink or swim as a tidal wave of data approaches. Nature journal 399, 517−520, 10 июня 1999. doi:10.1038/21 044
  12. Edgar F. Codd, A Relational Model of Data for Large Shared Data Banks, Communications of the ACM, 13(6):377−387, June 1970
  13. George Reese. Database Programming with JDBC and Java, Second Edition. Chapter 7: Distributed Application Architecture. November 2000. http://java.sun.com/ developer/Books/jdbc/ch07.pdf
  14. Grid Club http://gridclub.ru/about
  15. Foster, Ian- Carl Kesselman. The Grid: Blueprint for a New Computing Infrastructure. Morgan Kaufmann Publishers. ISBN 1−55 860−475−8.
  16. Запуск проекта LCG http://lcg.web.cern.ch/LCG/lhcgridfest/
  17. Kihn E, Zhizhin M, Kamide Y (2006) An analog forecast model for the high-latitude ionospheric potential based on assimilative mapping of ionospheric electrodynamics archives. Space Weather 4: S05001. doi:10.1029/2005SW000199
  18. Bessis, Nik. Grid Technology for Maximizing Collaborative Decision Management and Support: Advancing Effective Virtual Organizations. IGI. ISBN 978−1-60 566−364−7. 2009
  19. Stockinger, Heinz- et al. Defining the Grid: A Snapshot on the Current View (PDF). Supercomputing42: 3. doi:10.1007/sl 1227−006−0037−9. http://hst.web.cern.ch/hst/ publications/DefiningTheGrid-1.1.pdf
  20. Davies, Antony. «Computational Intermediation and the Evolution of Computation as a Commodity» (PDF). Applied Economics 36: 1131. doi:10.1080/3 684 042 000 247 334.2004
  21. Plaszczak, Pawel- Rich Wellner, Jr (2006). Grid Computing «The Savvy Manager’s Guide». Morgan Kaufmann Publishers. ISBN 0−12−742 503−9.
  22. Sotomayor, Borja- Childers, Lisa. Globus Toolkit 4. Programming Java Services. ISBN: 0−12−369 404−3.
  23. Silva, Vladimir. Grid Computing for developers. Charles River Media. ISBN: 1−58 450 424−2.
  24. Ll, Maozhen- Mark A. Baker. The Grid: Core Technologies. Wiley. ISBN 0−470−9 417−6.2005
  25. Ian Foster, Carl Kesselman, Jeffrey M. Nick, Steven Tuecke. The Physiology of the Grid: An Open Grid Services Architecture for Distributed Systems Integration. Open Grid Service Infrastructure WG, Global Grid Forum, June 22, 2002.
  26. The Open Grid. Services Architecture, Version 1.5, http://www.ogf.org/documents/ GFD.80.pdf
  27. DICE Data Intensive Cyber Environments group http://diceresearch.org
  28. Nirvana http://www.nirvanastorage.com
  29. Rajasekar, A., M. Wan, R. Moore, W. Schroeder. A Prototype Rule-based Distributed Data Management System. HPDC workshop on «Next Generation Distributed Data Management», May 2006, Paris, France. http://www.sdsc.edu/srb/Pappres/ RODs-paper.doc
  30. EGEE RDIG (Российский грид для интенсивных операций с данными Russian Data Intensive Grid) http://www.egee-rdig.ru
  31. SIMDAT Grids for Industrial Product Development http://www.scai.fraunhofer. de/simdat.html
  32. Deutscher Wetterdienst http: //www. dwd. de
  33. European Centre for Medium-Range Weather Forecasts http://www.ecmwf.int
  34. European Organisation for the Exploitation of Meteorological Satellites http://www. eumetsat. int
  35. Meteo-France http://france.meteofrance.com
  36. Met Office http://www.metoffice.gov.uk
  37. Стандарты OGC консорциума, http: //www. opengeospatial.org
  38. Стандарт Geography Markup Language (GML) на сайте OGC консорциума, http: //www.opengis.net/gml
  39. CSW: спецификация на сайте OGC консорциума, http://www.opengeospatial. org/standards/cat
  40. WMS: спецификация на сайте OGC консорциума, http://www.opengeospatial. org/standards/wms
  41. WFS: спецификация на сайте OGC консорциума, http://www. opengeospatial. org/standards/wfs
  42. WCS: спецификация на сайте OGC консорциума, http://www.opengeospatial. org/standards/wcs
  43. WPS: спецификация на сайте OGC консорциума, http://www.opengeospatial. org/standards/wps
  44. Amazon S3, http: //aws. amazon. com/s3/
  45. Amazon SimpleDB, http://aws.amazon.com/simpledb/
  46. GCMD Global Change Master Directory http://gcmd.gsfc.nasa.gov/
  47. Babuska, V., Plomerova, J., Sfleny, J. Spatial variations of P residuals and deep structure of the European lithosphere. Geophys. J. R. Astron. Soc., v. 79, pp. 363−383, 1984
  48. Kosarev, G. L.- Makeyeva, L. I.- Vinnik, L. P. Anisotropy of the mantle inferred from observations of P to S converted waves. Geophys. J. R. Astr. Soc., v. 76, pp. 209−220, 1984
  49. JI. П. Вииник, Г. Л. Косарев, JI. И. Макеева, 1984, Анизотропия в литосфере по наблюдениям SKS и SKKS. ДАН СССР, т. 278, сс. 1335−1339
  50. М. К. Savage, 1999, Seismic anisotropy and mantle deformation: what have we learned from shear wave splitting. Rew. Geophys., v. 37, No 1, pp.65−106
  51. Г. JI. Косарев- JI. И. Макеева- E. Ф. Саваренский- E. M. Чесноков- 1979, Влияние анизотропии под сейсмостанцией на объемные волны. Физика Земли, N2, сс. 26−37
  52. W. Menke, V. Levin, 2003, The cross-convolution method for interpreting SKS spliting observations, with application to one and two-layer anisotropic earth models. Geophys. J. Int., v. 154, pp. 379−392
  53. Vinnik, L.- Peregoudov, D.- Makeyeva, L.- Oreshin, S.- 2002. Towards 3D fabric in the continental lithosphere and asthenosphere: theTienShan, Geoph. Res. Lett., 29, 1795, doi:10.1029/2001GL014588.
  54. Vinnik, L.- Aleshin I. M.- Kiselev S. G.- Kosarev G. L.- Makeyeva L. I.- Depth localized azimuthal anisotropy flora. SKS and P receiver functions: TheTienShan. Geophys. J. Int. (2007) 169, 1289−1299, doi:10.1111/j.l365−246X.2007.3 394.x
  55. P. Renard, V. Badoux, M. Petitdidier, R. Cossu. Grid Computing for Earth Science. Eos, 2009, Vol. 90, No. 14, 7 April, pp. 117−119
  56. Tomcat Apache Tomcat http://jakarta.apache.org/tomcat/74. eXist XML database http://exist.sourceforge.net/
  57. XML Extensible Markup Language http://www.xml.com/
  58. W3C World Wide Web Consortium http://www.w3.org/XML/
  59. Jan Merka, Thomas W. Narock, Adam Szabo. Navigating through SPASE to heliospheric and magnetospheric data. Earth Science Informatics, Springer Berlin / Heidelberg, ISSN 1865−0473 (Print) 1865−0481 (Online), Volume 1, Number 1, September 2008, pp. 21−28
  60. FGDC Federal Geographic Data Committee http://www.fgdc.gov/
  61. Content Standard for Digital Geospatial Metadata (FGDC-STD-001−1998) June 1998 http://www.fgdc.gov/metadata/metadata.html
  62. SOHO Solar and Heliospheric Observatory http://sohowww.nascom.nasa.gov
  63. SPASE Space Physics Archive Search and Extract http://www.spase-group.org/
  64. Jang, Jyh-Shing Roger- Chuen-Tsai Sun, Eiji Mizutani. Neuro-fuzzy and soft computing: a computational approach to learning and machine intelligence. Prentice-Hall, Inc. ISBN: 0−13−261 066−3.
  65. Berman, Fran- Anthony J. G. Hey, Geoffrey C. Fox. Grid Computing: Making The Global Infrastructure a Reality. Wiley. ISBN 0−470−85 319−0. 2003
  66. Alexander Szalay and Jim Gray. 2020 computing: Science in an exponential world. Nature, 440(7083):413−414, March 2006.
  67. Maria A. Nieto-Santisteban, Jim Gray, Alexander S. Szalay, James Annis, Aniruddha R. Thakar, and William O’Mullane. When database systems meet the grid. In CIDR, pages 154−161, 2005.
  68. EOS NASA Earth Observing System http://eospso.gsfc.nasa.gov
Заполнить форму текущей работой