Большие данные.
Операционные системы
Hadoop — это технология разработанная Apache Software Foundation с открытым исходным кодом и предназначенная для надежных, масштабируемых и распределенных вычислений, а также для хранения сверхбольших файлов. Атомарность в распределенных системах играет важную роль, поскольку доступ к разделяемым и распределенным ресурсам должен быть атомарным. Анализ сверхбольших потоков данных, выделение… Читать ещё >
Большие данные. Операционные системы (реферат, курсовая, диплом, контрольная)
Еще одно модное направление в распределенных вычислениях в настоящее время — это «Большие данные» (Big Data), которые представляют собой некоторый механизм обработки сверхбольших наборов структурированных и неструктурированных данных. В основу такого механизма были положены несколько методов, таких как приемы NoSQL, алгоритмы MapReduce и библиотеки проекта Hadoop.
Кратко рассмотрим эти методы.
Механизм NoSQL (not only SQL) — определяет набор приемов реализующих хранение данных в не реляционных СУБД. В таких базах данных были решены проблемы масштабируемости (scalability) и доступности (availability) за счет использования принципов атомарности (atomicity) и согласованности данных (consistency) применяемым к распределенным хранилищам данных. Принцип атомарности заключается в том, что все операции должны выполняться как единое целое или не выполняться вообще.
Атомарность в распределенных системах играет важную роль, поскольку доступ к разделяемым и распределенным ресурсам должен быть атомарным.
Для механизма NoSQL характерны следующие черты:
- • использование в качестве хранилищ разных технологий и платформ;
- • разработка баз данных без задания ее схемы;
- • широкое использование многопроцессорности и многопоточности;
- • применение принципа масштабируемости (возрастание числа процессоров приводит к увеличению производительности системы);
- • существенное возрастание скорости отклика системы по сравнению с классическими реляционными СУБД.
Механизм MapReduce представляет собой модель распределенных вычислений, разработанную компанией Google и применяемую для параллельных вычислений на сверх больших наборах данных в компьютерных кластерах. MapReduce — это библиотека математических операций над данными с одновременным использованием множества компьютеров. Применение MapReduce включает два шага: Мар и Reduce.
На первом, Мар-шаге происходит предварительная обработка входных данных, при которой один из компьютеров распределяет входные данные между другими компьютерами для предварительной обработки. На втором, Reduce-шаге происходит свертка предварительно обработанных данных. Главный узел получает результаты и на их основе формирует решение поставленной задачи. В данном случае под понятием свертки списка (folding, reduce, accumulate) используется механизм (функция), преобразующий некоторые структуры данных к единому значению. Особенность механизма MapReduce заключается в возможности параллельного исполнения операций предварительной обработки и свертки.
Hadoop — это технология разработанная Apache Software Foundation[1] с открытым исходным кодом и предназначенная для надежных, масштабируемых и распределенных вычислений, а также для хранения сверхбольших файлов.
Принципы Big Data. Теоретически никаких новых технологий и принципов в Big Data нет, однако в рекламных целях эта технология характеризуется как «три V», а именно: это объем (Volume), характеризующий обработку сверх больших объемов информации, высокую скорость (Velocity) обработки информации (включая онлайн) и многообразие (Variety), подразумевающее возможности одновременной обработки различных типов структурированных и полуструктурированных данных.
При оперировании термином Big Data подразумевают три класса задач:
- 1) хранение и управление распределенными данными, объем которых — тераи петабайты;
- 2) обработка неструктурированной или слабо структурированной информации, например, такой как текст или мультимедийная информация;
- 3) анализ сверхбольших потоков данных, выделение ключевых признаков и построение моделей, оценка рисков и прогнозирование ситуаций.
Все механизмы Big Data в настоящее время находятся в развитии и имеют большие перспективы.
- [1] URL: http://hadoop.apache.org.