Помощь в написании студенческих работ
Антистрессовый сервис

Большие данные. 
Операционные системы

РефератПомощь в написанииУзнать стоимостьмоей работы

Hadoop — это технология разработанная Apache Software Foundation с открытым исходным кодом и предназначенная для надежных, масштабируемых и распределенных вычислений, а также для хранения сверхбольших файлов. Атомарность в распределенных системах играет важную роль, поскольку доступ к разделяемым и распределенным ресурсам должен быть атомарным. Анализ сверхбольших потоков данных, выделение… Читать ещё >

Большие данные. Операционные системы (реферат, курсовая, диплом, контрольная)

Еще одно модное направление в распределенных вычислениях в настоящее время — это «Большие данные» (Big Data), которые представляют собой некоторый механизм обработки сверхбольших наборов структурированных и неструктурированных данных. В основу такого механизма были положены несколько методов, таких как приемы NoSQL, алгоритмы MapReduce и библиотеки проекта Hadoop.

Кратко рассмотрим эти методы.

Механизм NoSQL (not only SQL) — определяет набор приемов реализующих хранение данных в не реляционных СУБД. В таких базах данных были решены проблемы масштабируемости (scalability) и доступности (availability) за счет использования принципов атомарности (atomicity) и согласованности данных (consistency) применяемым к распределенным хранилищам данных. Принцип атомарности заключается в том, что все операции должны выполняться как единое целое или не выполняться вообще.

Атомарность в распределенных системах играет важную роль, поскольку доступ к разделяемым и распределенным ресурсам должен быть атомарным.

Для механизма NoSQL характерны следующие черты:

  • • использование в качестве хранилищ разных технологий и платформ;
  • • разработка баз данных без задания ее схемы;
  • • широкое использование многопроцессорности и многопоточности;
  • • применение принципа масштабируемости (возрастание числа процессоров приводит к увеличению производительности системы);
  • • существенное возрастание скорости отклика системы по сравнению с классическими реляционными СУБД.

Механизм MapReduce представляет собой модель распределенных вычислений, разработанную компанией Google и применяемую для параллельных вычислений на сверх больших наборах данных в компьютерных кластерах. MapReduce — это библиотека математических операций над данными с одновременным использованием множества компьютеров. Применение MapReduce включает два шага: Мар и Reduce.

На первом, Мар-шаге происходит предварительная обработка входных данных, при которой один из компьютеров распределяет входные данные между другими компьютерами для предварительной обработки. На втором, Reduce-шаге происходит свертка предварительно обработанных данных. Главный узел получает результаты и на их основе формирует решение поставленной задачи. В данном случае под понятием свертки списка (folding, reduce, accumulate) используется механизм (функция), преобразующий некоторые структуры данных к единому значению. Особенность механизма MapReduce заключается в возможности параллельного исполнения операций предварительной обработки и свертки.

Hadoop — это технология разработанная Apache Software Foundation[1] с открытым исходным кодом и предназначенная для надежных, масштабируемых и распределенных вычислений, а также для хранения сверхбольших файлов.

Принципы Big Data. Теоретически никаких новых технологий и принципов в Big Data нет, однако в рекламных целях эта технология характеризуется как «три V», а именно: это объем (Volume), характеризующий обработку сверх больших объемов информации, высокую скорость (Velocity) обработки информации (включая онлайн) и многообразие (Variety), подразумевающее возможности одновременной обработки различных типов структурированных и полуструктурированных данных.

При оперировании термином Big Data подразумевают три класса задач:

  • 1) хранение и управление распределенными данными, объем которых — тераи петабайты;
  • 2) обработка неструктурированной или слабо структурированной информации, например, такой как текст или мультимедийная информация;
  • 3) анализ сверхбольших потоков данных, выделение ключевых признаков и построение моделей, оценка рисков и прогнозирование ситуаций.

Все механизмы Big Data в настоящее время находятся в развитии и имеют большие перспективы.

  • [1] URL: http://hadoop.apache.org.
Показать весь текст
Заполнить форму текущей работой