Большие данные.
Операционные системы

РефератПомощь в написанииУзнать стоимостьмоей работы

Hadoop — это технология разработанная Apache Software Foundation с открытым исходным кодом и предназначенная для надежных, масштабируемых и распределенных вычислений, а также для хранения сверхбольших файлов. Атомарность в распределенных системах играет важную роль, поскольку доступ к разделяемым и распределенным ресурсам должен быть атомарным. Анализ сверхбольших потоков данных, выделение… Читать ещё >

Большие данные. Операционные системы (реферат, курсовая, диплом, контрольная)

Еще одно модное направление в распределенных вычислениях в настоящее время — это «Большие данные» (Big Data), которые представляют собой некоторый механизм обработки сверхбольших наборов структурированных и неструктурированных данных. В основу такого механизма были положены несколько методов, таких как приемы NoSQL, алгоритмы MapReduce и библиотеки проекта Hadoop.

Кратко рассмотрим эти методы.

Механизм NoSQL (not only SQL) — определяет набор приемов реализующих хранение данных в не реляционных СУБД. В таких базах данных были решены проблемы масштабируемости (scalability) и доступности (availability) за счет использования принципов атомарности (atomicity) и согласованности данных (consistency) применяемым к распределенным хранилищам данных. Принцип атомарности заключается в том, что все операции должны выполняться как единое целое или не выполняться вообще.

Атомарность в распределенных системах играет важную роль, поскольку доступ к разделяемым и распределенным ресурсам должен быть атомарным.

Для механизма NoSQL характерны следующие черты:

• использование в качестве хранилищ разных технологий и платформ;
• разработка баз данных без задания ее схемы;
• широкое использование многопроцессорности и многопоточности;
• применение принципа масштабируемости (возрастание числа процессоров приводит к увеличению производительности системы);
• существенное возрастание скорости отклика системы по сравнению с классическими реляционными СУБД.

Механизм MapReduce представляет собой модель распределенных вычислений, разработанную компанией Google и применяемую для параллельных вычислений на сверх больших наборах данных в компьютерных кластерах. MapReduce — это библиотека математических операций над данными с одновременным использованием множества компьютеров. Применение MapReduce включает два шага: Мар и Reduce.

На первом, Мар-шаге происходит предварительная обработка входных данных, при которой один из компьютеров распределяет входные данные между другими компьютерами для предварительной обработки. На втором, Reduce-шаге происходит свертка предварительно обработанных данных. Главный узел получает результаты и на их основе формирует решение поставленной задачи. В данном случае под понятием свертки списка (folding, reduce, accumulate) используется механизм (функция), преобразующий некоторые структуры данных к единому значению. Особенность механизма MapReduce заключается в возможности параллельного исполнения операций предварительной обработки и свертки.

Hadoop — это технология разработанная Apache Software Foundation^[1] с открытым исходным кодом и предназначенная для надежных, масштабируемых и распределенных вычислений, а также для хранения сверхбольших файлов.

Принципы Big Data. Теоретически никаких новых технологий и принципов в Big Data нет, однако в рекламных целях эта технология характеризуется как «три V», а именно: это объем (Volume), характеризующий обработку сверх больших объемов информации, высокую скорость (Velocity) обработки информации (включая онлайн) и многообразие (Variety), подразумевающее возможности одновременной обработки различных типов структурированных и полуструктурированных данных.

При оперировании термином Big Data подразумевают три класса задач:

1) хранение и управление распределенными данными, объем которых — тераи петабайты;
2) обработка неструктурированной или слабо структурированной информации, например, такой как текст или мультимедийная информация;
3) анализ сверхбольших потоков данных, выделение ключевых признаков и построение моделей, оценка рисков и прогнозирование ситуаций.

Все механизмы Big Data в настоящее время находятся в развитии и имеют большие перспективы.

[1] URL: http://hadoop.apache.org.

Показать весь текст

Заполнить форму текущей работой

Другие работы

Разработка пользовательских интерфейсов

Последнее окно программы также содержит поле с критериями для обеспечения наглядности. Во втором поле выводится результат работы программы. Кнопка «Назад», как и в предыдущих окнах, позволяет вернуться на шиг назад. Окно выбора метода оценки выполнено предельно просто и соответствует общей концепции простоты и доступности интерфейса. Пользователь выбирает нужный метод и нажимает «Подтвердить…

Реферат