Описывая специфику больших данных, первым делом упоминают 3V: «volume, variety and velocity» или объем, разнообразие и скорость.
Объем подразумевает не только большое количество хранимой информации, но и ее дополнение, рост, изменение с течением времени.
Разнообразие типов и источников информации всегда было большой проблемой, когда появлялась необходимость свести их в один массив данных. Сегодня это разнообразие только увеличивается.
Скорость оценивается как при создании информации, так и при ее обработке.
Традиционным методом работы с массивами информации являются реляционные базы данных. Однако работа с реляционной базой данных на сотни терабайт — это еще не Big Data, а, например, «обычная» highload-БД. Разница, в данном случае, заключается в архитектуре БД и логике взаимодействия СУБД с хранящейся информацией.
В реляционных БД информация распределена дисперсионно, т. е. имеет место изначально заданная четкая структура, изменение которой в уже работающей базе связано с множеством проблем. Таким образом, в силу своей архитектуры, реляционные БД лучше всего подходят для коротких быстрых запросов, идущих однотипным потоком. Сложный же запрос либо потребует перестройки структуры БД, либо, в угоду быстродействию, увеличения вычислительных мощностей. Это указывает на еще одну проблему традиционных баз данных, а именно на сложность их масштабируемости.
Таким образом, для работы со сложными гибкими запросами необходима среда, позволяющая хранить и обрабатывать неструктурированные данные, поддающаяся масштабированию и допускающая применения распределенных вычислений, где для обработки данных используется не одна высокопроизводительная машина, а целая группа таких машин, объединенных в кластер.