Использование параллельных вычислений для графических процессоров с использованием технологий Nvidia Cuda

РефератПомощь в написанииУзнать стоимостьмоей работы

Использование параллельных вычислений для графических процессоров с использованием технологий Nvidia Cuda (реферат, курсовая, диплом, контрольная)

Использование параллельных вычислений для графических процессоров с использованием технологий Nvidia Cuda

Технология CUDA — это программно-аппаратная вычислительная архитектура NVIDIA, основанная на расширении языка программирования C. CUDA позволяет улучшить возможности видеокарт, в отличии от предыдущих моделей GPGPU, ликвидировав некоторые из важных ограничений, в которых использовались традиционный графический конвейер и соответствующие интерфейсы Direct3D или OpenGL. Стандарты использующие OpenGL позволяют пользоваться одним и тем же кодом для видеочипов разных производителей. Эти методы имеют недостатки, они не удобные в использовании и менее гибкие. Они не позволяют использовать специфические возможности определенных видеокарт, такие, как быстрая разделяемая память. Решив эту проблему, компания NVIDIA выпустила технологию CUDA c C-подобным языком программирования со своим компилятором и библиотеками для вычислений на GPU.

В наше время все меньше можно удивиться в области информационных технологий. У нас появились телефоны, которые с легкостью помещаются в ладони и управляются только лишь прикосновения пальца к дисплею. Высокоскоростные каналы связи, с помощью которых без задержек можно обмениваться большими объемами различной информации. Сверхпроизводительные процессоры и тонкие ноутбуки, ультрабуки, макбуки все с теми же производительными процессорами. Остается одна большая проблема — обработка информации и данных в установленные сроки. Иногда поступает такая задача, что для её решения бывает, что самых современных серверных залов с самыми современными процессорами будет недостаточно и даже экономически невыгодно использовать для её реализации.

В это время и вступает в игру не так уже давно получившее массовое признание, направление General-Purpose computation on GPUs (GPGPU) — параллельные вычисления на графических процессорах. Ведь новые видеочипы содержащие сотни математических исполнительных блоков, и что данная мощь может быть приведена для большого ускорения множества вычислительно интенсивных приложений. И современное поколения GPU имеет достаточно гибкую архитектуру, что вместе с программно-аппаратными архитектурами и высокоуровневыми языками программирования, которые раскрывают эти возможности и делают их значительно более доступными [1].

Вычисления на GPU развивались и будут развиваться очень быстро. И на сегодняшний день один из основных производителей видеочипов, NVIDIA, разработал и анонсировал соответствующую платформу под названием Compute Unified Device Architecture (CUDA). Отличие от прошлых моделей программирования GPU, CUDA разработана с прямым доступом к аппаратным возможностям видеокарт. Технология CUDA — это программно-аппаратная вычислительная архитектура NVIDIA, основанная на расширении языка программирования C. Платформа CUDA устранила некоторые из важнейших ограничений прошлых моделей GPGPU, использующие соответствующие интерфейсы Direct3D или OpenGL и традиционный графический конвейер.

Доступные стандарты, использующие OpenGL, являются более популярными и универсальными, они дают возможность пользоваться одним и тем же кодом для видеочипов разных производителей. Такие методы имеют массу недостатков, они менее гибкие и не удобные в использование. Так же они не дают использовать специфические возможности определенных видеокарт, таких как быстрая разделяемая память, имеющаяся в современных вычислительных процессорах.

В связи с этим компания NVIDIA выпустила платформу CUDA с C-подобным языком программирования, имеющий свой компилятор и библиотеки для вычислений на GPU. Написание оптимизированного кода для видеочипов совсем не так-то просто и для этой задачи необходимо длительная ручная работа, но CUDA как раз и позволяет раскрыть все возможности, что даёт программисту большой контроль над аппаратными составляющими возможностями GPU [2]. Платформа CUDA предоставляет возможность реализовывать алгоритмы, выполняемые на графических процессорах видеоускорителей моделей GeForce серии 8, 9, 200, а также специализированные для решения расчетных задач GPU семейства Quadro и Tesla.

В настоящее время выпущена последняя версия CUDA 5.5, в которой появились некоторые новые возможности, например:

— MPS (Multi-Process Service) разрешает нескольким процессам в MPI-программе прозрачно пользоваться одной и той же GPU c Compute Capavility 3.5;
— добавлена поддержка ARMv7;
— репозитории для Ubuntu 12.04/12.10, OpenSUSE 12.2, SLES 11, Fedora 18, RHEL 6;
— обновлены библиотеки CUFFT, CUPTI, CURAND, CUSPARSE, Thrust;
— под MacOS в качестве компилятора используется Clang;
— отлаживать программы с помощью cuda-gdb теперь возможно на одной видеокарте, если ее Compute Capavility 3.5;
— поддерживается удаленная отладка;
— стало возможной отладки MPI-приложений;
— Visual Profiler поддерживает профилирование программ с динамическим параллелизмом.

Основные характеристики платформы NVIDIA CUDA:

— унифицированное программно-аппаратное решение для параллельных вычислений на видеочипах NVIDIA;
— большой набор поддерживающих решений, от мобильной до мультичиповой;
— стандартные языки программирования C;
— стандартные библиотеки численного анализа FFT (быстрое преобразование Фурье) и BLAS (линейная алгебра);
— оптимизированный обмен данными между CPU и GPU;
— взаимодействие с графическими API OpenGL и DirectX;
— поддержка 32- 64-битных операционных систем: Windows XP, Windows 7/8, Windows Vista, Linux и MacOS X;
— возможность разработки на низком уровне.

Графический конвейер, с точки зрения программистов, считается набором стадий обработки. Блок обработки геометрии генерирует треугольники, а блок движков растеризации генерирует пиксели, изображенные на мониторе. Традиционная модель программирования GPGPU указана на рисунке 1.

Рисунок 1 — Традиционная модель программирования GPGPU.

Использование GPGPU для вычислений общего назначения имеют ограничения в виде слишком большой сложности. Есть и другие ограничения, так как пиксельный шейдер всего лишь формула зависимости итогового цвета от его координаты, а язык пиксельных шейдеров это язык записи этих формул с Си-подобным синтаксисом [3].

Программно-аппаратные архитектуры для вычисления на GPU компании NVIDIA отличается от прошлых моделей GPGPU тем, что позволяет написать программы для GPU на стандартном языке C со стандартным синтаксисом, указателями и необходимостью к минимальным расширениям для доступа к вычислительным ресурсам видеочипов. NVIDIA CUDA существует независимо от графических API, и обладают некоторыми особенностями, предназначенными только для вычисления общего значения.

Технология CUDA включает в себя два API: высокого «CUDA Runtime API» и низкого «CUDA Driver API» уровней, но в одной программе совместное использование обоих невозможно, необходимо использовать или один или другой. Технология высокого уровня работает «сверху» низкого уровня, где все вызовы runtime API компилируется в простые инструкции, обрабатываемые низкоуровневым Driver API. Но даже API высокого уровня предполагает знания об устройстве и работе видеочипов NVIDIA, слишком высокоуровневой абстракции там нет. Принцип указан на рисунке 2.

Рисунок 2 — Принцип разделения на уровни Есть и ещё один уровень, даже более высокий — две библиотеки:

CUBLAS это CUDA вариант Basic Linear Algebra Subprograms (BLAS), необходимый для вычисления задач линейной алгебры и использования прямого доступа к ресурсам GPU;

CUFFT это CUDA вариант библиотек Fast Fourier Transform для расчёта ускоренного преобразования Фурье, широко используемого при обработке сигналов. Поддерживается следующие типы преобразований: complex-complex (C2C), real-complex (R2C) и complex-real (C2R)[3].

Разберемся в этих библиотеках подробнее. CUBLAS — это переведённые на язык CUDA стандартные алгоритмы линейной алгебры, на данный момент поддерживается только определённый набор основных функций CUBLAS. Библиотекой очень легко пользоваться: необходимо создать матрицу и векторные объекты в используемой памяти видеокарты, заполнить её данными, вызвать нужные функции CUBLAS, и загрузить появившиеся результаты из видеопамяти обратно в системную память. CUBLAS применяет специальные функции для создания и уничтожения объектов в памяти GPU, также и для чтения и записи данных в эту память. Способствующие функции BLAS: уровней 1, 2 и 3 для действительных чисел, где первый уровень CGEMM для комплексных. Первый уровень — это векторно-векторные операции, Второй уровень — векторно-матричные операции, Третий уровень — матрично-матричные операции.

CUFFT это CUDA вариант функции ускоренного преобразования Фурье — широко используемого и очень важной при анализе сигналов, фильтрации и т. п. CUFFT предоставляет простой интерфейс для эффективного вычисления FFT на видеочипах производства NVIDIA без необходимости в разработке собственного варианта FFT для GPU. CUDA вариант FFT поддерживает 1D, 2D, и 3D преобразования комплексных и действительных данных, пакетное исполнение для нескольких 1D трансформаций в параллели, размеры 2D и 3D трансформаций могут быть в пределах [2, 16 384], для 1D поддерживается размер до 8 миллионов элементов. nvidia cuda программирование Технология CUDA это платформа доступная каждому разработчику программного обеспечения, им может пользоваться любой программист, знающий язык Си. Необходимо только привыкнуть к другой парадигме программирования, использующей параллельным вычислениям. Но если в принципе алгоритм хорошо распараллеливается, то изучение и необходимые затраты времени на программирование на CUDA вернутся в многократном размере.

Впрочем, вероятно, что в силу обширного распространения видеокарт в мире, развивающие параллельные вычисления на GPU сильно повлияют на индустрию высокопроизводительных вычислений. Имеющие возможности уже вызвали большой интерес в научных кругах, да и не только в них. Ведь потенциальные возможности ускорения хорошо поддающихся распараллеливанию алгоритмов сразу в десятки раз бывают не так часто и это еще не предел.

1 Боресков А. В., Харламов А. А. Основы работы с технологией CUDA. — М.: ДМК Пресс, 2010. — 232 с.
2 Боресков А. В., Садовничий В. А. Параллельные вычисления на GPU. Архитектура и программная модель CUDA: Учеб. пособие — Изд-во Московского университета, 2012. — 336 с.
3 Берилло А. NVIDIA CUDA — неграфические вычисления на графических процессорах// Информационный ресурс сети интернетIXBT.com, 23.09.2008 г. — http://www.ixbt.com/video3/cuda-1.shtml.

Показать весь текст

Заполнить форму текущей работой