Сравнение существующих API CUDA

Сравнение существующих API CUDA Александр Харламов, ВМК МГУ, NVIDIA NVIDIA Corporation, 2010 CUDA для параллельных вычислений • Программно-аппаратный стек для процессоров NVIDIA • Раскрывает потенциал GPU для вычислений общего назначения • Спроектирован для поддержки любого вычислительного интерфейса ATI’s Compute “Solution” – OpenCL, C/C++, и т.д. NVIDIA Corporation, 2010 Средства разработки NVIDIA Corporation, 2010 Средства разработки • CUDA C – Runtime API – Driver API • OpenCL • DirectX Compute NVIDIA Corporation, 2010 CUDA C (Runtime API) • Расширение языка C • CUDA API: – Расширения языка C • Затрагивает те части кода, которые исполняются на GPU – Runtime библиотека состоит из: • Общие компоненты (типы и функции) • Управление GPU и взаимодействие с графическими API • Функции доступные на GPU – __syncthreads – «быстрые» функции NVIDIA Corporation, 2010 Расширение языка: Спецификаторы функций Исполняется Вызывается __device__ float DeviceFunc() device device __global__ void device host host host __host__ KernelFunc() float HostFunc() • __global__ определяет ядро – Всегда возвращает void • __device__ и __host__ можно использовать вместе • __device__ недоступен указатель на функции • Для __device__ функций – Нет рекурсии – Нет статических переменных – Нет переменного числа аргументов NVIDIA Corporation, 2010 Расширение языка: Спецификаторы переменных Память Видимость Время жизни __shared__ int SharedVar; shared thread block thread block __device__ int GlobalVar; global grid Приложение constant grid Приложение __constant__ int ConstantVar; • Переменные без спецификатора попадают в регистры – Кроме больших структур, которые попадают в локальную память • Указатели могут указывать на участок разделяемой или глобальной памяти – Глобальная память: • Память выделенная на CPU и переданная в ядро – Разделяемая память: • Статически выделенная внутри ядра • Статически выделенная при вызове NVIDIA Corporation, 2010 CUDA C Runtime • NVCC (cudart.lib) • Спецификаторы функций • Встроенные переменные #define N #define PI (256*256) 3.1415926f // array size __global__ void kernel ( float * data ) { int idx = blockIdx.x * blockDim.x + threadIdx.x ; data [idx] = idx; } • С / C++ интерфейс • Библиотека функций – __device__ NVIDIA Corporation, 2010 CUDA C Runtime • NVCC (cudart.lib) int main ( int argc, char * argv [] ) { float * a = new float [N]; // CPU память float * dev = NULL; // GPU память // выделение памяти • Спецификаторы функций cudaMalloc ( (void**)&dev, s N * sizeof ( float ) ); dim3 threads = dim3( 512, 1 ); • Встроенные переменные dim3 blocks = dim3( N / threads.x, 1 ); • С / C++ интерфейс // запуск ядра kernel<<<blocks, threads>>> ( dev ); cudaThreadSynchronize(); • Библиотека функций cudaMemcpy ( a, dev, N * sizeof ( float ), cudaMemcpyDeviceToHost ); cudaFree ( dev ); – __host__ delete [] a; return 0; } NVIDIA Corporation, 2010 CUDA C Runtime • NVCC • -keep – .ptx – .cubin NVIDIA Corporation, 2010 CUDA C Runtime • NVCC • -keep __global__ void kernel ( float * data ) { int idx = blockIdx.x * blockDim.x + threadIdx.x ; data [idx] = idx; } – .ptx – .cubin NVIDIA Corporation, 2010 CUDA C Runtime • NVCC • -keep – .ptx – .cubin .entry _Z6kernelPf ( .param .u32 __cudaparm__Z6kernelPf_data) { .reg .u16 %rh<4>; .reg .u32 %r<8>; .reg .f32 %f<3>; .loc 14 6 0 $LBB1__Z6kernelPf: .loc 14 10 0 mov.u16 %rh1, %ctaid.x; // mov.u16 %rh2, %ntid.x; // mul.wide.u16 %r1, %rh1, %rh2; // cvt.u32.u16 %r2, %tid.x; // add.u32 %r3, %r2, %r1; // cvt.rn.f32.s32 %f1, %r3; // ld.param.u32 %r4, [__cudaparm__Z6kernelPf_data]; // i mul.lo.u32 %r5, %r3, 4; // add.u32 %r6, %r4, %r5; // st.global.f32 [%r6+0], %f1; // id:15 .loc 14 11 0 exit; $LDWend__Z6kernelPf: } // _Z6kernelPf NVIDIA Corporation, 2010 CUDA C Driver • Низкоуровневый API – Инициализация cuInit() – Поиск устройства CUdevice – Создание контекста CUcontext – Загрузка модуля CUmodule – Загрузка функции CUfunction – Выделение памяти CUdeviceptr – // … CUdevice device; CUcontext context; CUmodule module; CUfunction function; CUdeviceptr pData; float * pHostData = new float[N]; cuInit(0); cuDeviceGetCount(&device_count); cuDeviceGet( &device, 0 ); cuCtxCreate( &context, 0, device ); cuModuleLoad( &module, "hello.cuda_runtime.ptx" ); cuModuleGetFunction( &function, module, "_Z6kernelPf" ); cuMemAlloc( &pData, N * sizeof(float) ); // ... NVIDIA Corporation, 2010 CUDA C Driver // ... • Низкоуровневый API – // … – Установка размеров блока – Установка аргументов функции ядра – Установка параметров ядра cuFuncSetBlockShape( function, N, 1, 1 ); cuParamSeti( function, 0, pData ); cuParamSetSize( function, sizeof(void *) ); cuLaunchGrid( function, 1, 1 ); cuMemcpyDtoH( pHostData, pData, N * sizeof( float) ); cuMemFree( pData ); – Запуск ядра cuLaunch() – Копирование памяти – Освобождение ресурсов NVIDIA Corporation, 2010 OpenCL • Кроссплатформенный стандарт – GPU, CPU, Cell, … • Проблема: функциональность, но не производительность – Разный код для разных платформ – Разные расширения ОpenGL-style NVIDIA Corporation, 2010 CUDA vs OpenCL Терминология • CUDA C • OpenCL – Поток (thread) – Элемент работы (work-item) – Блок потоков (thread block) – Группа работы (work-group) – Сеть (grid) – N-мерное пространство индексов (ND-Range index space) – Ядро – Ядро NVIDIA Corporation, 2010 CUDA vs OpenCL Спецификаторы функций • CUDA C – __global__ • OpenCL – __host__ – __kernel – n/a – __device__ – n/a NVIDIA Corporation, 2010 CUDA vs OpenCL Пространство памяти • CUDA C • OpenCL – __device__ – __global – __shared__ – __local – __constant__ – __constant – local – __private NVIDIA Corporation, 2010 OpenCL • Низкоуровневый API – Создание контекста cl_context – Поиск устройства cl_device_id – Создание очереди команд – Создание ид. программы и компиляция – Создание ид. ядра – // ... cl_context ctx; cl_command_queue cmd_q; cl_program program; cl_kernel kernel; cl_mem mem; cl_device_id * pDevId = NULL; ctx = clCreateContextFromType(0,CL_DEVICE_TYPE_GPU,0,0,0) clGetContextInfo(ctx,CL_CONTEXT_DEVICES,0,0,&dev_cnt); clGetContextInfo(ctx,CL_CONTEXT_DEVICES,dev_cnt,pDevId,0) cmd_q= clCreateCommandQueue(ctx,pDevId[0],0,0); program = clCreateProgramWithSource(ctx,1,pText,0,0); clBuildProgram(program, 0,0,0,0,0); kernel = clCreateKernel(program, "simple", 0); // ... NVIDIA Corporation, 2010 OpenCL • Низкоуровневый API – // ... – Выделение памяти – Установка аргументов функции ядра – Добавление в очередь ядра с заданным размером рабочей группы и NDRange – Добавление в очередь копирование памяти // ... mem = clCreateBuffer(ctx,CL_MEM_WRITE_ONLY, N*sizeof(float),0,0); clSetKernelArg(kernel, 0, sizeof(cl_mem),(void*) &mem); clSetKernelArg(kernel, 1, sizeof(int), (void*) &N); clEnqueueNDRangeKernel(cmd_q,kernel,1,0,&N,&N,0,0,0); clEnqueueReadBuffer(cmd_q, mem, CL_TRUE, 0, N*sizeof(float), pData,0,0,0); clReleaseMemObject(mem); clReleaseKernel(kernel); clReleaseProgram(program); clReleaseCommandQueue(cmd_q); clReleaseContext(ctx); – Освобождение ресурсов NVIDIA Corporation, 2010 DirectX Compute • Microsoft API • Тесно интегрирован с Direct3D • Доступен – CS 4.x: DirectX 10 HW – CS 5.x: DirectX 11 HW NVIDIA Corporation, 2010 DirectX • ID3D11Device – ID3D11Resource – ID3D11View • ID3D11DeviceContext NVIDIA Corporation, 2010 CUDA vs DirectX Спецификаторы функций • CUDA C – __global__ • DirectX – __host__ – Compute Shader – n/a – __device__ – n/a NVIDIA Corporation, 2010 CUDA vs DirectX Compute Пространство памяти • CUDA C • DirectX – __device__ – [Structured]Buffer – __shared__ – groupshared – __constant__ – Constant Buffer – local – n/a NVIDIA Corporation, 2010 DirectX • ID3D11Device – ID3D11Resource – ID3D11View • ID3D11DeviceContext • ID3D11Asynchronous – ID3D11Query • ID3D11ComputeShader • ID3DX11Effect NVIDIA Corporation, 2010 DirectX • ID3D11Device – ID3D11Resource • Buffer • StructuredBuffer • Texture – ID3D11View • ShaderResourceView • UnorderedAccessView • RenderTargetView NVIDIA Corporation, 2010 DirectX • ID3D11DeviceContext – Dispatch(bx, by, bz) – DispatchIndirect(pBuffer, offset) – End(pQuery) – GetData(g_pQuerry, NULL, 0, 0 ) NVIDIA Corporation, 2010 DirectX • ID3D11ComputeShader • ConstantBuffer • ShaderResourceView • UnorderedAccessView • ID3D11Effect • ConstantBuffer • ShaderResourceView • UnorderedAccessView NVIDIA Corporation, 2010 DirectX • ID3D11ComputeShader pContext->CSSetShader(pCS, NULL, 0); pContext->CSSetUnorderedAccessViews(0, 1, &pRWBufUAV, NULL); • ID3D11Effect pEffect->GetVariableByName(“tSimple”)->AsUnorderedAccessView()>SetUnorderedAccessView(pRWBufUAV); pEffect->GetTechniqueByName(“tSimple”)->GetPassByName(“pSimple")->Apply(0, pContext); NVIDIA Corporation, 2010 DirectX Compute Shader NVIDIA Corporation, 2010 DirectX Compute Shader NVIDIA Corporation, 2010 DirectX Compute Shader NVIDIA Corporation, 2010 Вопросы? tesla.parallel.ru/wordpress NVIDIA Corporation, 2010

Сравнение существующих API CUDA

Related documents

Products

Support

Сравнение существующих API CUDA

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib