Paddle/paddle/operators/cross_entropy_op.cu

/* Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserve.

   Licensed under the Apache License, Version 2.0 (the "License");
   you may not use this file except in compliance with the License.
   You may obtain a copy of the License at

   http://www.apache.org/licenses/LICENSE-2.0

   Unless required by applicable law or agreed to in writing, software
   distributed under the License is distributed on an "AS IS" BASIS,
   WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
   See the License for the specific language governing permissions and
   limitations under the License. */

#include "paddle/framework/op_registry.h"
#include "paddle/operators/cross_entropy_op.h"
#include "paddle/platform/assert.h"
#include "paddle/platform/hostdevice.h"

namespace paddle {
namespace operators {

template <typename T>
__global__ void CrossEntropyKernel(T* Y, const T* X, const int* label,
                                   const int N, const int D) {
  // TOOD(qingqing) define CUDA_1D_KERNEL_LOOP macro in a common file.
  // CUDA_1D_KERNEL_LOOP(i, N) {
  for (int i = blockIdx.x * blockDim.x + threadIdx.x; i < N;
       i += blockDim.x * gridDim.x) {
    PADDLE_ASSERT(label[i] >= 0 && label[i] < D);
    Y[i] = -TolerableValue<T>()(log(X[i * D + label[i]]));
  }
}

template <typename T>
__device__ __forceinline__ T sum_single_warp(T val) {
  val += __shfl_down(val, 16);
  val += __shfl_down(val, 8);
  val += __shfl_down(val, 4);
  val += __shfl_down(val, 2);
  val += __shfl_down(val, 1);
  return val;
}

template <typename T>
__global__ void SoftCrossEntropyKernel(T* Y, const T* X, const T* label,
                                       const int class_num) {
  int tid = threadIdx.x;
  extern __shared__ T d_sum[];
  d_sum[tid] = 0;

  int cur_idx = tid;
  int next_idx = blockIdx.x * class_num + tid;
  while (cur_idx < class_num) {
    d_sum[tid] += TolerableValue<T>()(std::log(X[next_idx])) * label[next_idx];
    next_idx += blockDim.x;
    cur_idx += blockDim.x;
  }
  __syncthreads();

  for (unsigned int stride = blockDim.x >> 1; stride >= 32; stride >>= 1) {
    if (tid < stride) d_sum[tid] += d_sum[tid + stride];
    __syncthreads();
  }

  T val = d_sum[tid];
  val = sum_single_warp<T>(val);
  if (tid == 0) Y[blockIdx.x] = -val;
}

// TODO(qingqing): make zero setting a common function.
template <typename T>
__global__ void zero(T* X, const int N) {
  for (int i = blockIdx.x * blockDim.x + threadIdx.x; i < N;
       i += blockDim.x * gridDim.x) {
    X[i] = 0.0;
  }
}

template <typename T>
__global__ void CrossEntropyGradientKernel(T* dX, const T* dY, const T* X,
                                           const int* label, const int N,
                                           const int D) {
  // TOOD(qingqing) define CUDA_1D_KERNEL_LOOP macro in a common file.
  // CUDA_1D_KERNEL_LOOP(i, N) {
  for (int i = blockIdx.x * blockDim.x + threadIdx.x; i < N;
       i += blockDim.x * gridDim.x) {
    int idx = i * D + label[i];
    dX[idx] = -dY[i] / X[idx];
  }
}

template <typename T>
__global__ void SoftCrossEntropyGradientKernel(T* dX, const T* dY, const T* X,
                                               const T* label, const int N,
                                               const int D) {
  int ids = blockIdx.x * blockDim.x + threadIdx.x;
  if (ids < N * D) {
    int row_ids = ids / D;
    dX[ids] = -label[ids] * dY[row_ids] / X[ids];
  }
}

template <typename T>
class CrossEntropyOpCUDAKernel : public framework::OpKernel {
 public:
  void Compute(const framework::ExecutionContext& ctx) const override {
    PADDLE_ENFORCE(platform::is_gpu_place(ctx.GetPlace()),
                   "This kernel only runs on GPU device.");

    auto x = ctx.Input<Tensor>("X");
    auto y = ctx.Output<Tensor>("Y");
    auto label = ctx.Input<Tensor>("Label");

    auto* x_data = x->data<T>();
    y->mutable_data<T>(ctx.GetPlace());
    auto* y_data = y->data<T>();

    int batch_size = x->dims()[0];
    int class_num = x->dims()[1];

    if (ctx.Attr<bool>("soft_label")) {
      auto* label_data = ctx.Input<Tensor>("Label")->data<T>();
      int block = class_num > 512 ? 512 : pow(2, int(std::log2(class_num)));

      SoftCrossEntropyKernel<
          T><<<batch_size, block, block * sizeof(T),
               reinterpret_cast<const platform::CUDADeviceContext&>(
                   ctx.device_context())
                   .stream()>>>(y_data, x_data, label_data, class_num);
    } else {
      auto* label_data = ctx.Input<Tensor>("Label")->data<int>();
      int block = 512;
      int grid = (batch_size + block - 1) / block;
      CrossEntropyKernel<T><<<
          grid, block, 0, reinterpret_cast<const platform::CUDADeviceContext&>(
                              ctx.device_context())
                              .stream()>>>(y_data, x_data, label_data,
                                           batch_size, class_num);
    }
  }
};

template <typename T>
class CrossEntropyGradientOpCUDAKernel : public framework::OpKernel {
 public:
  void Compute(const framework::ExecutionContext& ctx) const override {
    PADDLE_ENFORCE(platform::is_gpu_place(ctx.GetPlace()),
                   "This kernel only runs on GPU device.");

    auto x = ctx.Input<Tensor>("X");
    auto dx = ctx.Output<Tensor>(framework::GradVarName("X"));
    auto dy = ctx.Input<Tensor>(framework::GradVarName("Y"));
    auto label = ctx.Input<Tensor>("Label");

    auto* dx_data = dx->mutable_data<T>(ctx.GetPlace());
    auto* dy_data = dy->data<T>();
    auto* x_data = x->data<T>();

    int n = x->dims()[0];
    int d = x->dims()[1];

    int block = 512;
    int grid = (n * d + block - 1) / block;
    zero<T><<<grid, block, 0,
              reinterpret_cast<const platform::CUDADeviceContext&>(
                  ctx.device_context())
                  .stream()>>>(dx_data, n * d);
    if (ctx.Attr<bool>("soft_label")) {
      auto* label_data = label->data<T>();
      SoftCrossEntropyGradientKernel<T><<<
          grid, block, 0, reinterpret_cast<const platform::CUDADeviceContext&>(
                              ctx.device_context())
                              .stream()>>>(dx_data, dy_data, x_data, label_data,
                                           n, d);
    } else {
      auto* label_data = label->data<int>();
      CrossEntropyGradientKernel<T><<<
          grid, block, 0, reinterpret_cast<const platform::CUDADeviceContext&>(
                              ctx.device_context())
                              .stream()>>>(dx_data, dy_data, x_data, label_data,
                                           n, d);
    }
  }
};

}  // namespace operators
}  // namespace paddle

namespace ops = paddle::operators;
REGISTER_OP_GPU_KERNEL(cross_entropy, ops::CrossEntropyOpCUDAKernel<float>);
REGISTER_OP_GPU_KERNEL(cross_entropy_grad,
                       ops::CrossEntropyGradientOpCUDAKernel<float>);
Add cpplint for .h and cuda .cu 8 years ago			`/* Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserve.`

			`Licensed under the Apache License, Version 2.0 (the "License");`
			`you may not use this file except in compliance with the License.`
			`You may obtain a copy of the License at`

			`http://www.apache.org/licenses/LICENSE-2.0`

			`Unless required by applicable law or agreed to in writing, software`
			`distributed under the License is distributed on an "AS IS" BASIS,`
			`WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.`
			`See the License for the specific language governing permissions and`
			`limitations under the License. */`

Implement GPU kernel for cross entropy operator. 8 years ago			`#include "paddle/framework/op_registry.h"`
Use soft_label attribute for cross-entropy. 8 years ago			`#include "paddle/operators/cross_entropy_op.h"`
Implement GPU kernel for cross entropy operator. 8 years ago			`#include "paddle/platform/assert.h"`
Update cross entropy operator by following reviewer's comments. 8 years ago			`#include "paddle/platform/hostdevice.h"`
Implement GPU kernel for cross entropy operator. 8 years ago
			`namespace paddle {`
			`namespace operators {`

			`template <typename T>`
			`__global__ void CrossEntropyKernel(T* Y, const T* X, const int* label,`
			`const int N, const int D) {`
			`// TOOD(qingqing) define CUDA_1D_KERNEL_LOOP macro in a common file.`
			`// CUDA_1D_KERNEL_LOOP(i, N) {`
			`for (int i = blockIdx.x * blockDim.x + threadIdx.x; i < N;`
			`i += blockDim.x * gridDim.x) {`
			`PADDLE_ASSERT(label[i] >= 0 && label[i] < D);`
update the backward kernel. 8 years ago			`Y[i] = -TolerableValue<T>()(log(X[i * D + label[i]]));`
Add soft-label support for cross-entropy operator. 8 years ago			`}`
			`}`

fix cpu kernel with soft labels. 7 years ago			`template <typename T>`
			`__device__ __forceinline__ T sum_single_warp(T val) {`
			`val += __shfl_down(val, 16);`
			`val += __shfl_down(val, 8);`
			`val += __shfl_down(val, 4);`
			`val += __shfl_down(val, 2);`
			`val += __shfl_down(val, 1);`
			`return val;`
			`}`

			`template <typename T>`
delete redundant codes. 7 years ago			`__global__ void SoftCrossEntropyKernel(T* Y, const T* X, const T* label,`
			`const int class_num) {`
fix cpu kernel with soft labels. 7 years ago			`int tid = threadIdx.x;`
			`extern __shared__ T d_sum[];`
			`d_sum[tid] = 0;`

			`int cur_idx = tid;`
			`int next_idx = blockIdx.x * class_num + tid;`
			`while (cur_idx < class_num) {`
			`d_sum[tid] += TolerableValue<T>()(std::log(X[next_idx])) * label[next_idx];`
			`next_idx += blockDim.x;`
			`cur_idx += blockDim.x;`
			`}`
			`__syncthreads();`

			`for (unsigned int stride = blockDim.x >> 1; stride >= 32; stride >>= 1) {`
			`if (tid < stride) d_sum[tid] += d_sum[tid + stride];`
			`__syncthreads();`
			`}`

			`T val = d_sum[tid];`
			`val = sum_single_warp<T>(val);`
			`if (tid == 0) Y[blockIdx.x] = -val;`
			`}`

			`// TODO(qingqing): make zero setting a common function.`
Implement GPU kernel for cross entropy operator. 8 years ago			`template <typename T>`
			`__global__ void zero(T* X, const int N) {`
			`for (int i = blockIdx.x * blockDim.x + threadIdx.x; i < N;`
			`i += blockDim.x * gridDim.x) {`
			`X[i] = 0.0;`
			`}`
			`}`

			`template <typename T>`
			`__global__ void CrossEntropyGradientKernel(T* dX, const T* dY, const T* X,`
			`const int* label, const int N,`
			`const int D) {`
			`// TOOD(qingqing) define CUDA_1D_KERNEL_LOOP macro in a common file.`
			`// CUDA_1D_KERNEL_LOOP(i, N) {`
			`for (int i = blockIdx.x * blockDim.x + threadIdx.x; i < N;`
			`i += blockDim.x * gridDim.x) {`
			`int idx = i * D + label[i];`
			`dX[idx] = -dY[i] / X[idx];`
			`}`
			`}`

			`template <typename T>`
Add soft-label support for cross-entropy operator. 8 years ago			`__global__ void SoftCrossEntropyGradientKernel(T* dX, const T* dY, const T* X,`
			`const T* label, const int N,`
			`const int D) {`
fix cpu kernel with soft labels. 7 years ago			`int ids = blockIdx.x * blockDim.x + threadIdx.x;`
update the backward kernel. 8 years ago			`if (ids < N * D) {`
fix cpu kernel with soft labels. 7 years ago			`int row_ids = ids / D;`
update the backward kernel. 8 years ago			`dX[ids] = -label[ids] * dY[row_ids] / X[ids];`
Add soft-label support for cross-entropy operator. 8 years ago			`}`
			`}`

			`template <typename T>`
			`class CrossEntropyOpCUDAKernel : public framework::OpKernel {`
Implement GPU kernel for cross entropy operator. 8 years ago			`public:`
			`void Compute(const framework::ExecutionContext& ctx) const override {`
			`PADDLE_ENFORCE(platform::is_gpu_place(ctx.GetPlace()),`
update the backward kernel. 8 years ago			`"This kernel only runs on GPU device.");`
Implement GPU kernel for cross entropy operator. 8 years ago
Add soft-label support for cross-entropy operator. 8 years ago			`auto x = ctx.Input<Tensor>("X");`
			`auto y = ctx.Output<Tensor>("Y");`
			`auto label = ctx.Input<Tensor>("Label");`

			`auto* x_data = x->data<T>();`
			`y->mutable_data<T>(ctx.GetPlace());`
			`auto* y_data = y->data<T>();`
Implement GPU kernel for cross entropy operator. 8 years ago
fix cpu kernel with soft labels. 7 years ago			`int batch_size = x->dims()[0];`
			`int class_num = x->dims()[1];`

Use bool type for attr in cross_entropy_op. 7 years ago			`if (ctx.Attr<bool>("soft_label")) {`
Add soft-label support for cross-entropy operator. 8 years ago			`auto* label_data = ctx.Input<Tensor>("Label")->data<T>();`
delete redundant codes. 7 years ago			`int block = class_num > 512 ? 512 : pow(2, int(std::log2(class_num)));`

			`SoftCrossEntropyKernel<`
			`T><<<batch_size, block, block * sizeof(T),`
			`reinterpret_cast<const platform::CUDADeviceContext&>(`
			`ctx.device_context())`
			`.stream()>>>(y_data, x_data, label_data, class_num);`
Add soft-label support for cross-entropy operator. 8 years ago			`} else {`
			`auto* label_data = ctx.Input<Tensor>("Label")->data<int>();`
delete redundant codes. 7 years ago			`int block = 512;`
fix cpu kernel with soft labels. 7 years ago			`int grid = (batch_size + block - 1) / block;`
			`CrossEntropyKernel<T><<<`
			`grid, block, 0, reinterpret_cast<const platform::CUDADeviceContext&>(`
			`ctx.device_context())`
			`.stream()>>>(y_data, x_data, label_data,`
			`batch_size, class_num);`
Add soft-label support for cross-entropy operator. 8 years ago			`}`
Implement GPU kernel for cross entropy operator. 8 years ago			`}`
			`};`

			`template <typename T>`
Add soft-label support for cross-entropy operator. 8 years ago			`class CrossEntropyGradientOpCUDAKernel : public framework::OpKernel {`
Implement GPU kernel for cross entropy operator. 8 years ago			`public:`
			`void Compute(const framework::ExecutionContext& ctx) const override {`
			`PADDLE_ENFORCE(platform::is_gpu_place(ctx.GetPlace()),`
update the backward kernel. 8 years ago			`"This kernel only runs on GPU device.");`
Implement GPU kernel for cross entropy operator. 8 years ago
Add soft-label support for cross-entropy operator. 8 years ago			`auto x = ctx.Input<Tensor>("X");`
			`auto dx = ctx.Output<Tensor>(framework::GradVarName("X"));`
			`auto dy = ctx.Input<Tensor>(framework::GradVarName("Y"));`
			`auto label = ctx.Input<Tensor>("Label");`
Implement GPU kernel for cross entropy operator. 8 years ago
Add soft-label support for cross-entropy operator. 8 years ago			`auto* dx_data = dx->mutable_data<T>(ctx.GetPlace());`
			`auto* dy_data = dy->data<T>();`
			`auto* x_data = x->data<T>();`
Implement GPU kernel for cross entropy operator. 8 years ago
Add soft-label support for cross-entropy operator. 8 years ago			`int n = x->dims()[0];`
			`int d = x->dims()[1];`
fix cpu kernel with soft labels. 7 years ago
Implement GPU kernel for cross entropy operator. 8 years ago			`int block = 512;`
Add soft-label support for cross-entropy operator. 8 years ago			`int grid = (n * d + block - 1) / block;`
fix cpu kernel with soft labels. 7 years ago			`zero<T><<<grid, block, 0,`
			`reinterpret_cast<const platform::CUDADeviceContext&>(`
			`ctx.device_context())`
			`.stream()>>>(dx_data, n * d);`
Use bool type for attr in cross_entropy_op. 7 years ago			`if (ctx.Attr<bool>("soft_label")) {`
Add soft-label support for cross-entropy operator. 8 years ago			`auto* label_data = label->data<T>();`
fix cpu kernel with soft labels. 7 years ago			`SoftCrossEntropyGradientKernel<T><<<`
			`grid, block, 0, reinterpret_cast<const platform::CUDADeviceContext&>(`
			`ctx.device_context())`
			`.stream()>>>(dx_data, dy_data, x_data, label_data,`
			`n, d);`
Add soft-label support for cross-entropy operator. 8 years ago			`} else {`
			`auto* label_data = label->data<int>();`
fix cpu kernel with soft labels. 7 years ago			`CrossEntropyGradientKernel<T><<<`
			`grid, block, 0, reinterpret_cast<const platform::CUDADeviceContext&>(`
			`ctx.device_context())`
			`.stream()>>>(dx_data, dy_data, x_data, label_data,`
			`n, d);`
Add soft-label support for cross-entropy operator. 8 years ago			`}`
Implement GPU kernel for cross entropy operator. 8 years ago			`}`
			`};`

			`} // namespace operators`
			`} // namespace paddle`
add cross-entropy-op (#2965) * add cross-entropy-op * add infershape and compute * implement Infershape and compute of onehotcrossentropy op 8 years ago
"net op alias" 8 years ago			`namespace ops = paddle::operators;`
Add soft-label support for cross-entropy operator. 8 years ago			`REGISTER_OP_GPU_KERNEL(cross_entropy, ops::CrossEntropyOpCUDAKernel<float>);`
			`REGISTER_OP_GPU_KERNEL(cross_entropy_grad,`
			`ops::CrossEntropyGradientOpCUDAKernel<float>);`