!13354 [MSLITE][Develop] fix bug of cpu fp32 op: layernorm; add gelu fp32

From: @yangruoqi713 Reviewed-by: @zhang_xue_tong,@zhanghaibo5 Signed-off-by: @zhang_xue_tong
4 years ago · c03f962cb6
parent 6e390ff119 be3124899e
commit c03f962cb6
7 changed files with 71 additions and 18 deletions
--- a/mindspore/lite/nnacl/fp32/activation_fp32.c
+++ b/mindspore/lite/nnacl/fp32/activation_fp32.c
@ -248,3 +248,11 @@ int HardTanh(const float *src, int length, float *dst, float min_val, float max_
  }
  return NNACL_OK;
 }
+
+int Gelu(const float *src, int length, float *dst) {
+  for (int i = 0; i < length; ++i) {
+    float tanh_res = TanhOpt(sqrt(2 / M_PI) * (src[i] + 0.044715 * pow(src[i], 3)));
+    dst[i] = 0.5f * src[i] * (1 + tanh_res);
+  }
+  return NNACL_OK;
+}
--- a/mindspore/lite/nnacl/fp32/activation_fp32.h
+++ b/mindspore/lite/nnacl/fp32/activation_fp32.h
@ -40,6 +40,7 @@ int HSigmoid(const float *src, int length, float *dst);
 int Swish(const float *src, int length, float *dst);
 int HSwish(const float *src, int length, float *dst);
 int HardTanh(const float *src, int length, float *dst, float min_val, float max_val);
+int Gelu(const float *src, int length, float *dst);

 float TanhOpt(float src);
 #ifdef __cplusplus
--- a/mindspore/lite/nnacl/fp32/layer_norm_fp32.c
+++ b/mindspore/lite/nnacl/fp32/layer_norm_fp32.c
@ -64,9 +64,10 @@ void LayerNormGammaAndBeta(float *dst, const float *src, const float *gamma_data
  }
 }

-int LayerNorm(const float *src_data, const float *gamma_data, const float *beta_data, float *dst_data,
-              LayerNormParameter *param, float *out_mean, float *out_deno, size_t task_id) {
-  if (src_data == NULL || dst_data == NULL || gamma_data == NULL || beta_data == NULL) {
+int LayerNorm(const float *src_data, const float *gamma_data, const float *beta_data, float *dst_data, float *out_mean,
+              float *out_deno, LayerNormParameter *param, size_t task_id) {
+  if (src_data == NULL || dst_data == NULL || gamma_data == NULL || beta_data == NULL || out_mean == NULL ||
+      out_deno == NULL) {
    return NNACL_NULL_PTR;
  }
  int step = UP_DIV(param->norm_outer_size_, param->op_parameter_.thread_num_);
@ -74,25 +75,22 @@ int LayerNorm(const float *src_data, const float *gamma_data, const float *beta_
  for (int i = task_id * step; i < thread_end; i++) {
    const float *src_norm = src_data + i * param->norm_inner_size_;
    float *dst_norm = dst_data + i * param->norm_inner_size_;
-    float mean = 0.0f;
-    float square_mean = 0.0f;
-    LayerNormMeanAndSquare(src_norm, param->norm_inner_size_, &mean, &square_mean);
-    const float deno = 1 / sqrtf(square_mean - mean * mean + param->epsilon_);
-    if ((out_mean != NULL) && (out_deno != NULL)) {
-      out_mean[i] = mean;
-      out_deno[i] = deno;
-    }
+    out_mean[i] = 0.0f;
+    out_deno[i] = 0.0f;
+    LayerNormMeanAndSquare(src_norm, param->norm_inner_size_, &out_mean[i], &out_deno[i]);
+    const float deno = 1 / sqrtf(out_deno[i] - out_mean[i] * out_mean[i] + param->epsilon_);
    if (param->norm_outer_size_ <= param->params_outer_size_) {
      for (int x = 0; x < param->norm_inner_size_ / param->params_inner_size_; x++) {
        const float *src_param = src_norm + x * param->params_inner_size_;
        float *dst_param = dst_norm + x * param->params_inner_size_;
-        LayerNormGammaAndBeta(dst_param, src_param, gamma_data, beta_data, param->params_inner_size_, mean, deno);
+        LayerNormGammaAndBeta(dst_param, src_param, gamma_data, beta_data, param->params_inner_size_, out_mean[i],
+                              deno);
      }
    } else {
      int x = i / param->params_outer_size_;
      const float *gamma = gamma_data + x * param->norm_inner_size_;
      const float *beta = beta_data + x * param->norm_inner_size_;
-      LayerNormGammaAndBeta(dst_norm, src_norm, gamma, beta, param->norm_inner_size_, mean, deno);
+      LayerNormGammaAndBeta(dst_norm, src_norm, gamma, beta, param->norm_inner_size_, out_mean[i], deno);
    }
  }
  return NNACL_OK;
--- a/mindspore/lite/nnacl/fp32/layer_norm_fp32.h
+++ b/mindspore/lite/nnacl/fp32/layer_norm_fp32.h
@ -23,8 +23,8 @@
 extern "C" {
 #endif

-int LayerNorm(const float *src_data, const float *gamma_data, const float *beta_data, float *dst_data,
-              LayerNormParameter *param, float *out_mean, float *out_deno, size_t task_id);
+int LayerNorm(const float *src_data, const float *gamma_data, const float *beta_data, float *dst_data, float *out_mean,
+              float *out_deno, LayerNormParameter *param, size_t task_id);
 #ifdef __cplusplus
 }
 #endif
--- a/mindspore/lite/src/ops/populate/sparse_softmax_cross_entropy_with_logits.cc
+++ b/mindspore/lite/src/ops/populate/sparse_softmax_cross_entropy_with_logits.cc
@ -0,0 +1,37 @@
+/**
+ * Copyright 2021 Huawei Technologies Co., Ltd
+ *
+ * Licensed under the Apache License, Version 2.0 (the "License");
+ * you may not use this file except in compliance with the License.
+ * You may obtain a copy of the License at
+ *
+ * http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+#include "src/ops/populate/populate_register.h"
+#include "nnacl/fp32_grad/softmax_grad.h"
+
+namespace mindspore {
+namespace lite {
+OpParameter *PopulateSparseSoftmaxCrossEntropyWithLogitsParameter(const void *prim) {
+  SoftmaxCrossEntropyParameter *softmax_cross_entropy_param_ =
+    reinterpret_cast<SoftmaxCrossEntropyParameter *>(malloc(sizeof(SoftmaxCrossEntropyParameter)));
+  if (softmax_cross_entropy_param_ == nullptr) {
+    MS_LOG(ERROR) << "malloc SoftmaxCrossEntropyParameter failed.";
+    return nullptr;
+  }
+  memset(softmax_cross_entropy_param_, 0, sizeof(SoftmaxCrossEntropyParameter));
+  auto primitive = static_cast<const schema::Primitive *>(prim);
+  softmax_cross_entropy_param_->op_parameter_.type_ = primitive->value_type();
+  return reinterpret_cast<OpParameter *>(softmax_cross_entropy_param_);
+}
+Registry SparseSoftmaxCrossEntropyWithLogitsParameterRegistry(schema::PrimitiveType_SparseSoftmaxCrossEntropyWithLogits,
+                                                              PopulateSparseSoftmaxCrossEntropyWithLogitsParameter,
+                                                              SCHEMA_CUR);
+}  // namespace lite
+}  // namespace mindspore
--- a/mindspore/lite/src/runtime/kernel/arm/fp32/activation_fp32.cc
+++ b/mindspore/lite/src/runtime/kernel/arm/fp32/activation_fp32.cc
@ -38,7 +38,7 @@ int ActivationCPUKernel::Init() {
      type_ != schema::ActivationType_LEAKY_RELU && type_ != schema::ActivationType_SIGMOID &&
      type_ != schema::ActivationType_TANH && type_ != schema::ActivationType_HSWISH &&
      type_ != schema::ActivationType_SWISH && type_ != schema::ActivationType_HSIGMOID &&
-      type_ != schema::ActivationType_HARD_TANH) {
+      type_ != schema::ActivationType_HARD_TANH && type_ != schema::ActivationType_GELU) {
    MS_LOG(ERROR) << "Activation fp32 not support type: " << type_;
    return RET_ERROR;
  }
@ -78,6 +78,8 @@ int ActivationCPUKernel::DoActivation(int task_id) {
    ret = HSigmoid(input_addr + stride * task_id, count, output_addr + stride * task_id);
  } else if (type_ == schema::ActivationType_HARD_TANH) {
    ret = HardTanh(input_addr + stride * task_id, count, output_addr + stride * task_id, min_val_, max_val_);
+  } else if (type_ == schema::ActivationType_GELU) {
+    ret = Gelu(input_addr + stride * task_id, count, output_addr + stride * task_id);
  } else {
    MS_LOG(ERROR) << "Activation type error";
    return RET_ERROR;
--- a/mindspore/lite/src/runtime/kernel/arm/fp32/layer_norm_fp32.cc
+++ b/mindspore/lite/src/runtime/kernel/arm/fp32/layer_norm_fp32.cc
@ -61,7 +61,7 @@ int LayerNormCPUKernel::ReSize() {
 }

 int LayerNormCPUKernel::DoLayerNorm(int thread_id) {
-  int ret = LayerNorm(src_data_, gamma_data_, beta_data_, dst_data_, param_, mean_data_, var_data_, thread_id);
+  int ret = LayerNorm(src_data_, gamma_data_, beta_data_, dst_data_, mean_data_, var_data_, param_, thread_id);
  if (ret != RET_OK) {
    MS_LOG(ERROR) << "DoLayerNorm error error_code[" << ret << "]";
    return ret;
@ -85,11 +85,18 @@ int LayerNormCPUKernel::Run() {
  gamma_data_ = reinterpret_cast<float *>(in_tensors_.at(1)->data_c());
  beta_data_ = reinterpret_cast<float *>(in_tensors_.at(2)->data_c());
  dst_data_ = reinterpret_cast<float *>(out_tensors_.at(0)->data_c());
-  if (out_tensors_.size() >= 3) {
+  if (out_tensors_.size() == 3) {
    mean_data_ = reinterpret_cast<float *>(out_tensors_.at(1)->data_c());
    var_data_ = reinterpret_cast<float *>(out_tensors_.at(2)->data_c());
+  } else {
+    mean_data_ = reinterpret_cast<float *>(context_->allocator->Malloc(param_->norm_outer_size_ * sizeof(float)));
+    var_data_ = reinterpret_cast<float *>(context_->allocator->Malloc(param_->norm_outer_size_ * sizeof(float)));
  }
  ret = ParallelLaunch(this->context_->thread_pool_, LayerNormRun, this, op_parameter_->thread_num_);
+  if (out_tensors_.size() != 3) {
+    context_->allocator->Free(mean_data_);
+    context_->allocator->Free(var_data_);
+  }
  return ret;
 }