!10787 [MSLITE] arithmetic optimize

From: @ling_qiao_min Reviewed-by: Signed-off-by:
4 years ago · 0aac2892d8
parent eb147d0911 1e60984f29
commit 0aac2892d8
61 changed files with 707 additions and 2518 deletions
--- a/mindspore/lite/nnacl/adder.h
+++ b/mindspore/lite/nnacl/adder.h
@ -16,9 +16,7 @@
 #ifndef MINDSPORE_LITE_NNACL_ADDER_H_
 #define MINDSPORE_LITE_NNACL_ADDER_H_

-#include <math.h>
 #include "nnacl/op_base.h"
-#include "nnacl/quantization/fixed_point.h"

 typedef struct AdderParameter {
  OpParameter op_parameter_;
--- a/mindspore/lite/nnacl/arithmetic.c
+++ b/mindspore/lite/nnacl/arithmetic.c
@ -13,9 +13,18 @@
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
-#include "nnacl/flatten.h"
-#include <string.h>

-void Flatten(const void *input, void *output, const FlattenParameter *flatten_param) {
-  memcpy(output, input, flatten_param->size);
+#include "nnacl/arithmetic.h"
+
+void CalcMultiplesAndStrides(ArithmeticParameter *param) {
+  NNACL_ASSERT(param->in_shape0_[i] != 0);
+  NNACL_ASSERT(param->in_shape1_[i] != 0);
+  for (size_t i = 0; i < param->ndim_; i++) {
+    param->multiples0_[i] = param->out_shape_[i] / param->in_shape0_[i];
+    param->multiples1_[i] = param->out_shape_[i] / param->in_shape1_[i];
+  }
+  // cal strides
+  ComputeStrides(param->in_shape0_, param->in_strides0_, param->ndim_);
+  ComputeStrides(param->in_shape1_, param->in_strides1_, param->ndim_);
+  ComputeStrides(param->out_shape_, param->out_strides_, param->ndim_);
 }
--- a/mindspore/lite/nnacl/arithmetic.h
+++ b/mindspore/lite/nnacl/arithmetic.h
@ -13,23 +13,41 @@
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
-#ifndef MINDSPORE_LITE_NNACL_FLATTEN_H_
-#define MINDSPORE_LITE_NNACL_FLATTEN_H_
+
+#ifndef MINDSPORE_LITE_NNACL_ARTITHMETIC_H_
+#define MINDSPORE_LITE_NNACL_ARTITHMETIC_H_
+
 #include "nnacl/op_base.h"
+#include "nnacl/common_func.h"
+#include "nnacl/nnacl_utils.h"

-typedef struct FlattenParameter {
-  // Primitive parameter
+typedef struct ArithmeticParameter {
  OpParameter op_parameter_;
-  // other parameter
-  int size;
-} FlattenParameter;
+  bool broadcasting_;
+  size_t ndim_;
+  int activation_type_;
+  int in_shape0_[10];
+  int in_elements_num0_;
+  int in_shape1_[10];
+  int in_elements_num1_;
+
+  int out_shape_[10];
+  int out_elements_num_;
+
+  int in_strides0_[10];
+  int in_strides1_[10];
+  int out_strides_[10];
+
+  int multiples0_[10];
+  int multiples1_[10];
+} ArithmeticParameter;

 #ifdef __cplusplus
 extern "C" {
 #endif
-void Flatten(const void *input, void *output, const FlattenParameter *flatten_param);
+void CalcMultiplesAndStrides(ArithmeticParameter *param);
 #ifdef __cplusplus
 }
 #endif

-#endif  // MINDSPORE_LITE_NNACL_FLATTEN_H_
+#endif  // MINDSPORE_LITE_NNACL_ARTITHMETIC_H_
--- a/mindspore/lite/nnacl/arithmetic_common.c
+++ b/mindspore/lite/nnacl/arithmetic_common.c
@ -1,102 +0,0 @@
-/**
- * Copyright 2020 Huawei Technologies Co., Ltd
- *
- * Licensed under the Apache License, Version 2.0 (the "License");
- * you may not use this file except in compliance with the License.
- * You may obtain a copy of the License at
- *
- * http://www.apache.org/licenses/LICENSE-2.0
- *
- * Unless required by applicable law or agreed to in writing, software
- * distributed under the License is distributed on an "AS IS" BASIS,
- * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
- * See the License for the specific language governing permissions and
- * limitations under the License.
- */
-
-#include "nnacl/arithmetic_common.h"
-#include "nnacl/nnacl_utils.h"
-
-void TileOneDimension(const float *inData, float *outData, int dim, size_t ndim, const int *inShape,
-                      const int *inStrides, const int *outStrides, const int *multiple) {
-  int srcDimSize = inShape[dim];
-  if (dim == ndim - 1) {
-    for (int i = 0; i < multiple[dim]; i++) {
-      memcpy(outData, inData, srcDimSize * sizeof(float));
-      outData += srcDimSize;
-    }
-    return;
-  }
-  for (size_t i = 0; i < srcDimSize; i++) {
-    for (size_t j = 0; j < multiple[dim]; j++) {
-      TileOneDimension(inData + inStrides[dim] * i, outData + outStrides[dim] * (i + j * srcDimSize), dim + 1, ndim,
-                       inShape, inStrides, outStrides, multiple);
-    }
-  }
-}
-
-void TileOneDimensionUint8(const uint8_t *inData, uint8_t *outData, int dim, size_t ndim, const int *inShape,
-                           const int *inStrides, const int *outStrides, const int *multiple) {
-  int srcDimSize = inShape[dim];
-  if (dim == ndim - 1) {
-    for (int i = 0; i < multiple[dim]; i++) {
-      memcpy(outData, inData, srcDimSize * sizeof(uint8_t));
-      outData += srcDimSize;
-    }
-    return;
-  }
-  for (size_t i = 0; i < srcDimSize; i++) {
-    for (size_t j = 0; j < multiple[dim]; j++) {
-      TileOneDimensionUint8(inData + inStrides[dim] * i, outData + outStrides[dim] * (i + j * srcDimSize), dim + 1,
-                            ndim, inShape, inStrides, outStrides, multiple);
-    }
-  }
-}
-
-void ComputeStrides(const int *shape, int *strides, const int ndim) {
-  int stride = 1;
-  for (int i = ndim - 1; i >= 0; i--) {
-    strides[i] = stride;
-    stride *= shape[i];
-  }
-}
-
-void CalcMultiplesAndStrides(ArithmeticParameter *param) {
-  NNACL_ASSERT(param->in_shape0_[i] != 0);
-  NNACL_ASSERT(param->in_shape1_[i] != 0);
-  for (size_t i = 0; i < param->ndim_; i++) {
-    param->multiples0_[i] = param->out_shape_[i] / param->in_shape0_[i];
-    param->multiples1_[i] = param->out_shape_[i] / param->in_shape1_[i];
-  }
-  // cal strides
-  ComputeStrides(param->in_shape0_, param->in_strides0_, param->ndim_);
-  ComputeStrides(param->in_shape1_, param->in_strides1_, param->ndim_);
-  ComputeStrides(param->out_shape_, param->out_strides_, param->ndim_);
-}
-
-void TileDimensions(const float *data0, const float *data1, float *tile_data0, float *tile_data1,
-                    ArithmeticParameter *param) {
-  CalcMultiplesAndStrides(param);
-  TileOneDimension(data0, tile_data0, 0, param->ndim_, param->in_shape0_, param->in_strides0_, param->out_strides_,
-                   param->multiples0_);
-  TileOneDimension(data1, tile_data1, 0, param->ndim_, param->in_shape1_, param->in_strides1_, param->out_strides_,
-                   param->multiples1_);
-}
-
-void TileDimensionsUint8(const uint8_t *data0, const uint8_t *data1, uint8_t *tile_data0, uint8_t *tile_data1,
-                         ArithmeticParameter *param) {
-  CalcMultiplesAndStrides(param);
-  TileOneDimensionUint8(data0, tile_data0, 0, param->ndim_, param->in_shape0_, param->in_strides0_, param->out_strides_,
-                        param->multiples0_);
-  TileOneDimensionUint8(data1, tile_data1, 0, param->ndim_, param->in_shape1_, param->in_strides1_, param->out_strides_,
-                        param->multiples1_);
-}
-
-void TileDimensionsInt8(const int8_t *data0, const int8_t *data1, int8_t *tile_data0, int8_t *tile_data1,
-                        ArithmeticParameter *param) {
-  CalcMultiplesAndStrides(param);
-  TileOneDimensionUint8((uint8_t *)(data0), (uint8_t *)(tile_data0), 0, param->ndim_, param->in_shape0_,
-                        param->in_strides0_, param->out_strides_, param->multiples0_);
-  TileOneDimensionUint8((uint8_t *)(data1), (uint8_t *)(tile_data1), 0, param->ndim_, param->in_shape1_,
-                        param->in_strides1_, param->out_strides_, param->multiples1_);
-}
--- a/mindspore/lite/nnacl/arithmetic_common.h
+++ b/mindspore/lite/nnacl/arithmetic_common.h
@ -1,68 +0,0 @@
-/**
- * Copyright 2020 Huawei Technologies Co., Ltd
- *
- * Licensed under the Apache License, Version 2.0 (the "License");
- * you may not use this file except in compliance with the License.
- * You may obtain a copy of the License at
- *
- * http://www.apache.org/licenses/LICENSE-2.0
- *
- * Unless required by applicable law or agreed to in writing, software
- * distributed under the License is distributed on an "AS IS" BASIS,
- * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
- * See the License for the specific language governing permissions and
- * limitations under the License.
- */
-#ifndef MINDSPORE_LITE_NNACL_ARITHMETIC_COMMON_H_
-#define MINDSPORE_LITE_NNACL_ARITHMETIC_COMMON_H_
-
-#ifdef ENABLE_NEON
-#include <arm_neon.h>
-#endif
-#include <string.h>
-#include "nnacl/op_base.h"
-#include "nnacl/arithmetic_common.h"
-
-typedef struct ArithmeticParameter {
-  OpParameter op_parameter_;
-  bool broadcasting_;
-  size_t ndim_;
-  int activation_type_;
-  int in_shape0_[10];
-  int in_elements_num0_;
-  int in_shape1_[10];
-  int in_elements_num1_;
-
-  int out_shape_[10];
-  int out_elements_num_;
-
-  int in_strides0_[10];
-  int in_strides1_[10];
-  int out_strides_[10];
-
-  int multiples0_[10];
-  int multiples1_[10];
-} ArithmeticParameter;
-
-#ifdef __cplusplus
-extern "C" {
-#endif
-void TileOneDimension(const float *inData, float *outData, int dim, size_t ndim, const int *inShape,
-                      const int *inStrides, const int *outStrides, const int *multiple);
-void ComputeStrides(const int *shape, int *strides, const int ndim);
-
-void CalcMultiplesAndStrides(ArithmeticParameter *param);
-
-void TileOneDimensionUint8(const uint8_t *inData, uint8_t *outData, int dim, size_t ndim, const int *inShape,
-                           const int *inStrides, const int *outStrides, const int *multiple);
-void TileDimensions(const float *data0, const float *data1, float *tile_data0, float *tile_data1,
-                    ArithmeticParameter *param);
-void TileDimensionsUint8(const uint8_t *data0, const uint8_t *data1, uint8_t *tile_data0, uint8_t *tile_data1,
-                         ArithmeticParameter *param);
-void TileDimensionsInt8(const int8_t *data0, const int8_t *data1, int8_t *tile_data0, int8_t *tile_data1,
-                        ArithmeticParameter *param);
-#ifdef __cplusplus
-}
-#endif
-
-#endif  // MINDSPORE_LITE_NNACL_ARITHMETIC_COMMON_H_
--- a/mindspore/lite/nnacl/arithmetic_parameter.h
+++ b/mindspore/lite/nnacl/arithmetic_parameter.h
@ -1,22 +0,0 @@
-/**
- * Copyright 2020 Huawei Technologies Co., Ltd
- *
- * Licensed under the Apache License, Version 2.0 (the "License");
- * you may not use this file except in compliance with the License.
- * You may obtain a copy of the License at
- *
- * http://www.apache.org/licenses/LICENSE-2.0
- *
- * Unless required by applicable law or agreed to in writing, software
- * distributed under the License is distributed on an "AS IS" BASIS,
- * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
- * See the License for the specific language governing permissions and
- * limitations under the License.
- */
-
-#ifndef MINDSPORE_LITE_NNACL_ARTITHMETIC_PARAMETER_H_
-#define MINDSPORE_LITE_NNACL_ARTITHMETIC_PARAMETER_H_
-
-#include "nnacl/op_attribute.h"
-
-#endif  // MINDSPORE_LITE_NNACL_ARTITHMETIC_PARAMETER_H_
--- a/mindspore/lite/nnacl/batch_to_space.c
+++ b/mindspore/lite/nnacl/batch_to_space.c
@ -15,7 +15,6 @@
 */

 #include "nnacl/batch_to_space.h"
-#include "nnacl/arithmetic_common.h"

 void BatchToSpaceNoCropForNHWC(const void *input, void *output, const int *in_shape, int out_n, const int *block,
                               int data_size) {
--- a/mindspore/lite/nnacl/batch_to_space.h
+++ b/mindspore/lite/nnacl/batch_to_space.h
@ -15,6 +15,8 @@
 */
 #ifndef MINDSPORE_LITE_NNACL_BATCH_TO_SPACE_H_
 #define MINDSPORE_LITE_NNACL_BATCH_TO_SPACE_H_
+
+#include <string.h>
 #include "nnacl/op_base.h"

 #define BATCH_TO_SPACE_BLOCK_SHAPE_SIZE 2
--- a/mindspore/lite/nnacl/common_func.h
+++ b/mindspore/lite/nnacl/common_func.h
@ -63,6 +63,14 @@ static inline int GetStride(int *strides, const int *shape, int length) {
  return stride;
 }

+inline void ComputeStrides(const int *shape, int *strides, const int ndim) {
+  int stride = 1;
+  for (int i = ndim - 1; i >= 0; i--) {
+    strides[i] = stride;
+    stride *= shape[i];
+  }
+}
+
 #ifdef ENABLE_ARM64
 void BiasAdd(const float *bias, float *data, size_t oc4, size_t plan_size);
 void BiasAddRelu6(const float *bias, float *data, size_t oc4, size_t plan_size);
--- a/mindspore/lite/nnacl/fp16/arithmetic_fp16.c
+++ b/mindspore/lite/nnacl/fp16/arithmetic_fp16.c
@ -16,7 +16,7 @@

 #include "nnacl/fp16/arithmetic_fp16.h"
 #include <math.h>
-#include "nnacl/arithmetic_common.h"
+#include "nnacl/common_func.h"
 #include "nnacl/nnacl_utils.h"

 void TileOneDimensionFp16(float16_t *inData, float16_t *outData, int dim, size_t ndim, int *inShape, int *inStrides,
--- a/mindspore/lite/nnacl/fp16/arithmetic_fp16.h
+++ b/mindspore/lite/nnacl/fp16/arithmetic_fp16.h
@ -20,7 +20,7 @@
 #include <arm_neon.h>
 #endif
 #include "nnacl/op_base.h"
-#include "nnacl/arithmetic_common.h"
+#include "nnacl/arithmetic.h"
 #include "nnacl/errorcode.h"

 #ifdef __cplusplus
@ -107,7 +107,7 @@ int ElementMinimumFp16(float16_t *input0, float16_t *input1, float16_t *output,
 int ElementNotEqualFp16(float16_t *input0, float16_t *input1, uint8_t *output, int element_size);
 int ElementEqualFp16(float16_t *input0, float16_t *input1, uint8_t *output, int element_size);
 int ElementLessFp16(float16_t *input0, float16_t *input1, uint8_t *output, int element_size);
-int ElementLessEqual(float16_t *input0, float16_t *input1, uint8_t *output, int element_size);
+int ElementLessEqualFp16(float16_t *input0, float16_t *input1, uint8_t *output, int element_size);
 int ElementGreaterFp16(float16_t *input0, float16_t *input1, uint8_t *output, int element_size);
 int ElementGreaterEqualFp16(float16_t *input0, float16_t *input1, uint8_t *output, int element_size);

--- a/mindspore/lite/nnacl/fp16/stack_fp16.c
+++ b/mindspore/lite/nnacl/fp16/stack_fp16.c
@ -15,7 +15,7 @@
 */

 #include "nnacl/fp16/stack_fp16.h"
-#include "nnacl/arithmetic_common.h"
+#include "nnacl/common_func.h"

 size_t Fp16GetStackCopyNum(int axis, int *in_shape, size_t shape_size) {
  size_t one_input_size = 1;
--- a/mindspore/lite/nnacl/fp32/arithmetic_fp32.c
+++ b/mindspore/lite/nnacl/fp32/arithmetic_fp32.c
--- a/mindspore/lite/nnacl/fp32/arithmetic_fp32.h
+++ b/mindspore/lite/nnacl/fp32/arithmetic_fp32.h
@ -20,144 +20,97 @@
 #include <arm_neon.h>
 #endif
 #include "nnacl/op_base.h"
-#include "nnacl/arithmetic_common.h"
+#include "nnacl/arithmetic.h"
 #include "nnacl/errorcode.h"

 #ifdef __cplusplus
 extern "C" {
 #endif
-int ElementOptAdd(const float *input0, const float *input1, float *output, const int element_size,
-                  const ArithmeticParameter *param);
-int ElementOptAddInt(const int *input0, const int *input1, int *output, const int element_size,
-                     const ArithmeticParameter *param);
-int ElementOptAddRelu(const float *input0, const float *input1, float *output, const int element_size,
-                      const ArithmeticParameter *param);
-int ElementOptAddRelu6(const float *input0, const float *input1, float *output, const int element_size,
-                       const ArithmeticParameter *param);
-int ElementOptSub(const float *input0, const float *input1, float *output, const int element_size,
-                  const ArithmeticParameter *param);
-int ElementOptSubInt(const int *input0, const int *input1, int *output, const int element_size,
-                     const ArithmeticParameter *param);
-int ElementOptSubRelu(const float *input0, const float *input1, float *output, const int element_size,
-                      const ArithmeticParameter *param);
-int ElementOptSubRelu6(const float *input0, const float *input1, float *output, const int element_size,
-                       const ArithmeticParameter *param);
-int ElementOptMul(const float *input0, const float *input1, float *output, const int element_size,
-                  const ArithmeticParameter *param);
-int ElementOptMulRelu(const float *input0, const float *input1, float *output, const int element_size,
-                      const ArithmeticParameter *param);
-int ElementOptMulRelu6(const float *input0, const float *input1, float *output, const int element_size,
-                       const ArithmeticParameter *param);
-int ElementOptMulInt(const int *input0, const int *input1, int *output, const int element_size,
-                     const ArithmeticParameter *param);
-int ElementOptMulReluInt(const int *input0, const int *input1, int *output, const int element_size,
-                         const ArithmeticParameter *param);
-int ElementOptMulRelu6Int(const int *input0, const int *input1, int *output, const int element_size,
-                          const ArithmeticParameter *param);
-int ElementOptDiv(const float *input0, const float *input1, float *output, const int element_size,
-                  const ArithmeticParameter *param);
-int ElementOptDivRelu(const float *input0, const float *input1, float *output, const int element_size,
-                      const ArithmeticParameter *param);
-int ElementOptDivRelu6(const float *input0, const float *input1, float *output, const int element_size,
-                       const ArithmeticParameter *param);
-int ElementOptDivInt(const int *input0, const int *input1, int *output, const int element_size,
-                     const ArithmeticParameter *param);
-int ElementMul(const float *input0, const float *input1, float *output, const int element_size);
-int ElementMulRelu(const float *input0, const float *input1, float *output, const int element_size);
-int ElementMulRelu6(const float *input0, const float *input1, float *output, const int element_size);
-int ElementMulInt(const int *input0, const int *input1, int *output, const int element_size);
-int ElementMulReluInt(const int *input0, const int *input1, int *output, const int element_size);
-int ElementMulRelu6Int(const int *input0, const int *input1, int *output, const int element_size);
-int BroadcastMul(const float *input0, const float *input1, float *tile_input0, float *tile_input1, float *output,
-                 int element_size, ArithmeticParameter *param);
-
-int ElementAdd(const float *input0, const float *input1, float *output, const int element_size);
-int ElementAddRelu(const float *input0, const float *input1, float *output, const int element_size);
-int ElementAddRelu6(const float *input0, const float *input1, float *output, const int element_size);
-int ElementAddInt(const int *input0, const int *input1, int *output, const int element_size);
-int BroadcastAdd(const float *input0, const float *input1, float *tile_input0, float *tile_input1, float *output,
-                 int element_size, ArithmeticParameter *param);
-int BroadcastAddInt8(const int8_t *input0, const int8_t *input1, int8_t *tile_input0, int8_t *tile_input1,
-                     int8_t *output, int element_size, ArithmeticParameter *param);
-
-int ElementSub(const float *input0, const float *input1, float *output, const int element_size);
-int ElementSubInt(const int *input0, const int *input1, int *output, const int element_size);
-int ElementSubRelu(const float *input0, const float *input1, float *output, const int element_size);
-int ElementSubRelu6(const float *input0, const float *input1, float *output, const int element_size);
-int BroadcastSub(const float *input0, const float *input1, float *tile_input0, float *tile_input1, float *output,
-                 int element_size, ArithmeticParameter *param);
-
-int ElementDiv(const float *input0, const float *input1, float *output, const int element_size);
-int ElementDivRelu(const float *input0, const float *input1, float *output, const int element_size);
-int ElementDivRelu6(const float *input0, const float *input1, float *output, const int element_size);
-int BroadcastDiv(const float *input0, const float *input1, float *tile_input0, float *tile_input1, float *output,
-                 int element_size, ArithmeticParameter *param);
-
-int ElementLogicalAnd(const float *input0, const float *input1, float *output, const int element_size);
-int ElementLogicalAndInt(const int *input0, const int *input1, int *output, const int element_size);
-int ElementLogicalAndBool(const bool *input0, const bool *input1, bool *output, const int element_size);
-int BroadcastLogicalAnd(const float *input0, const float *input1, float *tile_input0, float *tile_input1, float *output,
-                        int element_size, ArithmeticParameter *param);
-
-int ElementLogicalOr(const float *input0, const float *input1, float *output, const int element_size);
-int BroadcastLogicalOr(const float *input0, const float *input1, float *tile_input0, float *tile_input1, float *output,
-                       int element_size, ArithmeticParameter *param);
-
-int ElementMaximum(const float *input0, const float *input1, float *output, const int element_size);
-int ElementMaximumInt(const int *input0, const int *input1, int *output, const int element_size);
-int BroadcastMaximum(const float *input0, const float *input1, float *tile_input0, float *tile_input1, float *output,
-                     int element_size, ArithmeticParameter *param);
-
-int ElementMinimum(const float *input0, const float *input1, float *output, const int element_size);
-int BroadcastMinimum(const float *input0, const float *input1, float *tile_input0, float *tile_input1, float *output,
-                     int element_size, ArithmeticParameter *param);
-
-int ElementFloorDiv(const float *input0, const float *input1, float *output, const int element_size);
-int ElementFloorDivInt(const int *input0, const int *input1, int *output, const int element_size);
-int BroadcastFloorDiv(const float *input0, const float *input1, float *tile_input0, float *tile_input1, float *output,
-                      int element_size, ArithmeticParameter *param);
-
-int ElementFloorMod(const float *input0, const float *input1, float *output, const int element_size);
-int ElementFloorModInt(const int *input0, const int *input1, int *output, const int element_size);
-int BroadcastFloorMod(const float *input0, const float *input1, float *tile_input0, float *tile_input1, float *output,
-                      int element_size, ArithmeticParameter *param);
-
-int ElementMod(const float *input0, const float *input1, float *output, const int element_size);
-int ElementModInt(const int *input0, const int *input1, int *output, const int element_size);
-int ElementOptMod(const float *input0, const float *input1, float *output, const int element_size,
-                  const ArithmeticParameter *param);
-int ElementOptModInt(const int *input0, const int *input1, int *output, const int element_size,
-                     const ArithmeticParameter *param);
-
-int ElementSquaredDifference(const float *input0, const float *input1, float *output, const int element_size);
-int BroadcastSquaredDifference(const float *input0, const float *input1, float *tile_input0, float *tile_input1,
-                               float *output, int element_size, ArithmeticParameter *param);
-
-int ElementNotEqual(const float *input0, const float *input1, float *output, const int element_size);
-
-int BroadcastNotEqual(const float *input0, const float *input1, float *tile_input0, float *tile_input1, float *output,
-                      int element_size, ArithmeticParameter *param);
-
-int ElementEqual(const float *input0, const float *input1, float *output, const int element_size);
-
-int BroadcastEqual(const float *input0, const float *input1, float *tile_input0, float *tile_input1, float *output,
-                   int element_size, ArithmeticParameter *param);
-
-int ElementLess(const float *input0, const float *input1, float *output, const int element_size);
-int BroadcastLess(const float *input0, const float *input1, float *tile_input0, float *tile_input1, float *output,
-                  int element_size, ArithmeticParameter *param);
-
-int ElementLessEqual(const float *input0, const float *input1, float *output, const int element_size);
-int BroadcastLessEqual(const float *input0, const float *input1, float *tile_input0, float *tile_input1, float *output,
-                       int element_size, ArithmeticParameter *param);
-
-int ElementGreater(const float *input0, const float *input1, float *output, const int element_size);
-int BroadcastGreater(const float *input0, const float *input1, float *tile_input0, float *tile_input1, float *output,
-                     int element_size, ArithmeticParameter *param);
-
-int ElementGreaterEqual(const float *input0, const float *input1, float *output, const int element_size);
-int BroadcastGreaterEqual(const float *input0, const float *input1, float *tile_input0, float *tile_input1,
-                          float *output, int element_size, ArithmeticParameter *param);
+void TileOneDimensionFp32(const float *inData, float *outData, int dim, size_t ndim, const int *inShape,
+                          const int *inStrides, const int *outStrides, const int *multiple);
+void TileDimensionsFp32(const float *data0, const float *data1, float *tile_data0, float *tile_data1,
+                        ArithmeticParameter *param);
+
+/* Mul */
+int ElementMul(const float *in0, const float *in1, float *out, int size);
+int ElementMulRelu(const float *in0, const float *in1, float *out, int size);
+int ElementMulRelu6(const float *in0, const float *in1, float *out, int size);
+int ElementMulInt(const int *in0, const int *in1, int *out, int size);
+int ElementMulReluInt(const int *in0, const int *in1, int *out, int size);
+int ElementMulRelu6Int(const int *in0, const int *in1, int *out, int size);
+int ElementOptMul(const float *in0, const float *in1, float *out, int size, const ArithmeticParameter *param);
+int ElementOptMulRelu(const float *in0, const float *in1, float *out, int size, const ArithmeticParameter *param);
+int ElementOptMulRelu6(const float *in0, const float *in1, float *out, int size, const ArithmeticParameter *param);
+int ElementOptMulInt(const int *in0, const int *in1, int *out, int size, const ArithmeticParameter *param);
+int ElementOptMulReluInt(const int *in0, const int *in1, int *out, int size, const ArithmeticParameter *param);
+int ElementOptMulRelu6Int(const int *in0, const int *in1, int *out, int size, const ArithmeticParameter *param);
+int BroadcastMul(const float *in0, const float *in1, float *tile_in0, float *tile_in1, float *out, int size,
+                 ArithmeticParameter *param);
+
+/* Add */
+int ElementAdd(const float *in0, const float *in1, float *out, int size);
+int ElementAddRelu(const float *in0, const float *in1, float *out, int size);
+int ElementAddRelu6(const float *in0, const float *in1, float *out, int size);
+int ElementAddInt(const int *in0, const int *in1, int *out, int size);
+int ElementOptAdd(const float *in0, const float *in1, float *out, int size, const ArithmeticParameter *param);
+int ElementOptAddInt(const int *in0, const int *in1, int *out, int size, const ArithmeticParameter *param);
+int ElementOptAddRelu(const float *in0, const float *in1, float *out, int size, const ArithmeticParameter *param);
+int ElementOptAddRelu6(const float *in0, const float *in1, float *out, int size, const ArithmeticParameter *param);
+int BroadcastAdd(const float *in0, const float *in1, float *tile_in0, float *tile_in1, float *out, int size,
+                 ArithmeticParameter *param);
+
+/* Sub */
+int ElementSub(const float *in0, const float *in1, float *out, int size);
+int ElementSubInt(const int *in0, const int *in1, int *out, int size);
+int ElementSubRelu(const float *in0, const float *in1, float *out, int size);
+int ElementSubRelu6(const float *in0, const float *in1, float *out, int size);
+int ElementOptSub(const float *in0, const float *in1, float *out, int size, const ArithmeticParameter *param);
+int ElementOptSubRelu(const float *in0, const float *in1, float *out, int size, const ArithmeticParameter *param);
+int ElementOptSubRelu6(const float *in0, const float *in1, float *out, int size, const ArithmeticParameter *param);
+int ElementOptSubInt(const int *in0, const int *in1, int *out, int size, const ArithmeticParameter *param);
+
+/* Div */
+int ElementDiv(const float *in0, const float *in1, float *out, int size);
+int ElementDivRelu(const float *in0, const float *in1, float *out, int size);
+int ElementDivRelu6(const float *in0, const float *in1, float *out, int size);
+int ElementOptDiv(const float *in0, const float *in1, float *out, int size, const ArithmeticParameter *param);
+int ElementOptDivRelu(const float *in0, const float *in1, float *out, int size, const ArithmeticParameter *param);
+int ElementOptDivRelu6(const float *in0, const float *in1, float *out, int size, const ArithmeticParameter *param);
+int ElementOptDivInt(const int *in0, const int *in1, int *out, int size, const ArithmeticParameter *param);
+int BroadcastDiv(const float *in0, const float *in1, float *tile_in0, float *tile_in1, float *out, int size,
+                 ArithmeticParameter *param);
+
+/* logical and */
+int ElementLogicalAnd(const float *in0, const float *in1, float *out, int size);
+int ElementLogicalAndInt(const int *in0, const int *in1, int *out, int size);
+int ElementLogicalAndBool(const bool *in0, const bool *in1, bool *out, int size);
+
+/* logical or */
+int ElementLogicalOr(const float *in0, const float *in1, float *out, int size);
+
+/* Element Squared Difference */
+int ElementSquaredDifference(const float *in0, const float *in1, float *out, int size);
+
+/* max min */
+int ElementMaximum(const float *in0, const float *in1, float *out, int size);
+int ElementMinimum(const float *in0, const float *in1, float *out, int size);
+int ElementMaximumInt(const int *in0, const int *in1, int *out, int size);
+int BroadcastMaximum(const float *in0, const float *in1, float *tile_input0, float *tile_input1, float *out, int size,
+                     ArithmeticParameter *param);
+
+/* floor div */
+int ElementFloorDiv(const float *in0, const float *in1, float *out, int size);
+int ElementFloorDivInt(const int *in0, const int *in1, int *out, int size);
+
+/* floor mod */
+int ElementFloorMod(const float *in0, const float *in1, float *out, int size);
+int ElementFloorModInt(const int *in0, const int *in1, int *out, int size);
+
+/* mod */
+int ElementMod(const float *in0, const float *in1, float *out, int size);
+int ElementModInt(const int *in0, const int *in1, int *out, int size);
+int ElementOptMod(const float *in0, const float *in1, float *out, int size, const ArithmeticParameter *param);
+int ElementOptModInt(const int *in0, const int *in1, int *out, int size, const ArithmeticParameter *param);

 #ifdef ENABLE_NNACL_INFER_SHAPE
 int ArithmeticInferShape(int **in_shape, size_t *dim_size, int *out_shape, int *in_format, int *out_format,
--- a/mindspore/lite/nnacl/fp32/space_to_batch_fp32.c
+++ b/mindspore/lite/nnacl/fp32/space_to_batch_fp32.c
@ -14,7 +14,6 @@
 * limitations under the License.
 */
 #include "nnacl/fp32/space_to_batch_fp32.h"
-#include "nnacl/arithmetic_common.h"

 void DoSpaceToBatch(const float *input, float *output, const int *in_shape, const int *out_shape, const int *in_stride,
                    const int *out_stride, const int *blocks, const int *paddings, int thread, int task_id) {
--- a/mindspore/lite/nnacl/fp32/space_to_batch_fp32.h
+++ b/mindspore/lite/nnacl/fp32/space_to_batch_fp32.h
@ -15,6 +15,8 @@
 */
 #ifndef MINDSPORE_LITE_SRC_BACKEND_ARM_NNACL_FP32_SPACE_TO_BATCH_H_
 #define MINDSPORE_LITE_SRC_BACKEND_ARM_NNACL_FP32_SPACE_TO_BATCH_H_
+
+#include <string.h>
 #include "nnacl/op_base.h"

 typedef struct SpaceToBatchParameter {
--- a/mindspore/lite/nnacl/fp32/space_to_depth_fp32.c
+++ b/mindspore/lite/nnacl/fp32/space_to_depth_fp32.c
@ -14,7 +14,7 @@
 * limitations under the License.
 */
 #include "nnacl/fp32/space_to_depth_fp32.h"
-#include "nnacl/arithmetic_common.h"
+#include "nnacl/common_func.h"
 #include "nnacl/errorcode.h"
 #include "nnacl/op_base.h"

--- a/mindspore/lite/nnacl/fp32/stack_fp32.c
+++ b/mindspore/lite/nnacl/fp32/stack_fp32.c
@ -15,7 +15,7 @@
 */

 #include "nnacl/fp32/stack_fp32.h"
-#include "nnacl/arithmetic_common.h"
+#include "nnacl/common_func.h"

 size_t GetStackCopyNum(int axis, const int *in_shape, size_t shape_size) {
  size_t one_input_size = 1;
--- a/mindspore/lite/nnacl/int8/add_int8.c
+++ b/mindspore/lite/nnacl/int8/add_int8.c
@ -312,3 +312,16 @@ void AddOptInt8(const int8_t *ptr_in, const int8_t element_in, int8_t *output, i
  }
  return;
 }
+
+int ElementAddInt8(const int8_t *in0, const int8_t *in1, int8_t *out, int size) {
+  for (int i = 0; i < size; i++) {
+    out[i] = in0[i] + in1[i];
+  }
+  return NNACL_OK;
+}
+
+int BroadcastAddInt8(const int8_t *in0, const int8_t *in1, int8_t *tile_in0, int8_t *tile_in1, int8_t *out, int size,
+                     ArithmeticParameter *param) {
+  TileDimensionsInt8(in0, in1, tile_in0, tile_in1, param);
+  return ElementAddInt8(tile_in0, tile_in1, out, size);
+}
--- a/mindspore/lite/nnacl/int8/add_int8.h
+++ b/mindspore/lite/nnacl/int8/add_int8.h
@ -18,6 +18,9 @@
 #define MINDSPORE_LITE_NNACL_ADD_INT8_H_

 #include "nnacl/op_base.h"
+#include "nnacl/errorcode.h"
+#include "nnacl/arithmetic.h"
+#include "nnacl/int8/arithmetic_int8.h"

 typedef struct AddQuantQrgs {
  int32_t zp_;
@ -48,6 +51,10 @@ void AddInt8(const int8_t *input0, const int8_t *input1, int8_t *output, int siz
 void AddOptInt8(const int8_t *ptr_in, const int8_t element_in, int8_t *output, int size, AddQuantParameter *params,
                AddQuantQrgs *ptr_args, AddQuantQrgs *ele_args);

+int ElementAddInt8(const int8_t *in0, const int8_t *in1, int8_t *out, int size);
+int BroadcastAddInt8(const int8_t *in0, const int8_t *in1, int8_t *tile_in0, int8_t *tile_in1, int8_t *out, int size,
+                     ArithmeticParameter *param);
+
 #ifdef __cplusplus
 }
 #endif
--- a/mindspore/lite/nnacl/int8/arithmetic_int8.c
+++ b/mindspore/lite/nnacl/int8/arithmetic_int8.c
@ -20,6 +20,33 @@
 #endif
 #include "nnacl/errorcode.h"

+void TileOneDimensionInt8(const int8_t *inData, int8_t *outData, int dim, size_t ndim, const int *inShape,
+                          const int *inStrides, const int *outStrides, const int *multiple) {
+  int srcDimSize = inShape[dim];
+  if (dim == ndim - 1) {
+    for (int i = 0; i < multiple[dim]; i++) {
+      memcpy(outData, inData, srcDimSize * sizeof(int8_t));
+      outData += srcDimSize;
+    }
+    return;
+  }
+  for (size_t i = 0; i < srcDimSize; i++) {
+    for (size_t j = 0; j < multiple[dim]; j++) {
+      TileOneDimensionInt8(inData + inStrides[dim] * i, outData + outStrides[dim] * (i + j * srcDimSize), dim + 1, ndim,
+                           inShape, inStrides, outStrides, multiple);
+    }
+  }
+}
+
+void TileDimensionsInt8(const int8_t *data0, const int8_t *data1, int8_t *tile_data0, int8_t *tile_data1,
+                        ArithmeticParameter *param) {
+  CalcMultiplesAndStrides(param);
+  TileOneDimensionInt8(data0, tile_data0, 0, param->ndim_, param->in_shape0_, param->in_strides0_, param->out_strides_,
+                       param->multiples0_);
+  TileOneDimensionInt8(data1, tile_data1, 0, param->ndim_, param->in_shape1_, param->in_strides1_, param->out_strides_,
+                       param->multiples1_);
+}
+
 #define ACCURACY_DATA 0.00000001

 int ElementNotEqualInt8(int8_t *input0, int8_t *input1, uint8_t *output, int element_size,
--- a/mindspore/lite/nnacl/int8/arithmetic_int8.h
+++ b/mindspore/lite/nnacl/int8/arithmetic_int8.h
@ -17,11 +17,17 @@
 #define MINDSPORE_LITE_NNACL_INT8_ARITHMETIC_INT8_H_

 #include "nnacl/op_base.h"
+#include "nnacl/arithmetic.h"
 #include "nnacl/quantization/quantize.h"

 #ifdef __cplusplus
 extern "C" {
 #endif
+void TileOneDimensionInt8(const int8_t *inData, int8_t *outData, int dim, size_t ndim, const int *inShape,
+                          const int *inStrides, const int *outStrides, const int *multiple);
+void TileDimensionsInt8(const int8_t *data0, const int8_t *data1, int8_t *tile_data0, int8_t *tile_data1,
+                        ArithmeticParameter *param);
+
 int ElementNotEqualInt8(int8_t *input0, int8_t *input1, uint8_t *output, int element_size,
                        ArithmeticQuantArg *quant_arg);

--- a/mindspore/lite/nnacl/int8/space_to_batch_int8.c
+++ b/mindspore/lite/nnacl/int8/space_to_batch_int8.c
@ -14,7 +14,7 @@
 * limitations under the License.
 */
 #include "nnacl/int8/space_to_batch_int8.h"
-#include "nnacl/arithmetic_common.h"
+#include "nnacl/common_func.h"

 void DoSpaceToBatchNHWCInt8(const int8_t *input, int8_t *output, const int *block_sizes, const int *in_shape,
                            const int *out_shape) {
--- a/mindspore/lite/nnacl/reverse_sequence.c
+++ b/mindspore/lite/nnacl/reverse_sequence.c
@ -16,7 +16,7 @@

 #include "nnacl/reverse_sequence.h"
 #include <string.h>
-#include "nnacl/arithmetic_common.h"
+#include "nnacl/common_func.h"

 void ReverseSequence(float *input0, const void *input1, float *output, ReverseSequenceParameter *para) {
  (void)memcpy(output, input0, para->total_data_size_);
--- a/mindspore/lite/src/ops/arithmetic.h
+++ b/mindspore/lite/src/ops/arithmetic.h
@ -21,7 +21,7 @@
 #include <set>
 #include <cmath>
 #include "src/ops/primitive_c.h"
-#include "nnacl/arithmetic_common.h"
+#include "nnacl/arithmetic.h"

 namespace mindspore {
 namespace lite {
--- a/Show More
+++ b/Show More