[MSLITE][Develop] fix bug of arm cpu fp16 op matmul, init const tensor before judging infershape done

4 years ago · ca477b3580
parent a5b0d13141
commit ca477b3580
5 changed files with 142 additions and 56 deletions
--- a/mindspore/lite/nnacl/assembly/fp16/Float16ToFloat32.S
+++ b/mindspore/lite/nnacl/assembly/fp16/Float16ToFloat32.S
@ -14,6 +14,8 @@ Float16ToFloat32:
    // https://github.com/ARM-software/abi-aa/blob/master/aapcs64/aapcs64.rst#simd-and-floating-point-registers
    // x19 ~ x29 should be also preserved
    // whereas our coding style do not permit such amount of parameters
+    cmp x2, #0
+    beq LoopEnd
    cmp x2, #64
    blt Loop
    Loop64:
--- a/mindspore/lite/nnacl/assembly/fp16/Float32ToFloat16.S
+++ b/mindspore/lite/nnacl/assembly/fp16/Float32ToFloat16.S
@ -14,6 +14,8 @@ Float32ToFloat16:
    // https://github.com/ARM-software/abi-aa/blob/master/aapcs64/aapcs64.rst#simd-and-floating-point-registers
    // x19 ~ x29 should be also preserved
    // whereas our coding style do not permit such amount of parameters
+    cmp x2, #0
+    beq LoopEnd
    cmp x2, #64
    blt Loop
    Loop64:
--- a/mindspore/lite/src/runtime/kernel/arm/fp16/matmul_fp16.cc
+++ b/mindspore/lite/src/runtime/kernel/arm/fp16/matmul_fp16.cc
--- a/mindspore/lite/src/runtime/kernel/arm/fp16/matmul_fp16.h
+++ b/mindspore/lite/src/runtime/kernel/arm/fp16/matmul_fp16.h
@ -39,6 +39,10 @@ class MatmulFP16CPUKernel : public MatmulBaseCPUKernel {
  int RunImpl(int task_id);

 private:
+  int MallocMatrixABuffer();
+  int MallocMatrixBBuffer();
+  int InitBias();
+  int MallocFp16Output();
  void InitMatrixA(float *a_ptr, float16_t *a_pack_ptr);
  void InitMatrixA(float16_t *a_ptr, float16_t *a_pack_ptr);
  void InitMatrixB(float *b_ptr, float16_t *b_pack_ptr);
--- a/mindspore/lite/src/runtime/kernel/arm/fp32/transpose_fp32.cc
+++ b/mindspore/lite/src/runtime/kernel/arm/fp32/transpose_fp32.cc
@ -162,7 +162,7 @@ int TransposeCPUKernel::Run() {
    return ret;
  }
  return ret;
-}  // namespace mindspore::kernel
+}

 kernel::LiteKernel *CpuTransposeFp32KernelCreator(const std::vector<lite::Tensor *> &inputs,
                                                  const std::vector<lite::Tensor *> &outputs, OpParameter *opParameter,