Merge pull request #4011 from tensor-tang/refine

Refine MKLDNNLayer and MKLDNNTester
8 years ago · 171fee2c9e
parent 6d0d29f645 7f7fa32528
commit 171fee2c9e
6 changed files with 325 additions and 230 deletions
--- a/paddle/gserver/layers/Layer.h
+++ b/paddle/gserver/layers/Layer.h
@ -49,6 +49,12 @@ struct LayerState {
 };
 typedef std::shared_ptr<LayerState> LayerStatePtr;
 /// Paddle device ID, MKLDNN is -2, CPU is -1
 enum PADDLE_DEVICE_ID {
  MKLDNN_DEVICE = -2,
  CPU_DEVICE = -1,
 };
 /**
 * @brief Base class for layer.
 * Define necessary variables and functions for every layer.
@ -59,11 +65,6 @@ protected:
  LayerConfig config_;
  /// whether to use GPU
  bool useGpu_;
  /// Paddle device ID, MKLDNN is -2, CPU is -1
  enum PADDLE_DEVICE_ID {
    MKLDNN_DEVICE = -2,
    CPU_DEVICE = -1,
  };
  /// Device Id. MKLDNN is -2, CPU is -1, and GPU is 0, 1, 2 ...
  int deviceId_;
  /// Input layers
--- a/paddle/gserver/layers/MKLDNNFcLayer.cpp
+++ b/paddle/gserver/layers/MKLDNNFcLayer.cpp
--- a/paddle/gserver/layers/MKLDNNFcLayer.h
+++ b/paddle/gserver/layers/MKLDNNFcLayer.h
@ -45,35 +45,28 @@ public:
  bool init(const LayerMap& layerMap,
            const ParameterMap& parameterMap) override;
-  void convertWeightsFromPaddle() override;
+  void reshape(
-
+      int& bs, int& ic, int& ih, int& iw, int oc, int& oh, int& ow) override;
  void convertWeightsToPaddle() override;
-  void forward(PassType passType) override;
+  void resetFwd(std::vector<mkldnn::primitive>& pipeline,
                MKLDNNMatrixPtr& in,
                MKLDNNMatrixPtr& wgt,
                MKLDNNMatrixPtr& bias,
                MKLDNNMatrixPtr& out) override;
-  void backward(const UpdateCallback& callback) override;
+  void resetBwd(std::vector<mkldnn::primitive>& pipeline,
                MKLDNNMatrixPtr& in,
                MKLDNNMatrixPtr& wgt,
                MKLDNNMatrixPtr& bias,
                MKLDNNMatrixPtr& out) override;
  void updateInputData() override;
-protected:
+  void updateWeights(const UpdateCallback& callback) override;
  /**
   * reshape the input image sizes
   * and reset output buffer size
   * and reset mkldnn forward
   */
  void reshape();
-  /**
+  void convertWeightsFromPaddle() override;
   * reset the forward primitve and memory
   * only would be called when input size changes
   */
  void resetFwd();
-  /**
+  void convertWeightsToPaddle() override;
   * reset the backward primitve and memory for mkldnn fc
   * only would be called when needed
   */
  void resetBwd();
 };
 }  // namespace paddle
--- a/paddle/gserver/layers/MKLDNNLayer.h
+++ b/paddle/gserver/layers/MKLDNNLayer.h
--- a/paddle/gserver/tests/MKLDNNTester.cpp
+++ b/paddle/gserver/tests/MKLDNNTester.cpp
@ -63,8 +63,12 @@ void MKLDNNTester::reset(const TestConfig& dnn,
    initTestLayer(
        configs_[i], &(layerMaps_[i]), &(parameters_[i]), &(testLayers_[i]));
  }
  dnnLayer_ = testLayers_[DNN];
  refLayer_ = testLayers_[REF];
  dnnLayer_ = std::dynamic_pointer_cast<MKLDNNLayer>(testLayers_[DNN]);
  CHECK(dnnLayer_);
  // for comparison with Paddle reference results,
  // need manually add cpu device output for test
  dnnLayer_->addOutputArgument(CPU_DEVICE);
  EXPECT_EQ(dataLayers_[DNN].size(), dataLayers_[REF].size());
  EXPECT_EQ(parameters_[DNN].size(), parameters_[REF].size());
@ -109,20 +113,22 @@ void MKLDNNTester::randomBotDatas() {
 void MKLDNNTester::randomTopDiffs() {
  refLayer_->getOutputGrad()->randomizeUniform();
-  dnnLayer_->getOutputGrad()->copyFrom(*(refLayer_->getOutputGrad()));
+  dnnLayer_->getOutput(CPU_DEVICE)
-  VLOG(lvl_) << "Random dom Backward Input, TopDiff: ";
+      .grad->copyFrom(*(refLayer_->getOutputGrad()));
  VLOG(lvl_) << "Random Backward Input, TopDiff: ";
  printMatrix(refLayer_->getOutputGrad());
 }
 void MKLDNNTester::checkForward() {
  printTopDatas();
  double delta = compareMatrix(testLayers_[DNN]->getOutputValue(),
                               testLayers_[REF]->getOutputValue());
  VLOG(MKLDNN_ALL) << "Check Forward";
  printTopDatas();
  double delta = compareMatrix(dnnLayer_->getOutput(-1).value,
                               refLayer_->getOutputValue());
  EXPECT_LE(fabs(delta), eps_);
 }
 void MKLDNNTester::checkBackwardData() {
  VLOG(MKLDNN_ALL) << "Check Backward Data";
  // TODO(TJ): uncomment me when batch norm ready
  // const bool isBN = dnnLayer_->getType() == "mkldnn_batch_norm";
  for (size_t i = 0; i < dataLayers_[DNN].size(); ++i) {
@ -144,14 +150,12 @@ void MKLDNNTester::checkBackwardData() {
 }
 void MKLDNNTester::checkBackwardWgts() {
  VLOG(MKLDNN_ALL) << "Check Backward Weight";
  CHECK_EQ(parameters_[DNN].size(), parameters_[REF].size());
  vector<VectorPtr> dnnWgts;  // used to temply save mkldnn weights
  saveWgt(parameters_[DNN], dnnWgts);
-  const MKLDNNLayerPtr dnnlayer =
+  dnnLayer_->convertWeightsToPaddle();
      std::dynamic_pointer_cast<MKLDNNLayer>(dnnLayer_);
  CHECK(dnnlayer);
  dnnlayer->convertWeightsToPaddle();
  for (size_t i = 0; i < parameters_[DNN].size(); ++i) {
    const VectorPtr& dnn = parameters_[DNN][i]->getBuf(PARAMETER_VALUE);
    const VectorPtr& ref = parameters_[REF][i]->getBuf(PARAMETER_VALUE);
@ -189,8 +193,10 @@ void MKLDNNTester::restoreWgt(const vector<VectorPtr>& from,
 }
 // clear parameters grad
-void MKLDNNTester::clearWgtDiffs() {
+void MKLDNNTester::clearWgtDiffs(size_t id) {
  CHECK_LE(id, parameters_.size());
  for (size_t n = 0; n < parameters_.size(); ++n) {
    if (id == n || id == parameters_.size()) {
      for (size_t i = 0; i < parameters_[n].size(); ++i) {
        const VectorPtr& grad = parameters_[n][i]->getBuf(PARAMETER_GRADIENT);
        if (grad) {
@ -198,30 +204,28 @@ void MKLDNNTester::clearWgtDiffs() {
        }
      }
    }
  }
 }
-void MKLDNNTester::clearBotDiffs() {
+void MKLDNNTester::clearBotDiffs(size_t id) {
-  // dnn and ref
+  CHECK_LE(id, dataLayers_.size());
  for (size_t n = 0; n < dataLayers_.size(); ++n) {
-    // all inputs layers
+    if (id == n || id == dataLayers_.size()) {
      // clear inputs layers of this specific layer
      for (size_t i = 0; i < dataLayers_[n].size(); ++i) {
        dataLayers_[n][i]->getOutputGrad()->zeroMem();
      }
    }
 }
 void MKLDNNTester::clearBotDiffs(int n) {
  CHECK_LT(n, NUM);
  // all inputs layers
  for (size_t i = 0; i < dataLayers_[n].size(); ++i) {
    dataLayers_[n][i]->getOutputGrad()->zeroMem();
  }
 }
-void MKLDNNTester::clearTopDatas() {
+void MKLDNNTester::clearTopDatas(size_t id) {
  CHECK_LE(id, testLayers_.size());
  for (size_t i = 0; i < testLayers_.size(); ++i) {
    if (id == i || id == testLayers_.size()) {
      testLayers_[i]->getOutputValue()->zeroMem();
    }
  }
 }
 void MKLDNNTester::printTopDatas() {
@ -300,16 +304,24 @@ void MKLDNNTester::runOnce() {
  checkForward();
  // test backward
  // simple updater
  UpdateCallback updateCallback = [](Parameter* para) {
    auto& grad = para->getBuf(PARAMETER_GRADIENT);
    auto& value = para->getBuf(PARAMETER_VALUE);
    real lr = 1e-3;
    value->add(*grad, lr);
  };
  randomTopDiffs();
-  dnnLayer_->backward(nullptr);
+  dnnLayer_->backward(updateCallback);
-  refLayer_->backward(nullptr);
+  refLayer_->backward(updateCallback);
  checkBackwardData();
  checkBackwardWgts();
  // clear buffers
  // ref code will addto the diff, dnn code will writeto it
-  // and clearTopDatas() and clearWgtDiffs() should be coverd by test layers
+  // and clearTopDatas(REF) should be coverd by ref layers
  clearBotDiffs(REF);
  clearWgtDiffs(REF);
 }
 void MKLDNNTester::run(const TestConfig& dnn,
--- a/paddle/gserver/tests/MKLDNNTester.h
+++ b/paddle/gserver/tests/MKLDNNTester.h
@ -18,6 +18,7 @@ limitations under the License. */
 #include <vector>
 #include "LayerGradUtil.h"
 #include "paddle/gserver/layers/MKLDNNBase.h"
 #include "paddle/gserver/layers/MKLDNNLayer.h"
 namespace paddle {
@ -40,7 +41,8 @@ protected:
  vector<LayerMap> layerMaps_;
  vector<vector<ParameterPtr>> parameters_;
  vector<LayerPtr> testLayers_;
-  LayerPtr dnnLayer_, refLayer_;
+  LayerPtr refLayer_;
  MKLDNNLayerPtr dnnLayer_;
  /// run some iterations, all the result should pass
  size_t iter_;
@ -88,10 +90,10 @@ private:
  void checkBackwardData();
  void checkBackwardWgts();
-  void clearWgtDiffs();
+  // clear specific layer, clear all when id equals NUM
-  void clearBotDiffs();
+  void clearWgtDiffs(size_t id = NUM);
-  void clearBotDiffs(int n);  // clear specific layer
+  void clearBotDiffs(size_t id = NUM);
-  void clearTopDatas();
+  void clearTopDatas(size_t id = NUM);
  void printTopDatas();
  void printMatrix(const MatrixPtr& m);