Merge branch 'develop' into add_nest_sequence_select

8 years ago · 00b6d26684
parent 6e291b34c3 78a772ea64
commit 00b6d26684
65 changed files with 1182 additions and 613 deletions
--- a/README.md
+++ b/README.md
@ -72,7 +72,7 @@ We provide [English](http://doc.paddlepaddle.org/develop/doc/) and
 - [Deep Learning 101](http://book.paddlepaddle.org/index.html)
-  You might want to start from the this online interactive book that can run in Jupyter Notebook.
+  You might want to start from this online interactive book that can run in Jupyter Notebook.
 - [Distributed Training](http://doc.paddlepaddle.org/develop/doc/howto/usage/cluster/cluster_train_en.html)
--- a/cmake/external/mkldnn.cmake
+++ b/cmake/external/mkldnn.cmake
@ -20,34 +20,30 @@ INCLUDE(ExternalProject)
 SET(MKLDNN_PROJECT        "extern_mkldnn")
 SET(MKLDNN_SOURCES_DIR    ${THIRD_PARTY_PATH}/mkldnn)
-SET(MKLDNN_INSTALL_ROOT   ${CMAKE_INSTALL_PREFIX})
+SET(MKLDNN_INSTALL_DIR    ${THIRD_PARTY_PATH}/install/mkldnn)
-IF(NOT "$ENV{HOME}" STREQUAL "/root")
+SET(MKLDNN_INC_DIR        "${MKLDNN_INSTALL_DIR}/include" CACHE PATH "mkldnn include directory." FORCE)
    SET(MKLDNN_INSTALL_ROOT  "$ENV{HOME}")
 ENDIF()
 SET(MKLDNN_INSTALL_DIR    "${MKLDNN_INSTALL_ROOT}/opt/paddle/third_party/mkldnn")
 SET(MKLDNN_INCLUDE_DIR    "${MKLDNN_INSTALL_DIR}/include" CACHE PATH "mkldnn include directory." FORCE)
-IF(WIN32)
+IF(WIN32 OR APPLE)
-    MESSAGE(WARNING "It is not supported compiling with mkldnn in windows Paddle yet."
+    MESSAGE(WARNING 
-      "Force WITH_MKLDNN=OFF")
+        "Windows or Mac is not supported with MKLDNN in Paddle yet."
-    SET(WITH_MKLDNN OFF)
+        "Force WITH_MKLDNN=OFF")
    SET(WITH_MKLDNN OFF CACHE STRING "Disable MKLDNN in Windows and MacOS" FORCE)
    return()
-ELSE(WIN32)
+ENDIF()
-    SET(MKLDNN_LIBRARY "${MKLDNN_INSTALL_DIR}/lib/libmkldnn.so" CACHE FILEPATH "mkldnn library." FORCE)
+
-    MESSAGE(STATUS "Set ${MKLDNN_INSTALL_DIR}/lib to runtime path")
+SET(MKLDNN_LIB "${MKLDNN_INSTALL_DIR}/lib/libmkldnn.so" CACHE FILEPATH "mkldnn library." FORCE)
-    SET(CMAKE_INSTALL_RPATH_USE_LINK_PATH TRUE)
+MESSAGE(STATUS "Set ${MKLDNN_INSTALL_DIR}/lib to runtime path")
-    #SET(CMAKE_MACOSX_RPATH 1) # hold for MacOS
+SET(CMAKE_INSTALL_RPATH_USE_LINK_PATH TRUE)
-    SET(CMAKE_INSTALL_RPATH "${CMAKE_INSTALL_RPATH}" "${MKLDNN_INSTALL_DIR}/lib")
+SET(CMAKE_INSTALL_RPATH "${CMAKE_INSTALL_RPATH}" "${MKLDNN_INSTALL_DIR}/lib")
 ENDIF(WIN32)
-INCLUDE_DIRECTORIES(${MKLDNN_INCLUDE_DIR})
+INCLUDE_DIRECTORIES(${MKLDNN_INC_DIR})
 IF(${CBLAS_PROVIDER} STREQUAL "MKLML")
    SET(MKLDNN_DEPENDS   ${MKLML_PROJECT})
    SET(MKLDNN_MKLROOT   ${MKLML_ROOT})
    SET(MKLDNN_IOMP_LIB  ${MKLML_IOMP_LIB})
    SET(MKLDNN_IOMP_DIR  ${MKLML_LIB_DIR})
    MESSAGE(STATUS "Build MKLDNN with ${MKLDNN_MKLROOT}")
 ENDIF()
 ExternalProject_Add(
@ -57,16 +53,15 @@ ExternalProject_Add(
    GIT_REPOSITORY      "https://github.com/01org/mkl-dnn.git"
    GIT_TAG             "v0.9"
    PREFIX              ${MKLDNN_SOURCES_DIR}
    CONFIGURE_COMMAND   mkdir -p <SOURCE_DIR>/build
    BUILD_COMMAND       cd <SOURCE_DIR>/build
                        && cmake .. -DCMAKE_INSTALL_PREFIX=${MKLDNN_INSTALL_DIR} -DMKLROOT=${MKLDNN_MKLROOT}
                        && $(MAKE)
    INSTALL_COMMAND     cd <SOURCE_DIR>/build && $(MAKE) install
    UPDATE_COMMAND      ""
    CMAKE_ARGS          -DCMAKE_INSTALL_PREFIX=${MKLDNN_INSTALL_DIR}
    CMAKE_ARGS          -DMKLROOT=${MKLDNN_MKLROOT}
    CMAKE_CACHE_ARGS    -DCMAKE_INSTALL_PREFIX:PATH=${MKLDNN_INSTALL_DIR}
                        -DMKLROOT:PATH=${MKLDNN_MKLROOT}
 )
 ADD_LIBRARY(mkldnn SHARED IMPORTED GLOBAL)
-SET_PROPERTY(TARGET mkldnn PROPERTY IMPORTED_LOCATION ${MKLDNN_LIBRARY})
+SET_PROPERTY(TARGET mkldnn PROPERTY IMPORTED_LOCATION ${MKLDNN_LIB})
 ADD_DEPENDENCIES(mkldnn ${MKLDNN_PROJECT})
-MESSAGE(STATUS "Mkldnn library: ${MKLDNN_LIBRARY}")
+MESSAGE(STATUS "Mkldnn library: ${MKLDNN_LIB}")
 LIST(APPEND external_project_dependencies mkldnn)
--- a/cmake/external/mklml.cmake
+++ b/cmake/external/mklml.cmake
@ -16,19 +16,23 @@ IF(NOT ${WITH_MKLML})
  return()
 ENDIF(NOT ${WITH_MKLML})
 IF(WIN32 OR APPLE)
    MESSAGE(WARNING 
        "Windows or Mac is not supported with MKLML in Paddle yet."
        "Force WITH_MKLML=OFF")
    SET(WITH_MKLML OFF CACHE STRING "Disable MKLML package in Windows and MacOS" FORCE)
    return()
 ENDIF()
 INCLUDE(ExternalProject)
 SET(MKLML_PROJECT       "extern_mklml")
-SET(MKLML_VER           "mklml_lnx_2018.0.20170425")
+SET(MKLML_VER           "mklml_lnx_2018.0.20170720")
 SET(MKLML_URL           "https://github.com/01org/mkl-dnn/releases/download/v0.9/${MKLML_VER}.tgz")
 SET(MKLML_SOURCE_DIR    "${THIRD_PARTY_PATH}/mklml")
 SET(MKLML_DOWNLOAD_DIR  "${MKLML_SOURCE_DIR}/src/${MKLML_PROJECT}")
-SET(MKLML_DST_DIR       "opt/paddle/third_party/mklml")
+SET(MKLML_DST_DIR       "mklml")
-SET(MKLML_INSTALL_ROOT  "${CMAKE_INSTALL_PREFIX}")
+SET(MKLML_INSTALL_ROOT  "${THIRD_PARTY_PATH}/install")
 IF(NOT "$ENV{HOME}" STREQUAL "/root")
    SET(MKLML_INSTALL_ROOT  "$ENV{HOME}")
 ENDIF()
 SET(MKLML_INSTALL_DIR   ${MKLML_INSTALL_ROOT}/${MKLML_DST_DIR})
 SET(MKLML_ROOT          ${MKLML_INSTALL_DIR}/${MKLML_VER})
 SET(MKLML_INC_DIR       ${MKLML_ROOT}/include)
--- a/cmake/generic.cmake
+++ b/cmake/generic.cmake
@ -187,7 +187,13 @@ function(cc_library TARGET_NAME)
    endif()
    # cpplint code style
-    add_style_check_target(${TARGET_NAME} ${cc_library_SRCS})
+    foreach(source_file ${cc_library_SRCS})
      string(REGEX REPLACE "\\.[^.]*$" "" source ${source_file})
      if(EXISTS ${CMAKE_CURRENT_SOURCE_DIR}/${source}.h)
        list(APPEND cc_library_HEADERS ${CMAKE_CURRENT_SOURCE_DIR}/${source}.h)
      endif()
    endforeach()
    add_style_check_target(${TARGET_NAME} ${cc_library_SRCS} ${cc_library_HEADERS})
  else(cc_library_SRCS)
    if (cc_library_DEPS)
@ -239,6 +245,14 @@ function(nv_library TARGET_NAME)
        add_dependencies(${TARGET_NAME} ${nv_library_DEPS})
        target_link_libraries(${TARGET_NAME} ${nv_library_DEPS})
      endif()
      # cpplint code style
      foreach(source_file ${nv_library_SRCS})
        string(REGEX REPLACE "\\.[^.]*$" "" source ${source_file})
        if(EXISTS ${CMAKE_CURRENT_SOURCE_DIR}/${source}.h)
          list(APPEND cc_library_HEADERS ${CMAKE_CURRENT_SOURCE_DIR}/${source}.h)
        endif()
      endforeach()
      add_style_check_target(${TARGET_NAME} ${nv_library_SRCS} ${nv_library_HEADERS})
    else(nv_library_SRCS)
      if (nv_library_DEPS)
        merge_static_libs(${TARGET_NAME} ${nv_library_DEPS})
--- a/paddle/CMakeLists.txt
+++ b/paddle/CMakeLists.txt
@ -15,7 +15,6 @@ if(Boost_FOUND)
  add_subdirectory(platform)
  add_subdirectory(framework)
  add_subdirectory(operators)
  add_subdirectory(pybind)
 endif()
 if(WITH_C_API)
--- a/paddle/cuda/src/hl_cuda_cudnn.cc
+++ b/paddle/cuda/src/hl_cuda_cudnn.cc
@ -1022,6 +1022,15 @@ void hl_batch_norm_forward_inference(hl_tensor_descriptor inputDesc,
  real alpha = 1.0f;
  real beta = 1.0f;
  cudnnBatchNormMode_t mode = CUDNN_BATCHNORM_SPATIAL;
  int batch_size = ((cudnn_tensor_descriptor)inputDesc)->batch_size;
  if (batch_size > 1024 && g_cudnn_lib_version < 6000) {
    LOG(INFO) << " To process current batch data with size " << batch_size
              << " (>1024), cudnnBatchNorm requires cuDNN version >= 6000."
              << " If there is an error complaining CUDNN_STATUS_NOT_SUPPORTED,"
              << " just recompile PaddlePaddle with cuDNN >= 6000, replacing"
              << " current version " << g_cudnn_lib_version;
  }
  CHECK_CUDNN(
      dynload::cudnnBatchNormalizationForwardInference(t_resource.cudnn_handle,
                                                       mode,
--- a/paddle/framework/CMakeLists.txt
+++ b/paddle/framework/CMakeLists.txt
@ -31,8 +31,14 @@ py_proto_compile(framework_py_proto SRCS attr_type.proto op_proto.proto op_desc.
 add_custom_target(framework_py_proto_init ALL COMMAND ${CMAKE_COMMAND} -E touch __init__.py)
 add_dependencies(framework_py_proto framework_py_proto_init)
-cc_library(net SRCS net.cc DEPS op_registry)
+cc_library(backward SRCS backward.cc DEPS net_op)
 cc_test(net_op_test SRCS net_op_test.cc DEPS net)
 cc_library(backward SRCS backward.cc DEPS net)
 cc_test(backward_test SRCS backward_test.cc DEPS backward)
 cc_library(paddle_pybind SHARED
    SRCS pybind.cc
    DEPS pybind python backward
 	fc_op
 	sgd_op
 	add_op
 	mean_op
 	cross_entropy_op
 	recurrent_op)
--- a/paddle/framework/backward.cc
+++ b/paddle/framework/backward.cc
@ -14,8 +14,8 @@
 #include "paddle/framework/backward.h"
 #include <list>
 #include "paddle/framework/net.h"
 #include "paddle/framework/op_registry.h"
 #include "paddle/operators/net_op.h"
 namespace paddle {
 namespace framework {
@ -32,7 +32,7 @@ static bool AllInSet(const std::vector<std::string>& names,
 }
 static std::shared_ptr<OperatorBase> NOP() {
-  auto net_op = std::make_shared<NetOp>();
+  auto net_op = std::make_shared<operators::NetOp>();
  net_op->type_ = "@NOP@";
  net_op->CompleteAddOp();
  return net_op;
@ -42,9 +42,9 @@ static std::shared_ptr<OperatorBase> NOP() {
 //
 //  no_grad_names the gradient variable names without gradient calculating.
 //
-//  uniq_id is a unique index used inside recursively calling BackwardRecursive.
+//  uniq_id is a unique index used inside recursively calling
-//  use `uid = uniq_id++;` to get the unique index, and pass `uniq_id` through
+//  BackwardRecursive. use `uid = uniq_id++;` to get the unique index, and
-//  recursive calling.
+//  pass `uniq_id` through recursive calling.
 //
 //  returns The backward operator. For simple situation, it is a simple
 //  operator. For complex situation, it is a NetOp.
@ -64,8 +64,8 @@ std::shared_ptr<OperatorBase> BackwardRecursive(
    return NOP();
  }
-  //  All output gradients of forwarding operator do not need to calculate. Then
+  //  All output gradients of forwarding operator do not need to calculate.
-  //  all input gradients cannot be computed at all, and we put them into
+  //  Then all input gradients cannot be computed at all, and we put them into
  //  `no_grad_names` set. Return an NOP.
  if (AllInSet(forwardOp.outputs_, OperatorBase::GRAD_VAR_SUFFIX(),
               no_grad_names)) {
@ -77,14 +77,14 @@ std::shared_ptr<OperatorBase> BackwardRecursive(
  }
  // Returned gradient network
-  auto net = std::make_shared<NetOp>();
+  auto net = std::make_shared<operators::NetOp>();
  if (forwardOp.IsNetOp()) {
    // Because forwardOp is a net op, it can static_cast.
-    auto& forwardNet = static_cast<const NetOp&>(forwardOp);
+    auto& forwardNet = static_cast<const operators::NetOp&>(forwardOp);
-    // Map from output gradient variable name to operator's indices in backward
+    // Map from output gradient variable name to operator's indices in
-    // net. That operator generates that variable.
+    // backward net. That operator generates that variable.
    std::unordered_map<std::string, std::vector<size_t>> dup_output_ops;
    size_t local_op_id = 0;
@ -168,6 +168,9 @@ std::shared_ptr<OperatorBase> Backward(
  std::unordered_set<std::string> no_grad_names;
  no_grad_names.reserve(no_grad_vars.size());
  no_grad_names.insert(OperatorBase::EMPTY_VAR_NAME() +
                       OperatorBase::GRAD_VAR_SUFFIX());
  for (auto& name : no_grad_vars) {
    no_grad_names.insert(name + OperatorBase::GRAD_VAR_SUFFIX());
  }
--- a/paddle/framework/backward_test.cc
+++ b/paddle/framework/backward_test.cc
@ -15,8 +15,9 @@
 #include "paddle/framework/backward.h"
 #include <gtest/gtest.h>
 #include "paddle/framework/net.h"
 #include "paddle/framework/op_registry.h"
 #include "paddle/operators/net_op.h"
 #include "paddle/operators/type_alias.h"
 namespace paddle {
 namespace framework {
@ -70,7 +71,7 @@ class NoGradOpMaker : public OpProtoAndCheckerMaker {
  }
 };
-class FcOp : public NetOp {
+class FcOp : public ops::NetOp {
 public:
  void Init() override {
    AddOp(OpRegistry::CreateOp("mul", {Input("X"), Input("W")},
@ -161,8 +162,8 @@ TEST(Backward, simple_op_grad) {
  auto fwd = f::OpRegistry::CreateOp("rowwise_add", {"X", "b"}, {"Out"}, {});
  ASSERT_NE(fwd, nullptr);
  auto gop = f::OpRegistry::CreateGradOp(*fwd);
-  ASSERT_EQ(1UL, gop->inputs_.size());
+  ASSERT_EQ(4UL, gop->inputs_.size());
-  ASSERT_EQ("Out" + f::OperatorBase::GRAD_VAR_SUFFIX(), gop->inputs_[0]);
+  ASSERT_EQ(f::OperatorBase::EMPTY_VAR_NAME(), gop->inputs_[0]);
  ASSERT_EQ("rowwise_add_grad", gop->type_);
  ASSERT_EQ("X" + f::OperatorBase::GRAD_VAR_SUFFIX(), gop->outputs_[0]);
  ASSERT_EQ("b" + f::OperatorBase::GRAD_VAR_SUFFIX(), gop->outputs_[1]);
@ -182,7 +183,8 @@ TEST(Backward, simple_op_not_need_grad) {
  auto no_input_gop = f::Backward(*fwd, {"X", "b"});
  ASSERT_NE(no_input_gop, nullptr);
  ASSERT_TRUE(no_input_gop->IsNetOp());
-  ASSERT_EQ(0UL, std::static_pointer_cast<f::NetOp>(no_input_gop)->ops_.size());
+  ASSERT_EQ(0UL,
            std::static_pointer_cast<ops::NetOp>(no_input_gop)->ops_.size());
 }
 TEST(Backward, net_fc_backward_normal) {
@ -191,7 +193,7 @@ TEST(Backward, net_fc_backward_normal) {
  ASSERT_NE(fwd, nullptr);
  std::shared_ptr<f::OperatorBase> gop = f::Backward(*fwd, {});
  ASSERT_TRUE(gop->IsNetOp());
-  auto net = static_cast<f::NetOp *>(gop.get());
+  auto net = static_cast<ops::NetOp *>(gop.get());
  ASSERT_NO_THROW(net->DebugString());
@ -214,7 +216,7 @@ TEST(Backward, net_fc_backward_not_have_b) {
  ASSERT_NE(fwd, nullptr);
  std::shared_ptr<f::OperatorBase> gop = f::Backward(*fwd, {});
  ASSERT_TRUE(gop->IsNetOp());
-  auto net = static_cast<f::NetOp *>(gop.get());
+  auto net = static_cast<ops::NetOp *>(gop.get());
  ASSERT_NO_THROW(net->DebugString());
@ -228,7 +230,7 @@ TEST(Backward, net_fc_backward_not_have_b) {
 }
 TEST(Backward, net_input_of_network_not_need_grad) {
-  f::NetOp net;
+  ops::NetOp net;
  net.AddOp(f::OpRegistry::CreateOp("fc", {"X", "W1", "b1"},
                                    {"mul_tmp_0", "add_tmp_0", "hidden0"}, {}));
  net.AddOp(f::OpRegistry::CreateOp("fc", {"hidden0", "W2", "b2"},
@ -236,7 +238,7 @@ TEST(Backward, net_input_of_network_not_need_grad) {
  net.CompleteAddOp();
  auto bwd = Backward(net, {"X"});  // X@GRAD is not need.
  ASSERT_TRUE(bwd->IsNetOp());
-  auto bwd_net = static_cast<f::NetOp *>(bwd.get());
+  auto bwd_net = static_cast<ops::NetOp *>(bwd.get());
  std::unordered_set<std::string> all_output = std::unordered_set<std::string>(
      bwd_net->outputs_.begin(), bwd_net->outputs_.end());
@ -253,7 +255,7 @@ TEST(Backward, net_input_of_network_not_need_grad) {
  ASSERT_EQ(2UL, bwd_net->ops_.size());
  ASSERT_TRUE(bwd_net->ops_[1]->IsNetOp());
-  auto first_fc_grad = static_cast<f::NetOp *>(bwd_net->ops_[1].get());
+  auto first_fc_grad = static_cast<ops::NetOp *>(bwd_net->ops_[1].get());
  ASSERT_EQ(3UL, first_fc_grad->ops_.size());
  ASSERT_EQ(
      f::OperatorBase::EMPTY_VAR_NAME(),
@ -261,14 +263,14 @@ TEST(Backward, net_input_of_network_not_need_grad) {
 }
 TEST(Backward, net_shared_weight) {
-  f::NetOp net;
+  ops::NetOp net;
  net.AddOp(f::OpRegistry::CreateOp("mul", {"X", "W"}, {"Out"}, {}));
  net.AddOp(f::OpRegistry::CreateOp("mul", {"Out", "W"}, {"FinalOut"}, {}));
  net.CompleteAddOp();
  auto bwd = f::Backward(net, {});
  ASSERT_TRUE(bwd->IsNetOp());
-  auto bwd_net = static_cast<f::NetOp *>(bwd.get());
+  auto bwd_net = static_cast<ops::NetOp *>(bwd.get());
  ASSERT_EQ(3UL, bwd_net->ops_.size());
  ASSERT_EQ("add", bwd_net->ops_[2]->type_);
 }
@ -285,7 +287,7 @@ TEST(Backward, op_all_input_are_not_need) {
  auto fwd = f::OpRegistry::CreateOp("rowwise_add", {"X", "b"}, {"Out"}, {});
  auto backward = f::Backward(*fwd, {"X", "b"});
  ASSERT_TRUE(backward->IsNetOp());
-  auto net = static_cast<f::NetOp *>(backward.get());
+  auto net = static_cast<ops::NetOp *>(backward.get());
  ASSERT_TRUE(net->ops_.empty());
 }
@ -293,7 +295,7 @@ TEST(Backward, op_all_output_are_not_need) {
  auto fwd = f::OpRegistry::CreateOp("rowwise_add", {"X", "b"}, {"Out"}, {});
  auto backward = f::Backward(*fwd, {"Out"});
  ASSERT_TRUE(backward->IsNetOp());
-  auto net = static_cast<f::NetOp *>(backward.get());
+  auto net = static_cast<ops::NetOp *>(backward.get());
  ASSERT_TRUE(net->ops_.empty());
 }
@ -301,7 +303,7 @@ TEST(Backward, op_part_of_output_are_not_need) {
  auto fwd = f::OpRegistry::CreateOp("many_output_op", {"X"}, {"Y", "Z"}, {});
  auto backward = f::Backward(*fwd, {"Z"});
  ASSERT_TRUE(backward->IsNetOp());
-  auto net = static_cast<f::NetOp *>(backward.get());
+  auto net = static_cast<ops::NetOp *>(backward.get());
  ASSERT_EQ(net->ops_.size(), 2UL);
  auto &fill_zero = *net->ops_[0];
@ -341,7 +343,7 @@ TEST(Backward, op_part_of_input_are_not_need) {
 }
 TEST(Backward, linear_net_intermediate_variable_has_no_grad) {
-  f::NetOp net;
+  ops::NetOp net;
  net.AddOp(f::OpRegistry::CreateOp("fc", {"x1", "w1", "b1"},
                                    {"mul_out1", "add_out1", "out1"}, {}));
  net.AddOp(f::OpRegistry::CreateOp("fc", {"out1", "w2", "b2"},
@ -351,14 +353,13 @@ TEST(Backward, linear_net_intermediate_variable_has_no_grad) {
  net.CompleteAddOp();
  auto backward = f::Backward(net, {"mul_out2", "tmp_out2", "out2"});
  ASSERT_TRUE(backward->IsNetOp());
-  auto bwd_net = static_cast<f::NetOp *>(backward.get());
+  auto bwd_net = static_cast<ops::NetOp *>(backward.get());
  ASSERT_EQ(bwd_net->ops_.size(), 3UL);
  auto &grad_fc = *bwd_net->ops_[0];
  EXPECT_EQ(grad_fc.inputs_.size(),
            3UL       /* external input number */
                + 1UL /* external output number*/
                + 1UL /* number of gradient of external output*/
                - 1UL /*ignoreGradient varable number*/
                + 2U /* internal variable number*/);
  EXPECT_EQ(grad_fc.outputs_.size(), 2UL       /* input number of mul*/
                                         + 2UL /* input number of rowwise_add */
--- a/paddle/framework/ddim.h
+++ b/paddle/framework/ddim.h
@ -25,18 +25,15 @@ limitations under the License. */
 namespace paddle {
 namespace framework {
 namespace {
 typedef boost::variant<Dim<1>, Dim<2>, Dim<3>, Dim<4>, Dim<5>, Dim<6>, Dim<7>,
                       Dim<8>, Dim<9>>
    DDimVar;
 }
 /**
 * \brief A dynamically sized dimension.
 *
 * The number of dimensions must be between [1, 9].
 */
 struct DDim {
  typedef boost::variant<Dim<1>, Dim<2>, Dim<3>, Dim<4>, Dim<5>, Dim<6>, Dim<7>,
                         Dim<8>, Dim<9>>
      DDimVar;
  DDimVar var;
  DDim() : var(Dim<1>()) {}
--- a/paddle/framework/grad_op_builder.cc
+++ b/paddle/framework/grad_op_builder.cc
@ -8,107 +8,97 @@ You may obtain a copy of the License at
 Unless required by applicable law or agreed to in writing, software
 distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+WITHOpArgType::OUT WARRANTIES OR CONDITIONS OF ANY KOpArgType::IND, either
-See the License for the specific language governing permissions and
+express or implied. See the License for the specific language governing
-limitations under the License. */
+permissions and limitations under the License. */
 #include "paddle/framework/grad_op_builder.h"
 #include "paddle/framework/op_proto.pb.h"
 #include "paddle/framework/op_registry.h"
 namespace paddle {
 namespace framework {
-OperatorBase* GradOpBuilder::Build() {
+class OpRegistry;
-  BuildOpInOutArgList();
+
-  std::string grad_op_type = OpRegistry::grad_ops().at(op_.type_);
+using VarIndexMap = std::unordered_map<std::string, int>;
  OperatorBase* grad_op = OpRegistry::op_creators().at(grad_op_type)();
  grad_op->type_ = grad_op_type;
  CompleteGradOp(grad_op);
  return grad_op;
 }
-OpInOutArg* GradOpBuilder::BuildArg(const VarProto& var,
+enum class OpArgType { IN, OUT };
-                                    const VarIndexMap& var_map,
+
-                                    const std::vector<int>& format,
+static std::vector<int>* GetOpFormat(OperatorBase* op, const OpArgType& type) {
-                                    InOutType type) {
+  std::string key = type == OpArgType::IN ? "input_format" : "output_format";
-  int idx = var_map.at(var.name());
+  return op->attrs_.count(key)
-  int begin_idx = format.empty() ? idx : format.at(idx);
+             ? &boost::get<std::vector<int>>(op->attrs_.at(key))
-  int end_idx = format.empty() ? idx + 1 : format.at(idx + 1);
+             : nullptr;
  return new OpInOutArg(var.name(), type, !var.ignore_gradient(), begin_idx,
                        end_idx);
 }
-void GradOpBuilder::BuildOpInOutArgList() {
+static const std::vector<int>* GetOpFormat(const OperatorBase* op,
-  const OpProto& op_proto = OpRegistry::protos().at(op_.type_);
+                                           const OpArgType& type) {
-  const auto& var_map = *(OpRegistry::VarIndexMaps().at(op_.type_));
+  std::string key = type == OpArgType::IN ? "input_format" : "output_format";
-  const std::vector<int>& in_format =
+  return op->attrs_.count(key)
-      op_.attrs_.count("input_format")
+             ? &boost::get<std::vector<int>>(op->attrs_.at(key))
-          ? op_.GetAttr<std::vector<int>>("input_format")
+             : nullptr;
          : std::vector<int>();
  const std::vector<int>& out_format =
      op_.attrs_.count("output_format")
          ? op_.GetAttr<std::vector<int>>("output_format")
          : std::vector<int>();
  for (const auto& var : op_proto.inputs()) {
    arg_list_.emplace_back(
        std::shared_ptr<OpInOutArg>(BuildArg(var, var_map, in_format, IN)));
  }
  for (const auto& var : op_proto.outputs()) {
    arg_list_.emplace_back(
        std::shared_ptr<OpInOutArg>(BuildArg(var, var_map, out_format, OUT)));
  }
 }
-void GradOpBuilder::AddArgIntoGradOp(const OpInOutArg* arg,
+static void TransOpArg(const OperatorBase* src_op, OperatorBase* dst_op,
-                                     std::vector<std::string>& in_out,
+                       const OpArgType& src_type, const OpArgType& dst_type,
-                                     std::vector<int>& format,
+                       int& idx, bool is_grad) {
-                                     VarIndexMap* varmap, int& idx,
+  const std::vector<std::string>& src_inout =
-                                     bool is_grad) const {
+      src_type == OpArgType::IN ? src_op->inputs_ : src_op->outputs_;
-  std::string var_name = arg->proto_name_;
+  const std::vector<int>* src_format = GetOpFormat(src_op, src_type);
-  if (is_grad) {
+
-    var_name += OperatorBase::GRAD_VAR_SUFFIX();
+  std::vector<std::string>& dst_inout =
-  }
+      dst_type == OpArgType::IN ? dst_op->inputs_ : dst_op->outputs_;
-  (*varmap)[var_name] = idx++;
+  std::vector<int>* dst_format = GetOpFormat(dst_op, dst_type);
-  size_t pre_sz = in_out.size();
+  const OpProto& proto = OpRegistry::protos().at(src_op->type_);
-  auto base_it = arg->type_ == IN ? op_.inputs_.begin() : op_.outputs_.begin();
+  const auto& src_arg_list =
-  std::copy(base_it + arg->begin_idx_, base_it + arg->end_idx_,
+      src_type == OpArgType::IN ? proto.inputs() : proto.outputs();
-            std::back_inserter(in_out));
+
-  if (is_grad) {
+  for (const auto& arg : src_arg_list) {
-    for (size_t i = pre_sz; i < in_out.size(); ++i) {
+    std::string src_name = arg.name();
-      in_out[i] += OperatorBase::GRAD_VAR_SUFFIX();
+    std::string dst_name =
        is_grad ? src_name + OperatorBase::GRAD_VAR_SUFFIX() : src_name;
    (*dst_op->in_out_idxs_)[dst_name] = idx++;
    int src_arg_idx = src_op->in_out_idxs_->at(src_name);
    int src_begin =
        src_format == nullptr ? src_arg_idx : src_format->at(src_arg_idx);
    int src_end = src_format == nullptr ? src_arg_idx + 1
                                        : src_format->at(src_arg_idx + 1);
    for (int i = src_begin; i < src_end; ++i) {
      std::string s = is_grad ? src_inout[i] + OperatorBase::GRAD_VAR_SUFFIX()
                              : arg.ignore_gradient()
                                    ? OperatorBase::EMPTY_VAR_NAME()
                                    : src_inout[i];
      dst_inout.emplace_back(s);
    }
    if (dst_format != nullptr) {
      dst_format->push_back(dst_inout.size());
    }
  }
  format.push_back(in_out.size());
 }
-void GradOpBuilder::CompleteGradOp(OperatorBase* grad_op) const {
+OperatorBase* BuildGradOp(const OperatorBase* op) {
-  grad_op->attrs_ = op_.attrs_;
+  std::string grad_op_type = OpRegistry::grad_ops().at(op->type_);
  OperatorBase* grad_op = OpRegistry::op_creators().at(grad_op_type)();
  grad_op->type_ = grad_op_type;
  grad_op->attrs_ = op->attrs_;
  grad_op->attrs_.erase("input_format");
  grad_op->attrs_.erase("output_format");
-  VarIndexMap* grad_varmap = new VarIndexMap();
+  if (GetOpFormat(op, OpArgType::IN) != nullptr) {
    grad_op->attrs_["output_format"] = std::vector<int>({0});
  }
  if (GetOpFormat(op, OpArgType::IN) != nullptr ||
      GetOpFormat(op, OpArgType::OUT) != nullptr) {
    grad_op->attrs_["input_format"] = std::vector<int>({0});
  }
  grad_op->in_out_idxs_.reset(new VarIndexMap());
  int in_idx = 0;
  int out_idx = 0;
-  std::vector<int> in_format({0});
+  TransOpArg(op, grad_op, OpArgType::IN, OpArgType::IN, in_idx, false);   // I
-  std::vector<int> out_format({0});
+  TransOpArg(op, grad_op, OpArgType::OUT, OpArgType::IN, in_idx, false);  // G
-  for (const auto& arg : arg_list_) {
+  TransOpArg(op, grad_op, OpArgType::OUT, OpArgType::IN, in_idx, true);   // OG
-    // op_'s inputs_ and outputs_
+  TransOpArg(op, grad_op, OpArgType::IN, OpArgType::OUT, out_idx, true);  // IG
-    if (arg->needed_in_grad_) {
+  return grad_op;
      AddArgIntoGradOp(arg.get(), grad_op->inputs_, in_format, grad_varmap,
                       in_idx, false);
    }
    if (arg->type_ == IN) {
      // gradients of op_'s inputs_
      AddArgIntoGradOp(arg.get(), grad_op->outputs_, out_format, grad_varmap,
                       out_idx, true);
    } else {
      // gradients of op_'s outputs_
      AddArgIntoGradOp(arg.get(), grad_op->inputs_, in_format, grad_varmap,
                       in_idx, true);
    }
  }
  grad_op->attrs_["input_format"] = in_format;
  grad_op->attrs_["output_format"] = out_format;
  grad_op->in_out_idxs_.reset(grad_varmap);
 }
 }  // namespace framework
--- a/paddle/framework/grad_op_builder.h
+++ b/paddle/framework/grad_op_builder.h
@ -1,48 +1,25 @@
 /* Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserve.
 Licensed under the Apache License, Version 2.0 (the "License");
 you may not use this file except in compliance with the License.
 You may obtain a copy of the License at
    http://www.apache.org/licenses/LICENSE-2.0
 Unless required by applicable law or agreed to in writing, software
 distributed under the License is distributed on an "AS IS" BASIS,
 WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #pragma once
 #include "paddle/framework/op_proto.pb.h"
 #include "paddle/framework/operator.h"
 namespace paddle {
 namespace framework {
-class OpRegistry;
+
-
+OperatorBase* BuildGradOp(const OperatorBase* op);
 enum InOutType { IN, OUT };
 struct OpInOutArg {
  OpInOutArg(const std::string& proto_name, const InOutType& type,
             bool needed_in_grad, size_t begin_idx, size_t end_idx)
      : proto_name_(proto_name),
        type_(type),
        needed_in_grad_(needed_in_grad),
        begin_idx_(begin_idx),
        end_idx_(end_idx) {}
  std::string proto_name_;
  InOutType type_;
  bool needed_in_grad_;
  size_t begin_idx_;
  size_t end_idx_;
 };
 class GradOpBuilder {
  using VarIndexMap = std::unordered_map<std::string, int>;
 public:
  GradOpBuilder(const OperatorBase& op) : op_(op) {}
  OperatorBase* Build();
 private:
  OpInOutArg* BuildArg(const VarProto& var, const VarIndexMap& var_map,
                       const std::vector<int>& format, InOutType type);
  void BuildOpInOutArgList();
  void AddArgIntoGradOp(const OpInOutArg* arg, std::vector<std::string>& in_out,
                        std::vector<int>& format, VarIndexMap* varmap, int& idx,
                        bool is_grad) const;
  void CompleteGradOp(OperatorBase* grad_op) const;
  const OperatorBase& op_;
  std::vector<std::shared_ptr<OpInOutArg>> arg_list_;
 };
 }  // namespace framework
 }  // namespace paddle
--- a/paddle/framework/grad_op_builder_test.cc
+++ b/paddle/framework/grad_op_builder_test.cc
@ -8,10 +8,49 @@ USE_OP(add_two);
 namespace paddle {
 namespace framework {
 class NOP : public OperatorBase {
 public:
  void InferShape(const Scope &scope) const override {}
  void Run(const Scope &scope,
           const platform::DeviceContext &dev_ctx) const override {}
 };
 class MutiInOutOpMaker : public OpProtoAndCheckerMaker {
 public:
  MutiInOutOpMaker(OpProto *proto, OpAttrChecker *op_checker)
      : OpProtoAndCheckerMaker(proto, op_checker) {
    AddInput("In1", "a single input");
    AddInput("In2_mult", "a multiple input").SetMultiple();
    AddInput("In3", "another single input");
    AddOutput("Out1", "a single output");
    AddOutput("Out2_mult", "a multiple output").SetMultiple();
    AddComment("test op with multiple inputs and outputs");
  }
 };
 class IOIgnoredOpMaker : public OpProtoAndCheckerMaker {
 public:
  IOIgnoredOpMaker(OpProto *proto, OpAttrChecker *op_checker)
      : OpProtoAndCheckerMaker(proto, op_checker) {
    AddInput("In1", "a single input");
    AddInput("In2_mult", "a multiple input").SetMultiple().IgnoreGradient();
    AddInput("In3_mult", "another multiple input").SetMultiple();
    AddOutput("Out1_mult", "a multiple output").SetMultiple();
    AddOutput("Out2", "a single output").IgnoreGradient();
    AddComment("op with inputs and outputs ignored in gradient calculating");
  }
 };
 }  // namespace framework
 }  // namespace paddle
 namespace f = paddle::framework;
 TEST(GradOpBuilder, AddTwo) {
-  std::shared_ptr<OperatorBase> add_op(
+  std::shared_ptr<f::OperatorBase> add_op(
-      OpRegistry::CreateOp("add_two", {"x", "y"}, {"out"}, {}));
+      f::OpRegistry::CreateOp("add_two", {"x", "y"}, {"out"}, {}));
-  std::shared_ptr<OperatorBase> grad_add_op = OpRegistry::CreateGradOp(*add_op);
+  std::shared_ptr<f::OperatorBase> grad_add_op =
      f::OpRegistry::CreateGradOp(*add_op);
  EXPECT_EQ(static_cast<int>(grad_add_op->inputs_.size()), 4);
  EXPECT_EQ(static_cast<int>(grad_add_op->outputs_.size()), 2);
  EXPECT_EQ(grad_add_op->Input("X"), "x");
@ -22,5 +61,85 @@ TEST(GradOpBuilder, AddTwo) {
  EXPECT_EQ(grad_add_op->Output("Y@GRAD"), "y@GRAD");
 }
-}  // namespace framework
+REGISTER_OP(mult_io, f::NOP, f::MutiInOutOpMaker);
-}  // namespace paddle
+REGISTER_GRADIENT_OP(mult_io, mult_io_grad, f::NOP);
 REGISTER_OP(io_ignored, f::NOP, f::IOIgnoredOpMaker);
 REGISTER_GRADIENT_OP(io_ignored, io_ignored_grad, f::NOP);
 TEST(GradOpBuilder, MutiInOut) {
  f::AttributeMap attrs{{"input_format", std::vector<int>{0, 1, 4, 5}},
                        {"output_format", std::vector<int>{0, 1, 3}}};
  std::shared_ptr<f::OperatorBase> test_op(f::OpRegistry::CreateOp(
      "mult_io", {"in1", "in2_1", "in2_2", "in2_3", "in3"},
      {"out1", "out2_1", "out2_2"}, attrs));
  std::shared_ptr<f::OperatorBase> grad_test_op =
      f::OpRegistry::CreateGradOp(*test_op);
  ASSERT_EQ(grad_test_op->inputs_.size(), 5UL + 3UL + 3UL);
  EXPECT_EQ(grad_test_op->Input("In1"), "in1");
  EXPECT_EQ(grad_test_op->Inputs("In2_mult"),
            std::vector<std::string>({"in2_1", "in2_2", "in2_3"}));
  EXPECT_EQ(grad_test_op->Input("In3"), "in3");
  EXPECT_EQ(grad_test_op->Input("Out1"), "out1");
  EXPECT_EQ(grad_test_op->Inputs("Out2_mult"),
            std::vector<std::string>({"out2_1", "out2_2"}));
  EXPECT_EQ(grad_test_op->Input("Out1" + f::OperatorBase::GRAD_VAR_SUFFIX()),
            "out1" + f::OperatorBase::GRAD_VAR_SUFFIX());
  EXPECT_EQ(
      grad_test_op->Inputs("Out2_mult" + f::OperatorBase::GRAD_VAR_SUFFIX()),
      std::vector<std::string>(
          {"out2_1" + f::OperatorBase::GRAD_VAR_SUFFIX(),
           "out2_2" + f::OperatorBase::GRAD_VAR_SUFFIX()}));
  ASSERT_EQ(grad_test_op->outputs_.size(), 5UL);
  EXPECT_EQ(grad_test_op->Output("In1" + f::OperatorBase::GRAD_VAR_SUFFIX()),
            "in1" + f::OperatorBase::GRAD_VAR_SUFFIX());
  EXPECT_EQ(
      grad_test_op->Outputs("In2_mult" + f::OperatorBase::GRAD_VAR_SUFFIX()),
      std::vector<std::string>({"in2_1" + f::OperatorBase::GRAD_VAR_SUFFIX(),
                                "in2_2" + f::OperatorBase::GRAD_VAR_SUFFIX(),
                                "in2_3" + f::OperatorBase::GRAD_VAR_SUFFIX()}));
  EXPECT_EQ(grad_test_op->Output("In3" + f::OperatorBase::GRAD_VAR_SUFFIX()),
            "in3" + f::OperatorBase::GRAD_VAR_SUFFIX());
 }
 TEST(GradOpBuilder, IOIgnoredInGradient) {
  f::AttributeMap attrs{{"input_format", std::vector<int>{0, 1, 3, 5}},
                        {"output_format", std::vector<int>{0, 2, 3}}};
  std::shared_ptr<f::OperatorBase> test_op(f::OpRegistry::CreateOp(
      "io_ignored", {"in1", "in2_1", "in2_2", "in3_1", "in3_2"},
      {"out1_1", "out1_2", "out2"}, attrs));
  std::shared_ptr<f::OperatorBase> grad_test_op =
      f::OpRegistry::CreateGradOp(*test_op);
  // 'In2' and 'Out2' are ignored in gradient calculating
  ASSERT_EQ(grad_test_op->inputs_.size(), 5UL + 3UL + 3UL);
  EXPECT_EQ(grad_test_op->Input("In1"), "in1");
  EXPECT_EQ(grad_test_op->Inputs("In2_mult"),
            std::vector<std::string>({f::OperatorBase::EMPTY_VAR_NAME(),
                                      f::OperatorBase::EMPTY_VAR_NAME()}));
  EXPECT_EQ(grad_test_op->Inputs("In3_mult"),
            std::vector<std::string>({"in3_1", "in3_2"}));
  EXPECT_EQ(grad_test_op->Inputs("Out1_mult"),
            std::vector<std::string>({"out1_1", "out1_2"}));
  EXPECT_EQ(grad_test_op->Input("Out2"), f::OperatorBase::EMPTY_VAR_NAME());
  EXPECT_EQ(
      grad_test_op->Inputs("Out1_mult" + f::OperatorBase::GRAD_VAR_SUFFIX()),
      std::vector<std::string>(
          {"out1_1" + f::OperatorBase::GRAD_VAR_SUFFIX(),
           "out1_2" + f::OperatorBase::GRAD_VAR_SUFFIX()}));
  EXPECT_EQ(grad_test_op->Input("Out2" + f::OperatorBase::GRAD_VAR_SUFFIX()),
            "out2" + f::OperatorBase::GRAD_VAR_SUFFIX());
  ASSERT_EQ(grad_test_op->outputs_.size(), 5UL);
  EXPECT_EQ(grad_test_op->Output("In1" + f::OperatorBase::GRAD_VAR_SUFFIX()),
            "in1" + f::OperatorBase::GRAD_VAR_SUFFIX());
  EXPECT_EQ(
      grad_test_op->Outputs("In2_mult" + f::OperatorBase::GRAD_VAR_SUFFIX()),
      std::vector<std::string>({"in2_1" + f::OperatorBase::GRAD_VAR_SUFFIX(),
                                "in2_2" + f::OperatorBase::GRAD_VAR_SUFFIX()}));
  EXPECT_EQ(
      grad_test_op->Outputs("In3_mult" + f::OperatorBase::GRAD_VAR_SUFFIX()),
      std::vector<std::string>({"in3_1" + f::OperatorBase::GRAD_VAR_SUFFIX(),
                                "in3_2" + f::OperatorBase::GRAD_VAR_SUFFIX()}));
 }
--- a/paddle/framework/op_registry.h
+++ b/paddle/framework/op_registry.h
@ -306,8 +306,7 @@ class OpRegistry {
  static std::shared_ptr<OperatorBase> CreateGradOp(const OperatorBase& op) {
    PADDLE_ENFORCE(!op.IsNetOp(),
                   "Use framework::Backward to get backward ops");
-    GradOpBuilder builder(op);
+    std::shared_ptr<OperatorBase> grad_op(BuildGradOp(&op));
    std::shared_ptr<OperatorBase> grad_op(builder.Build());
    grad_op->Init();
    return grad_op;
  }
@ -315,7 +314,7 @@ class OpRegistry {
  static std::unordered_map<std::string, OpProto>& protos() {
    static std::unordered_map<std::string, OpProto> protos_;
    return protos_;
-  };
+  }
  static std::unordered_map<std::string, std::string>& grad_ops() {
    static std::unordered_map<std::string, std::string> grad_ops_;
@ -337,7 +336,7 @@ class OpRegistry {
  static std::unordered_map<std::string, OpAttrChecker>& op_checkers() {
    static std::unordered_map<std::string, OpAttrChecker> op_checkers_;
    return op_checkers_;
-  };
+  }
  static void GenerateTempVariableName(OperatorBase* op) {
    static std::atomic<size_t> gUniqId(0UL);
@ -354,7 +353,7 @@ class OpRegistry {
 template <typename OpType, typename ProtoMakerType>
 class OpRegisterHelper {
 public:
-  OpRegisterHelper(const char* op_type) {
+  explicit OpRegisterHelper(const char* op_type) {
    OpRegistry::RegisterOp<OpType, ProtoMakerType>(op_type);
  }
 };
@ -400,6 +399,14 @@ class GradOpRegisterHelper {
    return 0;                                                                  \
  }
 /**
 * Macro to Forbid user register Gradient Operator.
 */
 #define NO_GRADIENT(__op_type)                          \
  STATIC_ASSERT_GLOBAL_NAMESPACE(                       \
      __reg_gradient_op__##__op_type##__op_type##_grad, \
      "NO_GRADIENT must be in global namespace")
 /**
 * Macro to Register OperatorKernel.
 */
--- a/paddle/framework/operator.h
+++ b/paddle/framework/operator.h
@ -55,6 +55,10 @@ class OperatorBase {
  /// e.g. Variable "x@GRAD" is the gradient of varibale "x".
  static std::string GRAD_VAR_SUFFIX() { return "@GRAD"; }
  static std::string GRAD_VAR_NAME(const std::string& name) {
    return name + GRAD_VAR_SUFFIX();
  }
  /// Variables with this suffix are supposed to be filled up with zeros.
  static std::string ZERO_VAR_SUFFIX() { return "@ZERO"; }
@ -280,7 +284,7 @@ class OperatorWithKernel : public OperatorBase {
    platform::Place place_;
    OpKernelKey() = default;
-    OpKernelKey(const platform::DeviceContext& dev_ctx) {
+    explicit OpKernelKey(const platform::DeviceContext& dev_ctx) {
      place_ = dev_ctx.GetPlace();
    }
--- a/paddle/framework/pybind.cc
+++ b/paddle/framework/pybind.cc
@ -4,7 +4,7 @@ Licensed under the Apache License, Version 2.0 (the "License");
 you may not use this file except in compliance with the License.
 You may obtain a copy of the License at
-    http://www.apache.org/licenses/LICENSE-2.0
+http://www.apache.org/licenses/LICENSE-2.0
 Unless required by applicable law or agreed to in writing, software
 distributed under the License is distributed on an "AS IS" BASIS,
@ -17,19 +17,19 @@ limitations under the License. */
 #include <vector>
 #include "paddle/framework/backward.h"
 #include "paddle/framework/net.h"
 #include "paddle/framework/op_registry.h"
 #include "paddle/framework/operator.h"
 #include "paddle/framework/scope.h"
 #include "paddle/framework/tensor_py.h"
 #include "paddle/operators/net_op.h"
 #include "paddle/operators/type_alias.h"
 #include "paddle/platform/enforce.h"
 #include "paddle/platform/place.h"
 #include "paddle/pybind/tensor_bind.h"
 #include "pybind11/numpy.h"
 #include "pybind11/pybind11.h"
 #include "pybind11/stl.h"
 namespace py = pybind11;
 namespace pd = paddle::framework;
 USE_OP(add_two);
 USE_OP(onehot_cross_entropy);
@ -41,17 +41,18 @@ USE_OP(sigmoid);
 USE_OP(softmax);
 USE_OP(rowwise_add);
 USE_OP_WITHOUT_KERNEL(recurrent_op);
-
+namespace paddle {
 namespace framework {
 template <typename ClassType>
-void ExposeOperator(ClassType& m) {
+void ExposeOperator(ClassType &m) {
  m.def("infer_shape", &ClassType::type::InferShape)
      .def("run", &ClassType::type::Run)
      .def("type",
-           [](const typename ClassType::type& op) -> std::string {
+           [](const typename ClassType::type &op) -> std::string {
             return op.type_;
           })
      .def("outputs",
-           [](const typename ClassType::type& op) -> std::vector<std::string> {
+           [](const typename ClassType::type &op) -> std::vector<std::string> {
             return op.outputs_;
           })
      .def("__str__", &ClassType::type::DebugString);
@ -73,80 +74,81 @@ bool IsCompileGPU() {
 PYBIND11_PLUGIN(core) {
  py::module m("core", "C++ core of PaddlePaddle");
-  py::class_<pd::Tensor>(m, "Tensor", py::buffer_protocol())
+  py::class_<Tensor>(m, "Tensor", py::buffer_protocol())
-      .def_buffer([](pd::Tensor& self) -> py::buffer_info {
+      .def_buffer(
-        return paddle::pybind::CastToPyBuffer(self);
+          [](Tensor &self) -> py::buffer_info { return CastToPyBuffer(self); })
      })
      .def("get_dims",
-           [](const pd::Tensor& self) { return pd::vectorize(self.dims()); })
+           [](const Tensor &self) { return vectorize(self.dims()); })
      .def("set_dims",
-           [](pd::Tensor& self, const std::vector<int>& dim) {
+           [](Tensor &self, const std::vector<int> &dim) {
-             self.Resize(pd::make_ddim(dim));
+             self.Resize(make_ddim(dim));
           })
      .def("alloc_float",
-           [](pd::Tensor& self, paddle::platform::GPUPlace& place) {
+           [](Tensor &self, paddle::platform::GPUPlace &place) {
             self.mutable_data<float>(place);
           })
      .def("alloc_float",
-           [](pd::Tensor& self, paddle::platform::CPUPlace& place) {
+           [](Tensor &self, paddle::platform::CPUPlace &place) {
             self.mutable_data<float>(place);
           })
      .def("alloc_int",
-           [](pd::Tensor& self, paddle::platform::CPUPlace& place) {
+           [](Tensor &self, paddle::platform::CPUPlace &place) {
             self.mutable_data<int>(place);
           })
      .def("alloc_int",
-           [](pd::Tensor& self, paddle::platform::GPUPlace& place) {
+           [](Tensor &self, paddle::platform::GPUPlace &place) {
             self.mutable_data<int>(place);
           })
-      .def("set", paddle::pybind::PyCPUTensorSetFromArray<float>)
+      .def("set", PyCPUTensorSetFromArray<float>)
-      .def("set", paddle::pybind::PyCPUTensorSetFromArray<int>)
+      .def("set", PyCPUTensorSetFromArray<int>)
 #ifndef PADDLE_ONLY_CPU
-      .def("set", paddle::pybind::PyCUDATensorSetFromArray<float>)
+      .def("set", PyCUDATensorSetFromArray<float>)
-      .def("set", paddle::pybind::PyCUDATensorSetFromArray<int>)
+      .def("set", PyCUDATensorSetFromArray<int>)
 #endif
-      .def("shape",
+      .def("shape", [](Tensor &self) { return vectorize(self.dims()); })
-           [](pd::Tensor& self) { return pd::vectorize(self.dims()); });
+      .def("set_float_element",
           [](Tensor &self, size_t offset, float f) {
             // TODO(yuyang18): Only support GPU now.
             self.data<float>()[offset] = f;
           })
      .def("get_float_element", [](Tensor &self, size_t offset) -> float {
        // TODO(yuyang18): Only support GPU now.
        return self.data<float>()[offset];
      });
-  py::class_<pd::Variable>(m, "Variable", R"DOC(Variable Class.
+  py::class_<Variable>(m, "Variable", R"DOC(Variable Class.
 All parameter, weight, gradient are variables in Paddle.
 )DOC")
-      .def("is_int", [](const pd::Variable& var) { return var.IsType<int>(); })
+      .def("is_int", [](const Variable &var) { return var.IsType<int>(); })
      .def("set_int",
-           [](pd::Variable& var, int val) -> void {
+           [](Variable &var, int val) -> void { *var.GetMutable<int>() = val; })
-             *var.GetMutable<int>() = val;
+      .def("get_int", [](const Variable &var) -> int { return var.Get<int>(); })
           })
      .def("get_int",
           [](const pd::Variable& var) -> int { return var.Get<int>(); })
      .def("get_tensor",
-           [](pd::Variable& self) -> pd::Tensor* {
+           [](Variable &self) -> Tensor * { return self.GetMutable<Tensor>(); },
             return self.GetMutable<pd::Tensor>();
           },
           py::return_value_policy::reference)
      .def("get_net",
-           [](pd::Variable& self) -> pd::NetOp* {
+           [](Variable &self) -> ops::NetOp * {
-             return self.GetMutable<pd::NetOp>();
+             return self.GetMutable<ops::NetOp>();
           },
           py::return_value_policy::reference);
-  py::class_<pd::Scope>(m, "Scope", "")
+  py::class_<Scope>(m, "Scope", "")
      .def("new_var",
-           [](pd::Scope& self, const std::string& name) -> pd::Variable* {
+           [](Scope &self, const std::string &name) -> Variable * {
             return self.NewVar(name);
           },
           py::return_value_policy::reference)
-      .def("find_var", &pd::Scope::FindVar, py::return_value_policy::reference)
+      .def("find_var", &Scope::FindVar, py::return_value_policy::reference)
      .def(py::init<>())
-      .def("new_scope",
+      .def("new_scope", [](Scope &self) -> Scope * { return &self.NewScope(); },
           [](pd::Scope& self) -> pd::Scope* { return &self.NewScope(); },
           py::return_value_policy::reference)
-      .def("drop_kids", &pd::Scope::DropKids);
+      .def("drop_kids", &Scope::DropKids);
  //! @note: Be careful! PyBind will return std::string as an unicode, not
  //! Python str. If you want a str object, you should cast them in Python.
  m.def("get_all_op_protos", []() -> std::vector<py::bytes> {
-    auto& protos = pd::OpRegistry::protos();
+    auto &protos = OpRegistry::protos();
    std::vector<py::bytes> ret_values;
    for (auto it = protos.begin(); it != protos.end(); ++it) {
      PADDLE_ENFORCE(it->second.IsInitialized(),
@ -161,8 +163,8 @@ All parameter, weight, gradient are variables in Paddle.
  m.def_submodule(
       "var_names",
       "The module will return special predefined variable name in Paddle")
-      .def("empty", pd::OperatorBase::EMPTY_VAR_NAME)
+      .def("empty", OperatorBase::EMPTY_VAR_NAME)
-      .def("temp", pd::OperatorBase::TMP_VAR_NAME);
+      .def("temp", OperatorBase::TMP_VAR_NAME);
  // clang-format off
  py::class_<paddle::platform::DeviceContext>(m, "DeviceContext")
      .def_static("create",
@ -185,43 +187,45 @@ All parameter, weight, gradient are variables in Paddle.
  py::class_<paddle::platform::CPUPlace>(m, "CPUPlace").def(py::init<>());
-  py::class_<pd::OperatorBase, std::shared_ptr<pd::OperatorBase>> operator_base(
+  py::class_<OperatorBase, std::shared_ptr<OperatorBase>> operator_base(
      m, "Operator");
  operator_base.def_static("create", [](py::bytes protobin) {
-    pd::OpDesc desc;
+    OpDesc desc;
    PADDLE_ENFORCE(desc.ParsePartialFromString(protobin),
                   "Cannot parse user input to OpDesc");
    PADDLE_ENFORCE(desc.IsInitialized(),
                   "User OpDesc is not initialized, reason %s",
                   desc.InitializationErrorString());
-    return pd::OpRegistry::CreateOp(desc);
+    return OpRegistry::CreateOp(desc);
  });
  operator_base.def("backward",
-                    [](const pd::OperatorBase& forwardOp,
+                    [](const OperatorBase &forwardOp,
-                       const std::unordered_set<std::string>& no_grad_vars) {
+                       const std::unordered_set<std::string> &no_grad_vars) {
-                      return pd::Backward(forwardOp, no_grad_vars);
+                      return Backward(forwardOp, no_grad_vars);
                    });
  ExposeOperator(operator_base);
-  py::class_<pd::NetOp, std::shared_ptr<pd::NetOp>> net(m, "Net");
+  py::class_<ops::NetOp, std::shared_ptr<ops::NetOp>> net(m, "Net");
  net.def_static("create",
-                 []() -> std::shared_ptr<pd::NetOp> {
+                 []() -> std::shared_ptr<ops::NetOp> {
-                   auto retv = std::make_shared<pd::NetOp>();
+                   auto retv = std::make_shared<ops::NetOp>();
                   retv->type_ = "plain_net";
                   return retv;
                 })
-      .def("add_op", &pd::NetOp::AddOp)
+      .def("add_op", &ops::NetOp::AddOp)
-      .def("add_op",
+      .def(
-           [](pd::NetOp& self, const std::shared_ptr<pd::NetOp>& net) -> void {
+          "add_op",
-             self.AddOp(std::static_pointer_cast<pd::OperatorBase>(net));
+          [](ops::NetOp &self, const std::shared_ptr<ops::NetOp> &net) -> void {
-           })
+            self.AddOp(std::static_pointer_cast<OperatorBase>(net));
-      .def("complete_add_op", &pd::NetOp::CompleteAddOp)
+          })
      .def("complete_add_op", &ops::NetOp::CompleteAddOp)
      .def("complete_add_op",
-           [](std::shared_ptr<pd::NetOp>& self) { self->CompleteAddOp(); });
+           [](std::shared_ptr<ops::NetOp> &self) { self->CompleteAddOp(); });
  ExposeOperator(net);
  m.def("unique_integer", UniqueIntegerGenerator);
@ -230,3 +234,5 @@ All parameter, weight, gradient are variables in Paddle.
  return m.ptr();
 }
 }  // namespace framework
 }  // namespace paddle
--- a/paddle/framework/tensor.h
+++ b/paddle/framework/tensor.h
@ -26,19 +26,17 @@ limitations under the License. */
 #include "unsupported/Eigen/CXX11/Tensor"
 namespace paddle {
 namespace pybind {
 namespace details {  // forward declare
 template <bool less, size_t i, typename... args>
 struct CastToPyBufferImpl;
 }  // namespace details
 }  // namespace pybind
 namespace framework {
 namespace details {
 template <bool less, size_t i, typename... args>
 struct CastToPyBufferImpl;
 }
 class Tensor {
 public:
  template <bool less, size_t i, typename... args>
-  friend struct paddle::pybind::details::CastToPyBufferImpl;
+  friend struct details::CastToPyBufferImpl;
  template <typename T, size_t D, int MajorType, typename IndexType>
  friend struct EigenTensor;
@ -167,4 +165,4 @@ class Tensor {
 }  // namespace framework
 }  // namespace paddle
-#include "paddle/framework/detail/tensor-inl.h"
+#include "paddle/framework/tensor_impl.h"
--- a/paddle/framework/detail/tensor-inl.h
+++ b/paddle/framework/detail/tensor-inl.h
--- a/paddle/framework/tensor_py.h
+++ b/paddle/framework/tensor_py.h
@ -23,7 +23,7 @@ namespace py = pybind11;
 namespace paddle {
-namespace pybind {
+namespace framework {
 namespace details {
@ -63,11 +63,8 @@ struct CastToPyBufferImpl<true, I, ARGS...> {
      }
      return py::buffer_info(
          dst_tensor.mutable_data<CUR_TYPE>(dst_tensor.holder_->place()),
-          sizeof(CUR_TYPE),
+          sizeof(CUR_TYPE), py::format_descriptor<CUR_TYPE>::format(),
-          py::format_descriptor<CUR_TYPE>::format(),
+          (size_t)framework::arity(dst_tensor.dims()), dims_outside, strides);
          (size_t)framework::arity(dst_tensor.dims()),
          dims_outside,
          strides);
    } else {
      constexpr bool less = I + 1 < std::tuple_size<std::tuple<ARGS...>>::value;
      return CastToPyBufferImpl<less, I + 1, ARGS...>()(tensor);
@ -110,8 +107,8 @@ void PyCUDATensorSetFromArray(
  self.Resize(framework::make_ddim(dims));
  auto *dst = self.mutable_data<T>(place);
-  paddle::platform::GpuMemcpySync(
+  paddle::platform::GpuMemcpySync(dst, array.data(), sizeof(T) * array.size(),
-      dst, array.data(), sizeof(T) * array.size(), cudaMemcpyHostToDevice);
+                                  cudaMemcpyHostToDevice);
 }
 #endif
--- a/paddle/function/ConvOp.h
+++ b/paddle/function/ConvOp.h
@ -109,6 +109,13 @@ protected:
    return filter[filter.ndims() - 1];
  }
  // determine whether im2col needs to be performed
  inline bool isNeedIm2col(const TensorShape& filter) const {
    return !(getFilterHeight(filter) == 1 && getFilterWidth(filter) == 1 &&
             strideH() == 1 && strideW() == 1 && paddingH() == 0 &&
             paddingW() == 0);
  }
  std::vector<size_t> strides_;
  std::vector<size_t> paddings_;
--- a/paddle/function/GemmConvOp.cpp
+++ b/paddle/function/GemmConvOp.cpp
@ -66,16 +66,23 @@ public:
    real* inputData = inputs[0].data<real>();
    real* filterData = inputs[1].data<real>();
    real* outputData = outputs[0].data<real>();
    bool needIm2col = isNeedIm2col(filter);
    TensorShape imShape =
        TensorShape({inputChannels / groups_, inputHeight, inputWidth});
    TensorShape colShape = TensorShape({inputChannels / groups_,
                                        filterHeight,
                                        filterWidth,
                                        outputHeight,
                                        outputWidth});
-    resizeBuffer<Device>(colShape.getElements());
+    TensorShape colShape;
-    real* colData = reinterpret_cast<real*>(memory_->getBuf());
+    real* colData = NULL;
    if (needIm2col) {
      colShape = TensorShape({inputChannels / groups_,
                              filterHeight,
                              filterWidth,
                              outputHeight,
                              outputWidth});
      resizeBuffer<Device>(colShape.getElements());
      colData = reinterpret_cast<real*>(memory_->getBuf());
    }
    Im2ColFunctor<kCFO, Device, real> im2col;
    GemmFunctor<Device, real> gemm;
@ -86,15 +93,18 @@ public:
    for (size_t i = 0; i < batchSize; i++) {
      for (size_t g = 0; g < groups_; g++) {
-        im2col(inputData + g * inputOffset,
+        if (needIm2col) {
-               imShape,
+          im2col(inputData + g * inputOffset,
-               colData,
+                 imShape,
-               colShape,
+                 colData,
-               strideH(),
+                 colShape,
-               strideW(),
+                 strideH(),
-               paddingH(),
+                 strideW(),
-               paddingW());
+                 paddingH(),
-
+                 paddingW());
        } else {
          colData = inputData + g * inputOffset;
        }
        int M = outputChannels / groups_;
        int N = outputHeight * outputWidth;
        int K = inputChannels / groups_ * filterHeight * filterWidth;
@ -159,19 +169,27 @@ public:
    real* outputGrad = inputs[0].data<real>();
    real* filterData = inputs[1].data<real>();
    real* inputGrad = outputs[0].data<real>();
    bool needIm2col = isNeedIm2col(filter);
    TensorShape imShape =
        TensorShape({inputChannels / groups_, inputHeight, inputWidth});
    TensorShape colShape = TensorShape({inputChannels / groups_,
                                        filterHeight,
                                        filterWidth,
                                        outputHeight,
                                        outputWidth});
-    resizeBuffer<Device>(colShape.getElements());
+    TensorShape colShape;
-    real* colData = reinterpret_cast<real*>(memory_->getBuf());
+    real* colData = NULL;
    if (needIm2col) {
      colShape = TensorShape({inputChannels / groups_,
                              filterHeight,
                              filterWidth,
                              outputHeight,
                              outputWidth});
      resizeBuffer<Device>(colShape.getElements());
      colData = reinterpret_cast<real*>(memory_->getBuf());
    }
    Col2ImFunctor<kCFO, Device, real> col2im;
    GemmFunctor<Device, real> gemm;
    size_t inputOffset = imShape.getElements();
    size_t outputOffset =
        (outputChannels / groups_) * outputHeight * outputWidth;
@ -182,6 +200,11 @@ public:
        int K = outputChannels / groups_;
        int N = outputHeight * outputWidth;
        int M = inputChannels / groups_ * filterHeight * filterWidth;
        real scale = 0.0f;
        if (!needIm2col) {
          colData = inputGrad + g * inputOffset;
          scale = 1.0f;
        }
        gemm(CblasTrans,
             CblasNoTrans,
             M,
@ -192,17 +215,19 @@ public:
             M,
             outputGrad + g * outputOffset,
             N,
-             0.0f,
+             scale,
             colData,
             N);
-        col2im(inputGrad + g * inputOffset,
+        if (needIm2col) {
-               imShape,
+          col2im(inputGrad + g * inputOffset,
-               colData,
+                 imShape,
-               colShape,
+                 colData,
-               strideH(),
+                 colShape,
-               strideW(),
+                 strideH(),
-               paddingH(),
+                 strideW(),
-               paddingW());
+                 paddingH(),
                 paddingW());
        }
      }
      inputGrad += inputChannels * inputHeight * inputWidth;
      outputGrad += outputChannels * outputHeight * outputWidth;
@ -255,16 +280,23 @@ public:
    real* outputGrad = inputs[0].data<real>();
    real* inputData = inputs[1].data<real>();
    real* filterGrad = outputs[0].data<real>();
    bool needIm2col = isNeedIm2col(filter);
    TensorShape imShape =
        TensorShape({inputChannels / groups_, inputHeight, inputWidth});
    TensorShape colShape = TensorShape({inputChannels / groups_,
                                        filterHeight,
                                        filterWidth,
                                        outputHeight,
                                        outputWidth});
-    resizeBuffer<Device>(colShape.getElements());
+    TensorShape colShape;
-    real* colData = reinterpret_cast<real*>(memory_->getBuf());
+    real* colData = NULL;
    if (needIm2col) {
      colShape = TensorShape({inputChannels / groups_,
                              filterHeight,
                              filterWidth,
                              outputHeight,
                              outputWidth});
      resizeBuffer<Device>(colShape.getElements());
      colData = reinterpret_cast<real*>(memory_->getBuf());
    }
    Im2ColFunctor<kCFO, Device, real> im2col;
    GemmFunctor<Device, real> gemm;
@ -274,15 +306,18 @@ public:
    size_t filterOffset = filter.getElements() / groups_;
    for (size_t i = 0; i < batchSize; i++) {
      for (size_t g = 0; g < groups_; g++) {
-        im2col(inputData + g * inputOffset,
+        if (needIm2col) {
-               imShape,
+          im2col(inputData + g * inputOffset,
-               colData,
+                 imShape,
-               colShape,
+                 colData,
-               strideH(),
+                 colShape,
-               strideW(),
+                 strideH(),
-               paddingH(),
+                 strideW(),
-               paddingW());
+                 paddingH(),
-
+                 paddingW());
        } else {
          colData = inputData + g * inputOffset;
        }
        int M = outputChannels / groups_;
        int K = outputHeight * outputWidth;
        int N = inputChannels / groups_ * filterHeight * filterWidth;
--- a/paddle/gserver/gradientmachines/RecurrentGradientMachine.cpp
+++ b/paddle/gserver/gradientmachines/RecurrentGradientMachine.cpp
@ -967,8 +967,9 @@ void RecurrentGradientMachine::generateSequence() {
  size_t numSequences = getGenBatchSize();
  resizeBootFrame(numSequences);
-  // We create only two sub-network in generation for alternate use.
+  // We create only two sub-network in generation, one stores states of all
-  // Thus, we can reduce total memory of output_ in layer forward.
+  // layers in previous time step and the other storing the states at current
  // time step.
  resizeOrCreateFrames(2);
  // outFrameLines_.size() > 1UL
@ -1001,10 +1002,9 @@ void RecurrentGradientMachine::generateSequence() {
  // init outArg
  size_t resultNum = generator_.config.num_results_per_sample();
-  IVector::resizeOrCreate(
+  size_t maxGenWordCount =
-      generator_.outArg.ids,
+      generator_.config.max_num_frames() * numSequences * resultNum;
-      generator_.config.max_num_frames() * numSequences * resultNum,
+  IVector::resizeOrCreate(generator_.outArg.ids, maxGenWordCount, false);
      false);
  if (resultNum > 1) {
    CHECK_LE(resultNum, static_cast<size_t>(generator_.config.beam_size()));
    Matrix::resizeOrCreate(generator_.outArg.in,
@ -1012,6 +1012,11 @@ void RecurrentGradientMachine::generateSequence() {
                           /* width */ resultNum,
                           false,
                           /* useGpu */ false);
    Matrix::resizeOrCreate(generator_.outArg.value,
                           /* height */ maxGenWordCount,
                           /* width */ 1,
                           false,
                           /* useGpu */ false);
  }
  ICpuGpuVector::resizeOrCreate(generator_.outArg.sequenceStartPositions,
                                numSequences + 1,
@ -1313,13 +1318,20 @@ void RecurrentGradientMachine::fillGenOutputs() {
  starts[0] = 0;
  if (numResults > 1) {
    real* probs = generator_.outArg.in->getData();
    real* idsProb = generator_.outArg.value->getData();
    size_t curPos = 0;
    for (size_t i = 0; i < finalPaths_.size(); ++i) {
      for (size_t j = 0; j < finalPaths_[i].size(); ++j) {
        Path& path = finalPaths_[i][j];
-        generator_.ids.push_back(path.ids.size());  // sequence size
+        size_t genLen = path.ids.size();
        generator_.ids.push_back(genLen);  // sequence size
        generator_.ids.insert(
            generator_.ids.end(), path.ids.begin(), path.ids.end());
        generator_.ids.push_back(-1);  // end of sequence
        memcpy(idsProb + curPos, path.idsProb.data(), sizeof(real) * genLen);
        curPos += genLen;
        idsProb[curPos++] = -1.0;
        probs[i * numResults + j] = path.logProb;
        if (!j && dataArgsSize_) {
--- a/paddle/gserver/gradientmachines/RecurrentGradientMachine.h
+++ b/paddle/gserver/gradientmachines/RecurrentGradientMachine.h
@ -189,6 +189,11 @@ public:
     */
    std::vector<int> ids;
    /**
     * @brief idsProb, log probability of each generated words.
     */
    std::vector<real> idsProb;
    /**
     * @brief logProb, current probability of path.
     */
@ -228,11 +233,13 @@ public:
     */
    Path(Path& old, int newId, real logProb, int machineId, int topIndex)
        : ids(old.ids),
          idsProb(old.idsProb),
          logProb(old.logProb + logProb),
          machineId(machineId),
          topIndex(topIndex),
          seqId(old.seqId) {
      ids.push_back(newId);
      idsProb.push_back(logProb);
      if (!old.probHistory.empty()) {
        this->probHistory = old.probHistory;
        // probHistory store current prob, not sum
@ -411,8 +418,9 @@ protected:
  struct Generator {
    GeneratorConfig config;
-    std::vector<int> ids;  // store generated sequences
+    std::vector<int> ids;       // store generated sequences
-    Argument outArg;       // final output argument
+    std::vector<real> idsProb;  // log probability of each generated word
    Argument outArg;            // final output argument
  };
  bool generating_;
  Generator generator_;
--- a/paddle/math/BaseMatrix.cu
+++ b/paddle/math/BaseMatrix.cu
@ -442,7 +442,8 @@ DEFINE_MATRIX_UNARY_PARAMETER_OP(Clip, TWO_PARAMETER,
 template<class T>
 void BaseMatrixT<T>::clip(T p1, T p2) { applyUnary(unary::Clip<T>(p1, p2)); }
-DEFINE_MATRIX_BINARY_PARAMETER_OP(ClipDerivative, TWO_PARAMETER, a = b < p1 ? 0 : (b > p2 ? 0 : 1));
+DEFINE_MATRIX_BINARY_PARAMETER_OP(ClipDerivative, TWO_PARAMETER,
    a = b < p1 ? 0 : (b > p2 ? 0 : 1));
 template<class T>
 void BaseMatrixT<T>::clipDerivative(BaseMatrixT& b, T p1, T p2) {
  applyBinary(binary::ClipDerivative<T>(p1, p2), b);
--- a/paddle/memory/detail/buddy_allocator.h
+++ b/paddle/memory/detail/buddy_allocator.h
@ -39,7 +39,7 @@ class BuddyAllocator {
 public:
  void* Alloc(size_t unaligned_size);
-  void Free(void*);
+  void Free(void* ptr);
  size_t Used();
 public:
--- a/Show More
+++ b/Show More