diff --git a/CMakeLists.txt b/CMakeLists.txt
index 4117f07721..23bb27e77b 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -61,8 +61,11 @@ option(EIGEN_USE_THREADS "Compile with multi-threaded Eigen"            OFF)
 option(WITH_ARM_FP16    "Use half precision support on armv8.2-a cpu"   OFF)
 option(WITH_FAST_BUNDLE_TEST    "Bundle tests that can be run in a single process together to reduce launch overhead"   OFF)
 option(WITH_CONTRIB     "Compile the third-party contributation"        OFF)
+option(REPLACE_ENFORCE_GLOG "Replace PADDLE_ENFORCE with glog/CHECK for better debug." OFF)
 option(WITH_ANAKIN      "Compile with Anakin library"                   OFF)
 option(WITH_GRPC     "Use grpc as the default rpc framework"            ${WITH_DISTRIBUTE})
+option(WITH_BRPC_RDMA     "Use brpc rdma as the rpc protocal"           OFF)
+option(WITH_SYSTEM_BLAS   "Use system blas library"           OFF)
 
 # CMAKE_BUILD_TYPE
 if(NOT CMAKE_BUILD_TYPE)
@@ -131,6 +134,10 @@ if (NOT DEFINED WITH_MKLDNN)
         set(WITH_MKLDNN OFF)
     endif()
 endif()
+
+if (REPLACE_ENFORCE_GLOG)
+  add_definitions("-DREPLACE_ENFORCE_GLOG")
+endif()
 ########################################################################################
 
 include(external/mklml)     # download mklml package
@@ -153,12 +160,24 @@ include(external/cares)
 if(WITH_DISTRIBUTE)
     if(WITH_GRPC)
         include(external/grpc)
+        message(STATUS "Use grpc framework.")
     else()
+        message(STATUS "Use brpc framework.")
         include(external/leveldb)
         include(external/brpc)
     endif()
 endif()
 
+if(WITH_BRPC_RDMA)
+    message(STATUS "Use brpc with rdma.")
+    if(WITH_GRPC)
+        message(FATAL_ERROR "Can't use grpc with brpc rdma.")
+    endif()
+    if(NOT WITH_DISTRIBUTE)
+        message(FATAL_ERROR "Can't use brpc rdma in no distribute env.")
+    endif()
+endif()
+
 include(external/snappy)    # download snappy
 include(external/snappystream)
 include(external/threadpool)
@@ -178,7 +197,7 @@ include(inference_lib)      # add paddle fluid inference libraries
 
 
 include_directories("${PADDLE_SOURCE_DIR}")
-include_directories("${PADDLE_SOURCE_DIR}/paddle/cuda/include")
+include_directories("${PADDLE_SOURCE_DIR}/paddle/legacy/cuda/include")
 include_directories("${CMAKE_CURRENT_BINARY_DIR}/proto")
 include_directories("${CMAKE_CURRENT_BINARY_DIR}/go/pserver/client/c")
 
@@ -222,7 +241,7 @@ add_subdirectory(proto)
 if(NOT MOBILE_INFERENCE AND NOT WITH_FLUID_ONLY)
     # "add_subdirectory(go)" should be placed after the following loine,
     # because it depends on paddle/optimizer.
-    add_subdirectory(paddle/optimizer)
+    add_subdirectory(paddle/legacy/optimizer)
 endif()
 
 # "add_subdirectory(paddle)" and "add_subdirectory(python)" should be
diff --git a/CONTRIBUTING.md b/CONTRIBUTING.md
index b1b02bcc2f..b878f37a5b 100644
--- a/CONTRIBUTING.md
+++ b/CONTRIBUTING.md
@@ -159,4 +159,4 @@ This will enable VLOG messages generated by `buddy_allocator.{h,cc}` and in the
 - verbose level 1: [framework](https://github.com/PaddlePaddle/Paddle/tree/develop/paddle/framework)
 - verbose level 3: [operators](https://github.com/PaddlePaddle/Paddle/tree/develop/paddle/operators)
 - verbose level 5: [memory](https://github.com/PaddlePaddle/Paddle/tree/develop/paddle/memory), [platform](https://github.com/PaddlePaddle/Paddle/tree/develop/paddle/platform)
-- verbose level 7: [math](https://github.com/PaddlePaddle/Paddle/tree/develop/paddle/math)
+- verbose level 7: [math](https://github.com/PaddlePaddle/Paddle/tree/develop/paddle/legacy/math)
diff --git a/README.md b/README.md
index 8d89c6b1ec..63abca069a 100644
--- a/README.md
+++ b/README.md
@@ -4,7 +4,6 @@
 [![Build Status](https://travis-ci.org/PaddlePaddle/Paddle.svg?branch=develop)](https://travis-ci.org/PaddlePaddle/Paddle)
 [![Documentation Status](https://img.shields.io/badge/docs-latest-brightgreen.svg?style=flat)](http://www.paddlepaddle.org/docs/develop/documentation/en/getstarted/index_en.html)
 [![Documentation Status](https://img.shields.io/badge/中文文档-最新-brightgreen.svg)](http://www.paddlepaddle.org/docs/develop/documentation/zh/getstarted/index_cn.html)
-[![Coverage Status](https://coveralls.io/repos/github/PaddlePaddle/Paddle/badge.svg?branch=develop)](https://coveralls.io/github/PaddlePaddle/Paddle?branch=develop)
 [![Release](https://img.shields.io/github/release/PaddlePaddle/Paddle.svg)](https://github.com/PaddlePaddle/Paddle/releases)
 [![License](https://img.shields.io/badge/license-Apache%202-blue.svg)](LICENSE)
 
diff --git a/benchmark/fluid/args.py b/benchmark/fluid/args.py
index 99c9d79b06..a79f25ccc6 100644
--- a/benchmark/fluid/args.py
+++ b/benchmark/fluid/args.py
@@ -125,6 +125,10 @@ def parse_args():
     parser.add_argument(
         '--use_inference_transpiler',
         action='store_true',
-        help='If set, uses inference transpiler to optimize the program.')
+        help='If set, use inference transpiler to optimize the program.')
+    parser.add_argument(
+        '--no_random',
+        action='store_true',
+        help='If set, keep the random seed and do not shuffle the data.')
     args = parser.parse_args()
     return args
diff --git a/benchmark/fluid/fluid_benchmark.py b/benchmark/fluid/fluid_benchmark.py
old mode 100755
new mode 100644
index dcd4d9ea95..94ea7bd6ac
--- a/benchmark/fluid/fluid_benchmark.py
+++ b/benchmark/fluid/fluid_benchmark.py
@@ -132,10 +132,6 @@ def train(avg_loss, infer_prog, optimizer, train_reader, test_reader, batch_acc,
     exe.run(startup_prog)
 
     # Use inference_transpiler to speedup
-    if args.use_inference_transpiler:
-        t = fluid.InferenceTranspiler()
-        t.transpile(infer_prog, place)
-
     if not args.use_reader_op:
         feed_var_list = [
             var for var in train_prog.global_block().vars.itervalues()
@@ -186,6 +182,10 @@ def train(avg_loss, infer_prog, optimizer, train_reader, test_reader, batch_acc,
         print("Pass: %d, Loss: %f" % (pass_id, np.mean(train_losses))),
         # evaluation
         if not args.no_test and batch_acc and not args.use_reader_op:
+            if args.use_inference_transpiler:
+                t = fluid.InferenceTranspiler()
+                t.transpile(infer_prog, place)
+
             pass_test_acc = test(exe, infer_prog, test_reader, feeder,
                                  batch_acc)
             print(", Test Accuracy: %f" % pass_test_acc)
@@ -316,6 +316,8 @@ def main():
     args = parse_args()
     print_arguments(args)
     print_paddle_envs()
+    if args.no_random:
+        fluid.default_startup_program().random_seed = 1
 
     # the unique trainer id, starting from 0, needed by trainer
     # only
diff --git a/benchmark/fluid/models/resnet.py b/benchmark/fluid/models/resnet.py
index 9ed1093c54..d44a9c07d3 100644
--- a/benchmark/fluid/models/resnet.py
+++ b/benchmark/fluid/models/resnet.py
@@ -197,12 +197,12 @@ def get_model(args):
     optimizer = fluid.optimizer.Momentum(learning_rate=0.01, momentum=0.9)
 
     batched_train_reader = paddle.batch(
-        paddle.reader.shuffle(
+        train_reader if args.no_random else paddle.reader.shuffle(
             train_reader, buf_size=5120),
         batch_size=args.batch_size * args.gpus,
         drop_last=True)
     batched_test_reader = paddle.batch(
-        train_reader, batch_size=args.batch_size, drop_last=True)
+        test_reader, batch_size=args.batch_size, drop_last=True)
 
     return avg_cost, inference_program, optimizer, batched_train_reader,\
                    batched_test_reader, batch_acc
diff --git a/cmake/cblas.cmake b/cmake/cblas.cmake
index e3b9d94215..6ed51c6484 100644
--- a/cmake/cblas.cmake
+++ b/cmake/cblas.cmake
@@ -83,18 +83,20 @@ else()
   set(REFERENCE_CBLAS_LIB_SEARCH_PATHS ${REFERENCE_CBLAS_ROOT}/lib)
 endif()
 
-find_path(REFERENCE_CBLAS_INCLUDE_DIR NAMES cblas.h PATHS
+if(WITH_SYSTEM_BLAS)
+  find_path(REFERENCE_CBLAS_INCLUDE_DIR NAMES cblas.h PATHS
         ${REFERENCE_CBLAS_INCLUDE_SEARCH_PATHS})
-find_library(REFERENCE_CBLAS_LIBRARY NAMES cblas PATHS
+  find_library(REFERENCE_CBLAS_LIBRARY NAMES cblas PATHS
         ${REFERENCE_CBLAS_LIB_SEARCH_PATHS})
 
-if(REFERENCE_CBLAS_INCLUDE_DIR AND REFERENCE_CBLAS_LIBRARY)
-  set(CBLAS_FOUND ON)
-  set(CBLAS_PROVIDER REFERENCE)
-  set(CBLAS_INC_DIR ${REFERENCE_CBLAS_INCLUDE_DIR})
-  set(CBLAS_LIBRARIES ${REFERENCE_CBLAS_LIBRARY})
-  add_definitions(-DPADDLE_USE_REFERENCE_CBLAS)
-  message(STATUS "Found reference-cblas (include: ${CBLAS_INC_DIR}, library: ${CBLAS_LIBRARIES})")
+  if(REFERENCE_CBLAS_INCLUDE_DIR AND REFERENCE_CBLAS_LIBRARY)
+    set(CBLAS_FOUND ON)
+    set(CBLAS_PROVIDER REFERENCE)
+    set(CBLAS_INC_DIR ${REFERENCE_CBLAS_INCLUDE_DIR})
+    set(CBLAS_LIBRARIES ${REFERENCE_CBLAS_LIBRARY})
+    add_definitions(-DPADDLE_USE_REFERENCE_CBLAS)
+    message(STATUS "Found reference-cblas (include: ${CBLAS_INC_DIR}, library: ${CBLAS_LIBRARIES})")
+  endif()
 endif()
 
 if(IOS_USE_VECLIB_FOR_BLAS AND VECLIB_FOUND)
diff --git a/cmake/configure.cmake b/cmake/configure.cmake
index 6a8b15a6b6..e4af34d10e 100644
--- a/cmake/configure.cmake
+++ b/cmake/configure.cmake
@@ -174,3 +174,7 @@ endif(WITH_GOLANG)
 if(WITH_GRPC)
     add_definitions(-DPADDLE_WITH_GRPC)
 endif(WITH_GRPC)
+
+if(WITH_BRPC_RDMA)
+    add_definitions(-DPADDLE_WITH_BRPC_RDMA)
+endif(WITH_BRPC_RDMA)
diff --git a/cmake/external/brpc.cmake b/cmake/external/brpc.cmake
index 8e2c913b2c..30b227b645 100644
--- a/cmake/external/brpc.cmake
+++ b/cmake/external/brpc.cmake
@@ -14,6 +14,15 @@
 
 INCLUDE(ExternalProject)
 
+find_library(SSL_LIBRARY NAMES ssl)
+ADD_LIBRARY(ssl SHARED IMPORTED GLOBAL)
+SET_PROPERTY(TARGET ssl PROPERTY IMPORTED_LOCATION ${SSL_LIBRARY})
+
+find_library(CRYPTO_LIBRARY NAMES crypto)
+ADD_LIBRARY(crypto SHARED IMPORTED GLOBAL)
+SET_PROPERTY(TARGET crypto PROPERTY IMPORTED_LOCATION ${CRYPTO_LIBRARY})
+
+
 SET(BRPC_SOURCES_DIR ${THIRD_PARTY_PATH}/brpc)
 SET(BRPC_INSTALL_DIR ${THIRD_PARTY_PATH}/install/brpc)
 SET(BRPC_INCLUDE_DIR "${BRPC_INSTALL_DIR}/include" CACHE PATH "brpc include directory." FORCE)
@@ -22,14 +31,14 @@ SET(BRPC_LIBRARIES "${BRPC_INSTALL_DIR}/lib/libbrpc.a" CACHE FILEPATH "brpc libr
 INCLUDE_DIRECTORIES(${BRPC_INCLUDE_DIR})
 
 # Reference https://stackoverflow.com/questions/45414507/pass-a-list-of-prefix-paths-to-externalproject-add-in-cmake-args
-set(prefix_path "${THIRD_PARTY_PATH}/install/gflags|${THIRD_PARTY_PATH}/install/leveldb|${THIRD_PARTY_PATH}/install/snappy|${THIRD_PARTY_PATH}/install/gtest|${THIRD_PARTY_PATH}/install/protobuf")
+set(prefix_path "${THIRD_PARTY_PATH}/install/gflags|${THIRD_PARTY_PATH}/install/leveldb|${THIRD_PARTY_PATH}/install/snappy|${THIRD_PARTY_PATH}/install/gtest|${THIRD_PARTY_PATH}/install/protobuf|${THIRD_PARTY_PATH}/install/zlib")
 
 # If minimal .a is need, you can set  WITH_DEBUG_SYMBOLS=OFF
 ExternalProject_Add(
     extern_brpc
     ${EXTERNAL_PROJECT_LOG_ARGS}
-    GIT_REPOSITORY  "https://github.com/brpc/brpc"
-    GIT_TAG         "6d153dd7ff00f960ae6895c9c5fff0ce9f07aff2"
+    GIT_REPOSITORY  "https://github.com/gongweibao/brpc"
+    GIT_TAG         "7dc04defad1fd4173aae170c3fcbde131b65155a"
     PREFIX          ${BRPC_SOURCES_DIR}
     UPDATE_COMMAND  ""
     CMAKE_ARGS      -DCMAKE_CXX_COMPILER=${CMAKE_CXX_COMPILER}
@@ -42,6 +51,8 @@ ExternalProject_Add(
                     -DCMAKE_BUILD_TYPE=${THIRD_PARTY_BUILD_TYPE}
                     -DCMAKE_PREFIX_PATH=${prefix_path}
                     -DBRPC_WITH_GLOG=ON
+                    -DIOBUF_WITH_HUGE_BLOCK=ON
+                    -DBRPC_WITH_RDMA=${WITH_BRPC_RDMA}
                     ${EXTERNAL_OPTIONAL_ARGS}
     LIST_SEPARATOR |
     CMAKE_CACHE_ARGS -DCMAKE_INSTALL_PREFIX:PATH=${BRPC_INSTALL_DIR}
@@ -49,7 +60,7 @@ ExternalProject_Add(
                      -DCMAKE_POSITION_INDEPENDENT_CODE:BOOL=ON
                      -DCMAKE_BUILD_TYPE:STRING=${THIRD_PARTY_BUILD_TYPE}
 )
-ADD_DEPENDENCIES(extern_brpc protobuf leveldb gflags glog gtest snappy)
+ADD_DEPENDENCIES(extern_brpc protobuf ssl crypto leveldb gflags glog gtest snappy)
 ADD_LIBRARY(brpc STATIC IMPORTED GLOBAL)
 SET_PROPERTY(TARGET brpc PROPERTY IMPORTED_LOCATION ${BRPC_LIBRARIES})
 ADD_DEPENDENCIES(brpc extern_brpc)
diff --git a/cmake/generic.cmake b/cmake/generic.cmake
index 9c42044ec1..fd7fc16bff 100644
--- a/cmake/generic.cmake
+++ b/cmake/generic.cmake
@@ -96,6 +96,20 @@ if(NOT APPLE AND NOT ANDROID)
     set(CMAKE_CXX_LINK_EXECUTABLE "${CMAKE_CXX_LINK_EXECUTABLE} -pthread -ldl -lrt")
 endif(NOT APPLE AND NOT ANDROID)
 
+set_property(GLOBAL PROPERTY FLUID_MODULES "")
+# find all fluid modules is used for paddle fluid static library
+# for building inference libs
+function(find_fluid_modules TARGET_NAME)
+  get_filename_component(__target_path ${TARGET_NAME} ABSOLUTE)
+  string(REGEX REPLACE "^${PADDLE_SOURCE_DIR}/" "" __target_path ${__target_path})
+  string(FIND "${__target_path}" "fluid" pos)
+  if(pos GREATER 1)
+    get_property(fluid_modules GLOBAL PROPERTY FLUID_MODULES)
+    set(fluid_modules ${fluid_modules} ${TARGET_NAME})
+    set_property(GLOBAL PROPERTY FLUID_MODULES "${fluid_modules}")
+  endif()
+endfunction(find_fluid_modules)
+
 function(merge_static_libs TARGET_NAME)
   set(libs ${ARGN})
   list(REMOVE_DUPLICATES libs)
@@ -250,6 +264,7 @@ function(cc_test TARGET_NAME)
              WORKING_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR})
     if (${cc_test_SERIAL})
         set_property(TEST ${TARGET_NAME} PROPERTY SERIAL 1)
+    set_property(TEST ${TARGET_NAME} PROPERTY ENVIRONMENT FLAGS_init_allocated_mem=true)
     endif()
   endif()
 endfunction(cc_test)
@@ -314,6 +329,7 @@ function(nv_test TARGET_NAME)
     add_test(${TARGET_NAME} ${TARGET_NAME})
     if (nv_test_SERIAL)
         set_property(TEST ${TARGET_NAME} PROPERTY SERIAL 1)
+    set_property(TEST ${TARGET_NAME} PROPERTY ENVIRONMENT FLAGS_init_allocated_mem=true)
     endif()
   endif()
 endfunction(nv_test)
@@ -561,7 +577,7 @@ function(py_test TARGET_NAME)
     set(multiValueArgs SRCS DEPS ARGS ENVS)
     cmake_parse_arguments(py_test "${options}" "${oneValueArgs}" "${multiValueArgs}" ${ARGN})
     add_test(NAME ${TARGET_NAME}
-             COMMAND env PYTHONPATH=${PADDLE_BINARY_DIR}/python ${py_test_ENVS}
+             COMMAND env FLAGS_init_allocated_mem=true PYTHONPATH=${PADDLE_BINARY_DIR}/python ${py_test_ENVS}
              ${PYTHON_EXECUTABLE} -u ${py_test_SRCS} ${py_test_ARGS}
              WORKING_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR})
   endif()
diff --git a/cmake/inference_lib.cmake b/cmake/inference_lib.cmake
index 850098297e..c697971323 100644
--- a/cmake/inference_lib.cmake
+++ b/cmake/inference_lib.cmake
@@ -12,19 +12,6 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-set_property(GLOBAL PROPERTY FLUID_MODULES "")
-# find all fluid modules is used for paddle fluid static library
-function(find_fluid_modules TARGET_NAME)
-  get_filename_component(__target_path ${TARGET_NAME} ABSOLUTE)
-  string(REGEX REPLACE "^${PADDLE_SOURCE_DIR}/" "" __target_path ${__target_path})
-  string(FIND "${__target_path}" "fluid" pos)
-  if(pos GREATER 1)
-    get_property(fluid_modules GLOBAL PROPERTY FLUID_MODULES)
-    set(fluid_modules ${fluid_modules} ${TARGET_NAME})
-    set_property(GLOBAL PROPERTY FLUID_MODULES "${fluid_modules}")
-  endif()
-endfunction(find_fluid_modules)
-
 # make package for paddle fluid shared and static library
 function(copy TARGET)
     set(options "")
@@ -154,7 +141,7 @@ set(inference_deps paddle_fluid_shared paddle_fluid)
 if(WITH_CONTRIB)
     message(STATUS "installing contrib")
     set(contrib_dst_dir "${FLUID_INSTALL_DIR}/contrib/inference")
-    if (WITH_ANAKIN)
+    if (WITH_ANAKIN AND WITH_GPU)
         copy(contrib_anakin_inference_lib DEPS paddle_inference_api inference_anakin_api
             SRCS
             ${PADDLE_BINARY_DIR}/paddle/contrib/inference/libinference_anakin_api* # compiled anakin api
@@ -163,9 +150,9 @@ if(WITH_CONTRIB)
         list(APPEND inference_deps contrib_anakin_inference_lib)
    endif()
 
-  copy(contrib_inference_lib DEPS paddle_inference_api
+  copy(contrib_inference_lib DEPS paddle_inference_api paddle_inference_api_shared
         SRCS ${PADDLE_SOURCE_DIR}/paddle/contrib/inference/paddle_inference_api.h
-        ${PADDLE_BINARY_DIR}/paddle/contrib/inference/libpaddle_inference_api.*
+        ${PADDLE_BINARY_DIR}/paddle/contrib/inference/libpaddle_inference_api*
         DSTS ${contrib_dst_dir} ${contrib_dst_dir})
   list(APPEND inference_deps contrib_inference_lib)
 endif()
diff --git a/doc/fluid/api/layers.rst b/doc/fluid/api/layers.rst
index 264506a68a..d443c49657 100644
--- a/doc/fluid/api/layers.rst
+++ b/doc/fluid/api/layers.rst
@@ -1468,6 +1468,14 @@ argmax
 ..  autofunction:: paddle.fluid.layers.argmax
     :noindex:
 
+.. _api_fluid_layers_argsort:
+
+argsort
+-------
+
+..  autofunction:: paddle.fluid.layers.argsort
+    :noindex:
+
 .. _api_fluid_layers_ones:
 
 ones
diff --git a/doc/fluid/design/multi_devices/kernel_selection.md b/doc/fluid/design/multi_devices/kernel_selection.md
index 967317d5d2..4d2aab87b8 100644
--- a/doc/fluid/design/multi_devices/kernel_selection.md
+++ b/doc/fluid/design/multi_devices/kernel_selection.md
@@ -74,10 +74,10 @@ void OperatorWithKernel::Run(
     auto kernel_type_for_var = this->GetKernelTypeForVar(...);
     if (kernel_type_for_var.place_ != expected_kernel_key.place_) {
       auto* trans_var = new_scope.Var(var_name);
-      auto* out = DataTransform(expected_kernel_key,
+      auto* out = TransformData(expected_kernel_key,
                                 kernel_type_for_var,
                                 *tensor_in);
-      CopyVariableWithTensor(...);
+      SetTensorToVariable(...);
     }
   }
 
diff --git a/doc/v2/design/interface/00.why_plain_c.md b/doc/v2/design/interface/00.why_plain_c.md
index a144309334..826ff3141b 100644
--- a/doc/v2/design/interface/00.why_plain_c.md
+++ b/doc/v2/design/interface/00.why_plain_c.md
@@ -65,7 +65,7 @@ paddle_error paddle_matrix_get_shape(paddle_matrix matrix,
 而在CPP里面实现这个C的接口，文件 `paddle_matrix.cpp`
 
 ```cpp
-#include "paddle/math/matrix.h"
+#include "paddle/legacy/math/matrix.h"
 extern "C"
 paddle_error paddle_matrix_shape(paddle_matrix matrix,
                                  uint64_t *width,
diff --git a/doc/v2/dev/new_layer_cn.rst b/doc/v2/dev/new_layer_cn.rst
index 3115654b2b..e5a1434612 100644
--- a/doc/v2/dev/new_layer_cn.rst
+++ b/doc/v2/dev/new_layer_cn.rst
@@ -58,7 +58,7 @@ PaddlePaddle的base layer类可以自动计算上面的导数。
 实现C++类
 ===================
 
-一个网络层的C++类需要实现初始化，前向和后向。全连接层的实现位于:code:`paddle/gserver/layers/FullyConnectedLayer.h`及:code:`paddle/gserver/layers/FullyConnectedLayer.cpp`。这里我们展示一份简化过的代码。
+一个网络层的C++类需要实现初始化，前向和后向。全连接层的实现位于:code:`paddle/legacy/gserver/layers/FullyConnectedLayer.h`及:code:`paddle/legacy/gserver/layers/FullyConnectedLayer.cpp`。这里我们展示一份简化过的代码。
 
 这个类需要继承 :code:`paddle::Layer` 这个基类，并且需要重写基类中的以下几个虚函数：
 
@@ -153,7 +153,7 @@ PaddlePaddle的base layer类可以自动计算上面的导数。
 
 - 每个层在其 :code:`forward` 函数的开头必须调用 :code:`Layer::forward(passType);` 。
 - 之后使用 :code:`reserveOutput(batchSize, size);` 为输出分配内存。由于我们支持训练数据有不同的批次大小，所以这一步是必要的。 :code:`reserveOutput`  会相应地改变输出的尺寸。为了保证效率，如果需要扩大矩阵，我们会重新分配内存；如果需要缩减矩阵，我们会继续使用现有的内存块。
-- 之后使用矩阵运算函数来计算 :math:`\sum_i W_i x + b`。:code:`getInput(i).value` 返回第i个输入矩阵。每个输入都是一个 :math:`batchSize \times dim` 的矩阵，每行表示一个批次中的单个输入。对于我们支持的全部矩阵操作，请参考 :code:`paddle/math/Matrix.h`和:code:`paddle/math/BaseMatrix.h` 。
+- 之后使用矩阵运算函数来计算 :math:`\sum_i W_i x + b`。:code:`getInput(i).value` 返回第i个输入矩阵。每个输入都是一个 :math:`batchSize \times dim` 的矩阵，每行表示一个批次中的单个输入。对于我们支持的全部矩阵操作，请参考 :code:`paddle/legacy/math/Matrix.h`和:code:`paddle/legacy/math/BaseMatrix.h` 。
 - 最终，使用 :code:`forwardActivation();` 进行激活操作。这会自动进行网络配置中声明的激活操作。
 
 
@@ -262,7 +262,7 @@ PaddlePaddle的base layer类可以自动计算上面的导数。
     REGISTER_LAYER(fc, FullyConnectedLayer);
     }
 
-若 :code:`cpp` 被放在 :code:`paddle/gserver/layers` 目录下，其会自动被加入编译列表。
+若 :code:`cpp` 被放在 :code:`paddle/legacy/gserver/layers` 目录下，其会自动被加入编译列表。
 
 
 写梯度检查单元测试
@@ -270,7 +270,7 @@ PaddlePaddle的base layer类可以自动计算上面的导数。
 
 写梯度检查单元测试是一个验证新实现的层是否正确的相对简单的办法。梯度检查单元测试通过有限差分法来验证一个层的梯度。首先对输入做一个小的扰动 :math:`\Delta x` ，然后观察到输出的变化为 :math:`\Delta y` ，那么，梯度就可以通过这个方程计算得到 :math:`\frac{\Delta y}{\Delta x }` 。之后，再用这个梯度去和 :code:`backward` 函数得到的梯度去对比，以保证梯度计算的正确性。需要注意的是梯度检查仅仅验证了梯度的计算，并不保证 :code:`forward` 和 :code:`backward` 函数的实现是正确的。你需要一些更复杂的单元测试来保证你实现的网络层是正确的。
 
-所有网络层的梯度检查单测都位于 :code:`paddle/gserver/tests/test_LayerGrad.cpp` 。我们建议你在写新网络层时把测试代码放入新的文件中。下面列出了全连接层的梯度检查单元测试。它包含以下几步：
+所有网络层的梯度检查单测都位于 :code:`paddle/legacy/gserver/tests/test_LayerGrad.cpp` 。我们建议你在写新网络层时把测试代码放入新的文件中。下面列出了全连接层的梯度检查单元测试。它包含以下几步：
 
 + 生成网络层配置。网络层配置包含以下几项：
    - 偏置参数的大小。（例子中是4096）
@@ -322,7 +322,7 @@ PaddlePaddle的base layer类可以自动计算上面的导数。
       }
     }
 
-如果你要为了测试而增加新的文件，例如 :code:`paddle/gserver/tests/testFCGrad.cpp` ，你需要把该文件加入 :code:`paddle/gserver/tests/CMakeLists.txt` 中。下面给出了一个例子。当你执行命令 :code:`make tests` 时，所有的单测都会被执行一次。注意，有些层可能需要高精度来保证梯度检查单测正确执行。你需要在配置cmake时将 :code:`WITH_DOUBLE` 设置为 `ON` 。
+如果你要为了测试而增加新的文件，例如 :code:`paddle/legacy/gserver/tests/testFCGrad.cpp` ，你需要把该文件加入 :code:`paddle/legacy/gserver/tests/CMakeLists.txt` 中。下面给出了一个例子。当你执行命令 :code:`make tests` 时，所有的单测都会被执行一次。注意，有些层可能需要高精度来保证梯度检查单测正确执行。你需要在配置cmake时将 :code:`WITH_DOUBLE` 设置为 `ON` 。
 
 .. code-block:: bash
 
diff --git a/doc/v2/dev/new_layer_en.rst b/doc/v2/dev/new_layer_en.rst
index b05bb45f11..6a848a020d 100644
--- a/doc/v2/dev/new_layer_en.rst
+++ b/doc/v2/dev/new_layer_en.rst
@@ -58,7 +58,7 @@ Finally we can use chain rule to calculate :math:`\frac{\partial z}{\partial x}`
 Implement C++ Class
 ===================
 
-The C++ class of the layer implements the initialization, forward, and backward part of the layer. The fully connected layer is at :code:`paddle/gserver/layers/FullyConnectedLayer.h` and :code:`paddle/gserver/layers/FullyConnectedLayer.cpp`. We list simplified version of the code below.
+The C++ class of the layer implements the initialization, forward, and backward part of the layer. The fully connected layer is at :code:`paddle/legacy/gserver/layers/FullyConnectedLayer.h` and :code:`paddle/legacy/gserver/layers/FullyConnectedLayer.cpp`. We list simplified version of the code below.
 
 It needs to derive the base class :code:`paddle::Layer`, and it needs to override the following functions:
 
@@ -154,7 +154,7 @@ The implementation of the forward part has the following steps.
 
 - Every layer must call :code:`Layer::forward(passType);` at the beginning of its :code:`forward` function.
 - Then it allocates memory for the output using :code:`reserveOutput(batchSize, size);`. This step is necessary because we support the batches to have different batch sizes. :code:`reserveOutput` will change the size of the output accordingly. For the sake of efficiency, we will allocate new memory if we want to expand the matrix, but we will reuse the existing memory block if we want to shrink the matrix.
-- Then it computes :math:`\sum_i W_i x + b` using Matrix operations. :code:`getInput(i).value` retrieve the matrix of the i-th input. Each input is a :math:`batchSize \times dim` matrix, where each row represents an single input in a batch. For a complete lists of supported matrix operations, please refer to :code:`paddle/math/Matrix.h` and :code:`paddle/math/BaseMatrix.h`.
+- Then it computes :math:`\sum_i W_i x + b` using Matrix operations. :code:`getInput(i).value` retrieve the matrix of the i-th input. Each input is a :math:`batchSize \times dim` matrix, where each row represents an single input in a batch. For a complete lists of supported matrix operations, please refer to :code:`paddle/legacy/math/Matrix.h` and :code:`paddle/legacy/math/BaseMatrix.h`.
 - Finally it applies the activation function using :code:`forwardActivation();`. It will automatically applies the corresponding activation function specifies in the network configuration.
 
 
@@ -263,7 +263,7 @@ Finally, you can use :code:`REGISTER_LAYER(fc, FullyConnectedLayer);` to registe
     REGISTER_LAYER(fc, FullyConnectedLayer);
     }
 
-If the :code:`cpp` file is put into :code:`paddle/gserver/layers`, it will be automatically added to the compilation list.
+If the :code:`cpp` file is put into :code:`paddle/legacy/gserver/layers`, it will be automatically added to the compilation list.
 
 
 Write Gradient Check Unit Test
@@ -271,7 +271,7 @@ Write Gradient Check Unit Test
 
 An easy way to verify the correctness of new layer's implementation is to write a gradient check unit test. Gradient check unit test utilizes finite difference method to verify the gradient of a layer. It modifies the input with a small perturbation :math:`\Delta x` and observes the changes of output :math:`\Delta y`, the gradient can be computed as :math:`\frac{\Delta y}{\Delta x }`. This gradient can be compared with the gradient computed by the :code:`backward` function of the layer to ensure the correctness of the gradient computation. Notice that the gradient check only tests the correctness of the gradient computation, it does not necessarily guarantee the correctness of the implementation of the :code:`forward` and :code:`backward` function. You need to write more sophisticated unit tests to make sure your layer is implemented correctly.
 
-All the gradient check unit tests are located in :code:`paddle/gserver/tests/test_LayerGrad.cpp`. You are recommended to put your test into a new test file if you are planning to write a new layer. The gradient test of the gradient check unit test of the fully connected layer is listed below. It has the following steps.
+All the gradient check unit tests are located in :code:`paddle/legacy/gserver/tests/test_LayerGrad.cpp`. You are recommended to put your test into a new test file if you are planning to write a new layer. The gradient test of the gradient check unit test of the fully connected layer is listed below. It has the following steps.
 
 + Create layer configuration. A layer configuration can include the following attributes:
    - size of the bias parameter. (4096 in our example)
@@ -323,7 +323,7 @@ All the gradient check unit tests are located in :code:`paddle/gserver/tests/tes
       }
     }
 
-If you are creating a new file for the test, such as :code:`paddle/gserver/tests/testFCGrad.cpp`, you need to add the file to :code:`paddle/gserver/tests/CMakeLists.txt`. An example is given below. All the unit tests will run when you execute the command :code:`make tests`. Notice that some layers might need high accuracy for the gradient check unit tests to work well. You need to configure :code:`WITH_DOUBLE` to `ON` when configuring cmake.
+If you are creating a new file for the test, such as :code:`paddle/legacy/gserver/tests/testFCGrad.cpp`, you need to add the file to :code:`paddle/legacy/gserver/tests/CMakeLists.txt`. An example is given below. All the unit tests will run when you execute the command :code:`make tests`. Notice that some layers might need high accuracy for the gradient check unit tests to work well. You need to configure :code:`WITH_DOUBLE` to `ON` when configuring cmake.
 
 .. code-block:: bash
 
diff --git a/doc/v2/faq/parameter/index_cn.rst b/doc/v2/faq/parameter/index_cn.rst
index 1fa4b3e131..987e8cf088 100644
--- a/doc/v2/faq/parameter/index_cn.rst
+++ b/doc/v2/faq/parameter/index_cn.rst
@@ -196,6 +196,6 @@ PaddlePaddle保存的模型参数文件内容由16字节头信息和网络参数
         obj="process",
         args={"src_dict_path": src_dict_path})
 
-完整源码可参考 `sequence_recurrent <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/gserver/tests/sequence_recurrent.py>`_ 示例。
+完整源码可参考 `sequence_recurrent <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/legacy/gserver/tests/sequence_recurrent.py>`_ 示例。
 
 
diff --git a/doc/v2/howto/optimization/gpu_profiling_cn.rst b/doc/v2/howto/optimization/gpu_profiling_cn.rst
index 25bcaccb69..f2396716bd 100644
--- a/doc/v2/howto/optimization/gpu_profiling_cn.rst
+++ b/doc/v2/howto/optimization/gpu_profiling_cn.rst
@@ -50,12 +50,12 @@ GPU则还需要高并行性，才能发挥其全部能力。这正是它们速
 **nvprof** 是Nvidia性能分析工具， **nvvp** 则是带GUI的Nvidia可视化性能分析工具。
 在这个教程中，我们主要会介绍nvprof和nvvp。
 
-:code:`test_GpuProfiler` from :code:`paddle/math/tests` directory will be used to evaluate
+:code:`test_GpuProfiler` from :code:`paddle/legacy/math/tests` directory will be used to evaluate
 above profilers.
 
-:code:`paddle/math/test` 目录中的 :code:`test_GpuProfiler` 就是用于展示上述分析工具的用法。
+:code:`paddle/legacy/math/test` 目录中的 :code:`test_GpuProfiler` 就是用于展示上述分析工具的用法。
 
-.. literalinclude:: ../../../../paddle/math/tests/test_GpuProfiler.cpp
+.. literalinclude:: ../../../../paddle/legacy/math/tests/test_GpuProfiler.cpp
    :language: c++
    :lines: 137-151
    :linenos:
@@ -83,7 +83,7 @@ program crashes when CPU version of PaddlePaddle invokes them.
 
 1. 加入 :code:`REGISTER_TIMER_INFO` 和 :code:`printAllStatus` 函数（如高亮部分）。
 
-    .. literalinclude:: ../../../../paddle/math/tests/test_GpuProfiler.cpp
+    .. literalinclude:: ../../../../paddle/legacy/math/tests/test_GpuProfiler.cpp
         :language: c++
         :lines: 137-151
         :emphasize-lines: 8-12,14
@@ -101,8 +101,8 @@ program crashes when CPU version of PaddlePaddle invokes them.
     .. code-block:: bash
         :emphasize-lines: 1,12-15
 
-        > ./paddle/math/tests/test_GpuProfiler
-        I1117 11:13:42.313065 2522362816 Util.cpp:155] commandline: ./paddle/math/tests/test_GpuProfiler
+        > ./paddle/legacy/math/tests/test_GpuProfiler
+        I1117 11:13:42.313065 2522362816 Util.cpp:155] commandline: ./paddle/legacy/math/tests/test_GpuProfiler
         I1117 11:13:42.845065 2522362816 Util.cpp:130] Calling runInitFunctions
         I1117 11:13:42.845208 2522362816 Util.cpp:143] Call runInitFunctions done.
         [==========] Running 1 test from 1 test case.
@@ -130,7 +130,7 @@ nvprof 工具
 
 1. 将 :code:`REGISTER_GPU_PROFILER` 函数加到代码中（参考强调部分）。
 
-    .. literalinclude:: ../../../../paddle/math/tests/test_GpuProfiler.cpp
+    .. literalinclude:: ../../../../paddle/legacy/math/tests/test_GpuProfiler.cpp
         :language: c++
         :lines: 137-151
         :emphasize-lines: 6-7
@@ -147,13 +147,13 @@ nvprof 工具
 
     .. code-block:: bash
 
-        nvprof  ./paddle/math/tests/test_GpuProfiler
+        nvprof  ./paddle/legacy/math/tests/test_GpuProfiler
 
 然后，您就能获得如下的分析结果：
 
 .. code-block:: bash
 
-    ==78544== Profiling application: ./paddle/math/tests/test_GpuProfiler
+    ==78544== Profiling application: ./paddle/legacy/math/tests/test_GpuProfiler
     ==78544== Profiling result:
     Time(%)     Time     Calls       Avg       Min       Max  Name
     27.60%  9.6305ms         5  1.9261ms  3.4560us  6.4035ms  [CUDA memcpy HtoD]
diff --git a/doc/v2/howto/optimization/gpu_profiling_en.rst b/doc/v2/howto/optimization/gpu_profiling_en.rst
index 50adb7da24..6e439be9bb 100644
--- a/doc/v2/howto/optimization/gpu_profiling_en.rst
+++ b/doc/v2/howto/optimization/gpu_profiling_en.rst
@@ -51,10 +51,10 @@ For general GPU profiling, a bunch of tools are provided from both NVIDIA and th
 **nvprof** is Nvidia profiler and **nvvp** is (GUI based) Nvidia visual profiler.
 In this tutorial, we will focus on nvprof and nvvp.
 
-:code:`test_GpuProfiler` from :code:`paddle/math/tests` directory will be used to evaluate
+:code:`test_GpuProfiler` from :code:`paddle/legacy/math/tests` directory will be used to evaluate
 above profilers.
 
-.. literalinclude:: ../../../../paddle/math/tests/test_GpuProfiler.cpp
+.. literalinclude:: ../../../../paddle/legacy/math/tests/test_GpuProfiler.cpp
    :language: c++
    :lines: 137-151
    :linenos:
@@ -80,7 +80,7 @@ As a simple example, consider the following:
 
 1. Add :code:`REGISTER_TIMER_INFO` and :code:`printAllStatus` functions (see the emphasize-lines).
 
-    .. literalinclude:: ../../../../paddle/math/tests/test_GpuProfiler.cpp
+    .. literalinclude:: ../../../../paddle/legacy/math/tests/test_GpuProfiler.cpp
         :language: c++
         :lines: 137-151
         :emphasize-lines: 8-12,14
@@ -98,8 +98,8 @@ As a simple example, consider the following:
     .. code-block:: bash
         :emphasize-lines: 1,12-15
 
-        > ./paddle/math/tests/test_GpuProfiler
-        I1117 11:13:42.313065 2522362816 Util.cpp:155] commandline: ./paddle/math/tests/test_GpuProfiler
+        > ./paddle/legacy/math/tests/test_GpuProfiler
+        I1117 11:13:42.313065 2522362816 Util.cpp:155] commandline: ./paddle/legacy/math/tests/test_GpuProfiler
         I1117 11:13:42.845065 2522362816 Util.cpp:130] Calling runInitFunctions
         I1117 11:13:42.845208 2522362816 Util.cpp:143] Call runInitFunctions done.
         [==========] Running 1 test from 1 test case.
@@ -127,7 +127,7 @@ To use this command line profiler **nvprof**, you can simply issue the following
 
 1. Add :code:`REGISTER_GPU_PROFILER` function (see the emphasize-lines).
 
-    .. literalinclude:: ../../../../paddle/math/tests/test_GpuProfiler.cpp
+    .. literalinclude:: ../../../../paddle/legacy/math/tests/test_GpuProfiler.cpp
         :language: c++
         :lines: 137-151
         :emphasize-lines: 6-7
@@ -144,13 +144,13 @@ To use this command line profiler **nvprof**, you can simply issue the following
 
     .. code-block:: bash
 
-        nvprof  ./paddle/math/tests/test_GpuProfiler
+        nvprof  ./paddle/legacy/math/tests/test_GpuProfiler
 
 Then, you can get the following profiling result:
 
 .. code-block:: bash
 
-    ==78544== Profiling application: ./paddle/math/tests/test_GpuProfiler
+    ==78544== Profiling application: ./paddle/legacy/math/tests/test_GpuProfiler
     ==78544== Profiling result:
     Time(%)     Time     Calls       Avg       Min       Max  Name
     27.60%  9.6305ms         5  1.9261ms  3.4560us  6.4035ms  [CUDA memcpy HtoD]
diff --git a/doc/v2/howto/rnn/hrnn_rnn_api_compare_cn.rst b/doc/v2/howto/rnn/hrnn_rnn_api_compare_cn.rst
index 67c7b774e9..9d6d417075 100644
--- a/doc/v2/howto/rnn/hrnn_rnn_api_compare_cn.rst
+++ b/doc/v2/howto/rnn/hrnn_rnn_api_compare_cn.rst
@@ -4,7 +4,7 @@
 单双层RNN API对比介绍
 #####################
 
-本文以PaddlePaddle的双层RNN单元测试为示例，用多对效果完全相同的、分别使用单双层RNN作为网络配置的模型，来讲解如何使用双层RNN。本文中所有的例子，都只是介绍双层RNN的API接口，并不是使用双层RNN解决实际的问题。如果想要了解双层RNN在具体问题中的使用，请参考\ :ref:`algo_hrnn_demo`\ 。本文中示例所使用的单元测试文件是\ `test_RecurrentGradientMachine.cpp <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/gserver/tests/test_RecurrentGradientMachine.cpp>`_\ 。
+本文以PaddlePaddle的双层RNN单元测试为示例，用多对效果完全相同的、分别使用单双层RNN作为网络配置的模型，来讲解如何使用双层RNN。本文中所有的例子，都只是介绍双层RNN的API接口，并不是使用双层RNN解决实际的问题。如果想要了解双层RNN在具体问题中的使用，请参考\ :ref:`algo_hrnn_demo`\ 。本文中示例所使用的单元测试文件是\ `test_RecurrentGradientMachine.cpp <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/legacy/gserver/tests/test_RecurrentGradientMachine.cpp>`_\ 。
 
 示例1：双层RNN，子序列间无Memory
 ================================
@@ -13,8 +13,8 @@
 
 在本示例中，单层RNN和双层RNN的网络配置，都是将每一句分好词后的句子，使用LSTM作为encoder，压缩成一个向量。区别是RNN使用两层序列模型，将多句话看成一个整体同时使用encoder压缩。二者语意上完全一致。这组语义相同的示例配置如下：
 
-* 单层RNN\: `sequence_layer_group.conf <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/gserver/tests/sequence_layer_group.conf>`_
-* 双层RNN\: `sequence_nest_layer_group.conf <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/gserver/tests/sequence_nest_layer_group.conf>`_
+* 单层RNN\: `sequence_layer_group.conf <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/legacy/gserver/tests/sequence_layer_group.conf>`_
+* 双层RNN\: `sequence_nest_layer_group.conf <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/legacy/gserver/tests/sequence_nest_layer_group.conf>`_
 
 
 读取双层序列数据
@@ -24,18 +24,18 @@
 
 - 本例中的原始数据一共有10个样本。每个样本由两部分组成，一个label（此处都为2）和一个已经分词后的句子。这个数据也被单层RNN网络直接使用。
 
-..  literalinclude:: ../../../../paddle/gserver/tests/Sequence/tour_train_wdseg
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/Sequence/tour_train_wdseg
     :language: text
 
 
 - 双层序列数据一共有4个样本。 每个样本间用空行分开，整体数据和原始数据完全一样。但于双层序列的LSTM来说，第一个样本同时encode两条数据成两个向量。这四条数据同时处理的句子数量为\ :code:`[2, 3, 2, 3]`\ 。
 
-..  literalinclude:: ../../../../paddle/gserver/tests/Sequence/tour_train_wdseg.nest
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/Sequence/tour_train_wdseg.nest
     :language: text
 
-其次，对于两种不同的输入数据类型，不同DataProvider对比如下(`sequenceGen.py <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/gserver/tests/sequenceGen.py>`_)\：
+其次，对于两种不同的输入数据类型，不同DataProvider对比如下(`sequenceGen.py <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/legacy/gserver/tests/sequenceGen.py>`_)\：
 
-..  literalinclude:: ../../../../paddle/gserver/tests/sequenceGen.py
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/sequenceGen.py
     :language: python
     :lines: 21-39
     :linenos:
@@ -47,7 +47,7 @@
     - words是原始数据中的每一句话，所对应的词表index数组。它是integer_value_sequence类型的，即整数数组。words即为这个数据中的单层时间序列。
     - label是原始数据中对于每一句话的分类标签，它是integer_value类型的。
 
-..  literalinclude:: ../../../../paddle/gserver/tests/sequenceGen.py
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/sequenceGen.py
     :language: python
     :lines: 42-71
     :linenos:
@@ -64,7 +64,7 @@
 
 首先，我们看一下单层RNN的配置。代码中9-15行(高亮部分)即为单层RNN序列的使用代码。这里使用了PaddlePaddle预定义好的RNN处理函数。在这个函数中，RNN对于每一个时间步通过了一个LSTM网络。
 
-..  literalinclude:: ../../../../paddle/gserver/tests/sequence_layer_group.conf
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/sequence_layer_group.conf
     :language: python
     :lines: 38-63
     :linenos:
@@ -85,7 +85,7 @@
 
 * 至此，\ :code:`lstm_last`\ 便和单层RNN配置中的\ :code:`lstm_last`\ 具有相同的结果了。
 
-..  literalinclude:: ../../../../paddle/gserver/tests/sequence_nest_layer_group.conf
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/sequence_nest_layer_group.conf
     :language: python
     :lines: 38-64
     :linenos:
@@ -107,7 +107,7 @@
 
 - 单层RNN：过了一个很简单的recurrent_group。每一个时间步，当前的输入y和上一个时间步的输出rnn_state做了一个全链接。
 
-..  literalinclude:: ../../../../paddle/gserver/tests/sequence_rnn.conf
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/sequence_rnn.conf
     :language: python
     :lines: 36-48
 
@@ -116,7 +116,7 @@
   - 内层inner_step的recurrent_group和单层序列的几乎一样。除了boot_layer=outer_mem，表示将外层的outer_mem作为内层memory的初始状态。外层outer_step中，outer_mem是一个子句的最后一个向量，即整个双层group是将前一个子句的最后一个向量，作为下一个子句memory的初始状态。
   - 从输入数据上看，单双层序列的句子是一样的，只是双层序列将其又做了子序列划分。因此双层序列的配置中，必须将前一个子句的最后一个元素，作为boot_layer传给下一个子句的memory，才能保证和单层序列的配置中“每个时间步都用了上一个时间步的输出结果”一致。
 
-..  literalinclude:: ../../../../paddle/gserver/tests/sequence_nest_rnn.conf
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/sequence_nest_rnn.conf
     :language: python
     :lines: 39-66
 
@@ -134,7 +134,7 @@
 
 **输入不等长** 是指recurrent_group的多个输入序列，在每个时间步的子序列长度可以不相等。但序列输出时，需要指定与某一个输入的序列信息是一致的。使用\ :red:`targetInlink`\ 可以指定哪一个输入和输出序列信息一致，默认指定第一个输入。 
 
-示例3的配置分别为\ `单层不等长RNN <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/gserver/tests/sequence_rnn_multi_unequalength_inputs.py>`_\ 和\ `双层不等长RNN <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/gserver/tests/sequence_nest_rnn_multi_unequalength_inputs.py>`_\ 。
+示例3的配置分别为\ `单层不等长RNN <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/legacy/gserver/tests/sequence_rnn_multi_unequalength_inputs.py>`_\ 和\ `双层不等长RNN <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/legacy/gserver/tests/sequence_nest_rnn_multi_unequalength_inputs.py>`_\ 。
 
 示例3对于单层RNN和双层RNN数据完全相同。
 
@@ -152,14 +152,14 @@
 
 * 单层RNN\:
 
-..  literalinclude:: ../../../../paddle/gserver/tests/sequence_rnn_multi_unequalength_inputs.py
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/sequence_rnn_multi_unequalength_inputs.py
     :language: python
     :lines: 42-59
     :linenos:
 
 * 双层RNN\ \:
 
-..  literalinclude:: ../../../../paddle/gserver/tests/sequence_nest_rnn_multi_unequalength_inputs.py
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/sequence_nest_rnn_multi_unequalength_inputs.py
     :language: python
     :lines: 41-80
     :linenos:
diff --git a/doc/v2/howto/rnn/hrnn_rnn_api_compare_en.rst b/doc/v2/howto/rnn/hrnn_rnn_api_compare_en.rst
index ae997f0805..a4485f7b5e 100644
--- a/doc/v2/howto/rnn/hrnn_rnn_api_compare_en.rst
+++ b/doc/v2/howto/rnn/hrnn_rnn_api_compare_en.rst
@@ -4,7 +4,7 @@
 API comparision between RNN and hierarchical RNN
 #####################
 
-This article takes PaddlePaddle's hierarchical RNN unit test as an example. We will use several examples to illestrate the usage of single-layer and hierarchical RNNs. Each example has two model configurations, one for single-layer, and the other for hierarchical RNN. Although the implementations are different, both the two model configurations' effects are the same. All of the examples in this article only describe the API interface of the hierarchical RNN, while we do not use this hierarchical RNN to solve practical problems. If you want to understand the use of hierarchical RNN in specific issues, please refer to \ :ref:`algo_hrnn_demo`\ 。The unit test file used in this article's example is \ `test_RecurrentGradientMachine.cpp <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/gserver/tests/test_RecurrentGradientMachine.cpp>`_\ 。
+This article takes PaddlePaddle's hierarchical RNN unit test as an example. We will use several examples to illestrate the usage of single-layer and hierarchical RNNs. Each example has two model configurations, one for single-layer, and the other for hierarchical RNN. Although the implementations are different, both the two model configurations' effects are the same. All of the examples in this article only describe the API interface of the hierarchical RNN, while we do not use this hierarchical RNN to solve practical problems. If you want to understand the use of hierarchical RNN in specific issues, please refer to \ :ref:`algo_hrnn_demo`\ 。The unit test file used in this article's example is \ `test_RecurrentGradientMachine.cpp <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/legacy/gserver/tests/test_RecurrentGradientMachine.cpp>`_\ 。
 
 Example 1：Hierarchical RNN without Memory between subsequences
 ================================
@@ -13,8 +13,8 @@ The classical case in the hierarchical RNN is to perform sequence operations on
 
 In this example, the network configuration of single-layer RNNs and hierarchical RNNs are all to use LSTM as en encoder to compress a word-segmented sentence into a vector. The difference is that, RNN uses a hierarchical RNN model, treating multiple sentences as a whole to use encoder to compress simultaneously. They are completely consistent in their semantic meanings. This pair of semantically identical example configurations is as follows：
 
-* RNN\: `sequence_layer_group.conf <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/gserver/tests/sequence_layer_group.conf>`_
-* Hierarchical RNN\: `sequence_nest_layer_group.conf <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/gserver/tests/sequence_nest_layer_group.conf>`_
+* RNN\: `sequence_layer_group.conf <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/legacy/gserver/tests/sequence_layer_group.conf>`_
+* Hierarchical RNN\: `sequence_nest_layer_group.conf <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/legacy/gserver/tests/sequence_nest_layer_group.conf>`_
 
 
 Reading hierarchical sequence data
@@ -24,18 +24,18 @@ Firstly, the original data in this example is as follows \:
 
 - The original data in this example has 10 samples. Each of the sample includes two components: a lable(all 2 here), and a word-segmented sentence. This data is used by single RNN as well. 
 
-..  literalinclude:: ../../../../paddle/gserver/tests/Sequence/tour_train_wdseg
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/Sequence/tour_train_wdseg
     :language: text
 
 
 - The data for hierarchical RNN has 4 samples. Every sample is seperated by a blank line, while the content of the data is the same as the original data. But as for hierarchical LSTM, the first sample will encode two sentences into two vectors simultaneously. The sentence count dealed simultaneously by this 4 samples are \ :code:`[2, 3, 2, 3]`\ .
 
-..  literalinclude:: ../../../../paddle/gserver/tests/Sequence/tour_train_wdseg.nest
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/Sequence/tour_train_wdseg.nest
     :language: text
 
-Secondly, as for these two types of different input data formats, the contrast of different DataProviders are as follows (`sequenceGen.py <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/gserver/tests/sequenceGen.py>`_)\：
+Secondly, as for these two types of different input data formats, the contrast of different DataProviders are as follows (`sequenceGen.py <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/legacy/gserver/tests/sequenceGen.py>`_)\：
 
-..  literalinclude:: ../../../../paddle/gserver/tests/sequenceGen.py
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/sequenceGen.py
     :language: python
     :lines: 21-39
     :linenos:
@@ -47,7 +47,7 @@ Secondly, as for these two types of different input data formats, the contrast o
     - "words" is a list of word table indices corresponding to each word in the sentence in the original data. Its data type is integer_value_sequence, that is integer list. So, "words" is a singler-layer time series in the data. 
     - "label" is the categorical label of each sentence, whose data type is integer_value. 
 
-..  literalinclude:: ../../../../paddle/gserver/tests/sequenceGen.py
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/sequenceGen.py
     :language: python
     :lines: 42-71
     :linenos:
@@ -64,7 +64,7 @@ Model configuration
 
 Firstly, let's look at the configuration of single-layer RNN. The hightlighted part of line 9 to line 15 is the usage of single-layer RNN. Here we use the pre-defined RNN process function in PaddlePaddle. In this function, for each time step, RNN passes through an LSTM network. 
 
-..  literalinclude:: ../../../../paddle/gserver/tests/sequence_layer_group.conf
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/sequence_layer_group.conf
     :language: python
     :lines: 38-63
     :linenos:
@@ -85,7 +85,7 @@ Secondly, let's look at the model configuration of hierarchical RNN which has th
 
 * Till now, \ :code:`lstm_last`\ has the same result as \ :code:`lstm_last`\ in single-layer RNN configuration. 
 
-..  literalinclude:: ../../../../paddle/gserver/tests/sequence_nest_layer_group.conf
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/sequence_nest_layer_group.conf
     :language: python
     :lines: 38-64
     :linenos:
@@ -107,7 +107,7 @@ We select the different parts between single-layer RNN and hierarchical RNN conf
 
 - single-layer RNN：passes through a simple recurrent_group. For each time step, the current input y and the last time step's output rnn_state pass through a fully-connected layer. 
 
-..  literalinclude:: ../../../../paddle/gserver/tests/sequence_rnn.conf
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/sequence_rnn.conf
     :language: python
     :lines: 36-48
 
@@ -116,7 +116,7 @@ We select the different parts between single-layer RNN and hierarchical RNN conf
   - The recurrent_group of inner layer's inner_step is nearly the same as single-layer sequence, except for the case of boot_layer=outer_mem, which means using the outer layer's outer_mem as the initial state for the inner layer's memory. In the outer layer's out_step, outer_mem is the last vector of a subsequence, that is, the whole hierarchical group uses the last vector of the previous subsequence as the initial state for the next subsequence's memory. 
   - From the aspect of the input data, sentences from single-layer and hierarchical RNN are the same. The only difference is that, hierarchical RNN disassembes the sequence into subsequences. So in the hierarchical RNN configuration, we must use the last element of the previous subsequence as a boot_layer for the memory of the next subsequence, so that it makes no difference with "every time step uses the output of last time step" in the sigle-layer RNN configuration. 
 
-..  literalinclude:: ../../../../paddle/gserver/tests/sequence_nest_rnn.conf
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/sequence_nest_rnn.conf
     :language: python
     :lines: 39-66
 
@@ -134,7 +134,7 @@ Example 3：hierarchical RNN with unequal length inputs
 
 **unequal length inputs** means in the multiple input sequences of recurrent_group, the lengths of subsequences can be unequal. But the output of the sequence, needs to be consistent with one of the input sequences. Using \ :red:`targetInlink`\ can help you specify which of the input sequences and the output sequence can be consistent, by default is the first input. 
 
-The configurations of Example 3 are \ `sequence_rnn_multi_unequalength_inputs <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/gserver/tests/sequence_rnn_multi_unequalength_inputs.py>`_ \ and \ `sequence_nest_rnn_multi_unequalength_inputs <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/gserver/tests/sequence_nest_rnn_multi_unequalength_inputs.py>`_\ . 
+The configurations of Example 3 are \ `sequence_rnn_multi_unequalength_inputs <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/legacy/gserver/tests/sequence_rnn_multi_unequalength_inputs.py>`_ \ and \ `sequence_nest_rnn_multi_unequalength_inputs <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/legacy/gserver/tests/sequence_nest_rnn_multi_unequalength_inputs.py>`_\ .
 
 The data for the configurations of Example 3's single-layer RNN and hierarchical RNN are exactly the same. 
 
@@ -152,14 +152,14 @@ Similar to Example 2's configuration, Example 3's configuration uses single-laye
 
 * single-layer RNN\:
 
-..  literalinclude:: ../../../../paddle/gserver/tests/sequence_rnn_multi_unequalength_inputs.py
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/sequence_rnn_multi_unequalength_inputs.py
     :language: python
     :lines: 42-59
     :linenos:
 
 * hierarchical RNN\ \:
 
-..  literalinclude:: ../../../../paddle/gserver/tests/sequence_nest_rnn_multi_unequalength_inputs.py
+..  literalinclude:: ../../../../paddle/legacy/gserver/tests/sequence_nest_rnn_multi_unequalength_inputs.py
     :language: python
     :lines: 41-80
     :linenos:
diff --git a/go/pserver/optimizer.go b/go/pserver/optimizer.go
index f17577997b..eba0c47e19 100644
--- a/go/pserver/optimizer.go
+++ b/go/pserver/optimizer.go
@@ -16,7 +16,7 @@ package pserver
 
 // #cgo CFLAGS: -I ../../
 // #cgo LDFLAGS: ${SRCDIR}/client/c/libpaddle_go_optimizer.a -lstdc++ -lm
-// #include "paddle/optimizer/optimizer.h"
+// #include "paddle/legacy/optimizer/optimizer.h"
 // #include <stdlib.h>
 // #include <string.h>
 import "C"
diff --git a/paddle/CMakeLists.txt b/paddle/CMakeLists.txt
index d722eec189..7a4bd9183a 100644
--- a/paddle/CMakeLists.txt
+++ b/paddle/CMakeLists.txt
@@ -1,24 +1,24 @@
 if(NOT WITH_FLUID_ONLY)
-  add_subdirectory(cuda)
-  add_subdirectory(function)
+  add_subdirectory(legacy/cuda)
+  add_subdirectory(legacy/function)
   add_subdirectory(utils)
-  add_subdirectory(math)
-  add_subdirectory(gserver)
-  add_subdirectory(parameter)
+  add_subdirectory(legacy/math)
+  add_subdirectory(legacy/gserver)
+  add_subdirectory(legacy/parameter)
 
   if(MOBILE_INFERENCE)
-    add_subdirectory(capi)
+    add_subdirectory(legacy/capi)
   else()
-    add_subdirectory(pserver)
+    add_subdirectory(legacy/pserver)
     add_subdirectory(trainer)
     add_subdirectory(scripts)
 
     if(WITH_C_API)
-      add_subdirectory(capi)
+      add_subdirectory(legacy/capi)
     endif()
 
     if(WITH_SWIG_PY)
-      add_subdirectory(api)
+      add_subdirectory(legacy/api)
     endif()
   endif()
 endif()
diff --git a/paddle/contrib/inference/CMakeLists.txt b/paddle/contrib/inference/CMakeLists.txt
index 2cd6ab2bbf..a8bbb4eb80 100644
--- a/paddle/contrib/inference/CMakeLists.txt
+++ b/paddle/contrib/inference/CMakeLists.txt
@@ -46,6 +46,10 @@ cc_library(paddle_inference_api
     SRCS paddle_inference_api.cc paddle_inference_api_impl.cc
     DEPS ${FLUID_CORE_MODULES} ${GLOB_OP_LIB})
 
+cc_library(paddle_inference_api_shared SHARED
+    SRCS paddle_inference_api.cc paddle_inference_api_impl.cc
+    DEPS ${FLUID_CORE_MODULES} ${GLOB_OP_LIB})
+
 cc_test(test_paddle_inference_api
         SRCS test_paddle_inference_api.cc
         DEPS paddle_inference_api)
diff --git a/paddle/fluid/framework/data_layout_transform.cc b/paddle/fluid/framework/data_layout_transform.cc
index bc48fd3b47..cd00b7de73 100644
--- a/paddle/fluid/framework/data_layout_transform.cc
+++ b/paddle/fluid/framework/data_layout_transform.cc
@@ -147,9 +147,9 @@ void TransDataLayoutFromMKLDNN(const OpKernelType& kernel_type_for_var,
                  "Input tensor type is not supported: ", in.type().name());
   memory::data_type out_type = in_type;
 
-  auto in_format = MKLDNNFormatForSize(in_tz.size(), in.format());
+  auto in_format = platform::MKLDNNFormatForSize(in_tz.size(), in.format());
   auto out_format =
-      MKLDNNFormatForSize(in_tz.size(), ToMKLDNNFormat(out_layout));
+      platform::MKLDNNFormatForSize(in_tz.size(), ToMKLDNNFormat(out_layout));
 
   void* in_data = GetDataFromTensor(in, in_type);
 
diff --git a/paddle/fluid/framework/data_layout_transform.h b/paddle/fluid/framework/data_layout_transform.h
index 67f91e4e48..90bb206ec6 100644
--- a/paddle/fluid/framework/data_layout_transform.h
+++ b/paddle/fluid/framework/data_layout_transform.h
@@ -62,12 +62,6 @@ inline MKLDNNDataType ToMKLDNNDataType(const std::type_index type) {
   return MKLDNNDataType::data_undef;
 }
 
-inline MKLDNNFormat MKLDNNFormatForSize(size_t dims_size,
-                                        MKLDNNFormat default_format) {
-  return (dims_size == 1
-              ? mkldnn::memory::format::x
-              : dims_size == 2 ? mkldnn::memory::format::nc : default_format);
-}
 #endif
 
 void TransDataLayoutFromMKLDNN(const OpKernelType& kernel_type_for_var,
diff --git a/paddle/fluid/framework/data_transform.cc b/paddle/fluid/framework/data_transform.cc
index 5f15e20c78..8287222450 100644
--- a/paddle/fluid/framework/data_transform.cc
+++ b/paddle/fluid/framework/data_transform.cc
@@ -18,17 +18,21 @@ limitations under the License. */
 #include "paddle/fluid/framework/data_layout_transform.h"
 #include "paddle/fluid/framework/data_type_transform.h"
 
+#ifdef PADDLE_WITH_MKLDNN
+#include "paddle/fluid/platform/mkldnn_helper.h"
+#endif
+
 namespace paddle {
 namespace framework {
 
-static void PassTensorData(Tensor* from, Tensor* to) {
+static void PassTensorData(Tensor *from, Tensor *to) {
   to->ShareDataWith(*from);
   *from = Tensor();
 }
 
-void DataTransform(const OpKernelType& expected_kernel_type,
-                   const OpKernelType& kernel_type_for_var,
-                   const Tensor& input_tensor, Tensor* output_tensor) {
+void TransformData(const OpKernelType &expected_kernel_type,
+                   const OpKernelType &kernel_type_for_var,
+                   const Tensor &input_tensor, Tensor *output_tensor) {
   bool transformed = false;
   Tensor in;
   in.ShareDataWith(input_tensor);
@@ -48,8 +52,8 @@ void DataTransform(const OpKernelType& expected_kernel_type,
         // Case1 - transform from Non-MKLDNN OPKernel to MKLDNN OPKernel
         // Just set layout/format. No real transform occur
 
-        auto out_format =
-            MKLDNNFormatForSize(in.dims().size(), ToMKLDNNFormat(lin));
+        auto out_format = platform::MKLDNNFormatForSize(in.dims().size(),
+                                                        ToMKLDNNFormat(lin));
 
         out.ShareDataWith(input_tensor);
         out.set_layout(DataLayout::kMKLDNN);
@@ -89,17 +93,17 @@ void DataTransform(const OpKernelType& expected_kernel_type,
   output_tensor->ShareDataWith(in);
 }
 
-void CopyVariableWithTensor(const Variable& in_var, const Tensor& tensor,
-                            Variable* out_var) {
+void SetTensorToVariable(const Variable &in_var, const Tensor &tensor,
+                         Variable *out_var) {
   if (in_var.IsType<LoDTensor>()) {
-    auto& in_lod_tensor = in_var.Get<LoDTensor>();
-    auto* tran_lod_tensor = out_var->GetMutable<LoDTensor>();
+    auto &in_lod_tensor = in_var.Get<LoDTensor>();
+    auto *tran_lod_tensor = out_var->GetMutable<LoDTensor>();
     tran_lod_tensor->set_lod(in_lod_tensor.lod());
     tran_lod_tensor->set_layout(in_lod_tensor.layout());
     tran_lod_tensor->ShareDataWith(tensor);
   } else if (in_var.IsType<SelectedRows>()) {
-    auto& in_selected_rows = in_var.Get<SelectedRows>();
-    auto* trans_selected_rows = out_var->GetMutable<SelectedRows>();
+    auto &in_selected_rows = in_var.Get<SelectedRows>();
+    auto *trans_selected_rows = out_var->GetMutable<SelectedRows>();
     trans_selected_rows->set_height(in_selected_rows.height());
     trans_selected_rows->set_rows(in_selected_rows.rows());
     trans_selected_rows->mutable_value()->ShareDataWith(tensor);
diff --git a/paddle/fluid/framework/data_transform.h b/paddle/fluid/framework/data_transform.h
index dee5d8c7c1..ae3ab051bd 100644
--- a/paddle/fluid/framework/data_transform.h
+++ b/paddle/fluid/framework/data_transform.h
@@ -30,12 +30,15 @@ limitations under the License. */
 namespace paddle {
 namespace framework {
 
-void DataTransform(const OpKernelType& expected_kernel_type,
-                   const OpKernelType& kernel_type_for_var,
-                   const Tensor& input_tensor, Tensor* out);
-
-void CopyVariableWithTensor(const Variable& in_var, const Tensor& tensor,
-                            Variable* out_var);
+void TransformData(const OpKernelType &expected_kernel_type,
+                   const OpKernelType &kernel_type_for_var,
+                   const Tensor &input_tensor, Tensor *out);
+
+/**
+ * Set OutVar from InVar, except the tensor is shared with `tensor`
+ */
+void SetTensorToVariable(const Variable &in_var, const Tensor &tensor,
+                         Variable *out_var);
 
 }  // namespace framework
 }  // namespace paddle
diff --git a/paddle/fluid/framework/details/CMakeLists.txt b/paddle/fluid/framework/details/CMakeLists.txt
index 3c73b6cc55..4fb4ec38ee 100644
--- a/paddle/fluid/framework/details/CMakeLists.txt
+++ b/paddle/fluid/framework/details/CMakeLists.txt
@@ -25,11 +25,12 @@ else()
     cc_library(broadcast_op_handle SRCS broadcast_op_handle.cc DEPS op_handle_base scope ddim memory variable_visitor)
 endif()
 
+cc_library(data_balance_op_handle SRCS data_balance_op_handle.cc DEPS op_handle_base scope lod_tensor)
 cc_library(gather_op_handle SRCS gather_op_handle.cc DEPS op_handle_base scope ddim memory variable_visitor)
 cc_library(fuse_vars_op_handle SRCS fuse_vars_op_handle.cc DEPS op_handle_base scope)
 
 cc_library(multi_devices_graph_builder SRCS multi_devices_graph_builder.cc DEPS ssa_graph_builder computation_op_handle
-        scale_loss_grad_op_handle rpc_op_handle all_reduce_op_handle reduce_op_handle broadcast_op_handle)
+        scale_loss_grad_op_handle rpc_op_handle all_reduce_op_handle reduce_op_handle broadcast_op_handle data_balance_op_handle)
 
 
 cc_library(ssa_graph_builder_factory SRCS ssa_graph_builder_factory.cc DEPS multi_devices_graph_builder ssa_graph_printer ssa_graph_checker)
diff --git a/paddle/fluid/framework/details/build_strategy.h b/paddle/fluid/framework/details/build_strategy.h
index 64e83acb4d..9c2c845c6e 100644
--- a/paddle/fluid/framework/details/build_strategy.h
+++ b/paddle/fluid/framework/details/build_strategy.h
@@ -33,6 +33,8 @@ struct BuildStrategy {
   GradientScaleStrategy gradient_scale_{GradientScaleStrategy::kCoeffNumDevice};
 
   std::string debug_graphviz_path_{""};
+
+  bool enable_data_balance_{true};
 };
 
 }  // namespace details
diff --git a/paddle/fluid/framework/details/data_balance_op_handle.cc b/paddle/fluid/framework/details/data_balance_op_handle.cc
new file mode 100644
index 0000000000..b914851fe0
--- /dev/null
+++ b/paddle/fluid/framework/details/data_balance_op_handle.cc
@@ -0,0 +1,154 @@
+// Copyright (c) 2018 PaddlePaddle Authors. All Rights Reserved.
+//
+// Licensed under the Apache License, Version 2.0 (the "License");
+// you may not use this file except in compliance with the License.
+// You may obtain a copy of the License at
+//
+//     http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+#include "paddle/fluid/framework/details/data_balance_op_handle.h"
+#include <algorithm>
+#include "paddle/fluid/framework/details/container_cast.h"
+
+namespace paddle {
+namespace framework {
+namespace details {
+
+#ifdef PADDLE_WITH_CUDA
+DataBalanceOpHandle::DataBalanceOpHandle(
+    const std::vector<Scope *> &local_scopes,
+    const std::vector<platform::Place> &places,
+    const platform::NCCLContextMap *ctxs)
+    : local_scopes_(local_scopes), places_(places) {
+  if (ctxs) {
+    for (auto &p : places_) {
+      this->dev_ctxes_[p] = ctxs->DevCtx(p);
+    }
+  }
+}
+#else
+DataBalanceOpHandle::DataBalanceOpHandle(
+    const std::vector<Scope *> &local_scopes,
+    const std::vector<platform::Place> &places)
+    : local_scopes_(local_scopes), places_(places) {}
+#endif
+
+std::string DataBalanceOpHandle::Name() const { return "data balance"; }
+
+std::vector<std::array<int, 3>> DataBalanceOpHandle::GetBalancePlan(
+    const std::vector<int> &device_sizes) {
+  int device_num = device_sizes.size();
+  int total_size = 0;
+  int empty_num = 0;
+  std::vector<std::array<int, 2>> size_device_vec;
+  size_device_vec.reserve(device_num);
+  for (int i = 0; i < device_num; ++i) {
+    if (device_sizes[i] == 0) {
+      ++empty_num;
+    }
+    total_size += device_sizes[i];
+    size_device_vec.push_back({{device_sizes[i], i}});
+  }
+  std::vector<std::array<int, 3>> res;
+  if (empty_num == 0) {
+    // No need to do data balance.
+    return res;
+  }
+  if (total_size < device_num) {
+    // No enough data.
+    PADDLE_THROW("There is no next data.");
+  }
+  std::sort(size_device_vec.begin(), size_device_vec.end(),
+            [](const std::array<int, 2> &a, const std::array<int, 2> &b) {
+              return a[0] > b[0];
+            });
+  int expected_device_size = total_size / device_num;
+  int src_idx = 0;
+  for (int dst_idx = device_num - empty_num; dst_idx < device_num; ++dst_idx) {
+    if (size_device_vec[src_idx][0] <= expected_device_size) {
+      ++src_idx;
+      PADDLE_ENFORCE_LT(
+          src_idx, device_num - empty_num,
+          "In current srategy an empty tensor should not be copy source.");
+    }
+    size_device_vec[src_idx][0] -= expected_device_size;
+    size_device_vec[dst_idx][0] += expected_device_size;
+    res.push_back({{size_device_vec[src_idx][1], size_device_vec[dst_idx][1],
+                    expected_device_size}});
+  }
+  return res;
+}
+
+void DataBalanceOpHandle::RunImpl() {
+  if (places_.size() == 1) {
+    return;
+  }
+  auto in_var_handles = DynamicCast<VarHandle>(inputs_);
+  auto out_var_handles = DynamicCast<VarHandle>(outputs_);
+  PADDLE_ENFORCE(in_var_handles.size() % places_.size() == 0);
+  PADDLE_ENFORCE_EQ(
+      in_var_handles.size(), out_var_handles.size(),
+      "The NoDummyInputSize and NoDummyOutputSize should be equal.");
+  int data_num = in_var_handles.size() / places_.size();
+  WaitInputVarGenerated();
+  std::vector<std::vector<LoDTensor *>> lod_tensors(data_num);
+  std::vector<int> device_sizes;
+  for (int i = 0; i < static_cast<int>(in_var_handles.size()); ++i) {
+    PADDLE_ENFORCE_EQ(in_var_handles[i]->name_, out_var_handles[i]->name_,
+                      "The name of input and output should be equal.");
+    int place_idx = i / data_num;
+    int data_idx = i % data_num;
+    auto *local_scope =
+        local_scopes_[place_idx]->FindVar(kLocalExecScopeName)->Get<Scope *>();
+    auto *tensor_var = local_scope->FindVar(in_var_handles[i]->name_);
+    PADDLE_ENFORCE(tensor_var->IsType<LoDTensor>());
+    auto *tensor = tensor_var->GetMutable<LoDTensor>();
+    lod_tensors[data_idx].push_back(tensor);
+    int ins_size =
+        tensor->lod().empty() ? tensor->dims()[0] : tensor->NumElements();
+    if (data_idx == 0) {
+      device_sizes.emplace_back(ins_size);
+    } else {
+      PADDLE_ENFORCE_EQ(
+          ins_size, device_sizes.at(place_idx),
+          "All data on the same device shall have the same batch size.");
+    }
+  }
+  const auto &balance_plan = GetBalancePlan(device_sizes);
+
+  for (const auto &trans : balance_plan) {
+    for (int data_idx = 0; data_idx < data_num; ++data_idx) {
+      LoDTensor *src_tensor = lod_tensors[data_idx][trans[0]];
+      LoDTensor *dst_tensor = lod_tensors[data_idx][trans[1]];
+      int trans_ins_size = trans[2];
+      LoD src_lod = src_tensor->lod();
+      int src_ins_size =
+          src_lod.empty() ? src_tensor->dims()[0] : src_tensor->NumElements();
+      int cut_point = src_ins_size - trans_ins_size;
+      if (!src_lod.empty()) {
+        for (auto &level : src_lod) {
+          cut_point = level[cut_point];
+        }
+      }
+      TensorCopySync(src_tensor->Slice(cut_point, src_tensor->dims()[0]),
+                     dst_tensor->place(), dst_tensor);
+      src_tensor->ShareDataWith(src_tensor->Slice(0, cut_point));
+      if (!src_lod.empty()) {
+        dst_tensor->set_lod(SliceInLevel(
+            src_lod, 0, src_ins_size - trans_ins_size, src_ins_size));
+        src_tensor->set_lod(
+            SliceInLevel(src_lod, 0, 0, src_ins_size - trans_ins_size));
+      }
+    }
+  }
+}
+
+}  // namespace details
+}  // namespace framework
+}  // namespace paddle
diff --git a/paddle/fluid/framework/details/data_balance_op_handle.h b/paddle/fluid/framework/details/data_balance_op_handle.h
new file mode 100644
index 0000000000..76a407e361
--- /dev/null
+++ b/paddle/fluid/framework/details/data_balance_op_handle.h
@@ -0,0 +1,59 @@
+// Copyright (c) 2018 PaddlePaddle Authors. All Rights Reserved.
+//
+// Licensed under the Apache License, Version 2.0 (the "License");
+// you may not use this file except in compliance with the License.
+// You may obtain a copy of the License at
+//
+//     http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+#pragma once
+
+#include <string>
+#include <vector>
+#include "paddle/fluid/framework/details/op_handle_base.h"
+#include "paddle/fluid/framework/lod_tensor.h"
+#include "paddle/fluid/framework/scope.h"
+#ifdef PADDLE_WITH_CUDA
+#include "paddle/fluid/platform/nccl_helper.h"
+#endif
+
+namespace paddle {
+namespace framework {
+namespace details {
+
+struct DataBalanceOpHandle : public OpHandleBase {
+ public:
+#ifdef PADDLE_WITH_CUDA
+  DataBalanceOpHandle(const std::vector<Scope *> &local_scopes,
+                      const std::vector<platform::Place> &places,
+                      const platform::NCCLContextMap *ctxs);
+#else
+  DataBalanceOpHandle(const std::vector<Scope *> &local_scopes,
+                      const std::vector<platform::Place> &places);
+#endif
+
+  std::string Name() const override;
+
+  bool IsMultiDeviceTransfer() override { return false; };
+
+ protected:
+  void RunImpl() override;
+
+ private:
+  // std::vector<(src_dev_id, dst_dev_id, trans_size)>
+  std::vector<std::array<int, 3>> GetBalancePlan(
+      const std::vector<int> &batch_size_per_device);
+
+  const std::vector<Scope *> local_scopes_;
+  const std::vector<platform::Place> places_;
+};
+
+}  // namespace details
+}  // namespace framework
+}  // namespace paddle
diff --git a/paddle/fluid/framework/details/fetch_op_handle.cc b/paddle/fluid/framework/details/fetch_op_handle.cc
index 224e8e1f6e..d646c94460 100644
--- a/paddle/fluid/framework/details/fetch_op_handle.cc
+++ b/paddle/fluid/framework/details/fetch_op_handle.cc
@@ -67,8 +67,8 @@ void FetchOpHandle::RunImpl() {
 #endif
     } else {
       tensors_[i].ShareDataWith(t);
-      tensors_[i].set_lod(t.lod());
     }
+    tensors_[i].set_lod(t.lod());
   }
 
   this->WaitAndMergeCPUTensors();
diff --git a/paddle/fluid/framework/details/multi_devices_graph_builder.cc b/paddle/fluid/framework/details/multi_devices_graph_builder.cc
index cc7b94d065..46d0c2769c 100644
--- a/paddle/fluid/framework/details/multi_devices_graph_builder.cc
+++ b/paddle/fluid/framework/details/multi_devices_graph_builder.cc
@@ -20,6 +20,7 @@
 #include "paddle/fluid/framework/details/all_reduce_op_handle.h"
 #include "paddle/fluid/framework/details/broadcast_op_handle.h"
 #include "paddle/fluid/framework/details/computation_op_handle.h"
+#include "paddle/fluid/framework/details/data_balance_op_handle.h"
 #include "paddle/fluid/framework/details/multi_devices_graph_builder.h"
 #include "paddle/fluid/framework/details/reduce_op_handle.h"
 #include "paddle/fluid/framework/details/rpc_op_handle.h"
@@ -215,7 +216,14 @@ std::unique_ptr<SSAGraph> MultiDevSSAGraphBuilder::Build(
       } else {
         // This op runs on all devices, and its output may have parameter's
         // gradients.
-        CreateComputationalOps(&result, *op, places_.size());
+        if (op->Type() == "read" && strategy_.enable_data_balance_) {
+          op->SetAttr("throw_eof_exp", false);
+          CreateComputationalOps(&result, *op, places_.size());
+          const auto &data_var_names = op->Output("Out");
+          InsertDataBalanceOp(&result, data_var_names);
+        } else {
+          CreateComputationalOps(&result, *op, places_.size());
+        }
 
         if (!is_forwarding && places_.size() > 1) {
           // Currently, we assume that once gradient is generated, it can be
@@ -360,6 +368,29 @@ void MultiDevSSAGraphBuilder::InsertAllReduceOp(SSAGraph *result,
   }
 }
 
+void MultiDevSSAGraphBuilder::InsertDataBalanceOp(
+    SSAGraph *result, const std::vector<std::string> &datas) const {
+#ifdef PADDLE_WITH_CUDA
+  result->ops_.emplace_back(
+      new DataBalanceOpHandle(local_scopes_, places_, nccl_ctxs_));
+#else
+  result->ops_.emplace_back(new DataBalanceOpHandle(local_scopes_, places_));
+#endif
+  auto *op_handle = result->ops_.back().get();
+  for (size_t i = 0; i < places_.size(); ++i) {
+    auto &p = places_[i];
+    SetCommunicationContext(op_handle, p);
+    for (const std::string &d_name : datas) {
+      auto &vars = result->vars_[i][d_name];
+      PADDLE_ENFORCE(!vars.empty());
+      op_handle->AddInput(vars.back().get());
+      auto var = new VarHandle(vars.size(), i, d_name, p);
+      vars.emplace_back(var);
+      op_handle->AddOutput(var);
+    }
+  }
+}
+
 bool MultiDevSSAGraphBuilder::IsParameterGradientOnce(
     const std::string &og,
     std::unordered_set<std::string> *og_has_been_broadcast) const {
@@ -512,7 +543,8 @@ void MultiDevSSAGraphBuilder::CreateRPCOp(SSAGraph *result,
     op_dev_id = GetVarDeviceID(op.InputArgumentNames()[0]);
     // the variable name which contains .block means it was splited by
     // split_byref op
-    // so that we can balance the variable blocks to all the pserver instances.
+    // so that we can balance the variable blocks to all the pserver
+    // instances.
     if (strategy_.reduce_ == BuildStrategy::ReduceStrategy::kAllReduce &&
         op.InputArgumentNames()[0].find(".block") == std::string::npos) {
       op_dev_id = GetAppropriateDeviceID(op.InputArgumentNames());
diff --git a/paddle/fluid/framework/details/multi_devices_graph_builder.h b/paddle/fluid/framework/details/multi_devices_graph_builder.h
index 0b6347bf51..a964e02488 100644
--- a/paddle/fluid/framework/details/multi_devices_graph_builder.h
+++ b/paddle/fluid/framework/details/multi_devices_graph_builder.h
@@ -101,6 +101,9 @@ class MultiDevSSAGraphBuilder : public SSAGraphBuilder {
 
   void InsertAllReduceOp(SSAGraph *result, const std::string &og) const;
 
+  void InsertDataBalanceOp(SSAGraph *result,
+                           const std::vector<std::string> &datas) const;
+
   void CreateBroadcastOp(SSAGraph *result, const std::string &p_name,
                          size_t src_dev_id) const;
 
diff --git a/paddle/fluid/framework/details/op_handle_base.cc b/paddle/fluid/framework/details/op_handle_base.cc
index 1f84c3b9e2..3560fabb42 100644
--- a/paddle/fluid/framework/details/op_handle_base.cc
+++ b/paddle/fluid/framework/details/op_handle_base.cc
@@ -58,8 +58,10 @@ void OpHandleBase::Run(bool use_cuda) {
 
 void OpHandleBase::RecordWaitEventOnCtx(platform::DeviceContext *waited_ctx) {
 #ifdef PADDLE_WITH_CUDA
+  PADDLE_ENFORCE_NOT_NULL(waited_ctx);
   if (platform::is_cpu_place(waited_ctx->GetPlace()) || events_.empty()) {
     for (auto &dev_ctx : dev_ctxes_) {
+      PADDLE_ENFORCE_NOT_NULL(dev_ctx.second);
       dev_ctx.second->Wait();
     }
   } else {
diff --git a/paddle/fluid/framework/executor.cc b/paddle/fluid/framework/executor.cc
index ae98fccc96..84f67fafa1 100644
--- a/paddle/fluid/framework/executor.cc
+++ b/paddle/fluid/framework/executor.cc
@@ -20,9 +20,7 @@ limitations under the License. */
 #include "paddle/fluid/framework/lod_tensor_array.h"
 #include "paddle/fluid/framework/op_registry.h"
 #include "paddle/fluid/framework/reader.h"
-#ifdef PADDLE_WITH_DISTRIBUTE
-#include "paddle/fluid/operators/distributed/grpc_client.h"
-#endif
+#include "paddle/fluid/operators/detail/macros.h"
 #include "paddle/fluid/platform/place.h"
 #include "paddle/fluid/platform/profiler.h"
 
@@ -48,10 +46,16 @@ ExecutorPrepareContext::~ExecutorPrepareContext() {
 Executor::Executor(const platform::Place& place) : place_(place) {}
 
 #ifdef PADDLE_WITH_DISTRIBUTE
-void Executor::Complete() {
+void Executor::BeginPass() {
+  ::paddle::operators::distributed::RPCClient::GetInstance<
+      ::paddle::operators::distributed::GRPCClient>()
+      ->SendBeginPass();
+}
+
+void Executor::EndPass() {
   ::paddle::operators::distributed::RPCClient::GetInstance<
       ::paddle::operators::distributed::GRPCClient>()
-      ->SendComplete();
+      ->SendEndPass();
 }
 #endif
 
diff --git a/paddle/fluid/framework/executor.h b/paddle/fluid/framework/executor.h
index 3aa5ffef69..563a4b2bb6 100644
--- a/paddle/fluid/framework/executor.h
+++ b/paddle/fluid/framework/executor.h
@@ -46,9 +46,14 @@ class Executor {
 
 #ifdef PADDLE_WITH_DISTRIBUTE
   /*
-   * Sending signal to pserver to mark current trainer stop.
+   * Sending signal to pserver to mark current pass started.
    */
-  void Complete();
+  void BeginPass();
+
+  /*
+   * Sending signal to pserver to mark current pass finished.
+   */
+  void EndPass();
 #endif
 
   /* @Brief
diff --git a/paddle/fluid/framework/lod_tensor.cc b/paddle/fluid/framework/lod_tensor.cc
index d29d8ce1c5..cba0064f38 100644
--- a/paddle/fluid/framework/lod_tensor.cc
+++ b/paddle/fluid/framework/lod_tensor.cc
@@ -20,6 +20,7 @@ limitations under the License. */
 #include "paddle/fluid/framework/data_type.h"
 #include "paddle/fluid/framework/framework.pb.h"
 #include "paddle/fluid/framework/lod_tensor.h"
+#include "paddle/fluid/framework/var_type.h"
 
 #include "paddle/fluid/memory/memcpy.h"
 #include "paddle/fluid/memory/memory.h"
@@ -68,9 +69,9 @@ std::ostream &operator<<(std::ostream &os, const LoDTensor &t) {
   // only print first ten elements
   int64_t size = t.numel() < 10 ? t.numel() : 10;
   for (int64_t i = 0; i < size; ++i) {
-    if (t.type().hash_code() == typeid(float).hash_code()) {
+    if (IsType<float>(t.type())) {
       os << t.data<float>()[i] << " ";
-    } else if (t.type().hash_code() == typeid(int64_t).hash_code()) {
+    } else if (IsType<int64_t>(t.type())) {
       os << t.data<int64_t>()[i] << " ";
     } else {
       PADDLE_THROW("LoDTensor data type not in [float, int64_t]");
@@ -89,6 +90,7 @@ std::string LoDToString(const LoD &lod) {
 LoD SliceInLevel(const LoD &in, size_t level, size_t elem_begin,
                  size_t elem_end) {
   PADDLE_ENFORCE_LT(level, in.size());
+  PADDLE_ENFORCE_LT(elem_begin, elem_end);
   PADDLE_ENFORCE_LT(elem_end, in[level].size());
 
   LoD res;
@@ -384,7 +386,7 @@ void LoDTensor::MergeLoDTensor(
   LoD new_lod = lod_tensors[0]->lod();
   for (size_t i = 1; i < lod_tensors.size(); ++i) {
     auto *t = lod_tensors[i];
-    PADDLE_ENFORCE_EQ(new_type.hash_code(), t->type().hash_code());
+    PADDLE_ENFORCE_EQ(new_type, t->type());
     PADDLE_ENFORCE_EQ(new_layout, t->layout());
 
     PADDLE_ENFORCE_EQ(framework::product(new_dim) / new_dim[0],
@@ -392,6 +394,7 @@ void LoDTensor::MergeLoDTensor(
     new_dim[0] += t->dims()[0];
 
     auto &lod = t->lod();
+    PADDLE_ENFORCE_EQ(new_lod.size(), lod.size());
     for (size_t j = 0; j < lod.size(); ++j) {
       auto &sub_lod = new_lod[j];
       auto &offset = sub_lod.back();
diff --git a/paddle/fluid/framework/op_kernel_type.h b/paddle/fluid/framework/op_kernel_type.h
index f51a184e7b..c59b232191 100644
--- a/paddle/fluid/framework/op_kernel_type.h
+++ b/paddle/fluid/framework/op_kernel_type.h
@@ -97,7 +97,7 @@ inline bool NeedTransformLayout(const DataLayout& l, const DataLayout& r) {
   return ret;
 }
 
-inline bool TransFromNeeded(const OpKernelType& l, const OpKernelType& r) {
+inline bool NeedTransform(const OpKernelType& l, const OpKernelType& r) {
   return (!platform::places_are_same_class(l.place_, r.place_)) ||
          (l.data_type_ != r.data_type_) ||
          NeedTransformLayout(l.data_layout_, r.data_layout_);
diff --git a/paddle/fluid/framework/op_registry.h b/paddle/fluid/framework/op_registry.h
index 43ab227a94..3314e41cc5 100644
--- a/paddle/fluid/framework/op_registry.h
+++ b/paddle/fluid/framework/op_registry.h
@@ -76,6 +76,20 @@ class OpRegistry {
 template <typename PlaceType, bool at_end, size_t I, typename... KernelType>
 struct OpKernelRegistrarFunctor;
 
+template <typename PlaceType, typename T, typename Func>
+inline void RegisterKernelClass(const char* op_type, const char* library_type,
+                                Func func) {
+  std::string library(library_type);
+  std::string data_layout = "ANYLAYOUT";
+  if (library == "MKLDNN") {
+    data_layout = "MKLDNNLAYOUT";
+  }
+  OpKernelType key(ToDataType(std::type_index(typeid(T))), PlaceType(),
+                   StringToDataLayout(data_layout),
+                   StringToLibraryType(library_type));
+  OperatorWithKernel::AllOpKernels()[op_type][key] = func;
+}
+
 template <typename PlaceType, size_t I, typename... KernelTypes>
 struct OpKernelRegistrarFunctor<PlaceType, false, I, KernelTypes...> {
   using KERNEL_TYPE =
@@ -83,16 +97,10 @@ struct OpKernelRegistrarFunctor<PlaceType, false, I, KernelTypes...> {
 
   void operator()(const char* op_type, const char* library_type) const {
     using T = typename KERNEL_TYPE::ELEMENT_TYPE;
-    std::string library(library_type);
-    std::string data_layout = "ANYLAYOUT";
-    if (library == "MKLDNN") {
-      data_layout = "MKLDNNLAYOUT";
-    }
-    OpKernelType key(ToDataType(std::type_index(typeid(T))), PlaceType(),
-                     StringToDataLayout(data_layout),
-                     StringToLibraryType(library_type));
-    OperatorWithKernel::AllOpKernels()[op_type][key].reset(new KERNEL_TYPE);
-
+    RegisterKernelClass<PlaceType, T>(
+        op_type, library_type, [](const framework::ExecutionContext& ctx) {
+          KERNEL_TYPE().Compute(ctx);
+        });
     constexpr auto size = std::tuple_size<std::tuple<KernelTypes...>>::value;
     OpKernelRegistrarFunctor<PlaceType, I + 1 == size, I + 1, KernelTypes...>
         func;
@@ -116,6 +124,47 @@ class OpKernelRegistrar : public Registrar {
   }
 };
 
+template <typename PlaceType, bool at_end, size_t I, typename... KernelType>
+struct OpKernelRegistrarFunctorEx;
+
+template <typename PlaceType, typename... DataTypeAndKernelType>
+class OpKernelRegistrarEx : public Registrar {
+ public:
+  explicit OpKernelRegistrarEx(const char* op_type, const char* library_type) {
+    OpKernelRegistrarFunctorEx<PlaceType, false, 0, DataTypeAndKernelType...>
+        func;
+    func(op_type, library_type);
+  }
+};
+
+template <typename PlaceType, size_t I, typename... DataTypeAndKernelType>
+struct OpKernelRegistrarFunctorEx<PlaceType, true, I,
+                                  DataTypeAndKernelType...> {
+  void operator()(const char* op_type, const char* library_type) const {}
+};
+
+template <typename PlaceType, size_t I, typename... DataTypeAndKernelType>
+struct OpKernelRegistrarFunctorEx<PlaceType, false, I,
+                                  DataTypeAndKernelType...> {
+  using Functor =
+      typename std::tuple_element<I + 1,
+                                  std::tuple<DataTypeAndKernelType...>>::type;
+  using T =
+      typename std::tuple_element<I,
+                                  std::tuple<DataTypeAndKernelType...>>::type;
+
+  void operator()(const char* op_type, const char* library_type) const {
+    RegisterKernelClass<PlaceType, T>(op_type, library_type, Functor());
+
+    constexpr auto size =
+        std::tuple_size<std::tuple<DataTypeAndKernelType...>>::value;
+    OpKernelRegistrarFunctorEx<PlaceType, I + 2 >= size, I + 2,
+                               DataTypeAndKernelType...>
+        func;
+    func(op_type, library_type);
+  }
+};
+
 /**
  * check if MACRO is used in GLOBAL NAMESPACE.
  */
@@ -174,6 +223,25 @@ class OpKernelRegistrar : public Registrar {
 #define REGISTER_OP_CPU_KERNEL(op_type, ...) \
   REGISTER_OP_KERNEL(op_type, CPU, ::paddle::platform::CPUPlace, __VA_ARGS__)
 
+#define REGISTER_OP_KERNEL_EX(op_type, library_type, place_class, ...)      \
+  STATIC_ASSERT_GLOBAL_NAMESPACE(                                           \
+      __reg_op_kernel_##op_type##_##library_type##__,                       \
+      "REGISTER_OP_KERNEL_EX must be called in global namespace");          \
+  static ::paddle::framework::OpKernelRegistrarEx<place_class, __VA_ARGS__> \
+      __op_kernel_registrar_##op_type##_##library_type##__(#op_type,        \
+                                                           #library_type);  \
+  int TouchOpKernelRegistrar_##op_type##_##library_type() {                 \
+    __op_kernel_registrar_##op_type##_##library_type##__.Touch();           \
+    return 0;                                                               \
+  }
+
+#define REGISTER_OP_CUDA_KERNEL_FUNCTOR(op_type, ...)                 \
+  REGISTER_OP_KERNEL_EX(op_type, CUDA, ::paddle::platform::CUDAPlace, \
+                        __VA_ARGS__)
+
+#define REGISTER_OP_CPU_KERNEL_FUNCTOR(op_type, ...) \
+  REGISTER_OP_KERNEL_EX(op_type, CPU, ::paddle::platform::CPUPlace, __VA_ARGS__)
+
 /**
  * Macro to mark what Operator and Kernel
  * we will use and tell the compiler to
diff --git a/paddle/fluid/framework/operator.cc b/paddle/fluid/framework/operator.cc
index c1329b06d7..3cf8e8696d 100644
--- a/paddle/fluid/framework/operator.cc
+++ b/paddle/fluid/framework/operator.cc
@@ -592,8 +592,7 @@ static void CheckTensorNANOrInf(const std::string& name,
   if (tensor.memory_size() == 0) {
     return;
   }
-  if (tensor.type().hash_code() != typeid(float).hash_code() &&   // NOLINT
-      tensor.type().hash_code() != typeid(double).hash_code()) {  // NOLINT
+  if (!IsType<float>(tensor.type()) && !IsType<double>(tensor.type())) {
     return;
   }
   PADDLE_ENFORCE(!framework::TensorContainsInf(tensor),
@@ -620,8 +619,6 @@ void OperatorWithKernel::RunImpl(const Scope& scope,
         "There are no kernels which are registered in the %s operator.", type_);
   }
 
-  ExecutionContext ctx(*this, scope, *dev_ctx);
-
   OpKernelMap& kernels = kernels_iter->second;
 
   // TODO(dzhwinter) : kernel fallback mechanism will be added when all the
@@ -631,7 +628,8 @@ void OperatorWithKernel::RunImpl(const Scope& scope,
   //   Do selection
   // }
 
-  auto expected_kernel_key = this->GetExpectedKernelType(ctx);
+  auto expected_kernel_key =
+      this->GetExpectedKernelType(ExecutionContext(*this, scope, *dev_ctx));
   VLOG(3) << "expected_kernel_key:" << expected_kernel_key;
 
   auto kernel_iter = kernels.find(expected_kernel_key);
@@ -640,56 +638,34 @@ void OperatorWithKernel::RunImpl(const Scope& scope,
                  KernelTypeToString(expected_kernel_key));
   }
 
-  // do data transform
-  Scope& new_scope = scope.NewScope();
+  // do data transformScope &transfer_scope;
+  std::vector<std::string> transfered_inplace_vars;
+  auto* transfer_scope =
+      TryTransferData(scope, expected_kernel_key, &transfered_inplace_vars);
 
-  std::vector<std::string> inplace_vars;
-  for (auto& var_name_item : this->Inputs()) {
-    for (auto& var_name : var_name_item.second) {
-      auto* var = scope.FindVar(var_name);
-      if (var && VarIsTensor(var)) {
-        auto* tensor_in = GetTensorFromVar(var);
-        if (tensor_in->IsInitialized()) {
-          auto kernel_type_for_var = this->GetKernelTypeForVar(
-              var_name_item.first, *tensor_in, expected_kernel_key);
-          if (TransFromNeeded(kernel_type_for_var, expected_kernel_key)) {
-            auto out_var_names = OutputVars(true);
-            if (std::find(out_var_names.begin(), out_var_names.end(),
-                          var_name) != out_var_names.end()) {
-              inplace_vars.push_back(var_name);
-            }
-            VLOG(3) << "Transform Variable " << var_name << " from "
-                    << kernel_type_for_var << " to " << expected_kernel_key;
-            auto* trans_var = new_scope.Var(var_name);
-            std::shared_ptr<Tensor> out(new Tensor);
-            DataTransform(expected_kernel_key, kernel_type_for_var, *tensor_in,
-                          out.get());
-            CopyVariableWithTensor(*var, *(out.get()), trans_var);
-          }
-        }
-      }
-    }
+  // exec scope is the scope that kernel actually executed on.
+  const Scope& exec_scope =
+      (transfer_scope == nullptr ? scope : *transfer_scope);
+
+  if (!(expected_kernel_key.place_ == dev_ctx->GetPlace())) {
+    dev_ctx = pool.Get(expected_kernel_key.place_);
   }
 
-  auto* new_dev_ctx = pool.Get(expected_kernel_key.place_);
-  kernel_iter->second->Compute(
-      ExecutionContext(*this, new_scope, *new_dev_ctx));
+  kernel_iter->second(ExecutionContext(*this, exec_scope, *dev_ctx));
 
-  for (auto& var_name : inplace_vars) {
-    VLOG(3) << "share inplace var " + var_name + " back to it's original scope";
-    auto* original_tensor = GetMutableTensorFromVar(scope.FindVar(var_name));
-    auto* transformed_tensor = GetTensorFromVar(new_scope.FindVar(var_name));
-    original_tensor->ShareDataWith(*transformed_tensor);
+  if (!transfered_inplace_vars.empty()) {
+    // there is inplace variable has been transfered.
+    TransferInplaceVarsBack(scope, transfered_inplace_vars, *transfer_scope);
   }
 
   /*For profiling/benchmark only*/
   if (FLAGS_benchmark) {
-    new_dev_ctx->Wait();
+    dev_ctx->Wait();
   }
 
   if (FLAGS_check_nan_inf) {
     for (auto& vname : OutputVars(true)) {
-      auto* var = new_scope.FindVar(vname);
+      auto* var = exec_scope.FindVar(vname);
       if (var == nullptr) continue;
       if (var->IsType<framework::LoDTensor>()) {
         CheckTensorNANOrInf(vname, var->Get<framework::LoDTensor>());
@@ -697,6 +673,64 @@ void OperatorWithKernel::RunImpl(const Scope& scope,
     }
   }
 }
+void OperatorWithKernel::TransferInplaceVarsBack(
+    const Scope& scope, const std::vector<std::string>& inplace_vars,
+    const Scope& transfer_scope) const {
+  for (auto& var_name : inplace_vars) {
+    VLOG(3) << "share inplace var " + var_name + " back to it's original scope";
+    auto* original_tensor = GetMutableTensorFromVar(scope.FindVar(var_name));
+    auto* transformed_tensor =
+        GetTensorFromVar(transfer_scope.FindVar(var_name));
+    original_tensor->ShareDataWith(*transformed_tensor);
+  }
+}
+
+Scope* OperatorWithKernel::TryTransferData(
+    const Scope& scope, const OpKernelType& expected_kernel_key,
+    std::vector<std::string>* transfered_inplace_vars) const {
+  Scope* new_scope = nullptr;
+  for (auto& var_name_item : Inputs()) {
+    for (auto& var_name : var_name_item.second) {
+      auto* var = scope.FindVar(var_name);
+      // Only tensor can be tranfer to another device.
+      if (var == nullptr || !VarIsTensor(var)) {
+        continue;
+      }
+
+      auto* tensor_in = GetTensorFromVar(var);
+      if (!tensor_in->IsInitialized()) {
+        continue;
+      }
+
+      auto kernel_type_for_var = GetKernelTypeForVar(
+          var_name_item.first, *tensor_in, expected_kernel_key);
+
+      if (!NeedTransform(kernel_type_for_var, expected_kernel_key)) {
+        continue;
+      }
+
+      auto out_var_names = OutputVars(true);
+      if (std::find(out_var_names.begin(), out_var_names.end(), var_name) !=
+          out_var_names.end()) {
+        transfered_inplace_vars->emplace_back(var_name);
+      }
+
+      VLOG(3) << "Transform Variable " << var_name << " from "
+              << kernel_type_for_var << " to " << expected_kernel_key;
+
+      if (new_scope == nullptr) {
+        new_scope = &scope.NewScope();
+      }
+
+      auto* trans_var = new_scope->Var(var_name);
+      Tensor out;
+      TransformData(expected_kernel_key, kernel_type_for_var, *tensor_in, &out);
+      SetTensorToVariable(*var, out, trans_var);
+    }
+  }
+
+  return new_scope;
+}
 
 proto::VarType::Type OperatorWithKernel::IndicateDataType(
     const ExecutionContext& ctx) const {
@@ -713,10 +747,6 @@ proto::VarType::Type OperatorWithKernel::IndicateDataType(
           t = &var->Get<LoDTensor>();
         } else if (var->IsType<SelectedRows>()) {
           t = &(var->Get<SelectedRows>().value());
-        } else if (var->IsType<LoDTensorArray>()) {
-          const LoDTensorArray& arr = var->Get<LoDTensorArray>();
-          PADDLE_ENFORCE(arr.size() > 0);
-          t = &(arr[0]);
         }
         if (t != nullptr) {
           int tmp = static_cast<int>(ToDataType(t->type()));
diff --git a/paddle/fluid/framework/operator.h b/paddle/fluid/framework/operator.h
index b1d75d0d0f..01d750efbb 100644
--- a/paddle/fluid/framework/operator.h
+++ b/paddle/fluid/framework/operator.h
@@ -347,9 +347,9 @@ class OpKernel : public OpKernelBase {
 
 class OperatorWithKernel : public OperatorBase {
  public:
+  using OpKernelFunc = std::function<void(const ExecutionContext&)>;
   using OpKernelMap =
-      std::unordered_map<OpKernelType, std::unique_ptr<OpKernelBase>,
-                         OpKernelType::Hash>;
+      std::unordered_map<OpKernelType, OpKernelFunc, OpKernelType::Hash>;
 
   OperatorWithKernel(const std::string& type, const VariableNameMap& inputs,
                      const VariableNameMap& outputs, const AttributeMap& attrs)
@@ -384,6 +384,20 @@ class OperatorWithKernel : public OperatorBase {
   // same.
   proto::VarType::Type IndicateDataType(const ExecutionContext& ctx) const;
   void RunImpl(const Scope& scope, const platform::Place& place) const final;
+
+  /**
+   * Transfer data from scope to a transfered scope. If there is no data need to
+   * be tranfered, it returns nullptr.
+   *
+   * * transfered_inplace_vars is a output vector.
+   */
+  Scope* TryTransferData(
+      const Scope& scope, const OpKernelType& expected_kernel_key,
+      std::vector<std::string>* transfered_inplace_vars) const;
+
+  void TransferInplaceVarsBack(const Scope& scope,
+                               const std::vector<std::string>& inplace_vars,
+                               const Scope& exec_scope) const;
 };
 
 extern bool OpSupportGPU(const std::string& op_type);
diff --git a/paddle/fluid/framework/parallel_executor.cc b/paddle/fluid/framework/parallel_executor.cc
index 751b10eeee..b53a6f43fb 100644
--- a/paddle/fluid/framework/parallel_executor.cc
+++ b/paddle/fluid/framework/parallel_executor.cc
@@ -253,9 +253,6 @@ void ParallelExecutor::FeedAndSplitTensorIntoLocalScopes(
       t->set_lod(lod_tensors[j].lod());
     }
   }
-  for (auto &p : member_->places_) {
-    platform::DeviceContextPool::Instance().Get(p)->Wait();
-  }
 }
 
 ParallelExecutor::~ParallelExecutor() {
diff --git a/paddle/fluid/framework/tensor_impl.h b/paddle/fluid/framework/tensor_impl.h
index 96114678a9..7f678f869a 100644
--- a/paddle/fluid/framework/tensor_impl.h
+++ b/paddle/fluid/framework/tensor_impl.h
@@ -23,9 +23,9 @@ namespace framework {
 template <typename T>
 inline const T* Tensor::data() const {
   check_memory_size();
-  PADDLE_ENFORCE(std::is_same<T, void>::value ||
-                     holder_->type() == std::type_index(typeid(T)),
-                 "Tensor holds the wrong type, it holds %s",
+  bool valid = std::is_same<T, void>::value ||
+               holder_->type() == std::type_index(typeid(T));
+  PADDLE_ENFORCE(valid, "Tensor holds the wrong type, it holds %s",
                  this->holder_->type().name());
 
   return reinterpret_cast<const T*>(
@@ -37,9 +37,9 @@ inline bool Tensor::IsInitialized() const { return holder_ != nullptr; }
 template <typename T>
 inline T* Tensor::data() {
   check_memory_size();
-  PADDLE_ENFORCE(std::is_same<T, void>::value ||
-                     holder_->type() == std::type_index(typeid(T)),
-                 "Tensor holds the wrong type, it holds %s",
+  bool valid = std::is_same<T, void>::value ||
+               holder_->type() == std::type_index(typeid(T));
+  PADDLE_ENFORCE(valid, "Tensor holds the wrong type, it holds %s",
                  this->holder_->type().name());
   return reinterpret_cast<T*>(reinterpret_cast<uintptr_t>(holder_->ptr()) +
                               offset_);
diff --git a/paddle/fluid/framework/tensor_util.cc b/paddle/fluid/framework/tensor_util.cc
index e5bc74755f..f98011e896 100644
--- a/paddle/fluid/framework/tensor_util.cc
+++ b/paddle/fluid/framework/tensor_util.cc
@@ -69,7 +69,22 @@ void TensorCopy(const Tensor& src, const platform::Place& dst_place,
     PADDLE_ENFORCE(platform::is_gpu_place(ctx_place));
     auto stream =
         reinterpret_cast<const platform::CUDADeviceContext&>(ctx).stream();
-    memory::Copy(dst_gpu_place, dst_ptr, src_gpu_place, src_ptr, size, stream);
+    if (platform::is_same_place(src_place, dst_place)) {
+      memory::Copy(dst_gpu_place, dst_ptr, src_gpu_place, src_ptr, size,
+                   stream);
+    } else {
+      if (platform::is_same_place(ctx_place, src_place)) {
+        memory::Copy(dst_gpu_place, dst_ptr, src_gpu_place, src_ptr, size,
+                     stream);
+        platform::DeviceContextPool::Instance().Get(src.place())->Wait();
+      } else if (platform::is_same_place(ctx_place, dst_place)) {
+        platform::DeviceContextPool::Instance().Get(src.place())->Wait();
+        memory::Copy(dst_gpu_place, dst_ptr, src_gpu_place, src_ptr, size,
+                     stream);
+      } else {
+        PADDLE_THROW("ctx is not belong to dst_gpu_place or src_gpu_place.");
+      }
+    }
   }
 #endif
 }
@@ -78,10 +93,10 @@ void TensorCopy(const Tensor& src, const platform::Place& dst_place,
                 Tensor* dst) {
   platform::DeviceContextPool& pool = platform::DeviceContextPool::Instance();
   const platform::DeviceContext* dev_ctx;
-  if (platform::is_gpu_place(src.place())) {
-    dev_ctx = pool.Get(src.place());
-  } else {
+  if (platform::is_gpu_place(dst_place)) {
     dev_ctx = pool.Get(dst_place);
+  } else {
+    dev_ctx = pool.Get(src.place());
   }
   TensorCopy(src, dst_place, *dev_ctx, dst);
 }
diff --git a/paddle/fluid/framework/tensor_util.h b/paddle/fluid/framework/tensor_util.h
index dca279b693..4457382ade 100644
--- a/paddle/fluid/framework/tensor_util.h
+++ b/paddle/fluid/framework/tensor_util.h
@@ -23,10 +23,25 @@ limitations under the License. */
 namespace paddle {
 namespace framework {
 
+// NOTE(zcd): Because TensorCopy is an async operation, when the src_place
+// and dst_place are two different GPU, to ensure that the operation can
+// be carried out correctly, there is a src_ctx wait operation in TensorCopy.
+// If ctx_place and src_place are the same, src_ctx.Wait() is added
+// after memory::Copy; if ctx_place and dst_place are the same,
+// src_ctx.Wait() is added before memory::Copy.
 void TensorCopy(const Tensor& src, const platform::Place& dst_place,
                 const platform::DeviceContext& ctx, Tensor* dst);
+
+// NOTE(zcd): If the src.place() and dst_place are two different GPU,
+// the copy operation is carried out on the dst_place's stream. This is
+// very important, because TensorCopy is an async operator, and in most
+// case, once this copy operator returns, dst is to be used in dst_place's
+// stream, if this copy operation is carried out on the src_place's stream,
+// when dst is used in dst_place's stream the copy operation may be
+// not completed.
 void TensorCopy(const Tensor& src, const platform::Place& dst_place,
                 Tensor* dst);
+
 void TensorCopySync(const Tensor& src, const platform::Place& dst_place,
                     Tensor* dst);
 
diff --git a/paddle/fluid/framework/var_type.h b/paddle/fluid/framework/var_type.h
index 2b646d78f0..429997c8b8 100644
--- a/paddle/fluid/framework/var_type.h
+++ b/paddle/fluid/framework/var_type.h
@@ -24,18 +24,24 @@ limitations under the License. */
 
 namespace paddle {
 namespace framework {
+
+template <typename T>
+bool IsType(const std::type_index& type_index) {
+  return type_index == std::type_index(typeid(T));
+}
+
 inline proto::VarType::Type ToVarType(std::type_index type) {
-  if (type.hash_code() == typeid(LoDTensor).hash_code()) {
+  if (IsType<LoDTensor>(type)) {
     return proto::VarType_Type_LOD_TENSOR;
-  } else if (type.hash_code() == typeid(LoDRankTable).hash_code()) {
+  } else if (IsType<LoDRankTable>(type)) {
     return proto::VarType_Type_LOD_RANK_TABLE;
-  } else if (type.hash_code() == typeid(LoDTensorArray).hash_code()) {
+  } else if (IsType<LoDTensorArray>(type)) {
     return proto::VarType_Type_LOD_TENSOR_ARRAY;
-  } else if (type.hash_code() == typeid(SelectedRows).hash_code()) {
+  } else if (IsType<SelectedRows>(type)) {
     return proto::VarType_Type_SELECTED_ROWS;
-  } else if (type.hash_code() == typeid(ReaderHolder).hash_code()) {
+  } else if (IsType<ReaderHolder>(type)) {
     return proto::VarType_Type_READER;
-  } else if (type.hash_code() == typeid(ChannelHolder).hash_code()) {
+  } else if (IsType<ChannelHolder>(type)) {
     return proto::VarType_Type_CHANNEL;
   } else {
     PADDLE_THROW("ToVarType:Unsupported type %s", type.name());
diff --git a/paddle/fluid/inference/analysis/README.md b/paddle/fluid/inference/analysis/README.md
new file mode 100644
index 0000000000..6fd73958bc
--- /dev/null
+++ b/paddle/fluid/inference/analysis/README.md
@@ -0,0 +1,57 @@
+# Inference Analysis
+
+The `inference/analysis` module is used to analyze and optimize the inference program,
+it references some philosophy from `LLVM/analysis`, 
+and make the various optimization features be pluggable and co-exist in a pipeline.
+
+We borrowed some concepts from LLVM, such as
+
+- [Pass](./pass.h)es to implement optimization that traverse the inference program,
+- [DataFlowGraph](./data_flow_graph.h) to represent the data flow graph built from a program,
+- [PassManager](./pass_manager.h) to manage a sequence of `Pass`es over a graph.
+
+There are some other basic concepts here
+
+- [Node](./node.h), the node in a `DataFlowGraph`,
+  - `Function`, the Operator in Fluid,
+  - `Value`, the Variable in Fluid;
+- [Argument](./argument.h), the argument that treat as the input and output of all `Pass`es in the pipeline,
+
+## How it works
+
+The `inference/analysis` module make all the passes in a pipeline, and works in such way:
+
+1. Build a `DataFlowGraph` from a Fluid inference ProgramDesc,
+2. Call the middle passes one by one, the same `DataFlowGraph` is passed across all the passes,
+3. Transform a new ProgramDesc from the modified `DataFlowGraph`.
+
+The new optimization features can be added as an independent `Pass` and controlled by gflags,
+each pass will generate unified debug information or visualization for better debugging.
+
+## Supported Passes
+
+### `FluidToDataFlowGraphPass`
+Transform the fluid `ProgramDesc` to a `DataFlowGraph` to give an abstract representation for all the middle passes, 
+this should be the first pass of the pipeline.
+
+### `DataFlowGraphToFluidPass`
+Generate a final `ProgramDesc` from a data flow graph, this should be the last pass of the pipeline.
+
+### `TensorRTSubgraphNodeMarkPass`
+Mark the `Node` that are supported by TensorRT, 
+this pass will generate a visualization file which can be used for debugging.
+
+### `TensorRTSubGraphPass`
+Split the sub-graph that are can be accelerated by TensorRT.
+
+### `DFG_GraphvizDrawPass`
+This pass is just for debug, it will visualize the `DataFlowGraph` using the [graphviz](http://www.graphviz.org) tool.
+
+It can be used as a helper class that draws the modified graph after each pass.
+
+## Utilities
+
+There is some helper legacy/function/class for analysis.
+
+- [dot.h](./dot.h) give a easy to use interface for generating `DOT` codes,
+- [graph_traits.h](./graph_traits.h) contains the graph traversal algorithms, it uses `iterator` to make the algorithms easy to share across different passes.
diff --git a/paddle/fluid/inference/analysis/analyzer.cc b/paddle/fluid/inference/analysis/analyzer.cc
index 5d85530969..a4625f008c 100644
--- a/paddle/fluid/inference/analysis/analyzer.cc
+++ b/paddle/fluid/inference/analysis/analyzer.cc
@@ -13,6 +13,7 @@
 // limitations under the License.
 
 #include "paddle/fluid/inference/analysis/analyzer.h"
+#include <string>
 #include "paddle/fluid/inference/analysis/data_flow_graph_to_fluid_pass.h"
 #include "paddle/fluid/inference/analysis/dfg_graphviz_draw_pass.h"
 #include "paddle/fluid/inference/analysis/fluid_to_data_flow_graph_pass.h"
@@ -79,4 +80,4 @@ void Analyzer::Run(Argument* argument) {
 
 }  // namespace analysis
 }  // namespace inference
-}  // namespace paddle
\ No newline at end of file
+}  // namespace paddle
diff --git a/paddle/fluid/inference/analysis/analyzer.h b/paddle/fluid/inference/analysis/analyzer.h
index f290a3777d..e9e14fb194 100644
--- a/paddle/fluid/inference/analysis/analyzer.h
+++ b/paddle/fluid/inference/analysis/analyzer.h
@@ -12,6 +12,8 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 
+#pragma once
+
 /*
  * This file contains Analyzer, an class that exposed as a library that analyze
  * and optimize
diff --git a/paddle/fluid/inference/analysis/data_flow_graph.h b/paddle/fluid/inference/analysis/data_flow_graph.h
index 30c60661f3..a4fefc83e0 100644
--- a/paddle/fluid/inference/analysis/data_flow_graph.h
+++ b/paddle/fluid/inference/analysis/data_flow_graph.h
@@ -138,7 +138,7 @@ struct GraphTraits<DataFlowGraph> {
 // sub-graph is the inputs nodes and output nodes that doesn't inside the
 // sub-graph.
 static std::pair<std::vector<Node *>, std::vector<Node *>>
-ExtractInputAndOutputOfSubGraph(std::vector<Node *> &graph) {
+ExtractInputAndOutputOfSubGraph(std::vector<Node *> &graph) {  // NOLINT
   std::unordered_set<Node *> nodes(graph.begin(), graph.end());
   std::unordered_set<Node *> inputs;
   std::unordered_set<Node *> outputs;
diff --git a/paddle/fluid/inference/analysis/data_flow_graph_to_fluid_pass.cc b/paddle/fluid/inference/analysis/data_flow_graph_to_fluid_pass.cc
index e74efd17b8..29ca008123 100644
--- a/paddle/fluid/inference/analysis/data_flow_graph_to_fluid_pass.cc
+++ b/paddle/fluid/inference/analysis/data_flow_graph_to_fluid_pass.cc
@@ -13,6 +13,7 @@
 // limitations under the License.
 
 #include "paddle/fluid/inference/analysis/data_flow_graph_to_fluid_pass.h"
+#include <vector>
 #include "paddle/fluid/framework/block_desc.h"
 #include "paddle/fluid/framework/op_desc.h"
 #include "paddle/fluid/framework/proto_desc.h"
@@ -150,13 +151,14 @@ namespace {
 class DFG_DebuggerPass : public DFG_GraphvizDrawPass {
  public:
   using Config = DFG_GraphvizDrawPass::Config;
-  DFG_DebuggerPass(const Config& config) : DFG_GraphvizDrawPass(config) {}
+  explicit DFG_DebuggerPass(const Config& config)
+      : DFG_GraphvizDrawPass(config) {}
 
   std::string repr() const override { return "dfg-to-fluid-debuger-pass"; }
 
   bool Finalize() override { return true; }
 };
-}
+}  // namespace
 
 Pass* DataFlowGraphToFluidPass::CreateGraphvizDebugerPass() const {
   return new DFG_DebuggerPass(DFG_GraphvizDrawPass::Config(
diff --git a/paddle/fluid/inference/analysis/data_flow_graph_to_fluid_pass.h b/paddle/fluid/inference/analysis/data_flow_graph_to_fluid_pass.h
index 1726e056ed..edc84b02ed 100644
--- a/paddle/fluid/inference/analysis/data_flow_graph_to_fluid_pass.h
+++ b/paddle/fluid/inference/analysis/data_flow_graph_to_fluid_pass.h
@@ -19,6 +19,7 @@
 
 #pragma once
 
+#include <string>
 #include "paddle/fluid/framework/program_desc.h"
 #include "paddle/fluid/inference/analysis/data_flow_graph.h"
 #include "paddle/fluid/inference/analysis/pass.h"
diff --git a/paddle/fluid/inference/analysis/dfg_graphviz_draw_pass.h b/paddle/fluid/inference/analysis/dfg_graphviz_draw_pass.h
index b064782586..17445ab440 100644
--- a/paddle/fluid/inference/analysis/dfg_graphviz_draw_pass.h
+++ b/paddle/fluid/inference/analysis/dfg_graphviz_draw_pass.h
@@ -46,7 +46,7 @@ class DFG_GraphvizDrawPass : public DataFlowGraphPass {
     const bool display_deleted_node;
   };
 
-  DFG_GraphvizDrawPass(const Config &config) : config_(config) {}
+  explicit DFG_GraphvizDrawPass(const Config &config) : config_(config) {}
 
   bool Initialize(Argument *argument) override { return true; }
   void Run(DataFlowGraph *graph) override;
diff --git a/paddle/fluid/inference/analysis/fluid_to_data_flow_graph_pass.cc b/paddle/fluid/inference/analysis/fluid_to_data_flow_graph_pass.cc
index 5d7eb43b7c..e918622d74 100644
--- a/paddle/fluid/inference/analysis/fluid_to_data_flow_graph_pass.cc
+++ b/paddle/fluid/inference/analysis/fluid_to_data_flow_graph_pass.cc
@@ -15,7 +15,7 @@ limitations under the License. */
 #include <string>
 #include <vector>
 
-#include "analyzer.h"
+#include "paddle/fluid/inference/analysis/analyzer.h"
 #include "paddle/fluid/inference/analysis/dfg_graphviz_draw_pass.h"
 #include "paddle/fluid/inference/analysis/fluid_to_data_flow_graph_pass.h"
 
@@ -88,7 +88,8 @@ namespace {
 class DFG_DebuggerPass : public DFG_GraphvizDrawPass {
  public:
   using Config = DFG_GraphvizDrawPass::Config;
-  DFG_DebuggerPass(const Config &config) : DFG_GraphvizDrawPass(config) {}
+  explicit DFG_DebuggerPass(const Config &config)
+      : DFG_GraphvizDrawPass(config) {}
   std::string repr() const override { return "fluid-to-dfg-debuger-pass"; }
   bool Finalize() override { return true; }
 };
diff --git a/paddle/fluid/inference/analysis/helper.h b/paddle/fluid/inference/analysis/helper.h
index fff1621d3f..f1064cd20f 100644
--- a/paddle/fluid/inference/analysis/helper.h
+++ b/paddle/fluid/inference/analysis/helper.h
@@ -16,6 +16,7 @@ limitations under the License. */
 
 #include <cstdio>
 #include <string>
+#include <typeindex>
 #include <unordered_map>
 #include <vector>
 
@@ -41,7 +42,7 @@ int AccuDims(Vec &&vec, int size) {
   return res;
 }
 
-#define SET_TYPE(type__) dic_[typeid(type__).hash_code()] = #type__;
+#define SET_TYPE(type__) dic_[std::type_index(typeid(type__))] = #type__;
 /*
  * Map typeid to representation.
  */
@@ -53,14 +54,14 @@ struct DataTypeNamer {
 
   template <typename T>
   const std::string &repr() const {
-    auto x = typeid(T).hash_code();
+    auto x = std::type_index(typeid(T));
     PADDLE_ENFORCE(dic_.count(x), "unknown type for representation");
     return dic_.at(x);
   }
 
-  const std::string &repr(size_t &hash) const {  // NOLINT
-    PADDLE_ENFORCE(dic_.count(hash), "unknown type for representation");
-    return dic_.at(hash);
+  const std::string &repr(const std::type_index &type) const {  // NOLINT
+    PADDLE_ENFORCE(dic_.count(type), "unknown type for representation");
+    return dic_.at(type);
   }
 
  private:
@@ -71,9 +72,7 @@ struct DataTypeNamer {
     SET_TYPE(void *);
   }
 
-  std::unordered_map<decltype(typeid(int).hash_code()),  // NOLINT
-                     std::string>
-      dic_;
+  std::unordered_map<std::type_index, std::string> dic_;
 };
 #undef SET_TYPE
 
diff --git a/paddle/fluid/inference/analysis/node.cc b/paddle/fluid/inference/analysis/node.cc
index d9d265d225..f2e918f3ff 100644
--- a/paddle/fluid/inference/analysis/node.cc
+++ b/paddle/fluid/inference/analysis/node.cc
@@ -23,9 +23,9 @@ namespace analysis {
 template <>
 std::string &NodeAttr::As<std::string>() {
   if (data_.empty()) {
-    type_hash_ = typeid(std::string).hash_code();
+    type_index_ = std::type_index(typeid(std::string));
   }
-  PADDLE_ENFORCE_EQ(type_hash_, typeid(std::string).hash_code());
+  PADDLE_ENFORCE_EQ(type_index_, std::type_index(typeid(std::string)));
   return data_;
 }
 
diff --git a/paddle/fluid/inference/analysis/node.h b/paddle/fluid/inference/analysis/node.h
index 8ecd1ae730..47e524bc5c 100644
--- a/paddle/fluid/inference/analysis/node.h
+++ b/paddle/fluid/inference/analysis/node.h
@@ -25,6 +25,7 @@ limitations under the License. */
 #include <unordered_map>
 #include <vector>
 
+#include "paddle/fluid/framework/var_type.h"
 #include "paddle/fluid/inference/analysis/device.h"
 #include "paddle/fluid/inference/analysis/dot.h"
 #include "paddle/fluid/inference/analysis/helper.h"
@@ -57,12 +58,12 @@ struct NodeAttr {
     // init storage in the first usage.
     if (data_.empty()) {
       VLOG(4) << "resize data to " << sizeof(T);
-      type_hash_ = typeid(T).hash_code();
+      type_index_ = std::type_index(typeid(T));
       data_.resize(sizeof(T));
     }
-    PADDLE_ENFORCE(type_hash_ == typeid(T).hash_code(),
+    PADDLE_ENFORCE(framework::IsType<T>(type_index_),
                    "type not matched, origin is %s, want %s",
-                   DataTypeNamer::Global().repr(type_hash_),
+                   DataTypeNamer::Global().repr(type_index_),
                    DataTypeNamer::Global().repr<T>());
     PADDLE_ENFORCE_EQ(data_.size(), sizeof(T), "Node attr type recast error");
     return *reinterpret_cast<T *>(&data_[0]);
@@ -70,7 +71,7 @@ struct NodeAttr {
 
  private:
   std::string data_;
-  size_t type_hash_{std::numeric_limits<size_t>::max()};
+  std::type_index type_index_{typeid(NodeAttr)};
 };
 
 /*
diff --git a/paddle/fluid/inference/analysis/pass_manager_tester.cc b/paddle/fluid/inference/analysis/pass_manager_tester.cc
index 6caba8f042..dac1c509d7 100644
--- a/paddle/fluid/inference/analysis/pass_manager_tester.cc
+++ b/paddle/fluid/inference/analysis/pass_manager_tester.cc
@@ -12,14 +12,14 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 
-#include "paddle/fluid/inference/analysis/pass_manager.h"
+#include <gtest/gtest.h>
+
 #include "paddle/fluid/inference/analysis/data_flow_graph_to_fluid_pass.h"
 #include "paddle/fluid/inference/analysis/dfg_graphviz_draw_pass.h"
 #include "paddle/fluid/inference/analysis/fluid_to_data_flow_graph_pass.h"
+#include "paddle/fluid/inference/analysis/pass_manager.h"
 #include "paddle/fluid/inference/analysis/ut_helper.h"
 
-#include <gtest/gtest.h>
-
 namespace paddle {
 namespace inference {
 namespace analysis {
diff --git a/paddle/fluid/inference/analysis/tensorrt_subgraph_node_mark_pass.cc b/paddle/fluid/inference/analysis/tensorrt_subgraph_node_mark_pass.cc
index 5ad092a9ed..f736e385c1 100644
--- a/paddle/fluid/inference/analysis/tensorrt_subgraph_node_mark_pass.cc
+++ b/paddle/fluid/inference/analysis/tensorrt_subgraph_node_mark_pass.cc
@@ -12,10 +12,12 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 
-#include "paddle/fluid/inference/analysis/tensorrt_subgraph_node_mark_pass.h"
+#include <string>
+
 #include "paddle/fluid/inference/analysis/analyzer.h"
 #include "paddle/fluid/inference/analysis/dfg_graphviz_draw_pass.h"
 #include "paddle/fluid/inference/analysis/node_attr_flags.h"
+#include "paddle/fluid/inference/analysis/tensorrt_subgraph_node_mark_pass.h"
 
 namespace paddle {
 namespace inference {
@@ -29,7 +31,7 @@ void TensorRTSubgraphNodeMarkPass::Run(DataFlowGraph *graph) {
 
 class DfgDebuggerPass : public DFG_GraphvizDrawPass {
  public:
-  DfgDebuggerPass(const DFG_GraphvizDrawPass::Config &config)
+  explicit DfgDebuggerPass(const DFG_GraphvizDrawPass::Config &config)
       : DFG_GraphvizDrawPass(config) {}
 
   std::string repr() const override {
diff --git a/paddle/fluid/inference/analysis/tensorrt_subgraph_node_mark_pass.h b/paddle/fluid/inference/analysis/tensorrt_subgraph_node_mark_pass.h
index 6cfac55d3b..c558a6ebbd 100644
--- a/paddle/fluid/inference/analysis/tensorrt_subgraph_node_mark_pass.h
+++ b/paddle/fluid/inference/analysis/tensorrt_subgraph_node_mark_pass.h
@@ -16,6 +16,10 @@
  * This file defines TensorRTSubgraphNodeMarkPass which helps to mark the ops
  * that supported by TensorRT engine.
  */
+
+#pragma once
+
+#include <string>
 #include "paddle/fluid/inference/analysis/pass.h"
 #include "paddle/fluid/inference/analysis/subgraph_splitter.h"
 
@@ -30,7 +34,8 @@ class TensorRTSubgraphNodeMarkPass : public DataFlowGraphPass {
  public:
   using teller_t = SubGraphSplitter::NodeInsideSubgraphTeller;
 
-  TensorRTSubgraphNodeMarkPass(const teller_t& teller) : teller_(teller) {}
+  explicit TensorRTSubgraphNodeMarkPass(const teller_t& teller)
+      : teller_(teller) {}
 
   bool Initialize(Argument* argument) override { return true; }
 
@@ -38,8 +43,10 @@ class TensorRTSubgraphNodeMarkPass : public DataFlowGraphPass {
   // sub-graph into TensorRT.
   void Run(DataFlowGraph* graph) override;
 
-  std::string repr() const { return "tensorrt-sub-subgraph-mark"; }
-  std::string description() const { return "tensorrt sub-graph mark pass"; }
+  std::string repr() const override { return "tensorrt-sub-subgraph-mark"; }
+  std::string description() const override {
+    return "tensorrt sub-graph mark pass";
+  }
 
   Pass* CreateGraphvizDebugerPass() const override;
   bool Finalize() override;
diff --git a/paddle/fluid/inference/analysis/tensorrt_subgraph_pass.h b/paddle/fluid/inference/analysis/tensorrt_subgraph_pass.h
index 11e0880695..c6741a9209 100644
--- a/paddle/fluid/inference/analysis/tensorrt_subgraph_pass.h
+++ b/paddle/fluid/inference/analysis/tensorrt_subgraph_pass.h
@@ -14,6 +14,7 @@ limitations under the License. */
 
 #pragma once
 
+#include <string>
 #include "paddle/fluid/inference/analysis/node.h"
 #include "paddle/fluid/inference/analysis/pass.h"
 #include "paddle/fluid/inference/analysis/subgraph_splitter.h"
@@ -30,7 +31,7 @@ class TensorRTSubGraphPass : public DataFlowGraphPass {
   // Tell whether to transform a sub-graph into TensorRT.
   using NodeInsideSubgraphTeller = SubGraphFuse::NodeInsideSubgraphTeller;
 
-  TensorRTSubGraphPass(const NodeInsideSubgraphTeller& teller);
+  explicit TensorRTSubGraphPass(const NodeInsideSubgraphTeller& teller);
 
   bool Initialize(Argument* argument) override { return true; }
 
@@ -40,8 +41,8 @@ class TensorRTSubGraphPass : public DataFlowGraphPass {
 
   bool Finalize() override { return true; }
 
-  std::string repr() const { return "tensorrt-sub-graph"; }
-  std::string description() const { return "tensorrt sub graph pass"; }
+  std::string repr() const override { return "tensorrt-sub-graph"; }
+  std::string description() const override { return "tensorrt sub graph pass"; }
 
  private:
   NodeInsideSubgraphTeller node_inside_subgraph_teller_;
@@ -49,4 +50,4 @@ class TensorRTSubGraphPass : public DataFlowGraphPass {
 
 }  // namespace analysis
 }  // namespace inference
-}  // paddle
+}  // namespace paddle
diff --git a/paddle/fluid/memory/malloc.cc b/paddle/fluid/memory/malloc.cc
index 0c74f62de5..bd98ed8189 100644
--- a/paddle/fluid/memory/malloc.cc
+++ b/paddle/fluid/memory/malloc.cc
@@ -20,6 +20,12 @@ limitations under the License. */
 #include "paddle/fluid/memory/detail/system_allocator.h"
 #include "paddle/fluid/platform/gpu_info.h"
 
+DEFINE_bool(init_allocated_mem, false,
+            "It is a mistake that the values of the memory allocated by "
+            "BuddyAllocator are always zeroed in some op's implementation. "
+            "To find this error in time, we use init_allocated_mem to indicate "
+            "that initializing the allocated memory with a small value "
+            "during unit testing.");
 DECLARE_double(fraction_of_gpu_memory_to_use);
 
 namespace paddle {
@@ -41,6 +47,9 @@ template <>
 void* Alloc<platform::CPUPlace>(platform::CPUPlace place, size_t size) {
   VLOG(10) << "Allocate " << size << " bytes on " << platform::Place(place);
   void* p = GetCPUBuddyAllocator()->Alloc(size);
+  if (FLAGS_init_allocated_mem) {
+    memset(p, 0xEF, size);
+  }
   VLOG(10) << "  pointer=" << p;
   return p;
 }
@@ -104,6 +113,9 @@ void* Alloc<platform::CUDAPlace>(platform::CUDAPlace place, size_t size) {
     LOG(WARNING) << "GPU memory used: " << Used<platform::CUDAPlace>(place);
     platform::SetDeviceId(cur_dev);
   }
+  if (FLAGS_init_allocated_mem) {
+    cudaMemset(ptr, 0xEF, size);
+  }
   return ptr;
 }
 
@@ -137,6 +149,9 @@ void* Alloc<platform::CUDAPinnedPlace>(platform::CUDAPinnedPlace place,
     LOG(WARNING) << "cudaMallocHost Cannot allocate " << size
                  << " bytes in CUDAPinnedPlace";
   }
+  if (FLAGS_init_allocated_mem) {
+    memset(ptr, 0xEF, size);
+  }
   return ptr;
 }
 
diff --git a/paddle/fluid/operators/CMakeLists.txt b/paddle/fluid/operators/CMakeLists.txt
index 9dc39ad0dd..ab1d214333 100644
--- a/paddle/fluid/operators/CMakeLists.txt
+++ b/paddle/fluid/operators/CMakeLists.txt
@@ -184,6 +184,7 @@ else()
     set(DEPS_OPS ${DEPS_OPS} nccl_op)
 endif()
 
+set(DISTRIBUTE_DEPS "")
 if(WITH_DISTRIBUTE)
     add_subdirectory(distributed)
     
@@ -192,6 +193,18 @@ if(WITH_DISTRIBUTE)
         set(DISTRIBUTE_DEPS sendrecvop_grpc grpc++_unsecure grpc_unsecure gpr cares zlib protobuf)
     else()
         set(DISTRIBUTE_DEPS sendrecvop_brpc brpc leveldb snappystream snappy protobuf ssl crypto zlib)
+        if(WITH_BRPC_RDMA)
+            find_library(IBVERBS_LIBRARY NAMES ibverbs)
+            ADD_LIBRARY(ibverbs SHARED IMPORTED GLOBAL)
+            SET_PROPERTY(TARGET ibverbs PROPERTY IMPORTED_LOCATION ${IBVERBS_LIBRARY})
+
+
+            find_library(RDMACM_LIBRARY NAMES rdmacm)
+            ADD_LIBRARY(rdmacm SHARED IMPORTED GLOBAL)
+            SET_PROPERTY(TARGET rdmacm PROPERTY IMPORTED_LOCATION ${RDMACM_LIBRARY})
+
+            set(DISTRIBUTE_DEPS ${DISTRIBUTE_DEPS} ibverbs rdmacm)
+        endif()
     endif()
 
     set(DISTRIBUTE_COMPILE_FLAGS "-Wno-non-virtual-dtor -Wno-error=non-virtual-dtor -Wno-error=delete-non-virtual-dtor")
@@ -205,7 +218,7 @@ if(WITH_DISTRIBUTE)
     #        listen_and_serv_op sum_op executor SERIAL)
     if(WITH_GPU)
         set_source_files_properties(test_send_nccl_id.cc PROPERTIES COMPILE_FLAGS ${DISTRIBUTE_COMPILE_FLAGS})
-        cc_test(test_send_nccl_id SRCS test_send_nccl_id.cc DEPS listen_and_serv_op executor SERIAL)
+        cc_test(test_send_nccl_id SRCS test_send_nccl_id.cc DEPS listen_and_serv_op ${DISTRIBUTE_DEPS} executor SERIAL)
         if(WITH_GRPC)
             op_library(gen_nccl_id_op DEPS nccl_common sendrecvop_grpc)
         else()
@@ -297,6 +310,7 @@ foreach(src ${DETECTION_LIBRARY})
 endforeach()
 
 set(GLOB_OP_LIB ${OP_LIBRARY} CACHE INTERNAL "Global OP library")
+set(GLOB_DISTRIBUTE_DEPS ${DISTRIBUTE_DEPS} CACHE INTERNAL "distributed dependency")
 
 cc_test(gather_test SRCS gather_test.cc DEPS tensor)
 cc_test(scatter_test SRCS scatter_test.cc DEPS tensor)
diff --git a/paddle/fluid/operators/argsort_op.cc b/paddle/fluid/operators/argsort_op.cc
new file mode 100644
index 0000000000..a2f5a25457
--- /dev/null
+++ b/paddle/fluid/operators/argsort_op.cc
@@ -0,0 +1,87 @@
+/* Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License. */
+
+#include "paddle/fluid/operators/argsort_op.h"
+
+namespace paddle {
+namespace operators {
+
+class ArgsortOp : public framework::OperatorWithKernel {
+ public:
+  using framework::OperatorWithKernel::OperatorWithKernel;
+
+  void InferShape(framework::InferShapeContext *ctx) const override {
+    PADDLE_ENFORCE(ctx->HasInput("X"),
+                   "Input(X) of ArgsortOp should not be null.");
+    PADDLE_ENFORCE(ctx->HasOutput("Out"),
+                   "Output(Out) of ArgsortOp should not be null.");
+    PADDLE_ENFORCE(ctx->HasOutput("Indices"),
+                   "Output(Indices) of ArgsortOp should not be null.");
+
+    auto in_dims = ctx->GetInputDim("X");
+    int axis = ctx->Attrs().Get<int>("axis");
+
+    auto num_dims = in_dims.size();
+    PADDLE_ENFORCE(axis < num_dims,
+                   "Attr(axis) %d of ArgsortOp is out of bounds for Input(X)'s "
+                   "rank %d.",
+                   axis, num_dims);
+    PADDLE_ENFORCE(axis >= -num_dims,
+                   "Attr(axis) %d of ArgsortOp must be not less than "
+                   "-rank(Input(X)) (%d).",
+                   axis, num_dims);
+
+    ctx->SetOutputDim("Out", in_dims);
+    ctx->SetOutputDim("Indices", in_dims);
+    ctx->ShareLoD("X", "Out");
+    ctx->ShareLoD("X", "Indices");
+  }
+};
+
+class ArgsortOpMaker : public framework::OpProtoAndCheckerMaker {
+ public:
+  void Make() override {
+    AddInput("X", "(Tensor) The input of Argsort op.");
+    AddOutput("Out",
+              "(Tensor) The sorted tensor of Argsort op, with the same "
+              "shape as Input(X).");
+    AddOutput("Indices",
+              "(Tensor) The indices of a tensor giving the sorted order, with "
+              "the same shape as Input(X).");
+    AddComment(R"DOC(
+Argsort operator
+
+Performs sorting on the input tensor along the given axis and outputs two 
+tensors, Output(Out) and Output(Indices). They reserve the same shape 
+with Input(X), and Output(Out) represents the sorted tensor while 
+Output(Indices) gives the sorted order along the given axis Attr(axis).
+
+ )DOC");
+    AddAttr<int>("axis",
+                 "(int, default -1) The axis along which to sort the tensor. "
+                 "When axis < 0, the actual axis will be the |axis|'th "
+                 "counting backwards. Default -1, the last dimension.")
+        .SetDefault(-1);
+  }
+};
+
+}  // namespace operators
+}  // namespace paddle
+
+namespace ops = paddle::operators;
+REGISTER_OPERATOR(argsort, ops::ArgsortOp, ops::ArgsortOpMaker,
+                  paddle::framework::EmptyGradOpMaker);
+REGISTER_OP_CPU_KERNEL(argsort,
+                       ops::ArgsortKernel<paddle::platform::CPUPlace, float>,
+                       ops::ArgsortKernel<paddle::platform::CPUPlace, double>);
diff --git a/paddle/fluid/operators/argsort_op.cu b/paddle/fluid/operators/argsort_op.cu
new file mode 100644
index 0000000000..7d5199aae7
--- /dev/null
+++ b/paddle/fluid/operators/argsort_op.cu
@@ -0,0 +1,151 @@
+/* Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License. */
+
+#include <thrust/execution_policy.h>
+#include <thrust/sort.h>
+#include "paddle/fluid/framework/op_registry.h"
+#include "paddle/fluid/operators/argsort_op.h"
+#include "paddle/fluid/platform/assert.h"
+#include "paddle/fluid/platform/cuda_device_function.h"
+#include "paddle/fluid/platform/cuda_primitives.h"
+
+namespace paddle {
+namespace operators {
+
+using Tensor = framework::Tensor;
+using platform::PADDLE_CUDA_NUM_THREADS;
+
+const int kMaxRank = 9;  // The max rank of a tensor allowed in Fluid
+
+__global__ void ComputeTargetIdx(const int64_t* in_dims, int dims_size,
+                                 int axis, int64_t n, int64_t* trg_idx,
+                                 int64_t* med_ids) {
+  int64_t index = threadIdx.x + blockDim.x * blockIdx.x;
+  if (index < n) {
+    int64_t shape_out_axis[kMaxRank - 1] = {0};
+    int64_t dims_out_axis[kMaxRank - 1] = {0};
+    int64_t tmp = index;
+    int64_t pos_in_axis = 0;
+    int64_t i = dims_size - 2;
+    int64_t dim_axis = 0;
+    for (int64_t j = dims_size - 1; j >= 0; --j) {
+      int64_t dim = in_dims[j];
+      if (j != axis) {
+        shape_out_axis[i] = tmp % dim;
+        dims_out_axis[i] = dim;
+        i--;
+      } else {
+        dim_axis = dim;
+        pos_in_axis = tmp % dim_axis;
+      }
+      tmp /= dim;
+    }
+    int64_t group = (dims_size > 1) ? shape_out_axis[0] : 0;
+    for (int64_t j = 0; j < dims_size - 2; ++j) {
+      group = group * dims_out_axis[j + 1] + shape_out_axis[j + 1];
+    }
+
+    int64_t traget_idx = group * dim_axis + pos_in_axis;
+    trg_idx[index] = traget_idx;
+    med_ids[traget_idx] = pos_in_axis;
+  }
+}
+
+template <typename T>
+__global__ void PermuteInData(const T* in, const int64_t* trg_idx, int64_t n,
+                              T* med_out) {
+  int index = threadIdx.x + blockDim.x * blockIdx.x;
+  if (index < n) {
+    med_out[trg_idx[index]] = in[index];
+  }
+}
+
+template <typename T>
+__global__ void Sort(int64_t axis_dim, int64_t groups, T* med_out,
+                     int64_t* med_ids) {
+  int index = threadIdx.x + blockDim.x * blockIdx.x;
+  if (index < groups) {
+    thrust::sort_by_key(thrust::device, med_out + index * axis_dim,
+                        med_out + axis_dim * (1 + index),
+                        med_ids + index * axis_dim);
+  }
+}
+
+template <typename T>
+__global__ void PermuteMediateData(const T* med_out, const int64_t* med_ids,
+                                   const int64_t* trg_idx, int64_t n, T* out,
+                                   int64_t* indices) {
+  int index = threadIdx.x + blockDim.x * blockIdx.x;
+  if (index < n) {
+    out[index] = med_out[trg_idx[index]];
+    indices[index] = med_ids[trg_idx[index]];
+  }
+}
+
+template <typename T>
+class ArgsortOpCUDAKernel : public framework::OpKernel<T> {
+ public:
+  void Compute(const framework::ExecutionContext& ctx) const override {
+    auto* input = ctx.Input<Tensor>("X");
+    auto* output = ctx.Output<Tensor>("Out");
+    auto* indices = ctx.Output<Tensor>("Indices");
+    int axis = ctx.Attr<int>("axis");
+
+    auto in_dims = input->dims();
+    axis = (axis < 0) ? (in_dims.size() + axis) : axis;
+
+    const T* in_data = input->data<T>();
+    T* out_data = output->mutable_data<T>(ctx.GetPlace());
+    int64_t* ids_data = indices->mutable_data<int64_t>(ctx.GetPlace());
+
+    int64_t numel = input->numel();
+    int64_t groups = numel / in_dims[axis];
+
+    std::vector<int64_t> in_dims_vec = vectorize(in_dims);
+    thrust::device_vector<int64_t> in_dims_dev(in_dims_vec.begin(),
+                                               in_dims_vec.end());
+    int64_t* in_dims_data = thrust::raw_pointer_cast(in_dims_dev.data());
+    // Mediate tensor for sorting data and indices
+    Tensor mediate_output, mediate_indices;
+    T* med_out_data =
+        mediate_output.mutable_data<T>(input->dims(), ctx.GetPlace());
+    int64_t* med_ids_data =
+        mediate_indices.mutable_data<int64_t>(in_dims, ctx.GetPlace());
+    // Target index of each element along the given axis in the mediate tensors
+    Tensor trg_idx_t;
+    int64_t* trg_idx = trg_idx_t.mutable_data<int64_t>(in_dims, ctx.GetPlace());
+
+    auto stream = ctx.cuda_device_context().stream();
+    const int num_threads = PADDLE_CUDA_NUM_THREADS;
+
+    ComputeTargetIdx<<<(numel - 1) / num_threads + 1, num_threads, 0, stream>>>(
+        in_dims_data, in_dims.size(), axis, numel, trg_idx, med_ids_data);
+
+    PermuteInData<<<(numel - 1) / num_threads + 1, num_threads, 0, stream>>>(
+        in_data, trg_idx, numel, med_out_data);
+
+    Sort<<<(groups - 1) / num_threads + 1, num_threads, 0, stream>>>(
+        in_dims[axis], groups, med_out_data, med_ids_data);
+
+    PermuteMediateData<<<(numel - 1) / num_threads + 1, num_threads, 0,
+                         stream>>>(med_out_data, med_ids_data, trg_idx, numel,
+                                   out_data, ids_data);
+  }
+};
+
+}  // namespace operators
+}  // namespace paddle
+
+REGISTER_OP_CUDA_KERNEL(argsort, paddle::operators::ArgsortOpCUDAKernel<float>,
+                        paddle::operators::ArgsortOpCUDAKernel<double>);
diff --git a/paddle/fluid/operators/argsort_op.h b/paddle/fluid/operators/argsort_op.h
new file mode 100644
index 0000000000..7e9112cfb7
--- /dev/null
+++ b/paddle/fluid/operators/argsort_op.h
@@ -0,0 +1,81 @@
+/* Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License. */
+
+#pragma once
+#include <algorithm>
+#include <utility>
+#include <vector>
+#include "paddle/fluid/framework/op_registry.h"
+
+namespace paddle {
+namespace operators {
+
+template <typename DeviceContext, typename T>
+class ArgsortKernel : public framework::OpKernel<T> {
+ public:
+  void Compute(const framework::ExecutionContext& ctx) const override {
+    auto* input = ctx.Input<framework::Tensor>("X");
+    auto* output = ctx.Output<framework::Tensor>("Out");
+    auto* indices = ctx.Output<framework::Tensor>("Indices");
+    int axis = ctx.Attr<int>("axis");
+
+    auto in_dims = input->dims();
+    axis = (axis < 0) ? (in_dims.size() + axis) : axis;
+
+    const T* in_data = input->data<T>();
+    T* out_data = output->mutable_data<T>(ctx.GetPlace());
+    int64_t* ids_data = indices->mutable_data<int64_t>(ctx.GetPlace());
+
+    int64_t groups = input->numel() / in_dims[axis];
+    int64_t stride = (axis == in_dims.size() - 1)
+                         ? 1
+                         : framework::product(framework::slice_ddim(
+                               in_dims, axis + 1, in_dims.size()));
+
+    for (int64_t i = 0; i < groups; ++i) {
+      int64_t idx = i;
+      std::vector<int64_t> shape_vec(in_dims.size(), 0);
+      for (int64_t dim = in_dims.size() - 1; dim >= 0; --dim) {
+        if (dim != axis) {
+          shape_vec[dim] = idx % in_dims[dim];
+          idx /= in_dims[dim];
+        }
+      }
+
+      int64_t start_index = shape_vec[0];
+      for (int64_t dim = 0; dim < in_dims.size() - 1; ++dim) {
+        start_index = start_index * in_dims[dim + 1] + shape_vec[dim + 1];
+      }
+
+      std::vector<int64_t> org_index_vec(in_dims[axis], start_index);
+      for (int64_t j = 1; j < in_dims[axis]; ++j) {
+        org_index_vec[j] += j * stride;
+      }
+
+      std::sort(org_index_vec.begin(), org_index_vec.end(),
+                [in_data](const int64_t v1, const int64_t v2) {
+                  return in_data[v1] < in_data[v2];
+                });
+
+      for (size_t j = 0; j < org_index_vec.size(); ++j) {
+        int64_t index = start_index + j * stride;
+        out_data[index] = in_data[org_index_vec[j]];
+        ids_data[index] = (org_index_vec[j] - start_index) / stride;
+      }
+    }
+  }
+};
+
+}  // namespace operators
+}  // namespace paddle
diff --git a/paddle/fluid/operators/batch_norm_mkldnn_op.cc b/paddle/fluid/operators/batch_norm_mkldnn_op.cc
index 6ecb43c49c..9ab2179b5f 100644
--- a/paddle/fluid/operators/batch_norm_mkldnn_op.cc
+++ b/paddle/fluid/operators/batch_norm_mkldnn_op.cc
@@ -115,9 +115,12 @@ class BatchNormMKLDNNOpKernel : public paddle::framework::OpKernel<T> {
     if (fuse_with_relu) flags |= mkldnn::fuse_bn_relu;
 
     // create mkldnn memory from input x tensor
-    auto src_memory =
-        memory({{{src_tz}, memory::data_type::f32, x->format()}, mkldnn_engine},
-               to_void_cast(x_data));
+    mkldnn::memory::format input_format =
+        platform::MKLDNNFormatForSize(src_tz.size(), x->format());
+
+    auto src_memory = memory(
+        {{{src_tz}, memory::data_type::f32, input_format}, mkldnn_engine},
+        to_void_cast(x_data));
 
     // create primitive descriptor for batch norm forward
     using bn_fwd_types = bn_type_traits<mkldnn::batch_normalization_forward>;
@@ -251,15 +254,21 @@ class BatchNormMKLDNNGradOpKernel : public paddle::framework::OpKernel<T> {
     using bn_bwd_types = bn_type_traits<mkldnn::batch_normalization_backward>;
 
     // create mkldnn memory from input diff_y tensor
-    auto user_diff_dst_memory =
-        memory({{{diff_dst_tz}, memory::data_type::f32, diff_y->format()},
-                mkldnn_engine},
-               to_void_cast(diff_y_data));
+
+    mkldnn::memory::format dst_format =
+        platform::MKLDNNFormatForSize(src_tz.size(), diff_y->format());
+
+    auto user_diff_dst_memory = memory(
+        {{{diff_dst_tz}, memory::data_type::f32, dst_format}, mkldnn_engine},
+        to_void_cast(diff_y_data));
 
     // create mkldnn memory from input x tensor
-    auto src_memory =
-        memory({{{src_tz}, memory::data_type::f32, x->format()}, mkldnn_engine},
-               to_void_cast(x_data));
+    mkldnn::memory::format input_format =
+        platform::MKLDNNFormatForSize(src_tz.size(), x->format());
+
+    auto src_memory = memory(
+        {{{src_tz}, memory::data_type::f32, input_format}, mkldnn_engine},
+        to_void_cast(x_data));
 
     // for diff_dst, try to use same format as dst in forward pass
     auto diff_dst_pd = batch_norm_fwd_pd.get()->dst_primitive_desc();
diff --git a/paddle/fluid/operators/conditional_block_op.cc b/paddle/fluid/operators/conditional_block_op.cc
index 5984f80d04..8cc1d94260 100644
--- a/paddle/fluid/operators/conditional_block_op.cc
+++ b/paddle/fluid/operators/conditional_block_op.cc
@@ -14,6 +14,7 @@ limitations under the License. */
 #include <algorithm>
 #include "paddle/fluid/framework/executor.h"
 #include "paddle/fluid/framework/op_registry.h"
+#include "paddle/fluid/framework/var_type.h"
 
 namespace paddle {
 namespace operators {
@@ -47,7 +48,7 @@ class ConditionalOp : public framework::OperatorBase {
     if (!(ips.size() == 1UL && ips[0]->IsInitialized())) {
       PADDLE_THROW("should have one initialized input as condition");
     }
-    if (!(ips[0]->type().hash_code() == typeid(bool).hash_code() &&  // NOLINT
+    if (!(framework::IsType<bool>(ips[0]->type()) &&  // NOLINT
           ips[0]->numel() == 1)) {
       PADDLE_THROW(
           "condition input's data type should be bool, "
diff --git a/paddle/fluid/operators/detail/macros.h b/paddle/fluid/operators/detail/macros.h
index b9e385994e..6f4a15caa5 100644
--- a/paddle/fluid/operators/detail/macros.h
+++ b/paddle/fluid/operators/detail/macros.h
@@ -14,14 +14,22 @@
 
 #pragma once
 
+#ifdef PADDLE_WITH_DISTRIBUTE
+
 #ifdef PADDLE_WITH_GRPC
+
 #include "paddle/fluid/operators/distributed/grpc_client.h"
 #include "paddle/fluid/operators/distributed/grpc_server.h"
-#define RPCSERVER_T distributed::AsyncGRPCServer
-#define RPCCLIENT_T distributed::GRPCClient
-#else
+#define RPCSERVER_T paddle::operators::distributed::AsyncGRPCServer
+#define RPCCLIENT_T paddle::operators::distributed::GRPCClient
+
+#else  // PADDLE_WITH_GRPC
+
 #include "paddle/fluid/operators/distributed/brpc_client.h"
 #include "paddle/fluid/operators/distributed/brpc_server.h"
-#define RPCSERVER_T distributed::AsyncBRPCServer
-#define RPCCLIENT_T distributed::BRPCClient
-#endif
+#define RPCSERVER_T paddle::operators::distributed::AsyncBRPCServer
+#define RPCCLIENT_T paddle::operators::distributed::BRPCClient
+
+#endif  // PADDLE_WITH_GRPC
+
+#endif  // PADDLE_WITH_DISTRIBUTE
diff --git a/paddle/fluid/operators/detection/CMakeLists.txt b/paddle/fluid/operators/detection/CMakeLists.txt
index 20d960f9fe..6d296ff7bf 100644
--- a/paddle/fluid/operators/detection/CMakeLists.txt
+++ b/paddle/fluid/operators/detection/CMakeLists.txt
@@ -22,6 +22,8 @@ iou_similarity_op.cu)
 detection_library(mine_hard_examples_op SRCS mine_hard_examples_op.cc)
 detection_library(multiclass_nms_op SRCS multiclass_nms_op.cc)
 detection_library(prior_box_op SRCS prior_box_op.cc prior_box_op.cu)
+detection_library(anchor_generator_op SRCS anchor_generator_op.cc
+anchor_generator_op.cu)
 detection_library(target_assign_op SRCS target_assign_op.cc
 target_assign_op.cu)
 detection_library(polygon_box_transform_op SRCS polygon_box_transform_op.cc
diff --git a/paddle/fluid/operators/detection/anchor_generator_op.cc b/paddle/fluid/operators/detection/anchor_generator_op.cc
new file mode 100644
index 0000000000..0c0155a0a9
--- /dev/null
+++ b/paddle/fluid/operators/detection/anchor_generator_op.cc
@@ -0,0 +1,154 @@
+/* Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License. */
+
+#include "paddle/fluid/operators/detection/anchor_generator_op.h"
+
+namespace paddle {
+namespace operators {
+
+class AnchorGeneratorOp : public framework::OperatorWithKernel {
+ public:
+  using framework::OperatorWithKernel::OperatorWithKernel;
+
+  void InferShape(framework::InferShapeContext* ctx) const override {
+    PADDLE_ENFORCE(ctx->HasInput("Input"),
+                   "Input(Input) of AnchorGeneratorOp should not be null.");
+    PADDLE_ENFORCE(ctx->HasOutput("Anchors"),
+                   "Output(Anchors) of AnchorGeneratorOp should not be null.");
+    PADDLE_ENFORCE(
+        ctx->HasOutput("Variances"),
+        "Output(Variances) of AnchorGeneratorOp should not be null.");
+
+    auto input_dims = ctx->GetInputDim("Input");
+    PADDLE_ENFORCE(input_dims.size() == 4, "The layout of input is NCHW.");
+
+    auto anchor_sizes = ctx->Attrs().Get<std::vector<float>>("anchor_sizes");
+    auto aspect_ratios = ctx->Attrs().Get<std::vector<float>>("aspect_ratios");
+    auto stride = ctx->Attrs().Get<std::vector<float>>("stride");
+    auto variances = ctx->Attrs().Get<std::vector<float>>("variances");
+
+    size_t num_anchors = aspect_ratios.size() * anchor_sizes.size();
+
+    std::vector<int64_t> dim_vec(4);
+    dim_vec[0] = input_dims[2];
+    dim_vec[1] = input_dims[3];
+    dim_vec[2] = num_anchors;
+    dim_vec[3] = 4;
+    ctx->SetOutputDim("Anchors", framework::make_ddim(dim_vec));
+    ctx->SetOutputDim("Variances", framework::make_ddim(dim_vec));
+  }
+
+ protected:
+  framework::OpKernelType GetExpectedKernelType(
+      const framework::ExecutionContext& ctx) const override {
+    return framework::OpKernelType(
+        framework::ToDataType(ctx.Input<framework::Tensor>("Input")->type()),
+        ctx.device_context());
+  }
+};
+
+class AnchorGeneratorOpMaker : public framework::OpProtoAndCheckerMaker {
+ public:
+  void Make() override {
+    AddInput("Input",
+             "(Tensor, default Tensor<float>), "
+             "the input feature is a tensor with a rank of 4. "
+             "The layout is NCHW.");
+    AddOutput("Anchors",
+              "(Tensor, default Tensor<float>), the output is a "
+              "tensor with a rank of 4. The layout is [H, W, num_anchors, 4]. "
+              "H is the height of input, W is the width of input, num_anchors "
+              "is the box count of each position. "
+              "Each anchor is in (xmin, ymin, xmax, ymax) format");
+    AddOutput("Variances",
+              "(Tensor, default Tensor<float>), the expanded variances for "
+              "normalizing bbox regression targets. The layout is [H, W, "
+              "num_anchors, 4]. "
+              "H is the height of input, W is the width of input, num_anchors "
+              "is the box count of each position. "
+              "Each variance is in (xcenter, ycenter, w, h) format");
+
+    AddAttr<std::vector<float>>(
+        "anchor_sizes",
+        "(vector<float>) List of Region Proposal Network(RPN) anchor sizes "
+        " given in absolute pixels e.g. (64, 128, 256, 512)."
+        " For instance, the anchor size of 64 means the area of this anchor "
+        "equals to 64**2.")
+        .AddCustomChecker([](const std::vector<float>& anchor_sizes) {
+          PADDLE_ENFORCE_GT(anchor_sizes.size(), 0,
+                            "Size of anchor_sizes must be at least 1.");
+          for (size_t i = 0; i < anchor_sizes.size(); ++i) {
+            PADDLE_ENFORCE_GT(anchor_sizes[i], 0.0,
+                              "anchor_sizes[%d] must be positive.", i);
+          }
+        });
+    AddAttr<std::vector<float>>(
+        "aspect_ratios",
+        "(vector<float>) List of Region Proposal Network(RPN) anchor aspect "
+        "ratios, e.g. (0.5, 1, 2)."
+        "For instacne, the aspect ratio of 0.5 means the height / width of "
+        "this anchor equals 0.5.");
+
+    AddAttr<std::vector<float>>("variances",
+                                "(vector<float>) List of variances to be used "
+                                "in box regression deltas")
+        .AddCustomChecker([](const std::vector<float>& variances) {
+          PADDLE_ENFORCE_EQ(variances.size(), 4,
+                            "Must and only provide 4 variance.");
+          for (size_t i = 0; i < variances.size(); ++i) {
+            PADDLE_ENFORCE_GT(variances[i], 0.0,
+                              "variance[%d] must be greater than 0.", i);
+          }
+        });
+
+    AddAttr<std::vector<float>>("stride",
+                                "Anchors stride across width and height, "
+                                "with a default of (16, 16)")
+        .SetDefault(std::vector<float>(2, 16.0))
+        .AddCustomChecker([](const std::vector<float>& stride) {
+          PADDLE_ENFORCE_EQ(
+              stride.size(), 2,
+              "Must and only provide 2 stride for width and height.");
+          for (size_t i = 0; i < stride.size(); ++i) {
+            PADDLE_ENFORCE_GT(stride[i], 0.0,
+                              "stride[%d] should be larger than 0.", i);
+          }
+        });
+
+    AddAttr<float>("offset",
+                   "(float) "
+                   "Anchor center offset, with a default of 0.5")
+        .SetDefault(0.5);
+    AddComment(R"DOC(
+AnchorGenerator operator
+Generates anchors for Faster RCNN, FPN etc. algorithm.
+Each position of the input produce N anchors, N =
+ size(anchor_sizes) * size(aspect_ratios).
+
+Please get more information from the following papers:
+https://arxiv.org/abs/1506.01497.
+)DOC");
+  }
+};
+
+}  // namespace operators
+}  // namespace paddle
+
+namespace ops = paddle::operators;
+REGISTER_OPERATOR(anchor_generator, ops::AnchorGeneratorOp,
+                  ops::AnchorGeneratorOpMaker,
+                  paddle::framework::EmptyGradOpMaker);
+
+REGISTER_OP_CPU_KERNEL(anchor_generator, ops::AnchorGeneratorOpKernel<float>,
+                       ops::AnchorGeneratorOpKernel<double>);
diff --git a/paddle/fluid/operators/detection/anchor_generator_op.cu b/paddle/fluid/operators/detection/anchor_generator_op.cu
new file mode 100644
index 0000000000..3cc9bbeee1
--- /dev/null
+++ b/paddle/fluid/operators/detection/anchor_generator_op.cu
@@ -0,0 +1,132 @@
+/* Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License. */
+
+#include "paddle/fluid/operators/detection/anchor_generator_op.h"
+
+namespace paddle {
+namespace operators {
+
+template <typename T>
+__global__ void GenAnchors(T* out, const T* aspect_ratios, const int ar_num,
+                           const T* anchor_sizes, const int as_num,
+                           const T* stride, const int sd_num, const int height,
+                           const int width, const T offset) {
+  int num_anchors = as_num * ar_num;
+  int box_num = height * width * num_anchors;
+  for (int i = blockIdx.x * blockDim.x + threadIdx.x; i < box_num;
+       i += blockDim.x * gridDim.x) {
+    int h_idx = i / (num_anchors * width);
+    int w_idx = (i / num_anchors) % width;
+    T stride_width = stride[0];
+    T stride_height = stride[1];
+    T x_ctr = (w_idx * stride_width) + offset * (stride_width - 1);
+    T y_ctr = (h_idx * stride_height) + offset * (stride_height - 1);
+    T area, area_ratios;
+    T base_w, base_h;
+    T scale_w, scale_h;
+    T anchor_width, anchor_height;
+    int anch_idx = i % num_anchors;
+    int ar_idx = anch_idx / as_num;
+    int as_idx = anch_idx % as_num;
+    T aspect_ratio = aspect_ratios[ar_idx];
+    T anchor_size = anchor_sizes[as_idx];
+    area = stride_width * stride_height;
+    area_ratios = area / aspect_ratio;
+    base_w = round(sqrt(area_ratios));
+    base_h = round(base_w * aspect_ratio);
+    scale_w = anchor_size / stride_width;
+    scale_h = anchor_size / stride_height;
+    anchor_width = scale_w * base_w;
+    anchor_height = scale_h * base_h;
+
+    T xmin = (x_ctr - 0.5 * (anchor_width - 1));
+    T ymin = (y_ctr - 0.5 * (anchor_height - 1));
+    T xmax = (x_ctr + 0.5 * (anchor_width - 1));
+    T ymax = (y_ctr + 0.5 * (anchor_height - 1));
+    out[i * 4] = xmin;
+    out[i * 4 + 1] = ymin;
+    out[i * 4 + 2] = xmax;
+    out[i * 4 + 3] = ymax;
+  }
+}
+
+template <typename T>
+__global__ void SetVariance(T* out, const T* var, const int vnum,
+                            const int num) {
+  for (int i = blockIdx.x * blockDim.x + threadIdx.x; i < num;
+       i += blockDim.x * gridDim.x) {
+    out[i] = var[i % vnum];
+  }
+}
+
+template <typename T>
+class AnchorGeneratorOpCUDAKernel : public framework::OpKernel<T> {
+ public:
+  void Compute(const framework::ExecutionContext& ctx) const override {
+    auto* input = ctx.Input<paddle::framework::Tensor>("Input");
+    auto* anchors = ctx.Output<paddle::framework::Tensor>("Anchors");
+    auto* vars = ctx.Output<paddle::framework::Tensor>("Variances");
+
+    auto anchor_sizes = ctx.Attr<std::vector<float>>("anchor_sizes");
+    auto aspect_ratios = ctx.Attr<std::vector<float>>("aspect_ratios");
+    auto stride = ctx.Attr<std::vector<float>>("stride");
+    auto variances = ctx.Attr<std::vector<float>>("variances");
+
+    T offset = static_cast<T>(ctx.Attr<float>("offset"));
+
+    auto width = input->dims()[3];
+    auto height = input->dims()[2];
+
+    int num_anchors = aspect_ratios.size() * anchor_sizes.size();
+
+    int box_num = width * height * num_anchors;
+
+    int block = 512;
+    int grid = (box_num + block - 1) / block;
+
+    auto stream =
+        ctx.template device_context<platform::CUDADeviceContext>().stream();
+
+    anchors->mutable_data<T>(ctx.GetPlace());
+    vars->mutable_data<T>(ctx.GetPlace());
+
+    framework::Tensor ar;
+    framework::TensorFromVector(aspect_ratios, ctx.device_context(), &ar);
+
+    framework::Tensor as;
+    framework::TensorFromVector(anchor_sizes, ctx.device_context(), &as);
+
+    framework::Tensor sd;
+    framework::TensorFromVector(stride, ctx.device_context(), &sd);
+
+    GenAnchors<T><<<grid, block, 0, stream>>>(
+        anchors->data<T>(), ar.data<T>(), aspect_ratios.size(), as.data<T>(),
+        anchor_sizes.size(), sd.data<T>(), stride.size(), height, width,
+        offset);
+
+    framework::Tensor v;
+    framework::TensorFromVector(variances, ctx.device_context(), &v);
+    grid = (box_num * 4 + block - 1) / block;
+    SetVariance<T><<<grid, block, 0, stream>>>(vars->data<T>(), v.data<T>(),
+                                               variances.size(), box_num * 4);
+  }
+};  // namespace operators
+
+}  // namespace operators
+}  // namespace paddle
+
+namespace ops = paddle::operators;
+REGISTER_OP_CUDA_KERNEL(anchor_generator,
+                        ops::AnchorGeneratorOpCUDAKernel<float>,
+                        ops::AnchorGeneratorOpCUDAKernel<double>);
diff --git a/paddle/fluid/operators/detection/anchor_generator_op.h b/paddle/fluid/operators/detection/anchor_generator_op.h
new file mode 100644
index 0000000000..e0e499d76a
--- /dev/null
+++ b/paddle/fluid/operators/detection/anchor_generator_op.h
@@ -0,0 +1,109 @@
+/* Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License. */
+
+#pragma once
+#include <algorithm>
+#include <vector>
+#include "paddle/fluid/framework/op_registry.h"
+#include "paddle/fluid/operators/math/math_function.h"
+#include "paddle/fluid/platform/transform.h"
+
+namespace paddle {
+namespace operators {
+
+template <typename T>
+class AnchorGeneratorOpKernel : public framework::OpKernel<T> {
+ public:
+  void Compute(const framework::ExecutionContext& ctx) const override {
+    auto* input = ctx.Input<paddle::framework::Tensor>("Input");
+    auto* anchors = ctx.Output<paddle::framework::Tensor>("Anchors");
+    auto* vars = ctx.Output<paddle::framework::Tensor>("Variances");
+
+    auto anchor_sizes = ctx.Attr<std::vector<float>>("anchor_sizes");
+    auto aspect_ratios = ctx.Attr<std::vector<float>>("aspect_ratios");
+    auto stride = ctx.Attr<std::vector<float>>("stride");
+    auto variances = ctx.Attr<std::vector<float>>("variances");
+
+    T offset = static_cast<T>(ctx.Attr<float>("offset"));
+
+    auto feature_width = input->dims()[3];
+    auto feature_height = input->dims()[2];
+
+    T stride_width, stride_height;
+    stride_width = stride[0];
+    stride_height = stride[1];
+
+    int num_anchors = aspect_ratios.size() * anchor_sizes.size();
+
+    anchors->mutable_data<T>(ctx.GetPlace());
+    vars->mutable_data<T>(ctx.GetPlace());
+
+    auto e_anchors = framework::EigenTensor<T, 4>::From(*anchors);
+    for (int h_idx = 0; h_idx < feature_height; ++h_idx) {
+      for (int w_idx = 0; w_idx < feature_width; ++w_idx) {
+        T x_ctr = (w_idx * stride_width) + offset * (stride_width - 1);
+        T y_ctr = (h_idx * stride_height) + offset * (stride_height - 1);
+        T area, area_ratios;
+        T base_w, base_h;
+        T scale_w, scale_h;
+        T anchor_width, anchor_height;
+        int idx = 0;
+        for (size_t r = 0; r < aspect_ratios.size(); ++r) {
+          auto ar = aspect_ratios[r];
+          for (size_t s = 0; s < anchor_sizes.size(); ++s) {
+            auto anchor_size = anchor_sizes[s];
+            area = stride_width * stride_height;
+            area_ratios = area / ar;
+            base_w = round(sqrt(area_ratios));
+            base_h = round(base_w * ar);
+            scale_w = anchor_size / stride_width;
+            scale_h = anchor_size / stride_height;
+            anchor_width = scale_w * base_w;
+            anchor_height = scale_h * base_h;
+            e_anchors(h_idx, w_idx, idx, 0) =
+                (x_ctr - 0.5 * (anchor_width - 1));
+            e_anchors(h_idx, w_idx, idx, 1) =
+                (y_ctr - 0.5 * (anchor_height - 1));
+            e_anchors(h_idx, w_idx, idx, 2) =
+                (x_ctr + 0.5 * (anchor_width - 1));
+            e_anchors(h_idx, w_idx, idx, 3) =
+                (y_ctr + 0.5 * (anchor_height - 1));
+            idx++;
+          }
+        }
+      }
+    }
+
+    framework::Tensor var_t;
+    var_t.mutable_data<T>(
+        framework::make_ddim({1, static_cast<int>(variances.size())}),
+        ctx.GetPlace());
+    auto var_et = framework::EigenTensor<T, 2>::From(var_t);
+    for (size_t i = 0; i < variances.size(); ++i) {
+      var_et(0, i) = variances[i];
+    }
+
+    int anchor_num = feature_height * feature_width * num_anchors;
+    auto var_dim = vars->dims();
+    vars->Resize({anchor_num, static_cast<int>(variances.size())});
+
+    auto e_vars = framework::EigenMatrix<T, Eigen::RowMajor>::From(*vars);
+    e_vars = var_et.broadcast(Eigen::DSizes<int, 2>(anchor_num, 1));
+
+    vars->Resize(var_dim);
+  }
+};  // namespace operators
+
+}  // namespace operators
+}  // namespace paddle
diff --git a/paddle/fluid/operators/distributed/grpc_client.cc b/paddle/fluid/operators/distributed/grpc_client.cc
index 8228a8c5a3..4a09f3870d 100644
--- a/paddle/fluid/operators/distributed/grpc_client.cc
+++ b/paddle/fluid/operators/distributed/grpc_client.cc
@@ -35,10 +35,20 @@ void GRPCClient::InitEventLoop() {
   client_thread_.reset(new std::thread(std::bind(&GRPCClient::Proceed, this)));
 }
 
-void GRPCClient::SendComplete() {
+void GRPCClient::SendBeginPass() {
   for (auto& it : channels_) {
-    this->AsyncSendComplete(it.first);
+    VLOG(3) << "send begin pass to: " << it.first;
+    this->AsyncSendBeginPass(it.first);
   }
+  this->Wait();
+}
+
+void GRPCClient::SendEndPass() {
+  for (auto& it : channels_) {
+    VLOG(3) << "send end pass to " << it.first;
+    this->AsyncSendEndPass(it.first);
+  }
+  this->Wait();
 }
 
 GRPCClient::~GRPCClient() {
@@ -226,19 +236,32 @@ void GRPCClient::AsyncSendFetchBarrier(const std::string& ep,
   req_count_++;
 }
 
-void GRPCClient::AsyncSendComplete(const std::string& ep, int64_t time_out) {
+void GRPCClient::AsyncSendBeginPass(const std::string& ep, int64_t time_out) {
   const auto ch = GetChannel(ep);
 
   BatchBarrierProcessor* s = new BatchBarrierProcessor(ch);
   s->Prepare(time_out);
 
   sendrecv::VariableMessage req;
-  req.set_varname(COMPLETE_MESSAGE);
+  req.set_varname(BEGIN_PASS_MESSAGE);
   auto rpc = s->stub_->AsyncSendVariable(s->context_.get(), req, &cq_);
   rpc->Finish(&s->reply_, &s->status_, reinterpret_cast<void*>(s));
   req_count_++;
 }
 
+void GRPCClient::AsyncSendEndPass(const std::string& ep, int64_t time_out) {
+  const auto ch = GetChannel(ep);
+
+  FetchBarrierProcessor* s = new FetchBarrierProcessor(ch);
+  s->Prepare(time_out);
+
+  sendrecv::VariableMessage req;
+  req.set_varname(END_PASS_MESSAGE);
+  auto rpc = s->stub_->AsyncGetVariable(s->context_.get(), req, &cq_);
+  rpc->Finish(&s->reply_, &s->status_, reinterpret_cast<void*>(s));
+  req_count_++;
+}
+
 void GRPCClient::AsyncCheckpointNotify(const std::string& ep,
                                        const std::string& dir,
                                        int64_t time_out) {
diff --git a/paddle/fluid/operators/distributed/grpc_client.h b/paddle/fluid/operators/distributed/grpc_client.h
index 7a08f2d3a4..5dae20155e 100644
--- a/paddle/fluid/operators/distributed/grpc_client.h
+++ b/paddle/fluid/operators/distributed/grpc_client.h
@@ -77,11 +77,12 @@ class BaseProcessor {
     context_.reset(new grpc::ClientContext());
     var_h_ = var_info;
     context_->set_wait_for_ready(true);
-
-    std::chrono::system_clock::time_point deadline =
-        std::chrono::system_clock::now() + std::chrono::milliseconds(time_out);
-
-    context_->set_deadline(deadline);
+    if (time_out) {
+      std::chrono::system_clock::time_point deadline =
+          std::chrono::system_clock::now() +
+          std::chrono::milliseconds(time_out);
+      context_->set_deadline(deadline);
+    }
   }
 
   virtual void Prepare(int64_t time_out) {
@@ -214,9 +215,17 @@ class GRPCClient : public RPCClient {
   void AsyncCheckpointNotify(const std::string& ep, const std::string& dir,
                              int64_t time_out = FLAGS_rpc_deadline) override;
 
+  void AsyncSendBeginPass(const std::string& ep,
+                          int64_t time_out = FLAGS_rpc_deadline) override;
+
+  void AsyncSendEndPass(const std::string& ep,
+                        int64_t time_out = FLAGS_rpc_deadline) override;
+
   void Wait() override;
 
-  void SendComplete() override;
+  void SendBeginPass() override;
+
+  void SendEndPass() override;
 
  protected:
   void InitImpl() override;
@@ -227,9 +236,6 @@ class GRPCClient : public RPCClient {
 
   void Proceed();
 
-  void AsyncSendComplete(const std::string& ep,
-                         int64_t time_out = FLAGS_rpc_deadline);
-
   std::shared_ptr<grpc::Channel> GetChannel(const std::string& ep);
 
  private:
diff --git a/paddle/fluid/operators/distributed/request_handler.h b/paddle/fluid/operators/distributed/request_handler.h
index 90742a201a..271306d5d2 100644
--- a/paddle/fluid/operators/distributed/request_handler.h
+++ b/paddle/fluid/operators/distributed/request_handler.h
@@ -37,11 +37,14 @@ constexpr char kRequestSend[] = "RequestSend";
 constexpr char kRequestGet[] = "RequestGet";
 constexpr char kRequestPrefetch[] = "RequestPrefetch";
 constexpr char kRequestCheckpoint[] = "RequestCheckpoint";
+constexpr char kRequestPassBarrier[] = "RequestPassBarrier";
 
 #define LISTEN_TERMINATE_MESSAGE "TERMINATE@RECV"
 #define BATCH_BARRIER_MESSAGE "BATCH_BARRIER@RECV"
 #define FETCH_BARRIER_MESSAGE "FETCH_BARRIER@RECV"
 #define COMPLETE_MESSAGE "COMPLETE@RECV"
+#define BEGIN_PASS_MESSAGE "BEGIN_PASS@RECV"
+#define END_PASS_MESSAGE "END_PASS@RECV"
 
 #define CHECKPOINT_SAVE_MESSAGE "SAVE@CHECKPOINTNOTIFY"
 #define CHECKPOINT_LOAD_MESSAGE "LOAD@CHECKPOINTNOTIFY"
diff --git a/paddle/fluid/operators/distributed/request_handler_impl.cc b/paddle/fluid/operators/distributed/request_handler_impl.cc
index 163154c678..5e6bff20f5 100644
--- a/paddle/fluid/operators/distributed/request_handler_impl.cc
+++ b/paddle/fluid/operators/distributed/request_handler_impl.cc
@@ -55,14 +55,14 @@ bool RequestSendHandler::Handle(const std::string& varname,
   if (varname == BATCH_BARRIER_MESSAGE) {
     VLOG(3) << "sync: recv batch barrier message";
     rpc_server_->IncreaseBatchBarrier(kRequestSend);
-  } else if (varname == COMPLETE_MESSAGE) {
-    VLOG(3) << "sync: recv complete message";
-    rpc_server_->DecreaseClientNum();
+  } else if (varname == BEGIN_PASS_MESSAGE) {
+    VLOG(3) << "sync: recv begin pass message";
+    rpc_server_->WaitCond(kRequestSend);
+    rpc_server_->BeginPass();
   } else {
     VLOG(3) << "sync: received var_name: " << varname;
-    if (sync_mode_) {
-      rpc_server_->WaitCond(kRequestSend);
-    }
+    rpc_server_->WaitCond(kRequestSend);
+    VLOG(3) << "sync: processing received var: " << varname;
 
     if (invar == nullptr) {
       LOG(ERROR) << "sync: Can not find server side var: " << varname;
@@ -91,21 +91,21 @@ bool RequestGetHandler::Handle(const std::string& varname,
                                framework::Variable** outvar,
                                const std::string& out_var_name) {
   VLOG(4) << "RequestGetHandler:" << varname;
-
-  if (varname != FETCH_BARRIER_MESSAGE) {
-    if (sync_mode_) {
+  if (sync_mode_) {
+    if (varname == FETCH_BARRIER_MESSAGE) {
+      VLOG(3) << "sync: recv fetch barrier message";
+      rpc_server_->IncreaseBatchBarrier(kRequestGet);
+    } else if (varname == END_PASS_MESSAGE) {
+      rpc_server_->EndPass();
+    } else {
       rpc_server_->WaitCond(kRequestGet);
+      *outvar = scope_->FindVar(varname);
+    }
+  } else {
+    if (varname != FETCH_BARRIER_MESSAGE && varname != END_PASS_MESSAGE) {
+      *outvar = scope_->FindVar(varname);
     }
-    *outvar = scope_->FindVar(varname);
-    return true;
-  }
-
-  // FETCH_BARRIER_MESSAGE
-  if (sync_mode_) {
-    VLOG(3) << "sync: recv fetch barrier message";
-    rpc_server_->IncreaseBatchBarrier(kRequestGet);
   }
-
   return true;
 }
 
diff --git a/paddle/fluid/operators/distributed/rpc_client.h b/paddle/fluid/operators/distributed/rpc_client.h
index 37783b78ec..6479d3a97b 100644
--- a/paddle/fluid/operators/distributed/rpc_client.h
+++ b/paddle/fluid/operators/distributed/rpc_client.h
@@ -60,10 +60,17 @@ class RPCClient {
                                      const std::string& dir,
                                      int64_t time_out = FLAGS_rpc_deadline) = 0;
 
-  // SendComplete tells all the server that current trainer have no more data
-  // to train, so that the pserver can reduce it's barrier count, and continue
-  // to train with other trainers.
-  virtual void SendComplete() = 0;
+  virtual void AsyncSendBeginPass(const std::string& ep,
+                                  int64_t time_out = FLAGS_rpc_deadline) = 0;
+
+  virtual void AsyncSendEndPass(const std::string& ep,
+                                int64_t time_out = FLAGS_rpc_deadline) = 0;
+
+  // BeginePass/EndPass tells all the pserver that start/end a pass, so that
+  // the pserver can increase/reduce it's barrier count, and continue to train
+  // with other trainers.
+  virtual void SendBeginPass() = 0;
+  virtual void SendEndPass() = 0;
 
   virtual void Wait() = 0;
 
diff --git a/paddle/fluid/operators/distributed/rpc_server.cc b/paddle/fluid/operators/distributed/rpc_server.cc
index c0520e248d..d49ee34eea 100644
--- a/paddle/fluid/operators/distributed/rpc_server.cc
+++ b/paddle/fluid/operators/distributed/rpc_server.cc
@@ -44,7 +44,8 @@ void RPCServer::SavePort() const {
 void RPCServer::WaitBarrier(const std::string& rpc_name) {
   std::unique_lock<std::mutex> lock(this->mutex_);
   barrier_cond_.wait(lock, [this, &rpc_name] {
-    return (barrier_counter_[rpc_name] >= client_num_ || exit_flag_.load());
+    return ((barrier_counter_[rpc_name] == client_num_ && client_num_ != 0) ||
+            exit_flag_.load());
   });
 
   VLOG(3) << "batch_barrier_: " << rpc_name << " "
@@ -63,10 +64,25 @@ void RPCServer::IncreaseBatchBarrier(const std::string rpc_name) {
   }
 }
 
-void RPCServer::DecreaseClientNum() {
+void RPCServer::BeginPass() {
+  VLOG(4) << "RPCServer begin increase pass barrier";
+  {
+    std::unique_lock<std::mutex> lock(mutex_);
+    client_num_++;
+    VLOG(4) << "increase client_num to: " << client_num_;
+  }
+  barrier_cond_.notify_all();
+}
+
+void RPCServer::EndPass() {
+  VLOG(4) << "RPCServer begin increase pass barrier";
   {
     std::unique_lock<std::mutex> lock(mutex_);
     client_num_--;
+    VLOG(4) << "decrease client_num to: " << client_num_;
+    if (cur_cond_.load() == rpc_cond_map_[kRequestGet]) {
+      barrier_counter_[kRequestGet]--;
+    }
   }
   barrier_cond_.notify_all();
 }
diff --git a/paddle/fluid/operators/distributed/rpc_server.h b/paddle/fluid/operators/distributed/rpc_server.h
index cf25e78435..833991c8aa 100644
--- a/paddle/fluid/operators/distributed/rpc_server.h
+++ b/paddle/fluid/operators/distributed/rpc_server.h
@@ -43,6 +43,9 @@ class RPCServer {
   bool IsExit() { return exit_flag_.load(); }
 
   int GetSelectedPort() const { return selected_port_; }
+
+  int GetClientNum() const;
+
   void SavePort() const;
 
   // RegisterRPC, register the rpc method name to a handler
@@ -60,7 +63,10 @@ class RPCServer {
   void SetCond(const std::string& rpc_name);
   void WaitCond(const std::string& rpc_name);
   void IncreaseBatchBarrier(const std::string rpc_name);
-  void DecreaseClientNum();
+
+  void BeginPass();
+  void EndPass();
+
   void ResetBarrierCounter();
 
  protected:
diff --git a/paddle/fluid/operators/fc_mkldnn_op.cc b/paddle/fluid/operators/fc_mkldnn_op.cc
index 847b7b0c12..99fa659a35 100644
--- a/paddle/fluid/operators/fc_mkldnn_op.cc
+++ b/paddle/fluid/operators/fc_mkldnn_op.cc
@@ -115,6 +115,7 @@ class MKLDNNMemory {
 
 template <typename T>
 class FCMKLDNNOpKernel : public paddle::framework::OpKernel<T> {
+ public:
   void Compute(const paddle::framework::ExecutionContext& ctx) const override {
     PADDLE_ENFORCE(paddle::platform::is_cpu_place(ctx.GetPlace()),
                    "It must use CPUPlace.");
diff --git a/paddle/fluid/operators/fill_zeros_like_op.cc b/paddle/fluid/operators/fill_zeros_like_op.cc
index a9d47c0172..d67bec36b3 100644
--- a/paddle/fluid/operators/fill_zeros_like_op.cc
+++ b/paddle/fluid/operators/fill_zeros_like_op.cc
@@ -26,12 +26,8 @@ class FillZerosLikeOp : public framework::OperatorWithKernel {
                    "Input(X) of FillZerosLikeOp should not be null.");
     PADDLE_ENFORCE(ctx->HasOutput("Out"),
                    "Output(Out) of FillZerosLikeOp should not be null.");
-
-    if (ctx->IsRuntime() &&
-        ctx->GetOutputsVarType("Out")[0] ==
-            framework::proto::VarType::LOD_TENSOR_ARRAY) {
-      return;  // skip runtime infershape when is tensor array;
-    }
+    ctx->SetOutputDim("Out", ctx->GetInputDim("X"));
+    ctx->ShareLoD("X", /*->*/ "Out");
   }
 };
 
@@ -43,7 +39,7 @@ class FillZerosLikeOpMaker : public framework::OpProtoAndCheckerMaker {
     AddComment(R"DOC(
 FillZerosLike Operator.
 
-Fill up a variable with zeros, supporting both LoDTensor and LoDTensorArray.
+Fill up a variable with zeros.
 The output will have the same size as the input.
 
 )DOC");
diff --git a/paddle/fluid/operators/fill_zeros_like_op.h b/paddle/fluid/operators/fill_zeros_like_op.h
index daa6521b32..4bbe0df6b6 100644
--- a/paddle/fluid/operators/fill_zeros_like_op.h
+++ b/paddle/fluid/operators/fill_zeros_like_op.h
@@ -13,7 +13,6 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #pragma once
-#include "paddle/fluid/framework/lod_tensor_array.h"
 #include "paddle/fluid/framework/op_registry.h"
 #include "paddle/fluid/operators/math/math_function.h"
 
@@ -24,29 +23,12 @@ template <typename DeviceContext, typename T>
 class FillZerosLikeKernel : public framework::OpKernel<T> {
  public:
   void Compute(const framework::ExecutionContext& context) const override {
-    auto var = context.InputVar("X");
-    if (var->IsType<framework::LoDTensor>()) {
-      auto& input = *context.Input<framework::LoDTensor>("X");
-      auto& output = *context.Output<framework::LoDTensor>("Out");
-      output.Resize(input.dims());
-      output.set_lod(input.lod());
-      output.mutable_data<T>(context.GetPlace());
-      math::SetConstant<DeviceContext, T> setter;
-      setter(context.template device_context<DeviceContext>(), &(output),
-             static_cast<T>(0));
-    } else if (var->IsType<framework::LoDTensorArray>()) {
-      auto& input = *context.Input<framework::LoDTensorArray>("X");
-      auto& output = *context.Output<framework::LoDTensorArray>("Out");
-      output.resize(input.size());
-      for (auto i = 0; i < input.size(); i++) {
-        output[i].Resize(input[i].dims());
-        output[i].set_lod(input[i].lod());
-        output[i].mutable_data<T>(context.GetPlace());
-        math::SetConstant<DeviceContext, T> setter;
-        setter(context.template device_context<DeviceContext>(), &(output[i]),
-               static_cast<T>(0));
-      }
-    }
+    auto* out = context.Output<framework::Tensor>("Out");
+    out->mutable_data<T>(context.GetPlace());
+
+    math::SetConstant<DeviceContext, T> setter;
+    setter(context.template device_context<DeviceContext>(), out,
+           static_cast<T>(0));
   }
 };
 
diff --git a/paddle/fluid/operators/math/detail/avx_functions.cc b/paddle/fluid/operators/math/detail/avx_functions.cc
index b95109d3f7..5641f91452 100644
--- a/paddle/fluid/operators/math/detail/avx_functions.cc
+++ b/paddle/fluid/operators/math/detail/avx_functions.cc
@@ -17,7 +17,7 @@ limitations under the License. */
 #include <immintrin.h>
 #include "paddle/fluid/operators/math/detail/activation_functions.h"
 // TODO(qingqing) refine this dependence
-#include "paddle/cuda/src/avx_mathfun.h"
+#include "paddle/legacy/cuda/src/avx_mathfun.h"
 
 namespace paddle {
 namespace operators {
diff --git a/paddle/fluid/operators/print_op.cc b/paddle/fluid/operators/print_op.cc
index db7634918a..cceac40295 100644
--- a/paddle/fluid/operators/print_op.cc
+++ b/paddle/fluid/operators/print_op.cc
@@ -16,6 +16,7 @@
 #include <ctime>
 
 #include "paddle/fluid/framework/op_registry.h"
+#include "paddle/fluid/framework/var_type.h"
 #include "paddle/fluid/framework/variable.h"
 
 namespace paddle {
@@ -62,7 +63,7 @@ struct Formater {
     }
   }
   void PrintDtype() {
-    if (dtype.hash_code() != typeid(const char).hash_code()) {
+    if (!framework::IsType<const char>(dtype)) {
       CLOG << "\tdtype: " << dtype.name() << std::endl;
     }
   }
@@ -83,15 +84,15 @@ struct Formater {
   void PrintData(size_t size) {
     PADDLE_ENFORCE_NOT_NULL(data);
     // print float
-    if (dtype.hash_code() == typeid(const float).hash_code()) {
+    if (framework::IsType<const float>(dtype)) {
       Display<float>(size);
-    } else if (dtype.hash_code() == typeid(const double).hash_code()) {
+    } else if (framework::IsType<const double>(dtype)) {
       Display<double>(size);
-    } else if (dtype.hash_code() == typeid(const int).hash_code()) {
+    } else if (framework::IsType<const int>(dtype)) {
       Display<int>(size);
-    } else if (dtype.hash_code() == typeid(const int64_t).hash_code()) {
+    } else if (framework::IsType<const int64_t>(dtype)) {
       Display<int64_t>(size);
-    } else if (dtype.hash_code() == typeid(const bool).hash_code()) {
+    } else if (framework::IsType<const bool>(dtype)) {
       Display<bool>(size);
     } else {
       CLOG << "\tdata: unprintable type: " << dtype.name() << std::endl;
diff --git a/paddle/fluid/operators/read_op.cc b/paddle/fluid/operators/read_op.cc
index 72a27d4358..60e4eb7576 100644
--- a/paddle/fluid/operators/read_op.cc
+++ b/paddle/fluid/operators/read_op.cc
@@ -66,9 +66,19 @@ class ReadOp : public framework::OperatorBase {
     std::vector<std::string> out_arg_names = Outputs("Out");
     std::vector<framework::LoDTensor> ins;
     reader->ReadNext(&ins);
-    PADDLE_ENFORCE(!ins.empty(), "There is no next data.");
+    if (ins.empty()) {
+      if (Attr<bool>("throw_eof_exp")) {
+        PADDLE_THROW("There is no next data.");
+      } else {
+        ins.resize(out_arg_names.size());
+        for (auto& tensor : ins) {
+          // data type is not important for subsequent DataBalanceOpHandle
+          tensor.mutable_data<float>(framework::make_ddim({0}), dev_place);
+        }
+      }
+    }
     PADDLE_ENFORCE_EQ(ins.size(), out_arg_names.size());
-    for (size_t i = 0; i < ins.size(); ++i) {
+    for (size_t i = 0; i < out_arg_names.size(); ++i) {
       auto* out =
           scope.FindVar(out_arg_names[i])->GetMutable<framework::LoDTensor>();
       out->ShareDataWith(ins[i]);
@@ -82,6 +92,10 @@ class ReadOpMaker : public framework::OpProtoAndCheckerMaker {
   void Make() override {
     AddInput("Reader", "(ReaderHolder) The executed reader.");
     AddOutput("Out", "(LoDTensor) The output data.").AsDuplicable();
+    AddAttr<bool>("throw_eof_exp",
+                  "If set true, an exception will be thrown when the Reader "
+                  "yields empty (which means there is no next data).")
+        .SetDefault(true);
     AddComment(R"DOC(
       Read Operator
 
diff --git a/paddle/fluid/operators/reshape_op.cc b/paddle/fluid/operators/reshape_op.cc
index 7f743f577f..918f3be533 100644
--- a/paddle/fluid/operators/reshape_op.cc
+++ b/paddle/fluid/operators/reshape_op.cc
@@ -12,14 +12,108 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 
-#include "paddle/fluid/operators/reshape_op.h"
-
 #include <string>
 #include <vector>
+#include "paddle/fluid/framework/op_registry.h"
 
 namespace paddle {
 namespace operators {
 
+class ReshapeOp : public framework::OperatorWithKernel {
+ public:
+  ReshapeOp(const std::string &type, const framework::VariableNameMap &inputs,
+            const framework::VariableNameMap &outputs,
+            const framework::AttributeMap &attrs)
+      : OperatorWithKernel(type, inputs, outputs, attrs) {}
+
+  void InferShape(framework::InferShapeContext *ctx) const override {
+    PADDLE_ENFORCE(ctx->HasInput("X"),
+                   "Input(X) of ReshapeOp should not be null.");
+    PADDLE_ENFORCE(ctx->HasOutput("Out"),
+                   "Output(Out) of ReshapeOp should not be null.");
+
+    const std::vector<int> &shape = ctx->Attrs().Get<std::vector<int>>("shape");
+    PADDLE_ENFORCE(!shape.empty(),
+                   "The shape information must be set by Attr(shape).");
+
+    if (ctx->HasInput("Shape") && ctx->IsRuntime()) {
+      // If true, set the shape of Output(Out) according to Input(Shape) in
+      // ReshapeKernel with ExecutionContext. Also check LoD in ReshapeKernel.
+      ctx->ShareLoD("X", /*->*/ "Out");
+      return;
+    }
+
+    auto x_dims = ctx->GetInputDim("X");
+    auto out_dims = ValidateShape(shape, x_dims);
+    ctx->SetOutputDim("Out", out_dims);
+    if (x_dims[0] == out_dims[0]) {
+      // Only pass LoD when the first dimension of output and Input(X)
+      // are the same.
+      ctx->ShareLoD("X", /*->*/ "Out");
+    }
+  }
+
+  static framework::DDim ValidateShape(const std::vector<int> shape,
+                                       const framework::DDim &in_dims) {
+    const int64_t in_size = framework::product(in_dims);
+    // only one dimension can be set to -1, whose size will be automatically
+    // infered.
+    const int64_t unk_dim_val = -1;
+    const int64_t copy_dim_val = 0;
+
+    std::vector<int64_t> output_shape(shape.size(), 0);
+    int64_t capacity = 1;
+    int unk_dim_idx = -1;
+    for (size_t i = 0; i < shape.size(); ++i) {
+      if (shape[i] == unk_dim_val) {
+        PADDLE_ENFORCE(
+            unk_dim_idx == -1,
+            "Only one input dimension of Attr(shape) can be unknown.");
+        unk_dim_idx = i;
+      } else if (shape[i] == copy_dim_val) {
+        PADDLE_ENFORCE(
+            static_cast<int>(i) < in_dims.size(),
+            "The index of dimension to copy from input shape must be less "
+            "than the size of input shape.");
+      } else {
+        PADDLE_ENFORCE(
+            shape[i] > 0,
+            "Each input dimension of Attr(shape) must not be negtive except "
+            "one unknown dimension.");
+      }
+
+      capacity *= (shape[i] ? shape[i] : in_dims[i]);
+      output_shape[i] =
+          (shape[i] ? static_cast<int64_t>(shape[i]) : in_dims[i]);
+    }
+
+    if (unk_dim_idx != -1) {
+      if (in_size > 0) {
+        // in_size < 0 and is un-determinate in compile time, skip the check,
+        // for example, in_dims = [-1, 8, 1, 1], shape = [-1, 3, 8],
+        // capacity = -24, in_size = -8, output_shape[0] = 0
+        // the following check will fail.
+        output_shape[unk_dim_idx] = -in_size / capacity;
+        PADDLE_ENFORCE_EQ(output_shape[unk_dim_idx] * capacity, -in_size,
+                          "Invalid shape is given.");
+      } else {
+        output_shape[unk_dim_idx] = -1;
+      }
+    } else {
+      PADDLE_ENFORCE_EQ(capacity, in_size, "Invalid shape is given.");
+    }
+    return framework::make_ddim(output_shape);
+  }
+
+ protected:
+  framework::OpKernelType GetExpectedKernelType(
+      const framework::ExecutionContext &ctx) const override {
+    return framework::OpKernelType(
+        framework::ToDataType(ctx.Input<framework::LoDTensor>("X")->type()),
+        ctx.device_context());
+  }
+};
+
 class ReshapeOpMaker : public framework::OpProtoAndCheckerMaker {
  public:
   void Make() override {
@@ -107,19 +201,93 @@ class ReshapeGradOp : public framework::OperatorWithKernel {
   }
 };
 
+class ReshapeKernel {
+ public:
+  void operator()(const framework::ExecutionContext &ctx) const {
+    auto *out = ctx.Output<framework::LoDTensor>("Out");
+    auto *in = ctx.Input<framework::LoDTensor>("X");
+
+    auto *shape_tensor = ctx.HasInput("Shape")
+                             ? ctx.Input<framework::LoDTensor>("Shape")
+                             : nullptr;
+
+    framework::DDim out_dims = out->dims();
+
+    if (shape_tensor) {
+      auto *shape_data = shape_tensor->data<int>();
+      framework::Tensor cpu_shape_tensor;
+      if (platform::is_gpu_place(ctx.GetPlace())) {
+        TensorCopySync(*shape_tensor, platform::CPUPlace(), &cpu_shape_tensor);
+        shape_data = cpu_shape_tensor.data<int>();
+      }
+      auto shape =
+          std::vector<int>(shape_data, shape_data + shape_tensor->numel());
+      out_dims = ReshapeOp::ValidateShape(shape, in->dims());
+    }
+    if (!in->lod().empty()) {
+      PADDLE_ENFORCE_EQ(
+          out_dims[0], in->dims()[0],
+          "Reshape operator cannot reshape an input sequence batch "
+          "into an output sequence batch that has a different "
+          "number of time steps. Please consider using "
+          "sequence_reshape op.");
+    }
+
+    bool inplace = ctx.Attr<bool>("inplace");
+    out->Resize(out_dims);
+    if (!inplace) {
+      out->mutable_data(ctx.GetPlace(), in->type());
+      framework::TensorCopySync(*in, ctx.GetPlace(), out);
+      out->Resize(out_dims);
+    } else {
+      out->ShareDataWith(*in);
+      out->Resize(out_dims);
+    }
+  }
+};
+
+class ReshapeGradKernel {
+ public:
+  void operator()(const framework::ExecutionContext &ctx) const {
+    auto *d_out = ctx.Input<framework::Tensor>(framework::GradVarName("Out"));
+    auto *d_x = ctx.Output<framework::Tensor>(framework::GradVarName("X"));
+
+    d_x->mutable_data(ctx.GetPlace(), d_out->type());
+    bool inplace = ctx.Attr<bool>("inplace");
+
+    auto in_dims = d_x->dims();
+    if (!inplace) {
+      framework::TensorCopy(*d_out, ctx.GetPlace(), ctx.device_context(), d_x);
+      ctx.device_context().Wait();
+      d_x->Resize(in_dims);
+    } else {
+      d_x->ShareDataWith(*d_out);
+      d_x->Resize(in_dims);
+    }
+  }
+};
+
 }  // namespace operators
 }  // namespace paddle
 namespace ops = paddle::operators;
-using CPU = paddle::platform::CPUDeviceContext;
 
 REGISTER_OPERATOR(reshape, ops::ReshapeOp, ops::ReshapeOpMaker,
                   paddle::framework::DefaultGradOpDescMaker<true>);
 REGISTER_OPERATOR(reshape_grad, ops::ReshapeGradOp);
-REGISTER_OP_CPU_KERNEL(reshape, ops::ReshapeKernel<CPU, float>,
-                       ops::ReshapeKernel<CPU, double>,
-                       ops::ReshapeKernel<CPU, int>,
-                       ops::ReshapeKernel<CPU, int64_t>);
-REGISTER_OP_CPU_KERNEL(reshape_grad, ops::ReshapeGradKernel<CPU, float>,
-                       ops::ReshapeGradKernel<CPU, double>,
-                       ops::ReshapeGradKernel<CPU, int>,
-                       ops::ReshapeGradKernel<CPU, int64_t>);
+REGISTER_OP_CPU_KERNEL_FUNCTOR(reshape, float, ops::ReshapeKernel, double,
+                               ops::ReshapeKernel, int, ops::ReshapeKernel,
+                               int64_t, ops::ReshapeKernel);
+REGISTER_OP_CPU_KERNEL_FUNCTOR(reshape_grad, float, ops::ReshapeGradKernel,
+                               double, ops::ReshapeGradKernel, int,
+                               ops::ReshapeGradKernel, int64_t,
+                               ops::ReshapeGradKernel);
+
+#ifdef PADDLE_WITH_CUDA
+REGISTER_OP_CUDA_KERNEL_FUNCTOR(reshape, float, ops::ReshapeKernel, double,
+                                ops::ReshapeKernel, int, ops::ReshapeKernel,
+                                int64_t, ops::ReshapeKernel);
+REGISTER_OP_CUDA_KERNEL_FUNCTOR(reshape_grad, float, ops::ReshapeGradKernel,
+                                double, ops::ReshapeGradKernel, int,
+                                ops::ReshapeGradKernel, int64_t,
+                                ops::ReshapeGradKernel);
+#endif
diff --git a/paddle/fluid/operators/reshape_op.cu b/paddle/fluid/operators/reshape_op.cu
deleted file mode 100644
index c628c634e2..0000000000
--- a/paddle/fluid/operators/reshape_op.cu
+++ /dev/null
@@ -1,26 +0,0 @@
-/* Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved.
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License. */
-
-#include "paddle/fluid/operators/reshape_op.h"
-using CUDA = paddle::platform::CUDADeviceContext;
-
-REGISTER_OP_CUDA_KERNEL(reshape, paddle::operators::ReshapeKernel<CUDA, float>,
-                        paddle::operators::ReshapeKernel<CUDA, double>,
-                        paddle::operators::ReshapeKernel<CUDA, int>,
-                        paddle::operators::ReshapeKernel<CUDA, int64_t>);
-REGISTER_OP_CUDA_KERNEL(reshape_grad,
-                        paddle::operators::ReshapeGradKernel<CUDA, float>,
-                        paddle::operators::ReshapeGradKernel<CUDA, double>,
-                        paddle::operators::ReshapeGradKernel<CUDA, int>,
-                        paddle::operators::ReshapeGradKernel<CUDA, int64_t>);
diff --git a/paddle/fluid/operators/reshape_op.h b/paddle/fluid/operators/reshape_op.h
deleted file mode 100644
index 3dd8c7c11e..0000000000
--- a/paddle/fluid/operators/reshape_op.h
+++ /dev/null
@@ -1,189 +0,0 @@
-/* Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved.
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License. */
-
-#pragma once
-
-#include <string>
-#include <vector>
-
-#include "paddle/fluid/framework/eigen.h"
-#include "paddle/fluid/framework/op_registry.h"
-
-namespace paddle {
-namespace operators {
-
-class ReshapeOp : public framework::OperatorWithKernel {
- public:
-  ReshapeOp(const std::string &type, const framework::VariableNameMap &inputs,
-            const framework::VariableNameMap &outputs,
-            const framework::AttributeMap &attrs)
-      : OperatorWithKernel(type, inputs, outputs, attrs) {}
-
-  void InferShape(framework::InferShapeContext *ctx) const override {
-    PADDLE_ENFORCE(ctx->HasInput("X"),
-                   "Input(X) of ReshapeOp should not be null.");
-    PADDLE_ENFORCE(ctx->HasOutput("Out"),
-                   "Output(Out) of ReshapeOp should not be null.");
-
-    const std::vector<int> &shape = ctx->Attrs().Get<std::vector<int>>("shape");
-    PADDLE_ENFORCE(!shape.empty(),
-                   "The shape information must be set by Attr(shape).");
-
-    if (ctx->HasInput("Shape") && ctx->IsRuntime()) {
-      // If true, set the shape of Output(Out) according to Input(Shape) in
-      // ReshapeKernel with ExecutionContext. Also check LoD in ReshapeKernel.
-      ctx->ShareLoD("X", /*->*/ "Out");
-      return;
-    }
-
-    auto x_dims = ctx->GetInputDim("X");
-    auto out_dims = ValidateShape(shape, x_dims);
-    ctx->SetOutputDim("Out", out_dims);
-    if (x_dims[0] == out_dims[0]) {
-      // Only pass LoD when the first dimension of output and Input(X)
-      // are the same.
-      ctx->ShareLoD("X", /*->*/ "Out");
-    }
-  }
-
-  static framework::DDim ValidateShape(const std::vector<int> shape,
-                                       const framework::DDim &in_dims) {
-    const int64_t in_size = framework::product(in_dims);
-    // only one dimension can be set to -1, whose size will be automatically
-    // infered.
-    const int64_t unk_dim_val = -1;
-    const int64_t copy_dim_val = 0;
-
-    std::vector<int64_t> output_shape(shape.size(), 0);
-    int64_t capacity = 1;
-    int unk_dim_idx = -1;
-    for (size_t i = 0; i < shape.size(); ++i) {
-      if (shape[i] == unk_dim_val) {
-        PADDLE_ENFORCE(
-            unk_dim_idx == -1,
-            "Only one input dimension of Attr(shape) can be unknown.");
-        unk_dim_idx = i;
-      } else if (shape[i] == copy_dim_val) {
-        PADDLE_ENFORCE(
-            static_cast<int>(i) < in_dims.size(),
-            "The index of dimension to copy from input shape must be less "
-            "than the size of input shape.");
-      } else {
-        PADDLE_ENFORCE(
-            shape[i] > 0,
-            "Each input dimension of Attr(shape) must not be negtive except "
-            "one unknown dimension.");
-      }
-
-      capacity *= (shape[i] ? shape[i] : in_dims[i]);
-      output_shape[i] =
-          (shape[i] ? static_cast<int64_t>(shape[i]) : in_dims[i]);
-    }
-
-    if (unk_dim_idx != -1) {
-      if (in_size > 0) {
-        // in_size < 0 and is un-determinate in compile time, skip the check,
-        // for example, in_dims = [-1, 8, 1, 1], shape = [-1, 3, 8],
-        // capacity = -24, in_size = -8, output_shape[0] = 0
-        // the following check will fail.
-        output_shape[unk_dim_idx] = -in_size / capacity;
-        PADDLE_ENFORCE_EQ(output_shape[unk_dim_idx] * capacity, -in_size,
-                          "Invalid shape is given.");
-      } else {
-        output_shape[unk_dim_idx] = -1;
-      }
-    } else {
-      PADDLE_ENFORCE_EQ(capacity, in_size, "Invalid shape is given.");
-    }
-    return framework::make_ddim(output_shape);
-  }
-
- protected:
-  framework::OpKernelType GetExpectedKernelType(
-      const framework::ExecutionContext &ctx) const override {
-    return framework::OpKernelType(
-        framework::ToDataType(ctx.Input<framework::LoDTensor>("X")->type()),
-        ctx.device_context());
-  }
-};
-
-template <typename DeviceContext, typename T>
-class ReshapeKernel : public framework::OpKernel<T> {
- public:
-  void Compute(const framework::ExecutionContext &ctx) const {
-    auto *out = ctx.Output<framework::LoDTensor>("Out");
-    auto *in = ctx.Input<framework::LoDTensor>("X");
-
-    auto *shape_tensor = ctx.HasInput("Shape")
-                             ? ctx.Input<framework::LoDTensor>("Shape")
-                             : nullptr;
-
-    framework::DDim out_dims = out->dims();
-
-    if (shape_tensor) {
-      auto *shape_data = shape_tensor->data<int>();
-      framework::Tensor cpu_shape_tensor;
-      if (platform::is_gpu_place(ctx.GetPlace())) {
-        TensorCopySync(*shape_tensor, platform::CPUPlace(), &cpu_shape_tensor);
-        shape_data = cpu_shape_tensor.data<int>();
-      }
-      auto shape =
-          std::vector<int>(shape_data, shape_data + shape_tensor->numel());
-      out_dims = ReshapeOp::ValidateShape(shape, in->dims());
-    }
-    if (!in->lod().empty()) {
-      PADDLE_ENFORCE_EQ(
-          out_dims[0], in->dims()[0],
-          "Reshape operator cannot reshape an input sequence batch "
-          "into an output sequence batch that has a different "
-          "number of time steps. Please consider using "
-          "sequence_reshape op.");
-    }
-
-    bool inplace = ctx.Attr<bool>("inplace");
-    out->Resize(out_dims);
-    if (!inplace) {
-      out->mutable_data<T>(ctx.GetPlace());
-      framework::TensorCopySync(*in, ctx.GetPlace(), out);
-      out->Resize(out_dims);
-    } else {
-      out->ShareDataWith(*in);
-      out->Resize(out_dims);
-    }
-  }
-};
-
-template <typename DeviceContext, typename T>
-class ReshapeGradKernel : public framework::OpKernel<T> {
- public:
-  void Compute(const framework::ExecutionContext &ctx) const {
-    auto *d_out = ctx.Input<framework::Tensor>(framework::GradVarName("Out"));
-    auto *d_x = ctx.Output<framework::Tensor>(framework::GradVarName("X"));
-
-    d_x->mutable_data<T>(ctx.GetPlace());
-    bool inplace = ctx.Attr<bool>("inplace");
-
-    auto in_dims = d_x->dims();
-    if (!inplace) {
-      framework::TensorCopy(*d_out, ctx.GetPlace(), ctx.device_context(), d_x);
-      ctx.device_context().Wait();
-      d_x->Resize(in_dims);
-    } else {
-      d_x->ShareDataWith(*d_out);
-      d_x->Resize(in_dims);
-    }
-  }
-};
-}  // namespace operators
-}  // namespace paddle
diff --git a/paddle/fluid/operators/while_op.cc b/paddle/fluid/operators/while_op.cc
index f440058e8d..733157ea05 100644
--- a/paddle/fluid/operators/while_op.cc
+++ b/paddle/fluid/operators/while_op.cc
@@ -17,6 +17,7 @@ limitations under the License. */
 #include "paddle/fluid/framework/lod_tensor_array.h"
 #include "paddle/fluid/framework/op_registry.h"
 #include "paddle/fluid/framework/operator.h"
+#include "paddle/fluid/framework/var_type.h"
 #include "paddle/fluid/operators/detail/safe_ref.h"
 
 namespace paddle {
@@ -135,15 +136,14 @@ class WhileGradOp : public framework::OperatorBase {
         auto &og_inside =
             detail::Ref(cur_scope.Var(inside_og_name),
                         "Cannot find inside gradient %s", inside_og_name);
-        if (og_outside.Type().hash_code() ==
-            typeid(framework::LoDTensor).hash_code()) {
+        if (framework::IsType<framework::LoDTensor>(og_outside.Type())) {
           auto &outside_tensor = og_outside.Get<framework::LoDTensor>();
           auto &inside_tensor =
               detail::Ref(og_inside.GetMutable<framework::LoDTensor>());
           inside_tensor.set_lod(outside_tensor.lod());
           inside_tensor.ShareDataWith(outside_tensor);
-        } else if (og_outside.Type().hash_code() ==
-                   typeid(framework::LoDTensorArray).hash_code()) {
+        } else if (framework::IsType<framework::LoDTensorArray>(
+                       og_outside.Type())) {
           auto &outside_array = og_outside.Get<framework::LoDTensorArray>();
           auto &inside_array =
               detail::Ref(og_inside.GetMutable<framework::LoDTensorArray>());
diff --git a/paddle/fluid/platform/enforce.h b/paddle/fluid/platform/enforce.h
index a34e4371cc..70bc9c4e83 100644
--- a/paddle/fluid/platform/enforce.h
+++ b/paddle/fluid/platform/enforce.h
@@ -113,7 +113,11 @@ template <typename... Args>
 inline typename std::enable_if<sizeof...(Args) != 0, void>::type throw_on_error(
     bool stat, const Args&... args) {
   if (UNLIKELY(!(stat))) {
+#ifndef REPLACE_ENFORCE_GLOG
     throw std::runtime_error(string::Sprintf(args...));
+#else
+    LOG(FATAL) << string::Sprintf(args...);
+#endif
   }
 }
 
@@ -123,8 +127,12 @@ template <typename... Args>
 inline typename std::enable_if<sizeof...(Args) != 0, void>::type throw_on_error(
     cudaError_t e, const Args&... args) {
   if (UNLIKELY(e)) {
+#ifndef REPLACE_ENFORCE_GLOG
     throw thrust::system_error(e, thrust::cuda_category(),
                                string::Sprintf(args...));
+#else
+    LOG(FATAL) << string::Sprintf(args...);
+#endif
   }
 }
 
@@ -132,8 +140,12 @@ template <typename... Args>
 inline typename std::enable_if<sizeof...(Args) != 0, void>::type throw_on_error(
     curandStatus_t stat, const Args&... args) {
   if (stat != CURAND_STATUS_SUCCESS) {
+#ifndef REPLACE_ENFORCE_GLOG
     throw thrust::system_error(cudaErrorLaunchFailure, thrust::cuda_category(),
                                string::Sprintf(args...));
+#else
+    LOG(FATAL) << string::Sprintf(args...);
+#endif
   }
 }
 
@@ -143,8 +155,12 @@ inline typename std::enable_if<sizeof...(Args) != 0, void>::type throw_on_error(
   if (stat == CUDNN_STATUS_SUCCESS) {
     return;
   } else {
+#ifndef REPLACE_ENFORCE_GLOG
     throw std::runtime_error(platform::dynload::cudnnGetErrorString(stat) +
                              string::Sprintf(args...));
+#else
+    LOG(FATAL) << string::Sprintf(args...);
+#endif
   }
 }
 
@@ -173,7 +189,11 @@ inline typename std::enable_if<sizeof...(Args) != 0, void>::type throw_on_error(
   } else if (stat == CUBLAS_STATUS_LICENSE_ERROR) {
     err = "CUBLAS: license error, ";
   }
+#ifndef REPLACE_ENFORCE_GLOG
   throw std::runtime_error(err + string::Sprintf(args...));
+#else
+  LOG(FATAL) << err << string::Sprintf(args...);
+#endif
 }
 
 #ifndef __APPLE__
@@ -183,8 +203,13 @@ inline typename std::enable_if<sizeof...(Args) != 0, void>::type throw_on_error(
   if (stat == ncclSuccess) {
     return;
   } else {
+#ifndef REPLACE_ENFORCE_GLOG
     throw std::runtime_error(platform::dynload::ncclGetErrorString(stat) +
                              string::Sprintf(args...));
+#else
+    LOG(FATAL) << platform::dynload::ncclGetErrorString(stat)
+               << string::Sprintf(args...);
+#endif
   }
 }
 #endif  // __APPLE__
@@ -203,6 +228,7 @@ inline void throw_on_error(T e) {
         __FILE__, __LINE__);                                           \
   } while (false)
 
+#ifndef REPLACE_ENFORCE_GLOG
 #define PADDLE_ENFORCE(...)                                             \
   do {                                                                  \
     try {                                                               \
@@ -212,6 +238,9 @@ inline void throw_on_error(T e) {
                                               __FILE__, __LINE__);      \
     }                                                                   \
   } while (false)
+#else
+#define PADDLE_ENFORCE(...) ::paddle::platform::throw_on_error(__VA_ARGS__);
+#endif
 
 /*
  * Some enforce helpers here, usage:
diff --git a/paddle/fluid/platform/mkldnn_helper.h b/paddle/fluid/platform/mkldnn_helper.h
index ed99932546..33fec2c107 100644
--- a/paddle/fluid/platform/mkldnn_helper.h
+++ b/paddle/fluid/platform/mkldnn_helper.h
@@ -14,6 +14,7 @@ limitations under the License. */
 #pragma once
 
 #include <mkldnn.h>
+#include <string>
 #include <vector>
 #include "paddle/fluid/framework/operator.h"
 #include "paddle/fluid/platform/place.h"
@@ -182,10 +183,11 @@ class MKLDNNHandler {
   }
 
   std::shared_ptr<mkldnn::memory> AcquireMemory(
-      mkldnn::memory::primitive_desc& mpd,
-      mkldnn::memory::primitive_desc& user_mpd,
+      mkldnn::memory::primitive_desc& mpd,       // NOLINT
+      mkldnn::memory::primitive_desc& user_mpd,  // NOLINT
       const std::shared_ptr<mkldnn::memory> user_memory_p,
-      const std::string& suffix, std::vector<mkldnn::primitive>& pipeline) {
+      const std::string& suffix,
+      std::vector<mkldnn::primitive>& pipeline) {  // NOLINT
     // create reorder primitive if the input format is not the preferred one
     auto local_key = key_ + suffix;
     auto key_reorder_p = key_ + suffix + "reorder_p";
@@ -218,7 +220,7 @@ class MKLDNNHandler {
     return target_memory_p;
   }
 
-  static std::string GetHash(mkldnn::memory::dims& operand_dims,
+  static std::string GetHash(mkldnn::memory::dims& operand_dims,  // NOLINT
                              const std::string& suffix) {
     auto dims2str = [](const mkldnn::memory::dims& operand_dims) {
       std::string dstr = "";
@@ -227,8 +229,9 @@ class MKLDNNHandler {
       }
       return dstr;
     };
+
     return dims2str(operand_dims) + suffix;
-  };
+  }
 
  protected:
   const MKLDNNDeviceContext& dev_ctx_;
@@ -237,5 +240,15 @@ class MKLDNNHandler {
   bool is_reusing_;
 };
 
+inline mkldnn::memory::format MKLDNNFormatForSize(
+    size_t dims_size, mkldnn::memory::format data_format) {
+  if (dims_size == 1) {
+    return mkldnn::memory::format::x;
+  } else if (dims_size == 2) {
+    return mkldnn::memory::format::nc;
+  }
+  return data_format;
+}
+
 }  // namespace platform
 }  // namespace paddle
diff --git a/paddle/fluid/pybind/pybind.cc b/paddle/fluid/pybind/pybind.cc
index 36d0809968..3191f29fc3 100644
--- a/paddle/fluid/pybind/pybind.cc
+++ b/paddle/fluid/pybind/pybind.cc
@@ -493,7 +493,8 @@ All parameter, weight, gradient are variables in Paddle.
   py::class_<framework::Executor>(m, "Executor")
       .def(py::init<const platform::Place &>())
 #ifdef PADDLE_WITH_DISTRIBUTE
-      .def("complete", &Executor::Complete)
+      .def("begin_pass", &Executor::BeginPass)
+      .def("end_pass", &Executor::EndPass)
 #endif
       .def("run", [](Executor &self, const ProgramDesc &prog, Scope *scope,
                      int block_id, bool create_local_scope, bool create_vars) {
@@ -643,7 +644,11 @@ All parameter, weight, gradient are variables in Paddle.
           [](const BuildStrategy &self) { return self.debug_graphviz_path_; },
           [](BuildStrategy &self, const std::string &path) {
             self.debug_graphviz_path_ = path;
-          });
+          })
+      .def_property(
+          "enable_data_balance",
+          [](const BuildStrategy &self) { return self.enable_data_balance_; },
+          [](BuildStrategy &self, bool b) { self.enable_data_balance_ = b; });
 
   pe.def(py::init<const std::vector<platform::Place> &,
                   const std::unordered_set<std::string> &,
diff --git a/paddle/gserver/tests/Sequence/train.list b/paddle/gserver/tests/Sequence/train.list
deleted file mode 100644
index be27acb3a5..0000000000
--- a/paddle/gserver/tests/Sequence/train.list
+++ /dev/null
@@ -1 +0,0 @@
-gserver/tests/Sequence/tour_train_wdseg
diff --git a/paddle/gserver/tests/Sequence/train.list.nest b/paddle/gserver/tests/Sequence/train.list.nest
deleted file mode 100644
index 7683ebc68e..0000000000
--- a/paddle/gserver/tests/Sequence/train.list.nest
+++ /dev/null
@@ -1 +0,0 @@
-gserver/tests/Sequence/tour_train_wdseg.nest
diff --git a/paddle/api/Arguments.cpp b/paddle/legacy/api/Arguments.cpp
similarity index 99%
rename from paddle/api/Arguments.cpp
rename to paddle/legacy/api/Arguments.cpp
index 62d6a574d5..7bb5a6f75b 100644
--- a/paddle/api/Arguments.cpp
+++ b/paddle/legacy/api/Arguments.cpp
@@ -15,7 +15,7 @@ limitations under the License. */
 #include "PaddleAPI.h"
 #include "PaddleAPIPrivate.h"
 
-#include "paddle/parameter/Argument.h"
+#include "paddle/legacy/parameter/Argument.h"
 
 size_t Arguments::getSlotNum() const { return m->outputs.size(); }
 
diff --git a/paddle/api/CMakeLists.txt b/paddle/legacy/api/CMakeLists.txt
similarity index 100%
rename from paddle/api/CMakeLists.txt
rename to paddle/legacy/api/CMakeLists.txt
diff --git a/paddle/api/ConfigParser.cpp b/paddle/legacy/api/ConfigParser.cpp
similarity index 100%
rename from paddle/api/ConfigParser.cpp
rename to paddle/legacy/api/ConfigParser.cpp
diff --git a/paddle/api/Evaluator.cpp b/paddle/legacy/api/Evaluator.cpp
similarity index 100%
rename from paddle/api/Evaluator.cpp
rename to paddle/legacy/api/Evaluator.cpp
diff --git a/paddle/api/GradientMachine.cpp b/paddle/legacy/api/GradientMachine.cpp
similarity index 98%
rename from paddle/api/GradientMachine.cpp
rename to paddle/legacy/api/GradientMachine.cpp
index 0d9ad30de9..5ad2fe11a4 100644
--- a/paddle/api/GradientMachine.cpp
+++ b/paddle/legacy/api/GradientMachine.cpp
@@ -16,7 +16,7 @@ limitations under the License. */
 #include "PaddleAPIPrivate.h"
 
 #include "Internal.h"
-#include "paddle/gserver/gradientmachines/NeuralNetwork.h"
+#include "paddle/legacy/gserver/gradientmachines/NeuralNetwork.h"
 
 std::vector<int> GradientMachine::defaultParamTypes = {
     PARAMETER_VALUE, PARAMETER_GRADIENT, PARAMETER_MOMENTUM};
diff --git a/paddle/api/Internal.h b/paddle/legacy/api/Internal.h
similarity index 100%
rename from paddle/api/Internal.h
rename to paddle/legacy/api/Internal.h
diff --git a/paddle/api/Matrix.cpp b/paddle/legacy/api/Matrix.cpp
similarity index 98%
rename from paddle/api/Matrix.cpp
rename to paddle/legacy/api/Matrix.cpp
index 8282b4629d..8862d0ea92 100644
--- a/paddle/api/Matrix.cpp
+++ b/paddle/legacy/api/Matrix.cpp
@@ -12,12 +12,12 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include <cstring>
 #include <iostream>
 #include "PaddleAPI.h"
-#include "paddle/math/CpuSparseMatrix.h"
-#include "paddle/math/SparseMatrix.h"
+#include "paddle/legacy/math/CpuSparseMatrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
 
 struct MatrixPrivate {
   std::shared_ptr<paddle::Matrix> mat;
diff --git a/paddle/api/Paddle.i b/paddle/legacy/api/Paddle.i
similarity index 98%
rename from paddle/api/Paddle.i
rename to paddle/legacy/api/Paddle.i
index 3237e73745..e6165fb106 100644
--- a/paddle/api/Paddle.i
+++ b/paddle/legacy/api/Paddle.i
@@ -2,7 +2,7 @@
 %include "std_string.i"
 %{
 #define SWIG_FILE_WITH_INIT
-#include "api/PaddleAPI.h"   
+#include "legacy/api/PaddleAPI.h"
 %}
 
 %include "exception.i"
@@ -199,4 +199,4 @@ namespace std {
 %ignore OptimizationConfigPrivate;
 %ignore ParameterTraverseCallbackPrivate;
 %include "utils/GlobalConstants.h"
-%include "api/PaddleAPI.h"
+%include "legacy/api/PaddleAPI.h"
diff --git a/paddle/api/PaddleAPI.h b/paddle/legacy/api/PaddleAPI.h
similarity index 99%
rename from paddle/api/PaddleAPI.h
rename to paddle/legacy/api/PaddleAPI.h
index 7866122006..ba3e815498 100644
--- a/paddle/api/PaddleAPI.h
+++ b/paddle/legacy/api/PaddleAPI.h
@@ -19,7 +19,7 @@ limitations under the License. */
 #include <stdexcept>
 #include <string>
 #include <vector>
-#include "paddle/gserver/gradientmachines/GradientMachine.h"
+#include "paddle/legacy/gserver/gradientmachines/GradientMachine.h"
 #include "paddle/utils/Common.h"
 #include "paddle/utils/GlobalConstants.h"
 
diff --git a/paddle/api/PaddleAPIPrivate.h b/paddle/legacy/api/PaddleAPIPrivate.h
similarity index 93%
rename from paddle/api/PaddleAPIPrivate.h
rename to paddle/legacy/api/PaddleAPIPrivate.h
index e141fcd761..2e1c504d2e 100644
--- a/paddle/api/PaddleAPIPrivate.h
+++ b/paddle/legacy/api/PaddleAPIPrivate.h
@@ -14,9 +14,9 @@ limitations under the License. */
 #pragma once
 #include <memory>
 #include "PaddleAPI.h"
-#include "paddle/gserver/evaluators/Evaluator.h"
-#include "paddle/gserver/gradientmachines/GradientMachine.h"
-#include "paddle/parameter/ParameterUpdaterBase.h"
+#include "paddle/legacy/gserver/evaluators/Evaluator.h"
+#include "paddle/legacy/gserver/gradientmachines/GradientMachine.h"
+#include "paddle/legacy/parameter/ParameterUpdaterBase.h"
 #include "paddle/trainer/TrainerConfigHelper.h"
 
 struct GradientMachinePrivate {
diff --git a/paddle/api/Parameter.cpp b/paddle/legacy/api/Parameter.cpp
similarity index 97%
rename from paddle/api/Parameter.cpp
rename to paddle/legacy/api/Parameter.cpp
index 589d22e74e..f05740eb75 100644
--- a/paddle/api/Parameter.cpp
+++ b/paddle/legacy/api/Parameter.cpp
@@ -12,7 +12,7 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 
-#include "paddle/parameter/Parameter.h"
+#include "paddle/legacy/parameter/Parameter.h"
 #include "PaddleAPI.h"
 #include "PaddleAPIPrivate.h"
 
diff --git a/paddle/api/ParameterOptimizer.cpp b/paddle/legacy/api/ParameterOptimizer.cpp
similarity index 98%
rename from paddle/api/ParameterOptimizer.cpp
rename to paddle/legacy/api/ParameterOptimizer.cpp
index d4620be3e6..477d9dae44 100644
--- a/paddle/api/ParameterOptimizer.cpp
+++ b/paddle/legacy/api/ParameterOptimizer.cpp
@@ -12,7 +12,7 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 
-#include "paddle/parameter/ParameterOptimizer.h"
+#include "paddle/legacy/parameter/ParameterOptimizer.h"
 #include <algorithm>
 #include "Internal.h"
 #include "PaddleAPI.h"
diff --git a/paddle/api/ParameterUpdater.cpp b/paddle/legacy/api/ParameterUpdater.cpp
similarity index 100%
rename from paddle/api/ParameterUpdater.cpp
rename to paddle/legacy/api/ParameterUpdater.cpp
diff --git a/paddle/api/SequenceGenerator.cpp b/paddle/legacy/api/SequenceGenerator.cpp
similarity index 98%
rename from paddle/api/SequenceGenerator.cpp
rename to paddle/legacy/api/SequenceGenerator.cpp
index 1446c30842..96e075df50 100644
--- a/paddle/api/SequenceGenerator.cpp
+++ b/paddle/legacy/api/SequenceGenerator.cpp
@@ -17,8 +17,8 @@ limitations under the License. */
 #include <sstream>
 #include <vector>
 #include "PaddleAPI.h"
-#include "paddle/gserver/gradientmachines/GradientMachine.h"
-#include "paddle/parameter/Argument.h"
+#include "paddle/legacy/gserver/gradientmachines/GradientMachine.h"
+#include "paddle/legacy/parameter/Argument.h"
 #include "paddle/utils/Flags.h"
 
 // used to represent partial sequence
diff --git a/paddle/api/Trainer.cpp b/paddle/legacy/api/Trainer.cpp
similarity index 98%
rename from paddle/api/Trainer.cpp
rename to paddle/legacy/api/Trainer.cpp
index 795460b650..6506acb738 100644
--- a/paddle/api/Trainer.cpp
+++ b/paddle/legacy/api/Trainer.cpp
@@ -19,7 +19,7 @@ limitations under the License. */
 #include <atomic>
 #include <memory>
 
-#include "paddle/gserver/gradientmachines/NeuralNetwork.h"
+#include "paddle/legacy/gserver/gradientmachines/NeuralNetwork.h"
 #include "paddle/trainer/ParamUtil.h"
 #include "paddle/trainer/Trainer.h"
 #include "paddle/trainer/TrainerInternal.h"
diff --git a/paddle/api/Util.cpp b/paddle/legacy/api/Util.cpp
similarity index 97%
rename from paddle/api/Util.cpp
rename to paddle/legacy/api/Util.cpp
index 618e87e964..d98daadbde 100644
--- a/paddle/api/Util.cpp
+++ b/paddle/legacy/api/Util.cpp
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #include "PaddleAPI.h"
 
-#include "paddle/parameter/Parameter.h"
+#include "paddle/legacy/parameter/Parameter.h"
 #include "paddle/utils/Common.h"
 #include "paddle/utils/Flags.h"
 #include "paddle/utils/PythonUtil.h"
diff --git a/paddle/api/Vector.cpp b/paddle/legacy/api/Vector.cpp
similarity index 99%
rename from paddle/api/Vector.cpp
rename to paddle/legacy/api/Vector.cpp
index e2a7b974ca..73b6d3a15d 100644
--- a/paddle/api/Vector.cpp
+++ b/paddle/legacy/api/Vector.cpp
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #include "PaddleAPI.h"
 
-#include "paddle/math/Vector.h"
+#include "paddle/legacy/math/Vector.h"
 
 #include <cstring>
 
diff --git a/paddle/api/__init__.py b/paddle/legacy/api/__init__.py
similarity index 100%
rename from paddle/api/__init__.py
rename to paddle/legacy/api/__init__.py
diff --git a/paddle/api/numpy.i b/paddle/legacy/api/numpy.i
similarity index 100%
rename from paddle/api/numpy.i
rename to paddle/legacy/api/numpy.i
diff --git a/paddle/api/test/.gitignore b/paddle/legacy/api/test/.gitignore
similarity index 100%
rename from paddle/api/test/.gitignore
rename to paddle/legacy/api/test/.gitignore
diff --git a/paddle/api/test/CMakeLists.txt b/paddle/legacy/api/test/CMakeLists.txt
similarity index 100%
rename from paddle/api/test/CMakeLists.txt
rename to paddle/legacy/api/test/CMakeLists.txt
diff --git a/paddle/api/test/testArguments.py b/paddle/legacy/api/test/testArguments.py
similarity index 100%
rename from paddle/api/test/testArguments.py
rename to paddle/legacy/api/test/testArguments.py
diff --git a/paddle/api/test/testGradientMachine.py b/paddle/legacy/api/test/testGradientMachine.py
similarity index 100%
rename from paddle/api/test/testGradientMachine.py
rename to paddle/legacy/api/test/testGradientMachine.py
diff --git a/paddle/api/test/testMatrix.py b/paddle/legacy/api/test/testMatrix.py
similarity index 100%
rename from paddle/api/test/testMatrix.py
rename to paddle/legacy/api/test/testMatrix.py
diff --git a/paddle/api/test/testTrain.py b/paddle/legacy/api/test/testTrain.py
similarity index 100%
rename from paddle/api/test/testTrain.py
rename to paddle/legacy/api/test/testTrain.py
diff --git a/paddle/api/test/testTrainConfig.py b/paddle/legacy/api/test/testTrainConfig.py
similarity index 100%
rename from paddle/api/test/testTrainConfig.py
rename to paddle/legacy/api/test/testTrainConfig.py
diff --git a/paddle/api/test/testTrainer.py b/paddle/legacy/api/test/testTrainer.py
similarity index 100%
rename from paddle/api/test/testTrainer.py
rename to paddle/legacy/api/test/testTrainer.py
diff --git a/paddle/api/test/testVector.py b/paddle/legacy/api/test/testVector.py
similarity index 100%
rename from paddle/api/test/testVector.py
rename to paddle/legacy/api/test/testVector.py
diff --git a/paddle/api/test/util.py b/paddle/legacy/api/test/util.py
similarity index 100%
rename from paddle/api/test/util.py
rename to paddle/legacy/api/test/util.py
diff --git a/paddle/capi/Arguments.cpp b/paddle/legacy/capi/Arguments.cpp
similarity index 100%
rename from paddle/capi/Arguments.cpp
rename to paddle/legacy/capi/Arguments.cpp
diff --git a/paddle/capi/CMakeLists.txt b/paddle/legacy/capi/CMakeLists.txt
similarity index 100%
rename from paddle/capi/CMakeLists.txt
rename to paddle/legacy/capi/CMakeLists.txt
diff --git a/paddle/capi/Main.cpp b/paddle/legacy/capi/Main.cpp
similarity index 100%
rename from paddle/capi/Main.cpp
rename to paddle/legacy/capi/Main.cpp
diff --git a/paddle/capi/Matrix.cpp b/paddle/legacy/capi/Matrix.cpp
similarity index 100%
rename from paddle/capi/Matrix.cpp
rename to paddle/legacy/capi/Matrix.cpp
diff --git a/paddle/capi/Vector.cpp b/paddle/legacy/capi/Vector.cpp
similarity index 100%
rename from paddle/capi/Vector.cpp
rename to paddle/legacy/capi/Vector.cpp
diff --git a/paddle/capi/arguments.h b/paddle/legacy/capi/arguments.h
similarity index 100%
rename from paddle/capi/arguments.h
rename to paddle/legacy/capi/arguments.h
diff --git a/paddle/capi/capi.h b/paddle/legacy/capi/capi.h
similarity index 100%
rename from paddle/capi/capi.h
rename to paddle/legacy/capi/capi.h
diff --git a/paddle/capi/capi_private.h b/paddle/legacy/capi/capi_private.h
similarity index 90%
rename from paddle/capi/capi_private.h
rename to paddle/legacy/capi/capi_private.h
index 3332f42a4a..e5f8c8c5c8 100644
--- a/paddle/capi/capi_private.h
+++ b/paddle/legacy/capi/capi_private.h
@@ -13,10 +13,10 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "capi.h"
-#include "paddle/gserver/gradientmachines/GradientMachine.h"
-#include "paddle/math/Matrix.h"
-#include "paddle/math/Vector.h"
-#include "paddle/parameter/Argument.h"
+#include "paddle/legacy/gserver/gradientmachines/GradientMachine.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/Vector.h"
+#include "paddle/legacy/parameter/Argument.h"
 #pragma once
 
 namespace paddle {
diff --git a/paddle/capi/config.h.in b/paddle/legacy/capi/config.h.in
similarity index 100%
rename from paddle/capi/config.h.in
rename to paddle/legacy/capi/config.h.in
diff --git a/paddle/capi/error.cpp b/paddle/legacy/capi/error.cpp
similarity index 100%
rename from paddle/capi/error.cpp
rename to paddle/legacy/capi/error.cpp
diff --git a/paddle/capi/error.h b/paddle/legacy/capi/error.h
similarity index 100%
rename from paddle/capi/error.h
rename to paddle/legacy/capi/error.h
diff --git a/paddle/capi/examples/.gitignore b/paddle/legacy/capi/examples/.gitignore
similarity index 100%
rename from paddle/capi/examples/.gitignore
rename to paddle/legacy/capi/examples/.gitignore
diff --git a/paddle/capi/examples/README.md b/paddle/legacy/capi/examples/README.md
similarity index 100%
rename from paddle/capi/examples/README.md
rename to paddle/legacy/capi/examples/README.md
diff --git a/paddle/capi/examples/model_inference/README.md b/paddle/legacy/capi/examples/model_inference/README.md
similarity index 100%
rename from paddle/capi/examples/model_inference/README.md
rename to paddle/legacy/capi/examples/model_inference/README.md
diff --git a/paddle/capi/examples/model_inference/common/common.h b/paddle/legacy/capi/examples/model_inference/common/common.h
similarity index 100%
rename from paddle/capi/examples/model_inference/common/common.h
rename to paddle/legacy/capi/examples/model_inference/common/common.h
diff --git a/paddle/capi/examples/model_inference/dense/CMakeLists.txt b/paddle/legacy/capi/examples/model_inference/dense/CMakeLists.txt
similarity index 100%
rename from paddle/capi/examples/model_inference/dense/CMakeLists.txt
rename to paddle/legacy/capi/examples/model_inference/dense/CMakeLists.txt
diff --git a/paddle/capi/examples/model_inference/dense/convert_protobin.sh b/paddle/legacy/capi/examples/model_inference/dense/convert_protobin.sh
similarity index 100%
rename from paddle/capi/examples/model_inference/dense/convert_protobin.sh
rename to paddle/legacy/capi/examples/model_inference/dense/convert_protobin.sh
diff --git a/paddle/capi/examples/model_inference/dense/main.c b/paddle/legacy/capi/examples/model_inference/dense/main.c
similarity index 100%
rename from paddle/capi/examples/model_inference/dense/main.c
rename to paddle/legacy/capi/examples/model_inference/dense/main.c
diff --git a/paddle/capi/examples/model_inference/dense/merge_v2_model.py b/paddle/legacy/capi/examples/model_inference/dense/merge_v2_model.py
similarity index 100%
rename from paddle/capi/examples/model_inference/dense/merge_v2_model.py
rename to paddle/legacy/capi/examples/model_inference/dense/merge_v2_model.py
diff --git a/paddle/capi/examples/model_inference/dense/mnist_v2.py b/paddle/legacy/capi/examples/model_inference/dense/mnist_v2.py
similarity index 100%
rename from paddle/capi/examples/model_inference/dense/mnist_v2.py
rename to paddle/legacy/capi/examples/model_inference/dense/mnist_v2.py
diff --git a/paddle/capi/examples/model_inference/dense/trainer_config.py b/paddle/legacy/capi/examples/model_inference/dense/trainer_config.py
similarity index 100%
rename from paddle/capi/examples/model_inference/dense/trainer_config.py
rename to paddle/legacy/capi/examples/model_inference/dense/trainer_config.py
diff --git a/paddle/capi/examples/model_inference/multi_thread/.gitignore b/paddle/legacy/capi/examples/model_inference/multi_thread/.gitignore
similarity index 100%
rename from paddle/capi/examples/model_inference/multi_thread/.gitignore
rename to paddle/legacy/capi/examples/model_inference/multi_thread/.gitignore
diff --git a/paddle/capi/examples/model_inference/multi_thread/CMakeLists.txt b/paddle/legacy/capi/examples/model_inference/multi_thread/CMakeLists.txt
similarity index 100%
rename from paddle/capi/examples/model_inference/multi_thread/CMakeLists.txt
rename to paddle/legacy/capi/examples/model_inference/multi_thread/CMakeLists.txt
diff --git a/paddle/capi/examples/model_inference/multi_thread/convert_protobin.sh b/paddle/legacy/capi/examples/model_inference/multi_thread/convert_protobin.sh
similarity index 100%
rename from paddle/capi/examples/model_inference/multi_thread/convert_protobin.sh
rename to paddle/legacy/capi/examples/model_inference/multi_thread/convert_protobin.sh
diff --git a/paddle/capi/examples/model_inference/multi_thread/main.c b/paddle/legacy/capi/examples/model_inference/multi_thread/main.c
similarity index 100%
rename from paddle/capi/examples/model_inference/multi_thread/main.c
rename to paddle/legacy/capi/examples/model_inference/multi_thread/main.c
diff --git a/paddle/capi/examples/model_inference/multi_thread/main_gpu.c b/paddle/legacy/capi/examples/model_inference/multi_thread/main_gpu.c
similarity index 100%
rename from paddle/capi/examples/model_inference/multi_thread/main_gpu.c
rename to paddle/legacy/capi/examples/model_inference/multi_thread/main_gpu.c
diff --git a/paddle/capi/examples/model_inference/multi_thread/trainer_config.py b/paddle/legacy/capi/examples/model_inference/multi_thread/trainer_config.py
similarity index 100%
rename from paddle/capi/examples/model_inference/multi_thread/trainer_config.py
rename to paddle/legacy/capi/examples/model_inference/multi_thread/trainer_config.py
diff --git a/paddle/capi/examples/model_inference/sequence/.gitignore b/paddle/legacy/capi/examples/model_inference/sequence/.gitignore
similarity index 100%
rename from paddle/capi/examples/model_inference/sequence/.gitignore
rename to paddle/legacy/capi/examples/model_inference/sequence/.gitignore
diff --git a/paddle/capi/examples/model_inference/sequence/CMakeLists.txt b/paddle/legacy/capi/examples/model_inference/sequence/CMakeLists.txt
similarity index 100%
rename from paddle/capi/examples/model_inference/sequence/CMakeLists.txt
rename to paddle/legacy/capi/examples/model_inference/sequence/CMakeLists.txt
diff --git a/paddle/capi/examples/model_inference/sequence/convert_protobin.sh b/paddle/legacy/capi/examples/model_inference/sequence/convert_protobin.sh
similarity index 100%
rename from paddle/capi/examples/model_inference/sequence/convert_protobin.sh
rename to paddle/legacy/capi/examples/model_inference/sequence/convert_protobin.sh
diff --git a/paddle/capi/examples/model_inference/sequence/main.c b/paddle/legacy/capi/examples/model_inference/sequence/main.c
similarity index 100%
rename from paddle/capi/examples/model_inference/sequence/main.c
rename to paddle/legacy/capi/examples/model_inference/sequence/main.c
diff --git a/paddle/capi/examples/model_inference/sequence/trainer_config.py b/paddle/legacy/capi/examples/model_inference/sequence/trainer_config.py
similarity index 100%
rename from paddle/capi/examples/model_inference/sequence/trainer_config.py
rename to paddle/legacy/capi/examples/model_inference/sequence/trainer_config.py
diff --git a/paddle/capi/examples/model_inference/sparse_binary/.gitignore b/paddle/legacy/capi/examples/model_inference/sparse_binary/.gitignore
similarity index 100%
rename from paddle/capi/examples/model_inference/sparse_binary/.gitignore
rename to paddle/legacy/capi/examples/model_inference/sparse_binary/.gitignore
diff --git a/paddle/capi/examples/model_inference/sparse_binary/CMakeLists.txt b/paddle/legacy/capi/examples/model_inference/sparse_binary/CMakeLists.txt
similarity index 100%
rename from paddle/capi/examples/model_inference/sparse_binary/CMakeLists.txt
rename to paddle/legacy/capi/examples/model_inference/sparse_binary/CMakeLists.txt
diff --git a/paddle/capi/examples/model_inference/sparse_binary/convert_protobin.sh b/paddle/legacy/capi/examples/model_inference/sparse_binary/convert_protobin.sh
similarity index 100%
rename from paddle/capi/examples/model_inference/sparse_binary/convert_protobin.sh
rename to paddle/legacy/capi/examples/model_inference/sparse_binary/convert_protobin.sh
diff --git a/paddle/capi/examples/model_inference/sparse_binary/main.c b/paddle/legacy/capi/examples/model_inference/sparse_binary/main.c
similarity index 100%
rename from paddle/capi/examples/model_inference/sparse_binary/main.c
rename to paddle/legacy/capi/examples/model_inference/sparse_binary/main.c
diff --git a/paddle/capi/examples/model_inference/sparse_binary/trainer_config.py b/paddle/legacy/capi/examples/model_inference/sparse_binary/trainer_config.py
similarity index 100%
rename from paddle/capi/examples/model_inference/sparse_binary/trainer_config.py
rename to paddle/legacy/capi/examples/model_inference/sparse_binary/trainer_config.py
diff --git a/paddle/capi/gradient_machine.cpp b/paddle/legacy/capi/gradient_machine.cpp
similarity index 98%
rename from paddle/capi/gradient_machine.cpp
rename to paddle/legacy/capi/gradient_machine.cpp
index 8c3f504e5a..0c5ddd856b 100644
--- a/paddle/capi/gradient_machine.cpp
+++ b/paddle/legacy/capi/gradient_machine.cpp
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #include "gradient_machine.h"
 #include "capi_private.h"
-#include "paddle/gserver/gradientmachines/NeuralNetwork.h"
+#include "paddle/legacy/gserver/gradientmachines/NeuralNetwork.h"
 
 #define cast(v) paddle::capi::cast<paddle::capi::CGradientMachine>(v)
 
diff --git a/paddle/capi/gradient_machine.h b/paddle/legacy/capi/gradient_machine.h
similarity index 100%
rename from paddle/capi/gradient_machine.h
rename to paddle/legacy/capi/gradient_machine.h
diff --git a/paddle/capi/main.h b/paddle/legacy/capi/main.h
similarity index 100%
rename from paddle/capi/main.h
rename to paddle/legacy/capi/main.h
diff --git a/paddle/capi/matrix.h b/paddle/legacy/capi/matrix.h
similarity index 100%
rename from paddle/capi/matrix.h
rename to paddle/legacy/capi/matrix.h
diff --git a/paddle/capi/paddle_capi.map b/paddle/legacy/capi/paddle_capi.map
similarity index 100%
rename from paddle/capi/paddle_capi.map
rename to paddle/legacy/capi/paddle_capi.map
diff --git a/paddle/capi/tests/.gitignore b/paddle/legacy/capi/tests/.gitignore
similarity index 100%
rename from paddle/capi/tests/.gitignore
rename to paddle/legacy/capi/tests/.gitignore
diff --git a/paddle/capi/tests/CMakeLists.txt b/paddle/legacy/capi/tests/CMakeLists.txt
similarity index 100%
rename from paddle/capi/tests/CMakeLists.txt
rename to paddle/legacy/capi/tests/CMakeLists.txt
diff --git a/paddle/capi/tests/test_Arguments.cpp b/paddle/legacy/capi/tests/test_Arguments.cpp
similarity index 100%
rename from paddle/capi/tests/test_Arguments.cpp
rename to paddle/legacy/capi/tests/test_Arguments.cpp
diff --git a/paddle/capi/tests/test_GradientMachine.cpp b/paddle/legacy/capi/tests/test_GradientMachine.cpp
similarity index 98%
rename from paddle/capi/tests/test_GradientMachine.cpp
rename to paddle/legacy/capi/tests/test_GradientMachine.cpp
index 73b9e477b2..2c02669ccf 100644
--- a/paddle/capi/tests/test_GradientMachine.cpp
+++ b/paddle/legacy/capi/tests/test_GradientMachine.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include <gtest/gtest.h>
-#include <paddle/gserver/gradientmachines/GradientMachine.h>
+#include <paddle/legacy/gserver/gradientmachines/GradientMachine.h>
 #include <paddle/trainer/TrainerConfigHelper.h>
 #include <stdlib.h>
 #include <string.h>
diff --git a/paddle/capi/tests/test_Matrix.cpp b/paddle/legacy/capi/tests/test_Matrix.cpp
similarity index 100%
rename from paddle/capi/tests/test_Matrix.cpp
rename to paddle/legacy/capi/tests/test_Matrix.cpp
diff --git a/paddle/capi/tests/test_Vector.cpp b/paddle/legacy/capi/tests/test_Vector.cpp
similarity index 100%
rename from paddle/capi/tests/test_Vector.cpp
rename to paddle/legacy/capi/tests/test_Vector.cpp
diff --git a/paddle/capi/tests/test_predict_network.py b/paddle/legacy/capi/tests/test_predict_network.py
similarity index 100%
rename from paddle/capi/tests/test_predict_network.py
rename to paddle/legacy/capi/tests/test_predict_network.py
diff --git a/paddle/capi/vector.h b/paddle/legacy/capi/vector.h
similarity index 100%
rename from paddle/capi/vector.h
rename to paddle/legacy/capi/vector.h
diff --git a/paddle/cuda/CMakeLists.txt b/paddle/legacy/cuda/CMakeLists.txt
similarity index 100%
rename from paddle/cuda/CMakeLists.txt
rename to paddle/legacy/cuda/CMakeLists.txt
diff --git a/paddle/cuda/include/hl_activation_functions.h b/paddle/legacy/cuda/include/hl_activation_functions.h
similarity index 100%
rename from paddle/cuda/include/hl_activation_functions.h
rename to paddle/legacy/cuda/include/hl_activation_functions.h
diff --git a/paddle/cuda/include/hl_aggregate.h b/paddle/legacy/cuda/include/hl_aggregate.h
similarity index 100%
rename from paddle/cuda/include/hl_aggregate.h
rename to paddle/legacy/cuda/include/hl_aggregate.h
diff --git a/paddle/cuda/include/hl_avx_functions.h b/paddle/legacy/cuda/include/hl_avx_functions.h
similarity index 100%
rename from paddle/cuda/include/hl_avx_functions.h
rename to paddle/legacy/cuda/include/hl_avx_functions.h
diff --git a/paddle/cuda/include/hl_base.h b/paddle/legacy/cuda/include/hl_base.h
similarity index 99%
rename from paddle/cuda/include/hl_base.h
rename to paddle/legacy/cuda/include/hl_base.h
index 77f5d82dbe..8451d2546d 100644
--- a/paddle/cuda/include/hl_base.h
+++ b/paddle/legacy/cuda/include/hl_base.h
@@ -207,7 +207,7 @@ typedef struct {
 #ifdef __NVCC__
 
 #include <cuda_runtime.h>
-#include "paddle/cuda/include/hl_cuda.h"
+#include "paddle/legacy/cuda/include/hl_cuda.h"
 #include "paddle/utils/Logging.h"
 
 extern __thread bool g_sync_flag;
diff --git a/paddle/cuda/include/hl_batch_norm.h b/paddle/legacy/cuda/include/hl_batch_norm.h
similarity index 100%
rename from paddle/cuda/include/hl_batch_norm.h
rename to paddle/legacy/cuda/include/hl_batch_norm.h
diff --git a/paddle/cuda/include/hl_batch_transpose.h b/paddle/legacy/cuda/include/hl_batch_transpose.h
similarity index 100%
rename from paddle/cuda/include/hl_batch_transpose.h
rename to paddle/legacy/cuda/include/hl_batch_transpose.h
diff --git a/paddle/cuda/include/hl_cnn.h b/paddle/legacy/cuda/include/hl_cnn.h
similarity index 100%
rename from paddle/cuda/include/hl_cnn.h
rename to paddle/legacy/cuda/include/hl_cnn.h
diff --git a/paddle/cuda/include/hl_cpu_gru.cuh b/paddle/legacy/cuda/include/hl_cpu_gru.cuh
similarity index 100%
rename from paddle/cuda/include/hl_cpu_gru.cuh
rename to paddle/legacy/cuda/include/hl_cpu_gru.cuh
diff --git a/paddle/cuda/include/hl_cpu_lstm.cuh b/paddle/legacy/cuda/include/hl_cpu_lstm.cuh
similarity index 100%
rename from paddle/cuda/include/hl_cpu_lstm.cuh
rename to paddle/legacy/cuda/include/hl_cpu_lstm.cuh
diff --git a/paddle/cuda/include/hl_cpu_matrix_kernel.cuh b/paddle/legacy/cuda/include/hl_cpu_matrix_kernel.cuh
similarity index 100%
rename from paddle/cuda/include/hl_cpu_matrix_kernel.cuh
rename to paddle/legacy/cuda/include/hl_cpu_matrix_kernel.cuh
diff --git a/paddle/cuda/include/hl_cpu_matrix_kernel_detail.cuh b/paddle/legacy/cuda/include/hl_cpu_matrix_kernel_detail.cuh
similarity index 100%
rename from paddle/cuda/include/hl_cpu_matrix_kernel_detail.cuh
rename to paddle/legacy/cuda/include/hl_cpu_matrix_kernel_detail.cuh
diff --git a/paddle/cuda/include/hl_cpu_scalar.cuh b/paddle/legacy/cuda/include/hl_cpu_scalar.cuh
similarity index 100%
rename from paddle/cuda/include/hl_cpu_scalar.cuh
rename to paddle/legacy/cuda/include/hl_cpu_scalar.cuh
diff --git a/paddle/cuda/include/hl_cpu_simd_neon.cuh b/paddle/legacy/cuda/include/hl_cpu_simd_neon.cuh
similarity index 100%
rename from paddle/cuda/include/hl_cpu_simd_neon.cuh
rename to paddle/legacy/cuda/include/hl_cpu_simd_neon.cuh
diff --git a/paddle/cuda/include/hl_cpu_simd_sse.cuh b/paddle/legacy/cuda/include/hl_cpu_simd_sse.cuh
similarity index 100%
rename from paddle/cuda/include/hl_cpu_simd_sse.cuh
rename to paddle/legacy/cuda/include/hl_cpu_simd_sse.cuh
diff --git a/paddle/cuda/include/hl_cuda.h b/paddle/legacy/cuda/include/hl_cuda.h
similarity index 100%
rename from paddle/cuda/include/hl_cuda.h
rename to paddle/legacy/cuda/include/hl_cuda.h
diff --git a/paddle/cuda/include/hl_cuda.ph b/paddle/legacy/cuda/include/hl_cuda.ph
similarity index 100%
rename from paddle/cuda/include/hl_cuda.ph
rename to paddle/legacy/cuda/include/hl_cuda.ph
diff --git a/paddle/cuda/include/hl_cuda_cublas.h b/paddle/legacy/cuda/include/hl_cuda_cublas.h
similarity index 100%
rename from paddle/cuda/include/hl_cuda_cublas.h
rename to paddle/legacy/cuda/include/hl_cuda_cublas.h
diff --git a/paddle/cuda/include/hl_cuda_cudnn.h b/paddle/legacy/cuda/include/hl_cuda_cudnn.h
similarity index 100%
rename from paddle/cuda/include/hl_cuda_cudnn.h
rename to paddle/legacy/cuda/include/hl_cuda_cudnn.h
diff --git a/paddle/cuda/include/hl_cuda_cudnn.ph b/paddle/legacy/cuda/include/hl_cuda_cudnn.ph
similarity index 100%
rename from paddle/cuda/include/hl_cuda_cudnn.ph
rename to paddle/legacy/cuda/include/hl_cuda_cudnn.ph
diff --git a/paddle/cuda/include/hl_device_functions.cuh b/paddle/legacy/cuda/include/hl_device_functions.cuh
similarity index 100%
rename from paddle/cuda/include/hl_device_functions.cuh
rename to paddle/legacy/cuda/include/hl_device_functions.cuh
diff --git a/paddle/cuda/include/hl_functions.h b/paddle/legacy/cuda/include/hl_functions.h
similarity index 100%
rename from paddle/cuda/include/hl_functions.h
rename to paddle/legacy/cuda/include/hl_functions.h
diff --git a/paddle/cuda/include/hl_gpu.h b/paddle/legacy/cuda/include/hl_gpu.h
similarity index 100%
rename from paddle/cuda/include/hl_gpu.h
rename to paddle/legacy/cuda/include/hl_gpu.h
diff --git a/paddle/cuda/include/hl_gpu_functions.cuh b/paddle/legacy/cuda/include/hl_gpu_functions.cuh
similarity index 100%
rename from paddle/cuda/include/hl_gpu_functions.cuh
rename to paddle/legacy/cuda/include/hl_gpu_functions.cuh
diff --git a/paddle/cuda/include/hl_gpu_gru.cuh b/paddle/legacy/cuda/include/hl_gpu_gru.cuh
similarity index 100%
rename from paddle/cuda/include/hl_gpu_gru.cuh
rename to paddle/legacy/cuda/include/hl_gpu_gru.cuh
diff --git a/paddle/cuda/include/hl_gpu_lstm.cuh b/paddle/legacy/cuda/include/hl_gpu_lstm.cuh
similarity index 100%
rename from paddle/cuda/include/hl_gpu_lstm.cuh
rename to paddle/legacy/cuda/include/hl_gpu_lstm.cuh
diff --git a/paddle/cuda/include/hl_gpu_matrix_kernel.cuh b/paddle/legacy/cuda/include/hl_gpu_matrix_kernel.cuh
similarity index 100%
rename from paddle/cuda/include/hl_gpu_matrix_kernel.cuh
rename to paddle/legacy/cuda/include/hl_gpu_matrix_kernel.cuh
diff --git a/paddle/cuda/include/hl_gru_ops.cuh b/paddle/legacy/cuda/include/hl_gru_ops.cuh
similarity index 100%
rename from paddle/cuda/include/hl_gru_ops.cuh
rename to paddle/legacy/cuda/include/hl_gru_ops.cuh
diff --git a/paddle/cuda/include/hl_lstm.h b/paddle/legacy/cuda/include/hl_lstm.h
similarity index 100%
rename from paddle/cuda/include/hl_lstm.h
rename to paddle/legacy/cuda/include/hl_lstm.h
diff --git a/paddle/cuda/include/hl_lstm_ops.cuh b/paddle/legacy/cuda/include/hl_lstm_ops.cuh
similarity index 100%
rename from paddle/cuda/include/hl_lstm_ops.cuh
rename to paddle/legacy/cuda/include/hl_lstm_ops.cuh
diff --git a/paddle/cuda/include/hl_matrix.h b/paddle/legacy/cuda/include/hl_matrix.h
similarity index 100%
rename from paddle/cuda/include/hl_matrix.h
rename to paddle/legacy/cuda/include/hl_matrix.h
diff --git a/paddle/cuda/include/hl_matrix_apply.cuh b/paddle/legacy/cuda/include/hl_matrix_apply.cuh
similarity index 100%
rename from paddle/cuda/include/hl_matrix_apply.cuh
rename to paddle/legacy/cuda/include/hl_matrix_apply.cuh
diff --git a/paddle/cuda/include/hl_matrix_base.cuh b/paddle/legacy/cuda/include/hl_matrix_base.cuh
similarity index 100%
rename from paddle/cuda/include/hl_matrix_base.cuh
rename to paddle/legacy/cuda/include/hl_matrix_base.cuh
diff --git a/paddle/cuda/include/hl_matrix_base_detail.cuh b/paddle/legacy/cuda/include/hl_matrix_base_detail.cuh
similarity index 100%
rename from paddle/cuda/include/hl_matrix_base_detail.cuh
rename to paddle/legacy/cuda/include/hl_matrix_base_detail.cuh
diff --git a/paddle/cuda/include/hl_matrix_ops.cuh b/paddle/legacy/cuda/include/hl_matrix_ops.cuh
similarity index 100%
rename from paddle/cuda/include/hl_matrix_ops.cuh
rename to paddle/legacy/cuda/include/hl_matrix_ops.cuh
diff --git a/paddle/cuda/include/hl_matrix_type.cuh b/paddle/legacy/cuda/include/hl_matrix_type.cuh
similarity index 100%
rename from paddle/cuda/include/hl_matrix_type.cuh
rename to paddle/legacy/cuda/include/hl_matrix_type.cuh
diff --git a/paddle/cuda/include/hl_perturbation_util.cuh b/paddle/legacy/cuda/include/hl_perturbation_util.cuh
similarity index 100%
rename from paddle/cuda/include/hl_perturbation_util.cuh
rename to paddle/legacy/cuda/include/hl_perturbation_util.cuh
diff --git a/paddle/cuda/include/hl_recurrent_apply.cuh b/paddle/legacy/cuda/include/hl_recurrent_apply.cuh
similarity index 100%
rename from paddle/cuda/include/hl_recurrent_apply.cuh
rename to paddle/legacy/cuda/include/hl_recurrent_apply.cuh
diff --git a/paddle/cuda/include/hl_sequence.h b/paddle/legacy/cuda/include/hl_sequence.h
similarity index 100%
rename from paddle/cuda/include/hl_sequence.h
rename to paddle/legacy/cuda/include/hl_sequence.h
diff --git a/paddle/cuda/include/hl_sparse.h b/paddle/legacy/cuda/include/hl_sparse.h
similarity index 100%
rename from paddle/cuda/include/hl_sparse.h
rename to paddle/legacy/cuda/include/hl_sparse.h
diff --git a/paddle/cuda/include/hl_sparse.ph b/paddle/legacy/cuda/include/hl_sparse.ph
similarity index 100%
rename from paddle/cuda/include/hl_sparse.ph
rename to paddle/legacy/cuda/include/hl_sparse.ph
diff --git a/paddle/cuda/include/hl_table_apply.h b/paddle/legacy/cuda/include/hl_table_apply.h
similarity index 100%
rename from paddle/cuda/include/hl_table_apply.h
rename to paddle/legacy/cuda/include/hl_table_apply.h
diff --git a/paddle/cuda/include/hl_tensor_ops.h b/paddle/legacy/cuda/include/hl_tensor_ops.h
similarity index 100%
rename from paddle/cuda/include/hl_tensor_ops.h
rename to paddle/legacy/cuda/include/hl_tensor_ops.h
diff --git a/paddle/cuda/include/hl_thread.ph b/paddle/legacy/cuda/include/hl_thread.ph
similarity index 100%
rename from paddle/cuda/include/hl_thread.ph
rename to paddle/legacy/cuda/include/hl_thread.ph
diff --git a/paddle/cuda/include/hl_time.h b/paddle/legacy/cuda/include/hl_time.h
similarity index 100%
rename from paddle/cuda/include/hl_time.h
rename to paddle/legacy/cuda/include/hl_time.h
diff --git a/paddle/cuda/include/hl_top_k.h b/paddle/legacy/cuda/include/hl_top_k.h
similarity index 100%
rename from paddle/cuda/include/hl_top_k.h
rename to paddle/legacy/cuda/include/hl_top_k.h
diff --git a/paddle/cuda/include/hl_warpctc_wrap.h b/paddle/legacy/cuda/include/hl_warpctc_wrap.h
similarity index 100%
rename from paddle/cuda/include/hl_warpctc_wrap.h
rename to paddle/legacy/cuda/include/hl_warpctc_wrap.h
diff --git a/paddle/cuda/include/stub/hl_aggregate_stub.h b/paddle/legacy/cuda/include/stub/hl_aggregate_stub.h
similarity index 100%
rename from paddle/cuda/include/stub/hl_aggregate_stub.h
rename to paddle/legacy/cuda/include/stub/hl_aggregate_stub.h
diff --git a/paddle/cuda/include/stub/hl_cnn_stub.h b/paddle/legacy/cuda/include/stub/hl_cnn_stub.h
similarity index 100%
rename from paddle/cuda/include/stub/hl_cnn_stub.h
rename to paddle/legacy/cuda/include/stub/hl_cnn_stub.h
diff --git a/paddle/cuda/include/stub/hl_cuda_cublas_stub.h b/paddle/legacy/cuda/include/stub/hl_cuda_cublas_stub.h
similarity index 100%
rename from paddle/cuda/include/stub/hl_cuda_cublas_stub.h
rename to paddle/legacy/cuda/include/stub/hl_cuda_cublas_stub.h
diff --git a/paddle/cuda/include/stub/hl_cuda_cudnn_stub.h b/paddle/legacy/cuda/include/stub/hl_cuda_cudnn_stub.h
similarity index 100%
rename from paddle/cuda/include/stub/hl_cuda_cudnn_stub.h
rename to paddle/legacy/cuda/include/stub/hl_cuda_cudnn_stub.h
diff --git a/paddle/cuda/include/stub/hl_cuda_stub.h b/paddle/legacy/cuda/include/stub/hl_cuda_stub.h
similarity index 100%
rename from paddle/cuda/include/stub/hl_cuda_stub.h
rename to paddle/legacy/cuda/include/stub/hl_cuda_stub.h
diff --git a/paddle/cuda/include/stub/hl_lstm_stub.h b/paddle/legacy/cuda/include/stub/hl_lstm_stub.h
similarity index 100%
rename from paddle/cuda/include/stub/hl_lstm_stub.h
rename to paddle/legacy/cuda/include/stub/hl_lstm_stub.h
diff --git a/paddle/cuda/include/stub/hl_matrix_stub.h b/paddle/legacy/cuda/include/stub/hl_matrix_stub.h
similarity index 100%
rename from paddle/cuda/include/stub/hl_matrix_stub.h
rename to paddle/legacy/cuda/include/stub/hl_matrix_stub.h
diff --git a/paddle/cuda/include/stub/hl_sequence_stub.h b/paddle/legacy/cuda/include/stub/hl_sequence_stub.h
similarity index 100%
rename from paddle/cuda/include/stub/hl_sequence_stub.h
rename to paddle/legacy/cuda/include/stub/hl_sequence_stub.h
diff --git a/paddle/cuda/include/stub/hl_sparse_stub.h b/paddle/legacy/cuda/include/stub/hl_sparse_stub.h
similarity index 100%
rename from paddle/cuda/include/stub/hl_sparse_stub.h
rename to paddle/legacy/cuda/include/stub/hl_sparse_stub.h
diff --git a/paddle/cuda/src/avx_mathfun.h b/paddle/legacy/cuda/src/avx_mathfun.h
similarity index 100%
rename from paddle/cuda/src/avx_mathfun.h
rename to paddle/legacy/cuda/src/avx_mathfun.h
diff --git a/paddle/cuda/src/hl_avx_functions.cc b/paddle/legacy/cuda/src/hl_avx_functions.cc
similarity index 100%
rename from paddle/cuda/src/hl_avx_functions.cc
rename to paddle/legacy/cuda/src/hl_avx_functions.cc
diff --git a/paddle/cuda/src/hl_batch_norm.cu b/paddle/legacy/cuda/src/hl_batch_norm.cu
similarity index 100%
rename from paddle/cuda/src/hl_batch_norm.cu
rename to paddle/legacy/cuda/src/hl_batch_norm.cu
diff --git a/paddle/cuda/src/hl_batch_transpose.cu b/paddle/legacy/cuda/src/hl_batch_transpose.cu
similarity index 100%
rename from paddle/cuda/src/hl_batch_transpose.cu
rename to paddle/legacy/cuda/src/hl_batch_transpose.cu
diff --git a/paddle/cuda/src/hl_cpu_functions.cc b/paddle/legacy/cuda/src/hl_cpu_functions.cc
similarity index 100%
rename from paddle/cuda/src/hl_cpu_functions.cc
rename to paddle/legacy/cuda/src/hl_cpu_functions.cc
diff --git a/paddle/cuda/src/hl_cuda_aggregate.cu b/paddle/legacy/cuda/src/hl_cuda_aggregate.cu
similarity index 100%
rename from paddle/cuda/src/hl_cuda_aggregate.cu
rename to paddle/legacy/cuda/src/hl_cuda_aggregate.cu
diff --git a/paddle/cuda/src/hl_cuda_cnn.cu b/paddle/legacy/cuda/src/hl_cuda_cnn.cu
similarity index 100%
rename from paddle/cuda/src/hl_cuda_cnn.cu
rename to paddle/legacy/cuda/src/hl_cuda_cnn.cu
diff --git a/paddle/cuda/src/hl_cuda_cublas.cc b/paddle/legacy/cuda/src/hl_cuda_cublas.cc
similarity index 100%
rename from paddle/cuda/src/hl_cuda_cublas.cc
rename to paddle/legacy/cuda/src/hl_cuda_cublas.cc
diff --git a/paddle/cuda/src/hl_cuda_cudnn.cc b/paddle/legacy/cuda/src/hl_cuda_cudnn.cc
similarity index 100%
rename from paddle/cuda/src/hl_cuda_cudnn.cc
rename to paddle/legacy/cuda/src/hl_cuda_cudnn.cc
diff --git a/paddle/cuda/src/hl_cuda_device.cc b/paddle/legacy/cuda/src/hl_cuda_device.cc
similarity index 100%
rename from paddle/cuda/src/hl_cuda_device.cc
rename to paddle/legacy/cuda/src/hl_cuda_device.cc
diff --git a/paddle/cuda/src/hl_cuda_lstm.cu b/paddle/legacy/cuda/src/hl_cuda_lstm.cu
similarity index 100%
rename from paddle/cuda/src/hl_cuda_lstm.cu
rename to paddle/legacy/cuda/src/hl_cuda_lstm.cu
diff --git a/paddle/cuda/src/hl_cuda_matrix.cu b/paddle/legacy/cuda/src/hl_cuda_matrix.cu
similarity index 100%
rename from paddle/cuda/src/hl_cuda_matrix.cu
rename to paddle/legacy/cuda/src/hl_cuda_matrix.cu
diff --git a/paddle/cuda/src/hl_cuda_sequence.cu b/paddle/legacy/cuda/src/hl_cuda_sequence.cu
similarity index 100%
rename from paddle/cuda/src/hl_cuda_sequence.cu
rename to paddle/legacy/cuda/src/hl_cuda_sequence.cu
diff --git a/paddle/cuda/src/hl_cuda_sparse.cu b/paddle/legacy/cuda/src/hl_cuda_sparse.cu
similarity index 100%
rename from paddle/cuda/src/hl_cuda_sparse.cu
rename to paddle/legacy/cuda/src/hl_cuda_sparse.cu
diff --git a/paddle/cuda/src/hl_cuda_sparse.cuh b/paddle/legacy/cuda/src/hl_cuda_sparse.cuh
similarity index 100%
rename from paddle/cuda/src/hl_cuda_sparse.cuh
rename to paddle/legacy/cuda/src/hl_cuda_sparse.cuh
diff --git a/paddle/cuda/src/hl_math.cc b/paddle/legacy/cuda/src/hl_math.cc
similarity index 100%
rename from paddle/cuda/src/hl_math.cc
rename to paddle/legacy/cuda/src/hl_math.cc
diff --git a/paddle/cuda/src/hl_perturbation_util.cu b/paddle/legacy/cuda/src/hl_perturbation_util.cu
similarity index 100%
rename from paddle/cuda/src/hl_perturbation_util.cu
rename to paddle/legacy/cuda/src/hl_perturbation_util.cu
diff --git a/paddle/cuda/src/hl_table_apply.cu b/paddle/legacy/cuda/src/hl_table_apply.cu
similarity index 100%
rename from paddle/cuda/src/hl_table_apply.cu
rename to paddle/legacy/cuda/src/hl_table_apply.cu
diff --git a/paddle/cuda/src/hl_time.cc b/paddle/legacy/cuda/src/hl_time.cc
similarity index 100%
rename from paddle/cuda/src/hl_time.cc
rename to paddle/legacy/cuda/src/hl_time.cc
diff --git a/paddle/cuda/src/hl_top_k.cu b/paddle/legacy/cuda/src/hl_top_k.cu
similarity index 98%
rename from paddle/cuda/src/hl_top_k.cu
rename to paddle/legacy/cuda/src/hl_top_k.cu
index b17290557c..14b9a7f50f 100644
--- a/paddle/cuda/src/hl_top_k.cu
+++ b/paddle/legacy/cuda/src/hl_top_k.cu
@@ -12,9 +12,9 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 
-#include "paddle/cuda/include/hl_base.h"
-#include "paddle/cuda/include/hl_sparse.ph"
-#include "paddle/cuda/include/hl_top_k.h"
+#include "paddle/legacy/cuda/include/hl_base.h"
+#include "paddle/legacy/cuda/include/hl_sparse.ph"
+#include "paddle/legacy/cuda/include/hl_top_k.h"
 #include "paddle/utils/Logging.h"
 
 // using namespace hppl;
diff --git a/paddle/cuda/src/hl_warpctc_wrap.cc b/paddle/legacy/cuda/src/hl_warpctc_wrap.cc
similarity index 100%
rename from paddle/cuda/src/hl_warpctc_wrap.cc
rename to paddle/legacy/cuda/src/hl_warpctc_wrap.cc
diff --git a/paddle/function/BlockExpandOp.cpp b/paddle/legacy/function/BlockExpandOp.cpp
similarity index 100%
rename from paddle/function/BlockExpandOp.cpp
rename to paddle/legacy/function/BlockExpandOp.cpp
diff --git a/paddle/function/BlockExpandOpTest.cpp b/paddle/legacy/function/BlockExpandOpTest.cpp
similarity index 100%
rename from paddle/function/BlockExpandOpTest.cpp
rename to paddle/legacy/function/BlockExpandOpTest.cpp
diff --git a/paddle/function/BufferArg.cpp b/paddle/legacy/function/BufferArg.cpp
similarity index 97%
rename from paddle/function/BufferArg.cpp
rename to paddle/legacy/function/BufferArg.cpp
index 2dc931c5d7..1f3d505c31 100644
--- a/paddle/function/BufferArg.cpp
+++ b/paddle/legacy/function/BufferArg.cpp
@@ -15,7 +15,7 @@ limitations under the License. */
 #include <glog/logging.h>
 
 #include "BufferArg.h"
-#include "paddle/math/SparseMatrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
 
 namespace paddle {
 
diff --git a/paddle/function/BufferArg.h b/paddle/legacy/function/BufferArg.h
similarity index 99%
rename from paddle/function/BufferArg.h
rename to paddle/legacy/function/BufferArg.h
index 6de8c94e77..1f47ad556d 100644
--- a/paddle/function/BufferArg.h
+++ b/paddle/legacy/function/BufferArg.h
@@ -18,7 +18,7 @@ limitations under the License. */
 
 #include "TensorShape.h"
 #include "TensorType.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/function/BufferArgTest.cpp b/paddle/legacy/function/BufferArgTest.cpp
similarity index 96%
rename from paddle/function/BufferArgTest.cpp
rename to paddle/legacy/function/BufferArgTest.cpp
index 1a6e0110af..1ec153bea8 100644
--- a/paddle/function/BufferArgTest.cpp
+++ b/paddle/legacy/function/BufferArgTest.cpp
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #include "BufferArg.h"
 #include <gtest/gtest.h>
-#include "paddle/math/MemoryHandle.h"
+#include "paddle/legacy/math/MemoryHandle.h"
 
 namespace paddle {
 
diff --git a/paddle/function/CMakeLists.txt b/paddle/legacy/function/CMakeLists.txt
similarity index 100%
rename from paddle/function/CMakeLists.txt
rename to paddle/legacy/function/CMakeLists.txt
diff --git a/paddle/function/ContextProjectionOp.cpp b/paddle/legacy/function/ContextProjectionOp.cpp
similarity index 99%
rename from paddle/function/ContextProjectionOp.cpp
rename to paddle/legacy/function/ContextProjectionOp.cpp
index 1187842452..05a3f91586 100644
--- a/paddle/function/ContextProjectionOp.cpp
+++ b/paddle/legacy/function/ContextProjectionOp.cpp
@@ -13,8 +13,8 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "ContextProjectionOp.h"
-#include "paddle/math/Matrix.h"
-#include "paddle/math/Vector.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/Vector.h"
 
 namespace paddle {
 /**
diff --git a/paddle/function/ContextProjectionOp.h b/paddle/legacy/function/ContextProjectionOp.h
similarity index 100%
rename from paddle/function/ContextProjectionOp.h
rename to paddle/legacy/function/ContextProjectionOp.h
diff --git a/paddle/function/ContextProjectionOpGpu.cu b/paddle/legacy/function/ContextProjectionOpGpu.cu
similarity index 100%
rename from paddle/function/ContextProjectionOpGpu.cu
rename to paddle/legacy/function/ContextProjectionOpGpu.cu
diff --git a/paddle/function/ContextProjectionOpTest.cpp b/paddle/legacy/function/ContextProjectionOpTest.cpp
similarity index 99%
rename from paddle/function/ContextProjectionOpTest.cpp
rename to paddle/legacy/function/ContextProjectionOpTest.cpp
index d805c3ae92..3b0a34567f 100644
--- a/paddle/function/ContextProjectionOpTest.cpp
+++ b/paddle/legacy/function/ContextProjectionOpTest.cpp
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #include <gtest/gtest.h>
 #include "FunctionTest.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/testing/TestUtil.h"
 
 using namespace paddle;  // NOLINT
diff --git a/paddle/function/ConvOp.h b/paddle/legacy/function/ConvOp.h
similarity index 100%
rename from paddle/function/ConvOp.h
rename to paddle/legacy/function/ConvOp.h
diff --git a/paddle/function/ConvOpTest.h b/paddle/legacy/function/ConvOpTest.h
similarity index 100%
rename from paddle/function/ConvOpTest.h
rename to paddle/legacy/function/ConvOpTest.h
diff --git a/paddle/function/CosSimOp.cpp b/paddle/legacy/function/CosSimOp.cpp
similarity index 99%
rename from paddle/function/CosSimOp.cpp
rename to paddle/legacy/function/CosSimOp.cpp
index 2c25e1af44..d04f4396ca 100644
--- a/paddle/function/CosSimOp.cpp
+++ b/paddle/legacy/function/CosSimOp.cpp
@@ -13,8 +13,8 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "CosSimOp.h"
-#include "paddle/math/Matrix.h"
-#include "paddle/math/Vector.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/Vector.h"
 
 namespace paddle {
 /**
diff --git a/paddle/function/CosSimOp.h b/paddle/legacy/function/CosSimOp.h
similarity index 100%
rename from paddle/function/CosSimOp.h
rename to paddle/legacy/function/CosSimOp.h
diff --git a/paddle/function/CosSimOpGpu.cu b/paddle/legacy/function/CosSimOpGpu.cu
similarity index 100%
rename from paddle/function/CosSimOpGpu.cu
rename to paddle/legacy/function/CosSimOpGpu.cu
diff --git a/paddle/function/CosSimOpTest.cpp b/paddle/legacy/function/CosSimOpTest.cpp
similarity index 98%
rename from paddle/function/CosSimOpTest.cpp
rename to paddle/legacy/function/CosSimOpTest.cpp
index 42b02da0cb..31bb43e1ba 100644
--- a/paddle/function/CosSimOpTest.cpp
+++ b/paddle/legacy/function/CosSimOpTest.cpp
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #include <gtest/gtest.h>
 #include "FunctionTest.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 using namespace paddle;  // NOLINT
 
diff --git a/paddle/function/CropOp.cpp b/paddle/legacy/function/CropOp.cpp
similarity index 98%
rename from paddle/function/CropOp.cpp
rename to paddle/legacy/function/CropOp.cpp
index 5bd98910fe..e22678822f 100644
--- a/paddle/function/CropOp.cpp
+++ b/paddle/legacy/function/CropOp.cpp
@@ -13,8 +13,8 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "CropOp.h"
-#include "paddle/function/TensorShape.h"
-#include "paddle/math/Vector.h"
+#include "paddle/legacy/function/TensorShape.h"
+#include "paddle/legacy/math/Vector.h"
 
 namespace paddle {
 
diff --git a/paddle/function/CropOp.h b/paddle/legacy/function/CropOp.h
similarity index 100%
rename from paddle/function/CropOp.h
rename to paddle/legacy/function/CropOp.h
diff --git a/paddle/function/CropOpGpu.cu b/paddle/legacy/function/CropOpGpu.cu
similarity index 100%
rename from paddle/function/CropOpGpu.cu
rename to paddle/legacy/function/CropOpGpu.cu
diff --git a/paddle/function/CropOpTest.cpp b/paddle/legacy/function/CropOpTest.cpp
similarity index 100%
rename from paddle/function/CropOpTest.cpp
rename to paddle/legacy/function/CropOpTest.cpp
diff --git a/paddle/function/CrossMapNormalOp.cpp b/paddle/legacy/function/CrossMapNormalOp.cpp
similarity index 99%
rename from paddle/function/CrossMapNormalOp.cpp
rename to paddle/legacy/function/CrossMapNormalOp.cpp
index 7ff9227e5c..f28703af00 100644
--- a/paddle/function/CrossMapNormalOp.cpp
+++ b/paddle/legacy/function/CrossMapNormalOp.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "CrossMapNormalOp.h"
-#include "paddle/math/Vector.h"
+#include "paddle/legacy/math/Vector.h"
 
 namespace paddle {
 
diff --git a/paddle/function/CrossMapNormalOp.h b/paddle/legacy/function/CrossMapNormalOp.h
similarity index 100%
rename from paddle/function/CrossMapNormalOp.h
rename to paddle/legacy/function/CrossMapNormalOp.h
diff --git a/paddle/function/CrossMapNormalOpGpu.cu b/paddle/legacy/function/CrossMapNormalOpGpu.cu
similarity index 100%
rename from paddle/function/CrossMapNormalOpGpu.cu
rename to paddle/legacy/function/CrossMapNormalOpGpu.cu
diff --git a/paddle/function/CrossMapNormalOpTest.cpp b/paddle/legacy/function/CrossMapNormalOpTest.cpp
similarity index 100%
rename from paddle/function/CrossMapNormalOpTest.cpp
rename to paddle/legacy/function/CrossMapNormalOpTest.cpp
diff --git a/paddle/function/DepthwiseConvOp.cpp b/paddle/legacy/function/DepthwiseConvOp.cpp
similarity index 100%
rename from paddle/function/DepthwiseConvOp.cpp
rename to paddle/legacy/function/DepthwiseConvOp.cpp
diff --git a/paddle/function/DepthwiseConvOp.h b/paddle/legacy/function/DepthwiseConvOp.h
similarity index 100%
rename from paddle/function/DepthwiseConvOp.h
rename to paddle/legacy/function/DepthwiseConvOp.h
diff --git a/paddle/function/DepthwiseConvOpGpu.cu b/paddle/legacy/function/DepthwiseConvOpGpu.cu
similarity index 99%
rename from paddle/function/DepthwiseConvOpGpu.cu
rename to paddle/legacy/function/DepthwiseConvOpGpu.cu
index 2c0e71b19b..17138cc563 100644
--- a/paddle/function/DepthwiseConvOpGpu.cu
+++ b/paddle/legacy/function/DepthwiseConvOpGpu.cu
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "DepthwiseConvOp.h"
-#include "paddle/math/BaseMatrix.h"
+#include "paddle/legacy/math/BaseMatrix.h"
 
 namespace paddle {
 
diff --git a/paddle/function/DepthwiseConvOpTest.cpp b/paddle/legacy/function/DepthwiseConvOpTest.cpp
similarity index 100%
rename from paddle/function/DepthwiseConvOpTest.cpp
rename to paddle/legacy/function/DepthwiseConvOpTest.cpp
diff --git a/paddle/function/EigenGemm.cpp b/paddle/legacy/function/EigenGemm.cpp
similarity index 98%
rename from paddle/function/EigenGemm.cpp
rename to paddle/legacy/function/EigenGemm.cpp
index 8e9dbbd7a1..5929c5c68e 100644
--- a/paddle/function/EigenGemm.cpp
+++ b/paddle/legacy/function/EigenGemm.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include <glog/logging.h>
-#include "paddle/function/EigenThreadDevice.h"
+#include "paddle/legacy/function/EigenThreadDevice.h"
 
 namespace paddle {
 
diff --git a/paddle/function/EigenThreadDevice.h b/paddle/legacy/function/EigenThreadDevice.h
similarity index 100%
rename from paddle/function/EigenThreadDevice.h
rename to paddle/legacy/function/EigenThreadDevice.h
diff --git a/paddle/function/Function.cpp b/paddle/legacy/function/Function.cpp
similarity index 100%
rename from paddle/function/Function.cpp
rename to paddle/legacy/function/Function.cpp
diff --git a/paddle/function/Function.h b/paddle/legacy/function/Function.h
similarity index 99%
rename from paddle/function/Function.h
rename to paddle/legacy/function/Function.h
index a6c14ef29b..cc6f999a0e 100644
--- a/paddle/function/Function.h
+++ b/paddle/legacy/function/Function.h
@@ -17,7 +17,7 @@ limitations under the License. */
 #include <map>
 #include <vector>
 #include "BufferArg.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Any.h"
 #include "paddle/utils/ClassRegistrar.h"
 #include "paddle/utils/Error.h"
diff --git a/paddle/function/FunctionTest.cpp b/paddle/legacy/function/FunctionTest.cpp
similarity index 99%
rename from paddle/function/FunctionTest.cpp
rename to paddle/legacy/function/FunctionTest.cpp
index f5e6ca3f51..1a0993e313 100644
--- a/paddle/function/FunctionTest.cpp
+++ b/paddle/legacy/function/FunctionTest.cpp
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #include "Function.h"
 #include <gtest/gtest.h>
-#include "paddle/math/SparseMatrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
 
 namespace paddle {
 
diff --git a/paddle/function/FunctionTest.h b/paddle/legacy/function/FunctionTest.h
similarity index 99%
rename from paddle/function/FunctionTest.h
rename to paddle/legacy/function/FunctionTest.h
index 14003d2c88..6f01981a34 100644
--- a/paddle/function/FunctionTest.h
+++ b/paddle/legacy/function/FunctionTest.h
@@ -13,9 +13,9 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Function.h"
-#include "paddle/math/Matrix.h"
-#include "paddle/math/SparseMatrix.h"
-#include "paddle/math/tests/TensorCheck.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
+#include "paddle/legacy/math/tests/TensorCheck.h"
 #include "paddle/testing/TestUtil.h"
 
 namespace paddle {
diff --git a/paddle/function/GemmConvOp.cpp b/paddle/legacy/function/GemmConvOp.cpp
similarity index 99%
rename from paddle/function/GemmConvOp.cpp
rename to paddle/legacy/function/GemmConvOp.cpp
index 5b023e2c10..5a81315661 100644
--- a/paddle/function/GemmConvOp.cpp
+++ b/paddle/legacy/function/GemmConvOp.cpp
@@ -15,7 +15,7 @@ limitations under the License. */
 #include "ConvOp.h"
 #include "GemmFunctor.h"
 #include "Im2Col.h"
-#include "paddle/math/MemoryHandle.h"
+#include "paddle/legacy/math/MemoryHandle.h"
 
 namespace paddle {
 
diff --git a/paddle/function/GemmConvOpTest.cpp b/paddle/legacy/function/GemmConvOpTest.cpp
similarity index 100%
rename from paddle/function/GemmConvOpTest.cpp
rename to paddle/legacy/function/GemmConvOpTest.cpp
diff --git a/paddle/function/GemmFunctor.cpp b/paddle/legacy/function/GemmFunctor.cpp
similarity index 98%
rename from paddle/function/GemmFunctor.cpp
rename to paddle/legacy/function/GemmFunctor.cpp
index 0b1fe1b67d..450293dfee 100644
--- a/paddle/function/GemmFunctor.cpp
+++ b/paddle/legacy/function/GemmFunctor.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "GemmFunctor.h"
-#include "paddle/math/MathFunctions.h"
+#include "paddle/legacy/math/MathFunctions.h"
 
 namespace paddle {
 
diff --git a/paddle/function/GemmFunctor.h b/paddle/legacy/function/GemmFunctor.h
similarity index 100%
rename from paddle/function/GemmFunctor.h
rename to paddle/legacy/function/GemmFunctor.h
diff --git a/paddle/function/GruFunctor.h b/paddle/legacy/function/GruFunctor.h
similarity index 100%
rename from paddle/function/GruFunctor.h
rename to paddle/legacy/function/GruFunctor.h
diff --git a/paddle/function/Im2Col.h b/paddle/legacy/function/Im2Col.h
similarity index 100%
rename from paddle/function/Im2Col.h
rename to paddle/legacy/function/Im2Col.h
diff --git a/paddle/function/Im2ColOp.cpp b/paddle/legacy/function/Im2ColOp.cpp
similarity index 100%
rename from paddle/function/Im2ColOp.cpp
rename to paddle/legacy/function/Im2ColOp.cpp
diff --git a/paddle/function/Im2ColOpGpu.cu b/paddle/legacy/function/Im2ColOpGpu.cu
similarity index 100%
rename from paddle/function/Im2ColOpGpu.cu
rename to paddle/legacy/function/Im2ColOpGpu.cu
diff --git a/paddle/function/Im2ColTest.cpp b/paddle/legacy/function/Im2ColTest.cpp
similarity index 99%
rename from paddle/function/Im2ColTest.cpp
rename to paddle/legacy/function/Im2ColTest.cpp
index 967c5b9153..2c5f06f389 100644
--- a/paddle/function/Im2ColTest.cpp
+++ b/paddle/legacy/function/Im2ColTest.cpp
@@ -15,8 +15,8 @@ limitations under the License. */
 #include "Im2Col.h"
 #include <gtest/gtest.h>
 #include "Function.h"
-#include "paddle/math/Matrix.h"
-#include "paddle/math/tests/TensorCheck.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/tests/TensorCheck.h"
 
 namespace paddle {
 
diff --git a/paddle/function/MulOp.cpp b/paddle/legacy/function/MulOp.cpp
similarity index 99%
rename from paddle/function/MulOp.cpp
rename to paddle/legacy/function/MulOp.cpp
index 7bf36c8050..1401031752 100644
--- a/paddle/function/MulOp.cpp
+++ b/paddle/legacy/function/MulOp.cpp
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #include "MulOp.h"
 #include "GemmFunctor.h"
-#include "paddle/math/SIMDFunctions.h"
+#include "paddle/legacy/math/SIMDFunctions.h"
 #include "paddle/utils/ThreadLocal.h"
 
 namespace {
diff --git a/paddle/function/MulOp.h b/paddle/legacy/function/MulOp.h
similarity index 97%
rename from paddle/function/MulOp.h
rename to paddle/legacy/function/MulOp.h
index e6057be4e5..ab33bde172 100644
--- a/paddle/function/MulOp.h
+++ b/paddle/legacy/function/MulOp.h
@@ -15,8 +15,8 @@ limitations under the License. */
 #pragma once
 
 #include "Function.h"
-#include "paddle/math/Matrix.h"
-#include "paddle/math/SparseMatrix.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
 
 namespace paddle {
 /// CPU, dense matrix (+)= dense matrix * dense matrix
diff --git a/paddle/function/MulOpGpu.cu b/paddle/legacy/function/MulOpGpu.cu
similarity index 98%
rename from paddle/function/MulOpGpu.cu
rename to paddle/legacy/function/MulOpGpu.cu
index d63416a8e4..217c983cb7 100644
--- a/paddle/function/MulOpGpu.cu
+++ b/paddle/legacy/function/MulOpGpu.cu
@@ -14,8 +14,8 @@ limitations under the License. */
 
 #include "MulOp.h"
 #include "hl_base.h"
-#include "paddle/math/Matrix.h"
-#include "paddle/math/SparseMatrix.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
 
 namespace paddle {
 /// dense matrix (+)= dense matrix * dense matrix
diff --git a/paddle/function/MulOpTest.cpp b/paddle/legacy/function/MulOpTest.cpp
similarity index 98%
rename from paddle/function/MulOpTest.cpp
rename to paddle/legacy/function/MulOpTest.cpp
index 4e1ebd749c..ab08b6f869 100644
--- a/paddle/function/MulOpTest.cpp
+++ b/paddle/legacy/function/MulOpTest.cpp
@@ -14,9 +14,9 @@ limitations under the License. */
 
 #include <gtest/gtest.h>
 #include "FunctionTest.h"
-#include "paddle/math/Matrix.h"
-#include "paddle/math/SparseMatrix.h"
-#include "paddle/math/tests/test_matrixUtil.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
+#include "paddle/legacy/math/tests/test_matrixUtil.h"
 #include "paddle/testing/TestUtil.h"
 
 using namespace paddle;  // NOLINT
diff --git a/paddle/function/NaiveConvOp.cpp b/paddle/legacy/function/NaiveConvOp.cpp
similarity index 100%
rename from paddle/function/NaiveConvOp.cpp
rename to paddle/legacy/function/NaiveConvOp.cpp
diff --git a/paddle/function/PadOp.cpp b/paddle/legacy/function/PadOp.cpp
similarity index 99%
rename from paddle/function/PadOp.cpp
rename to paddle/legacy/function/PadOp.cpp
index 5d7515e8c0..9d011d28e6 100644
--- a/paddle/function/PadOp.cpp
+++ b/paddle/legacy/function/PadOp.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "PadOp.h"
-#include "paddle/math/Vector.h"
+#include "paddle/legacy/math/Vector.h"
 
 namespace paddle {
 
diff --git a/paddle/function/PadOp.h b/paddle/legacy/function/PadOp.h
similarity index 100%
rename from paddle/function/PadOp.h
rename to paddle/legacy/function/PadOp.h
diff --git a/paddle/function/PadOpGpu.cu b/paddle/legacy/function/PadOpGpu.cu
similarity index 100%
rename from paddle/function/PadOpGpu.cu
rename to paddle/legacy/function/PadOpGpu.cu
diff --git a/paddle/function/PadOpTest.cpp b/paddle/legacy/function/PadOpTest.cpp
similarity index 100%
rename from paddle/function/PadOpTest.cpp
rename to paddle/legacy/function/PadOpTest.cpp
diff --git a/paddle/function/RowConvOp.cpp b/paddle/legacy/function/RowConvOp.cpp
similarity index 99%
rename from paddle/function/RowConvOp.cpp
rename to paddle/legacy/function/RowConvOp.cpp
index 129e933458..3be50e80d7 100644
--- a/paddle/function/RowConvOp.cpp
+++ b/paddle/legacy/function/RowConvOp.cpp
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #include "RowConvOp.h"
 #include <iostream>
-#include "paddle/math/Vector.h"
+#include "paddle/legacy/math/Vector.h"
 
 namespace paddle {
 
diff --git a/paddle/function/RowConvOp.h b/paddle/legacy/function/RowConvOp.h
similarity index 100%
rename from paddle/function/RowConvOp.h
rename to paddle/legacy/function/RowConvOp.h
diff --git a/paddle/function/RowConvOpGpu.cu b/paddle/legacy/function/RowConvOpGpu.cu
similarity index 99%
rename from paddle/function/RowConvOpGpu.cu
rename to paddle/legacy/function/RowConvOpGpu.cu
index f820ee9a97..a6d2e4c7e3 100644
--- a/paddle/function/RowConvOpGpu.cu
+++ b/paddle/legacy/function/RowConvOpGpu.cu
@@ -12,8 +12,8 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 
-#include "paddle/cuda/include/hl_base.h"
-#include "paddle/function/RowConvOp.h"
+#include "paddle/legacy/cuda/include/hl_base.h"
+#include "paddle/legacy/function/RowConvOp.h"
 
 namespace paddle {
 
diff --git a/paddle/function/RowConvOpTest.cpp b/paddle/legacy/function/RowConvOpTest.cpp
similarity index 100%
rename from paddle/function/RowConvOpTest.cpp
rename to paddle/legacy/function/RowConvOpTest.cpp
diff --git a/paddle/function/ScaleSubRegionOp.cpp b/paddle/legacy/function/ScaleSubRegionOp.cpp
similarity index 99%
rename from paddle/function/ScaleSubRegionOp.cpp
rename to paddle/legacy/function/ScaleSubRegionOp.cpp
index 9a06ef2a96..03a422a740 100644
--- a/paddle/function/ScaleSubRegionOp.cpp
+++ b/paddle/legacy/function/ScaleSubRegionOp.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "ScaleSubRegionOp.h"
-#include "paddle/function/TensorShape.h"
+#include "paddle/legacy/function/TensorShape.h"
 
 namespace paddle {
 
diff --git a/paddle/function/ScaleSubRegionOp.h b/paddle/legacy/function/ScaleSubRegionOp.h
similarity index 100%
rename from paddle/function/ScaleSubRegionOp.h
rename to paddle/legacy/function/ScaleSubRegionOp.h
diff --git a/paddle/function/ScaleSubRegionOpGpu.cu b/paddle/legacy/function/ScaleSubRegionOpGpu.cu
similarity index 100%
rename from paddle/function/ScaleSubRegionOpGpu.cu
rename to paddle/legacy/function/ScaleSubRegionOpGpu.cu
diff --git a/paddle/function/ScaleSubRegionOpTest.cpp b/paddle/legacy/function/ScaleSubRegionOpTest.cpp
similarity index 100%
rename from paddle/function/ScaleSubRegionOpTest.cpp
rename to paddle/legacy/function/ScaleSubRegionOpTest.cpp
diff --git a/paddle/function/SwitchOp.cpp b/paddle/legacy/function/SwitchOp.cpp
similarity index 99%
rename from paddle/function/SwitchOp.cpp
rename to paddle/legacy/function/SwitchOp.cpp
index 750fb6bf28..c6accd1803 100644
--- a/paddle/function/SwitchOp.cpp
+++ b/paddle/legacy/function/SwitchOp.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "SwitchOp.h"
-#include "paddle/math/Vector.h"
+#include "paddle/legacy/math/Vector.h"
 
 namespace paddle {
 
diff --git a/paddle/function/SwitchOp.h b/paddle/legacy/function/SwitchOp.h
similarity index 100%
rename from paddle/function/SwitchOp.h
rename to paddle/legacy/function/SwitchOp.h
diff --git a/paddle/function/SwitchOpGpu.cu b/paddle/legacy/function/SwitchOpGpu.cu
similarity index 100%
rename from paddle/function/SwitchOpGpu.cu
rename to paddle/legacy/function/SwitchOpGpu.cu
diff --git a/paddle/function/SwitchOpTest.cpp b/paddle/legacy/function/SwitchOpTest.cpp
similarity index 100%
rename from paddle/function/SwitchOpTest.cpp
rename to paddle/legacy/function/SwitchOpTest.cpp
diff --git a/paddle/function/TensorShape.h b/paddle/legacy/function/TensorShape.h
similarity index 100%
rename from paddle/function/TensorShape.h
rename to paddle/legacy/function/TensorShape.h
diff --git a/paddle/function/TensorShapeTest.cpp b/paddle/legacy/function/TensorShapeTest.cpp
similarity index 100%
rename from paddle/function/TensorShapeTest.cpp
rename to paddle/legacy/function/TensorShapeTest.cpp
diff --git a/paddle/function/TensorType.h b/paddle/legacy/function/TensorType.h
similarity index 98%
rename from paddle/function/TensorType.h
rename to paddle/legacy/function/TensorType.h
index b384591bd8..13994821be 100644
--- a/paddle/function/TensorType.h
+++ b/paddle/legacy/function/TensorType.h
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #pragma once
 
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/function/TensorTypeTest.cpp b/paddle/legacy/function/TensorTypeTest.cpp
similarity index 100%
rename from paddle/function/TensorTypeTest.cpp
rename to paddle/legacy/function/TensorTypeTest.cpp
diff --git a/paddle/function/neon/NeonDepthwiseConv.cpp b/paddle/legacy/function/neon/NeonDepthwiseConv.cpp
similarity index 98%
rename from paddle/function/neon/NeonDepthwiseConv.cpp
rename to paddle/legacy/function/neon/NeonDepthwiseConv.cpp
index d7ac83da41..6179635a9f 100644
--- a/paddle/function/neon/NeonDepthwiseConv.cpp
+++ b/paddle/legacy/function/neon/NeonDepthwiseConv.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "NeonDepthwiseConv.h"
-#include "paddle/function/ConvOp.h"
+#include "paddle/legacy/function/ConvOp.h"
 
 namespace paddle {
 
diff --git a/paddle/function/neon/NeonDepthwiseConv.h b/paddle/legacy/function/neon/NeonDepthwiseConv.h
similarity index 100%
rename from paddle/function/neon/NeonDepthwiseConv.h
rename to paddle/legacy/function/neon/NeonDepthwiseConv.h
diff --git a/paddle/function/neon/NeonDepthwiseConvTranspose.cpp b/paddle/legacy/function/neon/NeonDepthwiseConvTranspose.cpp
similarity index 99%
rename from paddle/function/neon/NeonDepthwiseConvTranspose.cpp
rename to paddle/legacy/function/neon/NeonDepthwiseConvTranspose.cpp
index 1fc5daf607..feb77e1ff9 100644
--- a/paddle/function/neon/NeonDepthwiseConvTranspose.cpp
+++ b/paddle/legacy/function/neon/NeonDepthwiseConvTranspose.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "NeonDepthwiseConv.h"
-#include "paddle/function/ConvOp.h"
+#include "paddle/legacy/function/ConvOp.h"
 
 namespace paddle {
 
diff --git a/paddle/function/neon/neon_util.h b/paddle/legacy/function/neon/neon_util.h
similarity index 100%
rename from paddle/function/neon/neon_util.h
rename to paddle/legacy/function/neon/neon_util.h
diff --git a/paddle/function/nnpack/NNPACKConvOp.cpp b/paddle/legacy/function/nnpack/NNPACKConvOp.cpp
similarity index 99%
rename from paddle/function/nnpack/NNPACKConvOp.cpp
rename to paddle/legacy/function/nnpack/NNPACKConvOp.cpp
index 48c997b50d..81c832e774 100644
--- a/paddle/function/nnpack/NNPACKConvOp.cpp
+++ b/paddle/legacy/function/nnpack/NNPACKConvOp.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "nnpack.h"
-#include "paddle/function/ConvOp.h"
+#include "paddle/legacy/function/ConvOp.h"
 
 DEFINE_bool(nnpack_allocate_outside,
             true,
diff --git a/paddle/function/nnpack/NNPACKConvOpTest.cpp b/paddle/legacy/function/nnpack/NNPACKConvOpTest.cpp
similarity index 95%
rename from paddle/function/nnpack/NNPACKConvOpTest.cpp
rename to paddle/legacy/function/nnpack/NNPACKConvOpTest.cpp
index c80ffb5d5d..a2db83f5a3 100644
--- a/paddle/function/nnpack/NNPACKConvOpTest.cpp
+++ b/paddle/legacy/function/nnpack/NNPACKConvOpTest.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include <gtest/gtest.h>
-#include "paddle/function/ConvOpTest.h"
+#include "paddle/legacy/function/ConvOpTest.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/CMakeLists.txt b/paddle/legacy/gserver/CMakeLists.txt
similarity index 100%
rename from paddle/gserver/CMakeLists.txt
rename to paddle/legacy/gserver/CMakeLists.txt
diff --git a/paddle/gserver/activations/ActivationFunction.cpp b/paddle/legacy/gserver/activations/ActivationFunction.cpp
similarity index 99%
rename from paddle/gserver/activations/ActivationFunction.cpp
rename to paddle/legacy/gserver/activations/ActivationFunction.cpp
index 71c238fbfe..69f34db5ac 100644
--- a/paddle/gserver/activations/ActivationFunction.cpp
+++ b/paddle/legacy/gserver/activations/ActivationFunction.cpp
@@ -20,7 +20,7 @@ limitations under the License. */
 #include <string>
 #include <thread>
 #include <type_traits>
-#include "paddle/parameter/Argument.h"
+#include "paddle/legacy/parameter/Argument.h"
 #include "paddle/utils/ClassRegistrar.h"
 #include "paddle/utils/Logging.h"
 
diff --git a/paddle/gserver/activations/ActivationFunction.h b/paddle/legacy/gserver/activations/ActivationFunction.h
similarity index 100%
rename from paddle/gserver/activations/ActivationFunction.h
rename to paddle/legacy/gserver/activations/ActivationFunction.h
diff --git a/paddle/gserver/activations/MKLDNNActivation.cpp b/paddle/legacy/gserver/activations/MKLDNNActivation.cpp
similarity index 100%
rename from paddle/gserver/activations/MKLDNNActivation.cpp
rename to paddle/legacy/gserver/activations/MKLDNNActivation.cpp
diff --git a/paddle/gserver/activations/MKLDNNActivation.h b/paddle/legacy/gserver/activations/MKLDNNActivation.h
similarity index 96%
rename from paddle/gserver/activations/MKLDNNActivation.h
rename to paddle/legacy/gserver/activations/MKLDNNActivation.h
index eece1b9c37..59c447ad07 100644
--- a/paddle/gserver/activations/MKLDNNActivation.h
+++ b/paddle/legacy/gserver/activations/MKLDNNActivation.h
@@ -15,9 +15,9 @@ limitations under the License. */
 #pragma once
 #include "ActivationFunction.h"
 #include "mkldnn.hpp"
-#include "paddle/gserver/layers/MKLDNNBase.h"
-#include "paddle/math/MKLDNNMatrix.h"
-#include "paddle/parameter/Argument.h"
+#include "paddle/legacy/gserver/layers/MKLDNNBase.h"
+#include "paddle/legacy/math/MKLDNNMatrix.h"
+#include "paddle/legacy/parameter/Argument.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/dataproviders/DataProvider.cpp b/paddle/legacy/gserver/dataproviders/DataProvider.cpp
similarity index 100%
rename from paddle/gserver/dataproviders/DataProvider.cpp
rename to paddle/legacy/gserver/dataproviders/DataProvider.cpp
diff --git a/paddle/gserver/dataproviders/DataProvider.h b/paddle/legacy/gserver/dataproviders/DataProvider.h
similarity index 98%
rename from paddle/gserver/dataproviders/DataProvider.h
rename to paddle/legacy/gserver/dataproviders/DataProvider.h
index 21822b10c2..b6f74afed0 100644
--- a/paddle/gserver/dataproviders/DataProvider.h
+++ b/paddle/legacy/gserver/dataproviders/DataProvider.h
@@ -25,10 +25,10 @@ limitations under the License. */
 #include <vector>
 
 #include "DataConfig.pb.h"
-#include "paddle/math/Matrix.h"
-#include "paddle/math/SparseMatrix.h"
-#include "paddle/math/Vector.h"
-#include "paddle/parameter/Argument.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
+#include "paddle/legacy/math/Vector.h"
+#include "paddle/legacy/parameter/Argument.h"
 #include "paddle/utils/ClassRegistrar.h"
 #include "paddle/utils/Common.h"
 #include "paddle/utils/Locks.h"
diff --git a/paddle/gserver/dataproviders/DataProviderGroup.h b/paddle/legacy/gserver/dataproviders/DataProviderGroup.h
similarity index 100%
rename from paddle/gserver/dataproviders/DataProviderGroup.h
rename to paddle/legacy/gserver/dataproviders/DataProviderGroup.h
diff --git a/paddle/gserver/dataproviders/MultiDataProvider.cpp b/paddle/legacy/gserver/dataproviders/MultiDataProvider.cpp
similarity index 100%
rename from paddle/gserver/dataproviders/MultiDataProvider.cpp
rename to paddle/legacy/gserver/dataproviders/MultiDataProvider.cpp
diff --git a/paddle/gserver/dataproviders/MultiDataProvider.h b/paddle/legacy/gserver/dataproviders/MultiDataProvider.h
similarity index 100%
rename from paddle/gserver/dataproviders/MultiDataProvider.h
rename to paddle/legacy/gserver/dataproviders/MultiDataProvider.h
diff --git a/paddle/gserver/dataproviders/ProtoReader.h b/paddle/legacy/gserver/dataproviders/ProtoReader.h
similarity index 100%
rename from paddle/gserver/dataproviders/ProtoReader.h
rename to paddle/legacy/gserver/dataproviders/ProtoReader.h
diff --git a/paddle/gserver/dataproviders/PyDataProvider.cpp b/paddle/legacy/gserver/dataproviders/PyDataProvider.cpp
similarity index 100%
rename from paddle/gserver/dataproviders/PyDataProvider.cpp
rename to paddle/legacy/gserver/dataproviders/PyDataProvider.cpp
diff --git a/paddle/gserver/dataproviders/PyDataProvider.h b/paddle/legacy/gserver/dataproviders/PyDataProvider.h
similarity index 100%
rename from paddle/gserver/dataproviders/PyDataProvider.h
rename to paddle/legacy/gserver/dataproviders/PyDataProvider.h
diff --git a/paddle/gserver/dataproviders/PyDataProvider2.cpp b/paddle/legacy/gserver/dataproviders/PyDataProvider2.cpp
similarity index 100%
rename from paddle/gserver/dataproviders/PyDataProvider2.cpp
rename to paddle/legacy/gserver/dataproviders/PyDataProvider2.cpp
diff --git a/paddle/gserver/evaluators/CTCErrorEvaluator.cpp b/paddle/legacy/gserver/evaluators/CTCErrorEvaluator.cpp
similarity index 99%
rename from paddle/gserver/evaluators/CTCErrorEvaluator.cpp
rename to paddle/legacy/gserver/evaluators/CTCErrorEvaluator.cpp
index c6cd41de9a..04335dc7cd 100644
--- a/paddle/gserver/evaluators/CTCErrorEvaluator.cpp
+++ b/paddle/legacy/gserver/evaluators/CTCErrorEvaluator.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Evaluator.h"
-#include "paddle/gserver/gradientmachines/NeuralNetwork.h"
+#include "paddle/legacy/gserver/gradientmachines/NeuralNetwork.h"
 #include "paddle/utils/StringUtil.h"
 
 namespace paddle {
diff --git a/paddle/gserver/evaluators/ChunkEvaluator.cpp b/paddle/legacy/gserver/evaluators/ChunkEvaluator.cpp
similarity index 99%
rename from paddle/gserver/evaluators/ChunkEvaluator.cpp
rename to paddle/legacy/gserver/evaluators/ChunkEvaluator.cpp
index a2216293b1..ea5c609a63 100644
--- a/paddle/gserver/evaluators/ChunkEvaluator.cpp
+++ b/paddle/legacy/gserver/evaluators/ChunkEvaluator.cpp
@@ -15,7 +15,7 @@ limitations under the License. */
 #include <set>
 #include <vector>
 
-#include "paddle/math/Vector.h"
+#include "paddle/legacy/math/Vector.h"
 #include "paddle/utils/StringUtil.h"
 
 #include "Evaluator.h"
diff --git a/paddle/gserver/evaluators/DetectionMAPEvaluator.cpp b/paddle/legacy/gserver/evaluators/DetectionMAPEvaluator.cpp
similarity index 99%
rename from paddle/gserver/evaluators/DetectionMAPEvaluator.cpp
rename to paddle/legacy/gserver/evaluators/DetectionMAPEvaluator.cpp
index ddb8ebca78..57657241f8 100644
--- a/paddle/gserver/evaluators/DetectionMAPEvaluator.cpp
+++ b/paddle/legacy/gserver/evaluators/DetectionMAPEvaluator.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Evaluator.h"
-#include "paddle/gserver/layers/DetectionUtil.h"
+#include "paddle/legacy/gserver/layers/DetectionUtil.h"
 
 using std::map;
 using std::vector;
diff --git a/paddle/gserver/evaluators/Evaluator.cpp b/paddle/legacy/gserver/evaluators/Evaluator.cpp
similarity index 99%
rename from paddle/gserver/evaluators/Evaluator.cpp
rename to paddle/legacy/gserver/evaluators/Evaluator.cpp
index 941fb8fb53..436c33e43b 100644
--- a/paddle/gserver/evaluators/Evaluator.cpp
+++ b/paddle/legacy/gserver/evaluators/Evaluator.cpp
@@ -12,8 +12,8 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 
-#include "paddle/gserver/evaluators/Evaluator.h"
-#include "paddle/gserver/gradientmachines/NeuralNetwork.h"
+#include "paddle/legacy/gserver/evaluators/Evaluator.h"
+#include "paddle/legacy/gserver/gradientmachines/NeuralNetwork.h"
 #include "paddle/utils/Stat.h"
 #include "paddle/utils/StringUtil.h"
 
diff --git a/paddle/gserver/evaluators/Evaluator.h b/paddle/legacy/gserver/evaluators/Evaluator.h
similarity index 99%
rename from paddle/gserver/evaluators/Evaluator.h
rename to paddle/legacy/gserver/evaluators/Evaluator.h
index 42948f1097..90989bb0b6 100644
--- a/paddle/gserver/evaluators/Evaluator.h
+++ b/paddle/legacy/gserver/evaluators/Evaluator.h
@@ -16,8 +16,8 @@ limitations under the License. */
 
 #include <fstream>
 #include "ModelConfig.pb.h"
-#include "paddle/parameter/Argument.h"
-#include "paddle/pserver/ParameterClient2.h"
+#include "paddle/legacy/parameter/Argument.h"
+#include "paddle/legacy/pserver/ParameterClient2.h"
 #include "paddle/utils/ClassRegistrar.h"
 #include "paddle/utils/Error.h"
 
diff --git a/paddle/gserver/gradientmachines/GradientMachine.cpp b/paddle/legacy/gserver/gradientmachines/GradientMachine.cpp
similarity index 100%
rename from paddle/gserver/gradientmachines/GradientMachine.cpp
rename to paddle/legacy/gserver/gradientmachines/GradientMachine.cpp
diff --git a/paddle/gserver/gradientmachines/GradientMachine.h b/paddle/legacy/gserver/gradientmachines/GradientMachine.h
similarity index 95%
rename from paddle/gserver/gradientmachines/GradientMachine.h
rename to paddle/legacy/gserver/gradientmachines/GradientMachine.h
index 22cf5d265f..48f5141ce1 100644
--- a/paddle/gserver/gradientmachines/GradientMachine.h
+++ b/paddle/legacy/gserver/gradientmachines/GradientMachine.h
@@ -19,15 +19,15 @@ limitations under the License. */
 
 #include "ModelConfig.pb.h"
 #include "TrainerConfig.pb.h"
-#include "paddle/gserver/dataproviders/DataProvider.h"
-#include "paddle/gserver/layers/Layer.h"
-#include "paddle/math/Matrix.h"
-#include "paddle/parameter/Parameter.h"
-#include "paddle/parameter/ParameterUpdaterBase.h"
+#include "paddle/legacy/gserver/dataproviders/DataProvider.h"
+#include "paddle/legacy/gserver/layers/Layer.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/parameter/Parameter.h"
+#include "paddle/legacy/parameter/ParameterUpdaterBase.h"
 #include "paddle/utils/Thread.h"
 
 #ifndef PADDLE_MOBILE_INFERENCE
-#include "paddle/gserver/evaluators/Evaluator.h"
+#include "paddle/legacy/gserver/evaluators/Evaluator.h"
 #endif
 
 namespace paddle {
diff --git a/paddle/gserver/gradientmachines/GradientMachineMode.cpp b/paddle/legacy/gserver/gradientmachines/GradientMachineMode.cpp
similarity index 100%
rename from paddle/gserver/gradientmachines/GradientMachineMode.cpp
rename to paddle/legacy/gserver/gradientmachines/GradientMachineMode.cpp
diff --git a/paddle/gserver/gradientmachines/GradientMachineMode.h b/paddle/legacy/gserver/gradientmachines/GradientMachineMode.h
similarity index 100%
rename from paddle/gserver/gradientmachines/GradientMachineMode.h
rename to paddle/legacy/gserver/gradientmachines/GradientMachineMode.h
diff --git a/paddle/gserver/gradientmachines/MultiGradientMachine.cpp b/paddle/legacy/gserver/gradientmachines/MultiGradientMachine.cpp
similarity index 100%
rename from paddle/gserver/gradientmachines/MultiGradientMachine.cpp
rename to paddle/legacy/gserver/gradientmachines/MultiGradientMachine.cpp
diff --git a/paddle/gserver/gradientmachines/MultiGradientMachine.h b/paddle/legacy/gserver/gradientmachines/MultiGradientMachine.h
similarity index 100%
rename from paddle/gserver/gradientmachines/MultiGradientMachine.h
rename to paddle/legacy/gserver/gradientmachines/MultiGradientMachine.h
diff --git a/paddle/gserver/gradientmachines/MultiNetwork.cpp b/paddle/legacy/gserver/gradientmachines/MultiNetwork.cpp
similarity index 100%
rename from paddle/gserver/gradientmachines/MultiNetwork.cpp
rename to paddle/legacy/gserver/gradientmachines/MultiNetwork.cpp
diff --git a/paddle/gserver/gradientmachines/MultiNetwork.h b/paddle/legacy/gserver/gradientmachines/MultiNetwork.h
similarity index 100%
rename from paddle/gserver/gradientmachines/MultiNetwork.h
rename to paddle/legacy/gserver/gradientmachines/MultiNetwork.h
diff --git a/paddle/gserver/gradientmachines/NeuralNetwork.cpp b/paddle/legacy/gserver/gradientmachines/NeuralNetwork.cpp
similarity index 99%
rename from paddle/gserver/gradientmachines/NeuralNetwork.cpp
rename to paddle/legacy/gserver/gradientmachines/NeuralNetwork.cpp
index ac60a3a340..339550c458 100644
--- a/paddle/gserver/gradientmachines/NeuralNetwork.cpp
+++ b/paddle/legacy/gserver/gradientmachines/NeuralNetwork.cpp
@@ -21,13 +21,13 @@ limitations under the License. */
 #include "paddle/utils/Stat.h"
 
 #ifdef PADDLE_WITH_MKLDNN
-#include "paddle/gserver/layers/MKLDNNLayer.h"
+#include "paddle/legacy/gserver/layers/MKLDNNLayer.h"
 #endif
 
 #ifndef PADDLE_MOBILE_INFERENCE
 #include "MultiNetwork.h"
 #include "RecurrentGradientMachine.h"
-#include "paddle/gserver/layers/AgentLayer.h"
+#include "paddle/legacy/gserver/layers/AgentLayer.h"
 #endif
 
 namespace paddle {
diff --git a/paddle/gserver/gradientmachines/NeuralNetwork.h b/paddle/legacy/gserver/gradientmachines/NeuralNetwork.h
similarity index 94%
rename from paddle/gserver/gradientmachines/NeuralNetwork.h
rename to paddle/legacy/gserver/gradientmachines/NeuralNetwork.h
index 3e5615c8f0..5a0909b99b 100644
--- a/paddle/gserver/gradientmachines/NeuralNetwork.h
+++ b/paddle/legacy/gserver/gradientmachines/NeuralNetwork.h
@@ -19,12 +19,12 @@ limitations under the License. */
 #include <memory>
 
 #include "ModelConfig.pb.h"
-#include "paddle/gserver/dataproviders/DataProvider.h"
-#include "paddle/gserver/gradientmachines/GradientMachine.h"
-#include "paddle/gserver/layers/CostLayer.h"
-#include "paddle/gserver/layers/DataLayer.h"
-#include "paddle/gserver/layers/Layer.h"
-#include "paddle/parameter/Parameter.h"
+#include "paddle/legacy/gserver/dataproviders/DataProvider.h"
+#include "paddle/legacy/gserver/gradientmachines/GradientMachine.h"
+#include "paddle/legacy/gserver/layers/CostLayer.h"
+#include "paddle/legacy/gserver/layers/DataLayer.h"
+#include "paddle/legacy/gserver/layers/Layer.h"
+#include "paddle/legacy/parameter/Parameter.h"
 #include "paddle/utils/ClassRegistrar.h"
 
 namespace paddle {
diff --git a/paddle/gserver/gradientmachines/ParallelNeuralNetwork.cpp b/paddle/legacy/gserver/gradientmachines/ParallelNeuralNetwork.cpp
similarity index 100%
rename from paddle/gserver/gradientmachines/ParallelNeuralNetwork.cpp
rename to paddle/legacy/gserver/gradientmachines/ParallelNeuralNetwork.cpp
diff --git a/paddle/gserver/gradientmachines/ParallelNeuralNetwork.h b/paddle/legacy/gserver/gradientmachines/ParallelNeuralNetwork.h
similarity index 100%
rename from paddle/gserver/gradientmachines/ParallelNeuralNetwork.h
rename to paddle/legacy/gserver/gradientmachines/ParallelNeuralNetwork.h
diff --git a/paddle/gserver/gradientmachines/RecurrentGradientMachine.cpp b/paddle/legacy/gserver/gradientmachines/RecurrentGradientMachine.cpp
similarity index 99%
rename from paddle/gserver/gradientmachines/RecurrentGradientMachine.cpp
rename to paddle/legacy/gserver/gradientmachines/RecurrentGradientMachine.cpp
index 73ac8cda72..e749cf61f3 100644
--- a/paddle/gserver/gradientmachines/RecurrentGradientMachine.cpp
+++ b/paddle/legacy/gserver/gradientmachines/RecurrentGradientMachine.cpp
@@ -19,7 +19,7 @@ limitations under the License. */
 #include <functional>
 #include <limits>
 #include "NeuralNetwork.h"
-#include "paddle/gserver/layers/AgentLayer.h"
+#include "paddle/legacy/gserver/layers/AgentLayer.h"
 #include "paddle/utils/Flags.h"
 #include "paddle/utils/Stat.h"
 #include "paddle/utils/Util.h"
diff --git a/paddle/gserver/gradientmachines/RecurrentGradientMachine.h b/paddle/legacy/gserver/gradientmachines/RecurrentGradientMachine.h
similarity index 100%
rename from paddle/gserver/gradientmachines/RecurrentGradientMachine.h
rename to paddle/legacy/gserver/gradientmachines/RecurrentGradientMachine.h
diff --git a/paddle/gserver/layers/AddtoLayer.cpp b/paddle/legacy/gserver/layers/AddtoLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/AddtoLayer.cpp
rename to paddle/legacy/gserver/layers/AddtoLayer.cpp
diff --git a/paddle/gserver/layers/AddtoLayer.h b/paddle/legacy/gserver/layers/AddtoLayer.h
similarity index 97%
rename from paddle/gserver/layers/AddtoLayer.h
rename to paddle/legacy/gserver/layers/AddtoLayer.h
index 6ea54f4a53..1f948de475 100644
--- a/paddle/gserver/layers/AddtoLayer.h
+++ b/paddle/legacy/gserver/layers/AddtoLayer.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/ThreadLocal.h"
 
 namespace paddle {
diff --git a/paddle/gserver/layers/AgentLayer.cpp b/paddle/legacy/gserver/layers/AgentLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/AgentLayer.cpp
rename to paddle/legacy/gserver/layers/AgentLayer.cpp
diff --git a/paddle/gserver/layers/AgentLayer.h b/paddle/legacy/gserver/layers/AgentLayer.h
similarity index 99%
rename from paddle/gserver/layers/AgentLayer.h
rename to paddle/legacy/gserver/layers/AgentLayer.h
index 51f346d5c9..f506db2f2d 100644
--- a/paddle/gserver/layers/AgentLayer.h
+++ b/paddle/legacy/gserver/layers/AgentLayer.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/ThreadLocal.h"
 
 namespace paddle {
diff --git a/paddle/gserver/layers/AverageLayer.cpp b/paddle/legacy/gserver/layers/AverageLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/AverageLayer.cpp
rename to paddle/legacy/gserver/layers/AverageLayer.cpp
diff --git a/paddle/gserver/layers/AverageLayer.h b/paddle/legacy/gserver/layers/AverageLayer.h
similarity index 98%
rename from paddle/gserver/layers/AverageLayer.h
rename to paddle/legacy/gserver/layers/AverageLayer.h
index 03e2673b55..a0d457d35f 100644
--- a/paddle/gserver/layers/AverageLayer.h
+++ b/paddle/legacy/gserver/layers/AverageLayer.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "SequencePoolLayer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/BatchNormBaseLayer.cpp b/paddle/legacy/gserver/layers/BatchNormBaseLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/BatchNormBaseLayer.cpp
rename to paddle/legacy/gserver/layers/BatchNormBaseLayer.cpp
diff --git a/paddle/gserver/layers/BatchNormBaseLayer.h b/paddle/legacy/gserver/layers/BatchNormBaseLayer.h
similarity index 100%
rename from paddle/gserver/layers/BatchNormBaseLayer.h
rename to paddle/legacy/gserver/layers/BatchNormBaseLayer.h
diff --git a/paddle/gserver/layers/BatchNormalizationLayer.cpp b/paddle/legacy/gserver/layers/BatchNormalizationLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/BatchNormalizationLayer.cpp
rename to paddle/legacy/gserver/layers/BatchNormalizationLayer.cpp
diff --git a/paddle/gserver/layers/BatchNormalizationLayer.h b/paddle/legacy/gserver/layers/BatchNormalizationLayer.h
similarity index 100%
rename from paddle/gserver/layers/BatchNormalizationLayer.h
rename to paddle/legacy/gserver/layers/BatchNormalizationLayer.h
diff --git a/paddle/gserver/layers/BilinearInterpLayer.cpp b/paddle/legacy/gserver/layers/BilinearInterpLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/BilinearInterpLayer.cpp
rename to paddle/legacy/gserver/layers/BilinearInterpLayer.cpp
diff --git a/paddle/gserver/layers/BilinearInterpLayer.h b/paddle/legacy/gserver/layers/BilinearInterpLayer.h
similarity index 97%
rename from paddle/gserver/layers/BilinearInterpLayer.h
rename to paddle/legacy/gserver/layers/BilinearInterpLayer.h
index 8e08c2e1ce..c585a5ed10 100644
--- a/paddle/gserver/layers/BilinearInterpLayer.h
+++ b/paddle/legacy/gserver/layers/BilinearInterpLayer.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/BlockExpandLayer.cpp b/paddle/legacy/gserver/layers/BlockExpandLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/BlockExpandLayer.cpp
rename to paddle/legacy/gserver/layers/BlockExpandLayer.cpp
diff --git a/paddle/gserver/layers/BlockExpandLayer.h b/paddle/legacy/gserver/layers/BlockExpandLayer.h
similarity index 98%
rename from paddle/gserver/layers/BlockExpandLayer.h
rename to paddle/legacy/gserver/layers/BlockExpandLayer.h
index 9d76584f3a..8b90249bfb 100644
--- a/paddle/gserver/layers/BlockExpandLayer.h
+++ b/paddle/legacy/gserver/layers/BlockExpandLayer.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/CRFDecodingLayer.cpp b/paddle/legacy/gserver/layers/CRFDecodingLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/CRFDecodingLayer.cpp
rename to paddle/legacy/gserver/layers/CRFDecodingLayer.cpp
diff --git a/paddle/gserver/layers/CRFDecodingLayer.h b/paddle/legacy/gserver/layers/CRFDecodingLayer.h
similarity index 100%
rename from paddle/gserver/layers/CRFDecodingLayer.h
rename to paddle/legacy/gserver/layers/CRFDecodingLayer.h
diff --git a/paddle/gserver/layers/CRFLayer.cpp b/paddle/legacy/gserver/layers/CRFLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/CRFLayer.cpp
rename to paddle/legacy/gserver/layers/CRFLayer.cpp
diff --git a/paddle/gserver/layers/CRFLayer.h b/paddle/legacy/gserver/layers/CRFLayer.h
similarity index 100%
rename from paddle/gserver/layers/CRFLayer.h
rename to paddle/legacy/gserver/layers/CRFLayer.h
diff --git a/paddle/gserver/layers/CTCLayer.cpp b/paddle/legacy/gserver/layers/CTCLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/CTCLayer.cpp
rename to paddle/legacy/gserver/layers/CTCLayer.cpp
diff --git a/paddle/gserver/layers/CTCLayer.h b/paddle/legacy/gserver/layers/CTCLayer.h
similarity index 100%
rename from paddle/gserver/layers/CTCLayer.h
rename to paddle/legacy/gserver/layers/CTCLayer.h
diff --git a/paddle/gserver/layers/ClipLayer.cpp b/paddle/legacy/gserver/layers/ClipLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/ClipLayer.cpp
rename to paddle/legacy/gserver/layers/ClipLayer.cpp
diff --git a/paddle/gserver/layers/ConcatenateLayer.cpp b/paddle/legacy/gserver/layers/ConcatenateLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/ConcatenateLayer.cpp
rename to paddle/legacy/gserver/layers/ConcatenateLayer.cpp
diff --git a/paddle/gserver/layers/ContextProjection.cpp b/paddle/legacy/gserver/layers/ContextProjection.cpp
similarity index 100%
rename from paddle/gserver/layers/ContextProjection.cpp
rename to paddle/legacy/gserver/layers/ContextProjection.cpp
diff --git a/paddle/gserver/layers/ContextProjection.h b/paddle/legacy/gserver/layers/ContextProjection.h
similarity index 100%
rename from paddle/gserver/layers/ContextProjection.h
rename to paddle/legacy/gserver/layers/ContextProjection.h
diff --git a/paddle/gserver/layers/Conv3DLayer.cpp b/paddle/legacy/gserver/layers/Conv3DLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/Conv3DLayer.cpp
rename to paddle/legacy/gserver/layers/Conv3DLayer.cpp
diff --git a/paddle/gserver/layers/Conv3DLayer.h b/paddle/legacy/gserver/layers/Conv3DLayer.h
similarity index 94%
rename from paddle/gserver/layers/Conv3DLayer.h
rename to paddle/legacy/gserver/layers/Conv3DLayer.h
index 07b804bad0..cb42a2f36d 100644
--- a/paddle/gserver/layers/Conv3DLayer.h
+++ b/paddle/legacy/gserver/layers/Conv3DLayer.h
@@ -15,8 +15,8 @@ limitations under the License. */
 #pragma once
 #include <vector>
 #include "ConvBaseLayer.h"
-#include "paddle/math/MathUtils.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/MathUtils.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/ConvBaseLayer.cpp b/paddle/legacy/gserver/layers/ConvBaseLayer.cpp
similarity index 99%
rename from paddle/gserver/layers/ConvBaseLayer.cpp
rename to paddle/legacy/gserver/layers/ConvBaseLayer.cpp
index 56bf4f9fcb..d8997527fb 100644
--- a/paddle/gserver/layers/ConvBaseLayer.cpp
+++ b/paddle/legacy/gserver/layers/ConvBaseLayer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "ConvBaseLayer.h"
-#include "paddle/math/MathUtils.h"
+#include "paddle/legacy/math/MathUtils.h"
 #include "paddle/utils/Logging.h"
 namespace paddle {
 
diff --git a/paddle/gserver/layers/ConvBaseLayer.h b/paddle/legacy/gserver/layers/ConvBaseLayer.h
similarity index 98%
rename from paddle/gserver/layers/ConvBaseLayer.h
rename to paddle/legacy/gserver/layers/ConvBaseLayer.h
index 801bc4f888..01e90e9996 100644
--- a/paddle/gserver/layers/ConvBaseLayer.h
+++ b/paddle/legacy/gserver/layers/ConvBaseLayer.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "Layer.h"
-#include "paddle/math/MathUtils.h"
+#include "paddle/legacy/math/MathUtils.h"
 namespace paddle {
 
 /**
diff --git a/paddle/gserver/layers/ConvBaseOperator.cpp b/paddle/legacy/gserver/layers/ConvBaseOperator.cpp
similarity index 98%
rename from paddle/gserver/layers/ConvBaseOperator.cpp
rename to paddle/legacy/gserver/layers/ConvBaseOperator.cpp
index 317e7d5c60..e8e59b3bfe 100644
--- a/paddle/gserver/layers/ConvBaseOperator.cpp
+++ b/paddle/legacy/gserver/layers/ConvBaseOperator.cpp
@@ -13,8 +13,8 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "ConvBaseOperator.h"
-#include "paddle/math/MathUtils.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/MathUtils.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/ConvBaseOperator.h b/paddle/legacy/gserver/layers/ConvBaseOperator.h
similarity index 97%
rename from paddle/gserver/layers/ConvBaseOperator.h
rename to paddle/legacy/gserver/layers/ConvBaseOperator.h
index c3c647cb69..4ac77f2d74 100644
--- a/paddle/gserver/layers/ConvBaseOperator.h
+++ b/paddle/legacy/gserver/layers/ConvBaseOperator.h
@@ -14,8 +14,8 @@ limitations under the License. */
 #pragma once
 
 #include "Operator.h"
-#include "paddle/math/MathUtils.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/MathUtils.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/ConvBaseProjection.cpp b/paddle/legacy/gserver/layers/ConvBaseProjection.cpp
similarity index 100%
rename from paddle/gserver/layers/ConvBaseProjection.cpp
rename to paddle/legacy/gserver/layers/ConvBaseProjection.cpp
diff --git a/paddle/gserver/layers/ConvBaseProjection.h b/paddle/legacy/gserver/layers/ConvBaseProjection.h
similarity index 98%
rename from paddle/gserver/layers/ConvBaseProjection.h
rename to paddle/legacy/gserver/layers/ConvBaseProjection.h
index f3266ae1ab..dcf5ce0f48 100644
--- a/paddle/gserver/layers/ConvBaseProjection.h
+++ b/paddle/legacy/gserver/layers/ConvBaseProjection.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "Projection.h"
-#include "paddle/math/MathUtils.h"
+#include "paddle/legacy/math/MathUtils.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/ConvOperator.cpp b/paddle/legacy/gserver/layers/ConvOperator.cpp
similarity index 98%
rename from paddle/gserver/layers/ConvOperator.cpp
rename to paddle/legacy/gserver/layers/ConvOperator.cpp
index 45498b92d3..5276b2c392 100644
--- a/paddle/gserver/layers/ConvOperator.cpp
+++ b/paddle/legacy/gserver/layers/ConvOperator.cpp
@@ -13,8 +13,8 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "ConvOperator.h"
-#include "paddle/math/MathUtils.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/MathUtils.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/ConvOperator.h b/paddle/legacy/gserver/layers/ConvOperator.h
similarity index 94%
rename from paddle/gserver/layers/ConvOperator.h
rename to paddle/legacy/gserver/layers/ConvOperator.h
index 527dbf8c27..8f31620111 100644
--- a/paddle/gserver/layers/ConvOperator.h
+++ b/paddle/legacy/gserver/layers/ConvOperator.h
@@ -14,8 +14,8 @@ limitations under the License. */
 #pragma once
 
 #include "ConvBaseOperator.h"
-#include "paddle/math/MathUtils.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/MathUtils.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/ConvProjection.cpp b/paddle/legacy/gserver/layers/ConvProjection.cpp
similarity index 100%
rename from paddle/gserver/layers/ConvProjection.cpp
rename to paddle/legacy/gserver/layers/ConvProjection.cpp
diff --git a/paddle/gserver/layers/ConvProjection.h b/paddle/legacy/gserver/layers/ConvProjection.h
similarity index 96%
rename from paddle/gserver/layers/ConvProjection.h
rename to paddle/legacy/gserver/layers/ConvProjection.h
index 22a2202bb6..890a17e2f8 100644
--- a/paddle/gserver/layers/ConvProjection.h
+++ b/paddle/legacy/gserver/layers/ConvProjection.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "ConvBaseProjection.h"
-#include "paddle/math/MathUtils.h"
+#include "paddle/legacy/math/MathUtils.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/ConvShiftLayer.cpp b/paddle/legacy/gserver/layers/ConvShiftLayer.cpp
similarity index 98%
rename from paddle/gserver/layers/ConvShiftLayer.cpp
rename to paddle/legacy/gserver/layers/ConvShiftLayer.cpp
index 615c347806..dda1a91e45 100644
--- a/paddle/gserver/layers/ConvShiftLayer.cpp
+++ b/paddle/legacy/gserver/layers/ConvShiftLayer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/ConvTransOperator.cpp b/paddle/legacy/gserver/layers/ConvTransOperator.cpp
similarity index 98%
rename from paddle/gserver/layers/ConvTransOperator.cpp
rename to paddle/legacy/gserver/layers/ConvTransOperator.cpp
index ac41d6f9a4..f4ce2affb1 100644
--- a/paddle/gserver/layers/ConvTransOperator.cpp
+++ b/paddle/legacy/gserver/layers/ConvTransOperator.cpp
@@ -13,8 +13,8 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "ConvTransOperator.h"
-#include "paddle/math/MathUtils.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/MathUtils.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/ConvTransOperator.h b/paddle/legacy/gserver/layers/ConvTransOperator.h
similarity index 94%
rename from paddle/gserver/layers/ConvTransOperator.h
rename to paddle/legacy/gserver/layers/ConvTransOperator.h
index 53cb7a21b4..206335a01f 100644
--- a/paddle/gserver/layers/ConvTransOperator.h
+++ b/paddle/legacy/gserver/layers/ConvTransOperator.h
@@ -14,8 +14,8 @@ limitations under the License. */
 #pragma once
 
 #include "ConvBaseOperator.h"
-#include "paddle/math/MathUtils.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/MathUtils.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/ConvTransProjection.cpp b/paddle/legacy/gserver/layers/ConvTransProjection.cpp
similarity index 100%
rename from paddle/gserver/layers/ConvTransProjection.cpp
rename to paddle/legacy/gserver/layers/ConvTransProjection.cpp
diff --git a/paddle/gserver/layers/ConvTransProjection.h b/paddle/legacy/gserver/layers/ConvTransProjection.h
similarity index 96%
rename from paddle/gserver/layers/ConvTransProjection.h
rename to paddle/legacy/gserver/layers/ConvTransProjection.h
index 0f9ed720d3..9b63dd4735 100644
--- a/paddle/gserver/layers/ConvTransProjection.h
+++ b/paddle/legacy/gserver/layers/ConvTransProjection.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "ConvBaseProjection.h"
-#include "paddle/math/MathUtils.h"
+#include "paddle/legacy/math/MathUtils.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/ConvexCombinationLayer.cpp b/paddle/legacy/gserver/layers/ConvexCombinationLayer.cpp
similarity index 99%
rename from paddle/gserver/layers/ConvexCombinationLayer.cpp
rename to paddle/legacy/gserver/layers/ConvexCombinationLayer.cpp
index 31363d97c4..29a71fc1d9 100644
--- a/paddle/gserver/layers/ConvexCombinationLayer.cpp
+++ b/paddle/legacy/gserver/layers/ConvexCombinationLayer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/CosSimLayer.cpp b/paddle/legacy/gserver/layers/CosSimLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/CosSimLayer.cpp
rename to paddle/legacy/gserver/layers/CosSimLayer.cpp
diff --git a/paddle/gserver/layers/CosSimLayer.h b/paddle/legacy/gserver/layers/CosSimLayer.h
similarity index 97%
rename from paddle/gserver/layers/CosSimLayer.h
rename to paddle/legacy/gserver/layers/CosSimLayer.h
index d9fe1ff270..2e53de414d 100644
--- a/paddle/gserver/layers/CosSimLayer.h
+++ b/paddle/legacy/gserver/layers/CosSimLayer.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/ThreadLocal.h"
 
 namespace paddle {
diff --git a/paddle/gserver/layers/CosSimVecMatLayer.cpp b/paddle/legacy/gserver/layers/CosSimVecMatLayer.cpp
similarity index 99%
rename from paddle/gserver/layers/CosSimVecMatLayer.cpp
rename to paddle/legacy/gserver/layers/CosSimVecMatLayer.cpp
index 230ecc768b..da3ddf11dc 100644
--- a/paddle/gserver/layers/CosSimVecMatLayer.cpp
+++ b/paddle/legacy/gserver/layers/CosSimVecMatLayer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/CostLayer.cpp b/paddle/legacy/gserver/layers/CostLayer.cpp
similarity index 99%
rename from paddle/gserver/layers/CostLayer.cpp
rename to paddle/legacy/gserver/layers/CostLayer.cpp
index 1327616950..2c0762be25 100644
--- a/paddle/gserver/layers/CostLayer.cpp
+++ b/paddle/legacy/gserver/layers/CostLayer.cpp
@@ -18,7 +18,7 @@ limitations under the License. */
 #include <memory>
 #include "paddle/utils/Logging.h"
 
-#include "paddle/math/SparseMatrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/CostLayer.h b/paddle/legacy/gserver/layers/CostLayer.h
similarity index 100%
rename from paddle/gserver/layers/CostLayer.h
rename to paddle/legacy/gserver/layers/CostLayer.h
diff --git a/paddle/gserver/layers/CropLayer.cpp b/paddle/legacy/gserver/layers/CropLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/CropLayer.cpp
rename to paddle/legacy/gserver/layers/CropLayer.cpp
diff --git a/paddle/gserver/layers/CropLayer.h b/paddle/legacy/gserver/layers/CropLayer.h
similarity index 100%
rename from paddle/gserver/layers/CropLayer.h
rename to paddle/legacy/gserver/layers/CropLayer.h
diff --git a/paddle/gserver/layers/CrossChannelNormLayer.cpp b/paddle/legacy/gserver/layers/CrossChannelNormLayer.cpp
similarity index 98%
rename from paddle/gserver/layers/CrossChannelNormLayer.cpp
rename to paddle/legacy/gserver/layers/CrossChannelNormLayer.cpp
index 644450291e..0fe100a96c 100644
--- a/paddle/gserver/layers/CrossChannelNormLayer.cpp
+++ b/paddle/legacy/gserver/layers/CrossChannelNormLayer.cpp
@@ -14,8 +14,8 @@ limitations under the License. */
 
 #include "Layer.h"
 #include "NormLayer.h"
-#include "paddle/math/BaseMatrix.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/BaseMatrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/CrossEntropyOverBeam.cpp b/paddle/legacy/gserver/layers/CrossEntropyOverBeam.cpp
similarity index 100%
rename from paddle/gserver/layers/CrossEntropyOverBeam.cpp
rename to paddle/legacy/gserver/layers/CrossEntropyOverBeam.cpp
diff --git a/paddle/gserver/layers/CrossEntropyOverBeam.h b/paddle/legacy/gserver/layers/CrossEntropyOverBeam.h
similarity index 100%
rename from paddle/gserver/layers/CrossEntropyOverBeam.h
rename to paddle/legacy/gserver/layers/CrossEntropyOverBeam.h
diff --git a/paddle/gserver/layers/CudnnBatchNormLayer.cpp b/paddle/legacy/gserver/layers/CudnnBatchNormLayer.cpp
similarity index 99%
rename from paddle/gserver/layers/CudnnBatchNormLayer.cpp
rename to paddle/legacy/gserver/layers/CudnnBatchNormLayer.cpp
index 9a29e6a55e..3f4e17c018 100644
--- a/paddle/gserver/layers/CudnnBatchNormLayer.cpp
+++ b/paddle/legacy/gserver/layers/CudnnBatchNormLayer.cpp
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #include "CudnnBatchNormLayer.h"
 #include "Layer.h"
-#include "paddle/cuda/include/hl_batch_norm.h"
+#include "paddle/legacy/cuda/include/hl_batch_norm.h"
 #include "paddle/utils/Stat.h"
 
 namespace paddle {
diff --git a/paddle/gserver/layers/CudnnBatchNormLayer.h b/paddle/legacy/gserver/layers/CudnnBatchNormLayer.h
similarity index 100%
rename from paddle/gserver/layers/CudnnBatchNormLayer.h
rename to paddle/legacy/gserver/layers/CudnnBatchNormLayer.h
diff --git a/paddle/gserver/layers/CudnnConvBaseLayer.cpp b/paddle/legacy/gserver/layers/CudnnConvBaseLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/CudnnConvBaseLayer.cpp
rename to paddle/legacy/gserver/layers/CudnnConvBaseLayer.cpp
diff --git a/paddle/gserver/layers/CudnnConvBaseLayer.h b/paddle/legacy/gserver/layers/CudnnConvBaseLayer.h
similarity index 97%
rename from paddle/gserver/layers/CudnnConvBaseLayer.h
rename to paddle/legacy/gserver/layers/CudnnConvBaseLayer.h
index 1ee1aa100d..d050183eb7 100644
--- a/paddle/gserver/layers/CudnnConvBaseLayer.h
+++ b/paddle/legacy/gserver/layers/CudnnConvBaseLayer.h
@@ -17,7 +17,7 @@ limitations under the License. */
 #include <vector>
 #include "ConvBaseLayer.h"
 #include "Projection.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/CudnnPoolLayer.cpp b/paddle/legacy/gserver/layers/CudnnPoolLayer.cpp
similarity index 99%
rename from paddle/gserver/layers/CudnnPoolLayer.cpp
rename to paddle/legacy/gserver/layers/CudnnPoolLayer.cpp
index ac6d2168f4..9739ed9da4 100644
--- a/paddle/gserver/layers/CudnnPoolLayer.cpp
+++ b/paddle/legacy/gserver/layers/CudnnPoolLayer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "CudnnPoolLayer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/CudnnPoolLayer.h b/paddle/legacy/gserver/layers/CudnnPoolLayer.h
similarity index 100%
rename from paddle/gserver/layers/CudnnPoolLayer.h
rename to paddle/legacy/gserver/layers/CudnnPoolLayer.h
diff --git a/paddle/gserver/layers/DataLayer.cpp b/paddle/legacy/gserver/layers/DataLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/DataLayer.cpp
rename to paddle/legacy/gserver/layers/DataLayer.cpp
diff --git a/paddle/gserver/layers/DataLayer.h b/paddle/legacy/gserver/layers/DataLayer.h
similarity index 100%
rename from paddle/gserver/layers/DataLayer.h
rename to paddle/legacy/gserver/layers/DataLayer.h
diff --git a/paddle/gserver/layers/DataNormLayer.cpp b/paddle/legacy/gserver/layers/DataNormLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/DataNormLayer.cpp
rename to paddle/legacy/gserver/layers/DataNormLayer.cpp
diff --git a/paddle/gserver/layers/DataNormLayer.h b/paddle/legacy/gserver/layers/DataNormLayer.h
similarity index 97%
rename from paddle/gserver/layers/DataNormLayer.h
rename to paddle/legacy/gserver/layers/DataNormLayer.h
index 7ae67a877b..556d7f4d66 100644
--- a/paddle/gserver/layers/DataNormLayer.h
+++ b/paddle/legacy/gserver/layers/DataNormLayer.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/ThreadLocal.h"
 
 namespace paddle {
diff --git a/paddle/gserver/layers/DeConv3DLayer.cpp b/paddle/legacy/gserver/layers/DeConv3DLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/DeConv3DLayer.cpp
rename to paddle/legacy/gserver/layers/DeConv3DLayer.cpp
diff --git a/paddle/gserver/layers/DeConv3DLayer.h b/paddle/legacy/gserver/layers/DeConv3DLayer.h
similarity index 94%
rename from paddle/gserver/layers/DeConv3DLayer.h
rename to paddle/legacy/gserver/layers/DeConv3DLayer.h
index 13d1d07cf5..9931bccb12 100644
--- a/paddle/gserver/layers/DeConv3DLayer.h
+++ b/paddle/legacy/gserver/layers/DeConv3DLayer.h
@@ -16,8 +16,8 @@ limitations under the License. */
 
 #include <vector>
 #include "ConvBaseLayer.h"
-#include "paddle/math/MathUtils.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/MathUtils.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/DetectionOutputLayer.cpp b/paddle/legacy/gserver/layers/DetectionOutputLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/DetectionOutputLayer.cpp
rename to paddle/legacy/gserver/layers/DetectionOutputLayer.cpp
diff --git a/paddle/gserver/layers/DetectionOutputLayer.h b/paddle/legacy/gserver/layers/DetectionOutputLayer.h
similarity index 100%
rename from paddle/gserver/layers/DetectionOutputLayer.h
rename to paddle/legacy/gserver/layers/DetectionOutputLayer.h
diff --git a/paddle/gserver/layers/DetectionUtil.cpp b/paddle/legacy/gserver/layers/DetectionUtil.cpp
similarity index 100%
rename from paddle/gserver/layers/DetectionUtil.cpp
rename to paddle/legacy/gserver/layers/DetectionUtil.cpp
diff --git a/paddle/gserver/layers/DetectionUtil.h b/paddle/legacy/gserver/layers/DetectionUtil.h
similarity index 99%
rename from paddle/gserver/layers/DetectionUtil.h
rename to paddle/legacy/gserver/layers/DetectionUtil.h
index d6502fcf8f..c1e0bb809a 100644
--- a/paddle/gserver/layers/DetectionUtil.h
+++ b/paddle/legacy/gserver/layers/DetectionUtil.h
@@ -17,7 +17,7 @@ limitations under the License. */
 #include <float.h>
 #include <algorithm>
 #include <vector>
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 using std::vector;
 using std::pair;
diff --git a/paddle/gserver/layers/DotMulOperator.cpp b/paddle/legacy/gserver/layers/DotMulOperator.cpp
similarity index 100%
rename from paddle/gserver/layers/DotMulOperator.cpp
rename to paddle/legacy/gserver/layers/DotMulOperator.cpp
diff --git a/paddle/gserver/layers/DotMulProjection.cpp b/paddle/legacy/gserver/layers/DotMulProjection.cpp
similarity index 100%
rename from paddle/gserver/layers/DotMulProjection.cpp
rename to paddle/legacy/gserver/layers/DotMulProjection.cpp
diff --git a/paddle/gserver/layers/DotProdLayer.cpp b/paddle/legacy/gserver/layers/DotProdLayer.cpp
similarity index 98%
rename from paddle/gserver/layers/DotProdLayer.cpp
rename to paddle/legacy/gserver/layers/DotProdLayer.cpp
index 72b0c707b2..445361b101 100644
--- a/paddle/gserver/layers/DotProdLayer.cpp
+++ b/paddle/legacy/gserver/layers/DotProdLayer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/EosIdCheckLayer.cpp b/paddle/legacy/gserver/layers/EosIdCheckLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/EosIdCheckLayer.cpp
rename to paddle/legacy/gserver/layers/EosIdCheckLayer.cpp
diff --git a/paddle/gserver/layers/ExpandConvLayer.cpp b/paddle/legacy/gserver/layers/ExpandConvLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/ExpandConvLayer.cpp
rename to paddle/legacy/gserver/layers/ExpandConvLayer.cpp
diff --git a/paddle/gserver/layers/ExpandConvLayer.h b/paddle/legacy/gserver/layers/ExpandConvLayer.h
similarity index 97%
rename from paddle/gserver/layers/ExpandConvLayer.h
rename to paddle/legacy/gserver/layers/ExpandConvLayer.h
index 6919ef7135..c0eff3ab06 100644
--- a/paddle/gserver/layers/ExpandConvLayer.h
+++ b/paddle/legacy/gserver/layers/ExpandConvLayer.h
@@ -16,7 +16,7 @@ limitations under the License. */
 
 #include <vector>
 #include "ConvBaseLayer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/ExpandLayer.cpp b/paddle/legacy/gserver/layers/ExpandLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/ExpandLayer.cpp
rename to paddle/legacy/gserver/layers/ExpandLayer.cpp
diff --git a/paddle/gserver/layers/ExpandLayer.h b/paddle/legacy/gserver/layers/ExpandLayer.h
similarity index 98%
rename from paddle/gserver/layers/ExpandLayer.h
rename to paddle/legacy/gserver/layers/ExpandLayer.h
index 06bd4ef05e..75a1ec7568 100644
--- a/paddle/gserver/layers/ExpandLayer.h
+++ b/paddle/legacy/gserver/layers/ExpandLayer.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/FactorizationMachineLayer.cpp b/paddle/legacy/gserver/layers/FactorizationMachineLayer.cpp
similarity index 99%
rename from paddle/gserver/layers/FactorizationMachineLayer.cpp
rename to paddle/legacy/gserver/layers/FactorizationMachineLayer.cpp
index 1744faada2..ddd202e1c6 100644
--- a/paddle/gserver/layers/FactorizationMachineLayer.cpp
+++ b/paddle/legacy/gserver/layers/FactorizationMachineLayer.cpp
@@ -15,7 +15,7 @@ limitations under the License. */
 #include "FactorizationMachineLayer.h"
 #include <algorithm>
 #include <vector>
-#include "paddle/math/SparseMatrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/FactorizationMachineLayer.h b/paddle/legacy/gserver/layers/FactorizationMachineLayer.h
similarity index 98%
rename from paddle/gserver/layers/FactorizationMachineLayer.h
rename to paddle/legacy/gserver/layers/FactorizationMachineLayer.h
index 148abe2381..1070ebd097 100644
--- a/paddle/gserver/layers/FactorizationMachineLayer.h
+++ b/paddle/legacy/gserver/layers/FactorizationMachineLayer.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/ThreadLocal.h"
 
 namespace paddle {
diff --git a/paddle/gserver/layers/FeatureMapExpandLayer.cpp b/paddle/legacy/gserver/layers/FeatureMapExpandLayer.cpp
similarity index 99%
rename from paddle/gserver/layers/FeatureMapExpandLayer.cpp
rename to paddle/legacy/gserver/layers/FeatureMapExpandLayer.cpp
index d95f0b9b3d..417756a286 100644
--- a/paddle/gserver/layers/FeatureMapExpandLayer.cpp
+++ b/paddle/legacy/gserver/layers/FeatureMapExpandLayer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Stat.h"
 
 namespace paddle {
diff --git a/paddle/gserver/layers/FullMatrixProjection.cpp b/paddle/legacy/gserver/layers/FullMatrixProjection.cpp
similarity index 100%
rename from paddle/gserver/layers/FullMatrixProjection.cpp
rename to paddle/legacy/gserver/layers/FullMatrixProjection.cpp
diff --git a/paddle/gserver/layers/FullMatrixProjection.h b/paddle/legacy/gserver/layers/FullMatrixProjection.h
similarity index 100%
rename from paddle/gserver/layers/FullMatrixProjection.h
rename to paddle/legacy/gserver/layers/FullMatrixProjection.h
diff --git a/paddle/gserver/layers/FullyConnectedLayer.cpp b/paddle/legacy/gserver/layers/FullyConnectedLayer.cpp
similarity index 99%
rename from paddle/gserver/layers/FullyConnectedLayer.cpp
rename to paddle/legacy/gserver/layers/FullyConnectedLayer.cpp
index 21ffa01d95..0ffb4876f8 100644
--- a/paddle/gserver/layers/FullyConnectedLayer.cpp
+++ b/paddle/legacy/gserver/layers/FullyConnectedLayer.cpp
@@ -15,7 +15,7 @@ limitations under the License. */
 #include "FullyConnectedLayer.h"
 #include <algorithm>
 #include <vector>
-#include "paddle/math/SparseMatrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/FullyConnectedLayer.h b/paddle/legacy/gserver/layers/FullyConnectedLayer.h
similarity index 97%
rename from paddle/gserver/layers/FullyConnectedLayer.h
rename to paddle/legacy/gserver/layers/FullyConnectedLayer.h
index e0f9d6ce55..a8a1c54e55 100644
--- a/paddle/gserver/layers/FullyConnectedLayer.h
+++ b/paddle/legacy/gserver/layers/FullyConnectedLayer.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/ThreadLocal.h"
 
 namespace paddle {
diff --git a/paddle/gserver/layers/GatedRecurrentLayer.cpp b/paddle/legacy/gserver/layers/GatedRecurrentLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/GatedRecurrentLayer.cpp
rename to paddle/legacy/gserver/layers/GatedRecurrentLayer.cpp
diff --git a/paddle/gserver/layers/GatedRecurrentLayer.h b/paddle/legacy/gserver/layers/GatedRecurrentLayer.h
similarity index 98%
rename from paddle/gserver/layers/GatedRecurrentLayer.h
rename to paddle/legacy/gserver/layers/GatedRecurrentLayer.h
index 46508dc977..8bbf01ce20 100644
--- a/paddle/gserver/layers/GatedRecurrentLayer.h
+++ b/paddle/legacy/gserver/layers/GatedRecurrentLayer.h
@@ -17,7 +17,7 @@ limitations under the License. */
 #include "GruCompute.h"
 #include "Layer.h"
 #include "SequenceToBatch.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/GetOutputLayer.cpp b/paddle/legacy/gserver/layers/GetOutputLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/GetOutputLayer.cpp
rename to paddle/legacy/gserver/layers/GetOutputLayer.cpp
diff --git a/paddle/gserver/layers/GruCompute.cpp b/paddle/legacy/gserver/layers/GruCompute.cpp
similarity index 97%
rename from paddle/gserver/layers/GruCompute.cpp
rename to paddle/legacy/gserver/layers/GruCompute.cpp
index 48ddbc413e..d50c959e43 100644
--- a/paddle/gserver/layers/GruCompute.cpp
+++ b/paddle/legacy/gserver/layers/GruCompute.cpp
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #include "GruCompute.h"
 #include "hl_recurrent_apply.cuh"
-#include "paddle/function/GruFunctor.h"
+#include "paddle/legacy/function/GruFunctor.h"
 #include "paddle/utils/Util.h"
 
 namespace paddle {
diff --git a/paddle/gserver/layers/GruCompute.cu b/paddle/legacy/gserver/layers/GruCompute.cu
similarity index 100%
rename from paddle/gserver/layers/GruCompute.cu
rename to paddle/legacy/gserver/layers/GruCompute.cu
diff --git a/paddle/gserver/layers/GruCompute.h b/paddle/legacy/gserver/layers/GruCompute.h
similarity index 100%
rename from paddle/gserver/layers/GruCompute.h
rename to paddle/legacy/gserver/layers/GruCompute.h
diff --git a/paddle/gserver/layers/GruStepLayer.cpp b/paddle/legacy/gserver/layers/GruStepLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/GruStepLayer.cpp
rename to paddle/legacy/gserver/layers/GruStepLayer.cpp
diff --git a/paddle/gserver/layers/HierarchicalSigmoidLayer.cpp b/paddle/legacy/gserver/layers/HierarchicalSigmoidLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/HierarchicalSigmoidLayer.cpp
rename to paddle/legacy/gserver/layers/HierarchicalSigmoidLayer.cpp
diff --git a/paddle/gserver/layers/HierarchicalSigmoidLayer.h b/paddle/legacy/gserver/layers/HierarchicalSigmoidLayer.h
similarity index 100%
rename from paddle/gserver/layers/HierarchicalSigmoidLayer.h
rename to paddle/legacy/gserver/layers/HierarchicalSigmoidLayer.h
diff --git a/paddle/gserver/layers/IdentityProjection.cpp b/paddle/legacy/gserver/layers/IdentityProjection.cpp
similarity index 100%
rename from paddle/gserver/layers/IdentityProjection.cpp
rename to paddle/legacy/gserver/layers/IdentityProjection.cpp
diff --git a/paddle/gserver/layers/InterpolationLayer.cpp b/paddle/legacy/gserver/layers/InterpolationLayer.cpp
similarity index 98%
rename from paddle/gserver/layers/InterpolationLayer.cpp
rename to paddle/legacy/gserver/layers/InterpolationLayer.cpp
index 509c07cf22..aabfdc55ba 100644
--- a/paddle/gserver/layers/InterpolationLayer.cpp
+++ b/paddle/legacy/gserver/layers/InterpolationLayer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/KmaxSeqScoreLayer.cpp b/paddle/legacy/gserver/layers/KmaxSeqScoreLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/KmaxSeqScoreLayer.cpp
rename to paddle/legacy/gserver/layers/KmaxSeqScoreLayer.cpp
diff --git a/paddle/gserver/layers/L2DistanceLayer.cpp b/paddle/legacy/gserver/layers/L2DistanceLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/L2DistanceLayer.cpp
rename to paddle/legacy/gserver/layers/L2DistanceLayer.cpp
diff --git a/paddle/gserver/layers/L2DistanceLayer.h b/paddle/legacy/gserver/layers/L2DistanceLayer.h
similarity index 97%
rename from paddle/gserver/layers/L2DistanceLayer.h
rename to paddle/legacy/gserver/layers/L2DistanceLayer.h
index 44e688e137..aa8aabd9ca 100644
--- a/paddle/gserver/layers/L2DistanceLayer.h
+++ b/paddle/legacy/gserver/layers/L2DistanceLayer.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/Layer.cpp b/paddle/legacy/gserver/layers/Layer.cpp
similarity index 99%
rename from paddle/gserver/layers/Layer.cpp
rename to paddle/legacy/gserver/layers/Layer.cpp
index 32e2f4c9dd..f580b8e697 100644
--- a/paddle/gserver/layers/Layer.cpp
+++ b/paddle/legacy/gserver/layers/Layer.cpp
@@ -15,7 +15,7 @@ limitations under the License. */
 #include "paddle/utils/Util.h"
 
 #include "CostLayer.h"
-#include "paddle/math/SparseMatrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
 #include "paddle/utils/Error.h"
 #include "paddle/utils/Logging.h"
 
diff --git a/paddle/gserver/layers/Layer.h b/paddle/legacy/gserver/layers/Layer.h
similarity index 97%
rename from paddle/gserver/layers/Layer.h
rename to paddle/legacy/gserver/layers/Layer.h
index 13e20e8316..65ec3bd03f 100644
--- a/paddle/gserver/layers/Layer.h
+++ b/paddle/legacy/gserver/layers/Layer.h
@@ -17,12 +17,12 @@ limitations under the License. */
 #include <functional>
 #include <memory>
 #include "ModelConfig.pb.h"
-#include "paddle/function/Function.h"
-#include "paddle/gserver/activations/ActivationFunction.h"
-#include "paddle/math/CpuSparseMatrix.h"
-#include "paddle/parameter/Argument.h"
-#include "paddle/parameter/Parameter.h"
-#include "paddle/parameter/Weight.h"
+#include "paddle/legacy/function/Function.h"
+#include "paddle/legacy/gserver/activations/ActivationFunction.h"
+#include "paddle/legacy/math/CpuSparseMatrix.h"
+#include "paddle/legacy/parameter/Argument.h"
+#include "paddle/legacy/parameter/Parameter.h"
+#include "paddle/legacy/parameter/Weight.h"
 #include "paddle/utils/ClassRegistrar.h"
 #include "paddle/utils/Util.h"
 
diff --git a/paddle/gserver/layers/LinearChainCRF.cpp b/paddle/legacy/gserver/layers/LinearChainCRF.cpp
similarity index 100%
rename from paddle/gserver/layers/LinearChainCRF.cpp
rename to paddle/legacy/gserver/layers/LinearChainCRF.cpp
diff --git a/paddle/gserver/layers/LinearChainCRF.h b/paddle/legacy/gserver/layers/LinearChainCRF.h
similarity index 98%
rename from paddle/gserver/layers/LinearChainCRF.h
rename to paddle/legacy/gserver/layers/LinearChainCRF.h
index e802b701d0..65e2390543 100644
--- a/paddle/gserver/layers/LinearChainCRF.h
+++ b/paddle/legacy/gserver/layers/LinearChainCRF.h
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #pragma once
 
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/LinearChainCTC.cpp b/paddle/legacy/gserver/layers/LinearChainCTC.cpp
similarity index 100%
rename from paddle/gserver/layers/LinearChainCTC.cpp
rename to paddle/legacy/gserver/layers/LinearChainCTC.cpp
diff --git a/paddle/gserver/layers/LinearChainCTC.h b/paddle/legacy/gserver/layers/LinearChainCTC.h
similarity index 97%
rename from paddle/gserver/layers/LinearChainCTC.h
rename to paddle/legacy/gserver/layers/LinearChainCTC.h
index 5b325a0deb..e6c4c7bfe0 100644
--- a/paddle/gserver/layers/LinearChainCTC.h
+++ b/paddle/legacy/gserver/layers/LinearChainCTC.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include <vector>
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/LstmCompute.cpp b/paddle/legacy/gserver/layers/LstmCompute.cpp
similarity index 100%
rename from paddle/gserver/layers/LstmCompute.cpp
rename to paddle/legacy/gserver/layers/LstmCompute.cpp
diff --git a/paddle/gserver/layers/LstmCompute.cu b/paddle/legacy/gserver/layers/LstmCompute.cu
similarity index 100%
rename from paddle/gserver/layers/LstmCompute.cu
rename to paddle/legacy/gserver/layers/LstmCompute.cu
diff --git a/paddle/gserver/layers/LstmCompute.h b/paddle/legacy/gserver/layers/LstmCompute.h
similarity index 100%
rename from paddle/gserver/layers/LstmCompute.h
rename to paddle/legacy/gserver/layers/LstmCompute.h
diff --git a/paddle/gserver/layers/LstmLayer.cpp b/paddle/legacy/gserver/layers/LstmLayer.cpp
similarity index 99%
rename from paddle/gserver/layers/LstmLayer.cpp
rename to paddle/legacy/gserver/layers/LstmLayer.cpp
index f65ae6a3e6..bb40ec0585 100644
--- a/paddle/gserver/layers/LstmLayer.cpp
+++ b/paddle/legacy/gserver/layers/LstmLayer.cpp
@@ -13,8 +13,8 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "LstmLayer.h"
-#include "paddle/math/BaseMatrix.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/BaseMatrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Stat.h"
 
 DECLARE_bool(prev_batch_state);
diff --git a/paddle/gserver/layers/LstmLayer.h b/paddle/legacy/gserver/layers/LstmLayer.h
similarity index 98%
rename from paddle/gserver/layers/LstmLayer.h
rename to paddle/legacy/gserver/layers/LstmLayer.h
index 76dfe8146b..8c8b382f50 100644
--- a/paddle/gserver/layers/LstmLayer.h
+++ b/paddle/legacy/gserver/layers/LstmLayer.h
@@ -17,8 +17,8 @@ limitations under the License. */
 #include "Layer.h"
 #include "LstmCompute.h"
 #include "SequenceToBatch.h"
-#include "paddle/math/BaseMatrix.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/BaseMatrix.h"
+#include "paddle/legacy/math/Matrix.h"
 namespace paddle {
 
 /**
diff --git a/paddle/gserver/layers/LstmStepLayer.cpp b/paddle/legacy/gserver/layers/LstmStepLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/LstmStepLayer.cpp
rename to paddle/legacy/gserver/layers/LstmStepLayer.cpp
diff --git a/paddle/gserver/layers/MDLstmLayer.cpp b/paddle/legacy/gserver/layers/MDLstmLayer.cpp
similarity index 99%
rename from paddle/gserver/layers/MDLstmLayer.cpp
rename to paddle/legacy/gserver/layers/MDLstmLayer.cpp
index 22c28157c5..4838183e8c 100644
--- a/paddle/gserver/layers/MDLstmLayer.cpp
+++ b/paddle/legacy/gserver/layers/MDLstmLayer.cpp
@@ -13,8 +13,8 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "LstmLayer.h"
-#include "paddle/math/BaseMatrix.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/BaseMatrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/MKLDNNAddtoLayer.cpp b/paddle/legacy/gserver/layers/MKLDNNAddtoLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/MKLDNNAddtoLayer.cpp
rename to paddle/legacy/gserver/layers/MKLDNNAddtoLayer.cpp
diff --git a/paddle/gserver/layers/MKLDNNAddtoLayer.h b/paddle/legacy/gserver/layers/MKLDNNAddtoLayer.h
similarity index 100%
rename from paddle/gserver/layers/MKLDNNAddtoLayer.h
rename to paddle/legacy/gserver/layers/MKLDNNAddtoLayer.h
diff --git a/paddle/gserver/layers/MKLDNNBase.h b/paddle/legacy/gserver/layers/MKLDNNBase.h
similarity index 100%
rename from paddle/gserver/layers/MKLDNNBase.h
rename to paddle/legacy/gserver/layers/MKLDNNBase.h
diff --git a/paddle/gserver/layers/MKLDNNBatchNormLayer.cpp b/paddle/legacy/gserver/layers/MKLDNNBatchNormLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/MKLDNNBatchNormLayer.cpp
rename to paddle/legacy/gserver/layers/MKLDNNBatchNormLayer.cpp
diff --git a/paddle/gserver/layers/MKLDNNBatchNormLayer.h b/paddle/legacy/gserver/layers/MKLDNNBatchNormLayer.h
similarity index 100%
rename from paddle/gserver/layers/MKLDNNBatchNormLayer.h
rename to paddle/legacy/gserver/layers/MKLDNNBatchNormLayer.h
diff --git a/paddle/gserver/layers/MKLDNNConcatLayer.cpp b/paddle/legacy/gserver/layers/MKLDNNConcatLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/MKLDNNConcatLayer.cpp
rename to paddle/legacy/gserver/layers/MKLDNNConcatLayer.cpp
diff --git a/paddle/gserver/layers/MKLDNNConcatLayer.h b/paddle/legacy/gserver/layers/MKLDNNConcatLayer.h
similarity index 100%
rename from paddle/gserver/layers/MKLDNNConcatLayer.h
rename to paddle/legacy/gserver/layers/MKLDNNConcatLayer.h
diff --git a/paddle/gserver/layers/MKLDNNConvLayer.cpp b/paddle/legacy/gserver/layers/MKLDNNConvLayer.cpp
similarity index 99%
rename from paddle/gserver/layers/MKLDNNConvLayer.cpp
rename to paddle/legacy/gserver/layers/MKLDNNConvLayer.cpp
index a442a0a013..01c20d240b 100644
--- a/paddle/gserver/layers/MKLDNNConvLayer.cpp
+++ b/paddle/legacy/gserver/layers/MKLDNNConvLayer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "MKLDNNConvLayer.h"
-#include "paddle/math/MathUtils.h"
+#include "paddle/legacy/math/MathUtils.h"
 #include "paddle/utils/Logging.h"
 
 using namespace mkldnn;  // NOLINT
diff --git a/paddle/gserver/layers/MKLDNNConvLayer.h b/paddle/legacy/gserver/layers/MKLDNNConvLayer.h
similarity index 100%
rename from paddle/gserver/layers/MKLDNNConvLayer.h
rename to paddle/legacy/gserver/layers/MKLDNNConvLayer.h
diff --git a/paddle/gserver/layers/MKLDNNFcLayer.cpp b/paddle/legacy/gserver/layers/MKLDNNFcLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/MKLDNNFcLayer.cpp
rename to paddle/legacy/gserver/layers/MKLDNNFcLayer.cpp
diff --git a/paddle/gserver/layers/MKLDNNFcLayer.h b/paddle/legacy/gserver/layers/MKLDNNFcLayer.h
similarity index 100%
rename from paddle/gserver/layers/MKLDNNFcLayer.h
rename to paddle/legacy/gserver/layers/MKLDNNFcLayer.h
diff --git a/paddle/gserver/layers/MKLDNNLRNLayer.cpp b/paddle/legacy/gserver/layers/MKLDNNLRNLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/MKLDNNLRNLayer.cpp
rename to paddle/legacy/gserver/layers/MKLDNNLRNLayer.cpp
diff --git a/paddle/gserver/layers/MKLDNNLRNLayer.h b/paddle/legacy/gserver/layers/MKLDNNLRNLayer.h
similarity index 100%
rename from paddle/gserver/layers/MKLDNNLRNLayer.h
rename to paddle/legacy/gserver/layers/MKLDNNLRNLayer.h
diff --git a/paddle/gserver/layers/MKLDNNLayer.cpp b/paddle/legacy/gserver/layers/MKLDNNLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/MKLDNNLayer.cpp
rename to paddle/legacy/gserver/layers/MKLDNNLayer.cpp
diff --git a/paddle/gserver/layers/MKLDNNLayer.h b/paddle/legacy/gserver/layers/MKLDNNLayer.h
similarity index 99%
rename from paddle/gserver/layers/MKLDNNLayer.h
rename to paddle/legacy/gserver/layers/MKLDNNLayer.h
index 2b164d0d3b..b8f292684c 100644
--- a/paddle/gserver/layers/MKLDNNLayer.h
+++ b/paddle/legacy/gserver/layers/MKLDNNLayer.h
@@ -18,7 +18,7 @@ limitations under the License. */
 #include "Layer.h"
 #include "MKLDNNBase.h"
 #include "mkldnn.hpp"
-#include "paddle/math/MKLDNNMatrix.h"
+#include "paddle/legacy/math/MKLDNNMatrix.h"
 #include "paddle/utils/Stat.h"
 
 DECLARE_bool(use_mkldnn);
diff --git a/paddle/gserver/layers/MKLDNNPoolLayer.cpp b/paddle/legacy/gserver/layers/MKLDNNPoolLayer.cpp
similarity index 99%
rename from paddle/gserver/layers/MKLDNNPoolLayer.cpp
rename to paddle/legacy/gserver/layers/MKLDNNPoolLayer.cpp
index 3be848c749..99c419be88 100644
--- a/paddle/gserver/layers/MKLDNNPoolLayer.cpp
+++ b/paddle/legacy/gserver/layers/MKLDNNPoolLayer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "MKLDNNPoolLayer.h"
-#include "paddle/math/MathUtils.h"
+#include "paddle/legacy/math/MathUtils.h"
 #include "paddle/utils/Logging.h"
 
 using namespace mkldnn;  // NOLINT
diff --git a/paddle/gserver/layers/MKLDNNPoolLayer.h b/paddle/legacy/gserver/layers/MKLDNNPoolLayer.h
similarity index 100%
rename from paddle/gserver/layers/MKLDNNPoolLayer.h
rename to paddle/legacy/gserver/layers/MKLDNNPoolLayer.h
diff --git a/paddle/gserver/layers/MKLPackedRecurrentLayer.cpp b/paddle/legacy/gserver/layers/MKLPackedRecurrentLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/MKLPackedRecurrentLayer.cpp
rename to paddle/legacy/gserver/layers/MKLPackedRecurrentLayer.cpp
diff --git a/paddle/gserver/layers/MKLPackedRecurrentLayer.h b/paddle/legacy/gserver/layers/MKLPackedRecurrentLayer.h
similarity index 100%
rename from paddle/gserver/layers/MKLPackedRecurrentLayer.h
rename to paddle/legacy/gserver/layers/MKLPackedRecurrentLayer.h
diff --git a/paddle/gserver/layers/MKLPackedWeight.h b/paddle/legacy/gserver/layers/MKLPackedWeight.h
similarity index 94%
rename from paddle/gserver/layers/MKLPackedWeight.h
rename to paddle/legacy/gserver/layers/MKLPackedWeight.h
index b01a961d00..47f225bd03 100644
--- a/paddle/gserver/layers/MKLPackedWeight.h
+++ b/paddle/legacy/gserver/layers/MKLPackedWeight.h
@@ -14,9 +14,9 @@ limitations under the License. */
 
 #pragma once
 
-#include "paddle/math/MathFunctions.h"
-#include "paddle/parameter/Parameter.h"
-#include "paddle/parameter/Weight.h"
+#include "paddle/legacy/math/MathFunctions.h"
+#include "paddle/legacy/parameter/Parameter.h"
+#include "paddle/legacy/parameter/Weight.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/MaxIdLayer.cpp b/paddle/legacy/gserver/layers/MaxIdLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/MaxIdLayer.cpp
rename to paddle/legacy/gserver/layers/MaxIdLayer.cpp
diff --git a/paddle/gserver/layers/MaxLayer.cpp b/paddle/legacy/gserver/layers/MaxLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/MaxLayer.cpp
rename to paddle/legacy/gserver/layers/MaxLayer.cpp
diff --git a/paddle/gserver/layers/MaxLayer.h b/paddle/legacy/gserver/layers/MaxLayer.h
similarity index 98%
rename from paddle/gserver/layers/MaxLayer.h
rename to paddle/legacy/gserver/layers/MaxLayer.h
index e46f997c34..6b3491cde5 100644
--- a/paddle/gserver/layers/MaxLayer.h
+++ b/paddle/legacy/gserver/layers/MaxLayer.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "SequencePoolLayer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/ThreadLocal.h"
 
 namespace paddle {
diff --git a/paddle/gserver/layers/MaxOutLayer.cpp b/paddle/legacy/gserver/layers/MaxOutLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/MaxOutLayer.cpp
rename to paddle/legacy/gserver/layers/MaxOutLayer.cpp
diff --git a/paddle/gserver/layers/MaxOutLayer.h b/paddle/legacy/gserver/layers/MaxOutLayer.h
similarity index 97%
rename from paddle/gserver/layers/MaxOutLayer.h
rename to paddle/legacy/gserver/layers/MaxOutLayer.h
index 0eb8674b4c..e56f34b8e0 100644
--- a/paddle/gserver/layers/MaxOutLayer.h
+++ b/paddle/legacy/gserver/layers/MaxOutLayer.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/MaxPoolWithMaskLayer.cpp b/paddle/legacy/gserver/layers/MaxPoolWithMaskLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/MaxPoolWithMaskLayer.cpp
rename to paddle/legacy/gserver/layers/MaxPoolWithMaskLayer.cpp
diff --git a/paddle/gserver/layers/MaxPoolWithMaskLayer.h b/paddle/legacy/gserver/layers/MaxPoolWithMaskLayer.h
similarity index 96%
rename from paddle/gserver/layers/MaxPoolWithMaskLayer.h
rename to paddle/legacy/gserver/layers/MaxPoolWithMaskLayer.h
index c948364f6b..fcd5388abe 100644
--- a/paddle/gserver/layers/MaxPoolWithMaskLayer.h
+++ b/paddle/legacy/gserver/layers/MaxPoolWithMaskLayer.h
@@ -16,7 +16,7 @@ limitations under the License. */
 
 #include <vector>
 #include "PoolLayer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 /**
diff --git a/paddle/gserver/layers/MixedLayer.cpp b/paddle/legacy/gserver/layers/MixedLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/MixedLayer.cpp
rename to paddle/legacy/gserver/layers/MixedLayer.cpp
diff --git a/paddle/gserver/layers/MixedLayer.h b/paddle/legacy/gserver/layers/MixedLayer.h
similarity index 100%
rename from paddle/gserver/layers/MixedLayer.h
rename to paddle/legacy/gserver/layers/MixedLayer.h
diff --git a/paddle/gserver/layers/MultiBoxLossLayer.cpp b/paddle/legacy/gserver/layers/MultiBoxLossLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/MultiBoxLossLayer.cpp
rename to paddle/legacy/gserver/layers/MultiBoxLossLayer.cpp
diff --git a/paddle/gserver/layers/MultiBoxLossLayer.h b/paddle/legacy/gserver/layers/MultiBoxLossLayer.h
similarity index 100%
rename from paddle/gserver/layers/MultiBoxLossLayer.h
rename to paddle/legacy/gserver/layers/MultiBoxLossLayer.h
diff --git a/paddle/gserver/layers/MultinomialSampler.cpp b/paddle/legacy/gserver/layers/MultinomialSampler.cpp
similarity index 100%
rename from paddle/gserver/layers/MultinomialSampler.cpp
rename to paddle/legacy/gserver/layers/MultinomialSampler.cpp
diff --git a/paddle/gserver/layers/MultinomialSampler.h b/paddle/legacy/gserver/layers/MultinomialSampler.h
similarity index 100%
rename from paddle/gserver/layers/MultinomialSampler.h
rename to paddle/legacy/gserver/layers/MultinomialSampler.h
diff --git a/paddle/gserver/layers/MultiplexLayer.cpp b/paddle/legacy/gserver/layers/MultiplexLayer.cpp
similarity index 99%
rename from paddle/gserver/layers/MultiplexLayer.cpp
rename to paddle/legacy/gserver/layers/MultiplexLayer.cpp
index 43ecc48cd9..54a554a1a9 100644
--- a/paddle/gserver/layers/MultiplexLayer.cpp
+++ b/paddle/legacy/gserver/layers/MultiplexLayer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/NCELayer.cpp b/paddle/legacy/gserver/layers/NCELayer.cpp
similarity index 99%
rename from paddle/gserver/layers/NCELayer.cpp
rename to paddle/legacy/gserver/layers/NCELayer.cpp
index cc48fe100f..ae4d640816 100644
--- a/paddle/gserver/layers/NCELayer.cpp
+++ b/paddle/legacy/gserver/layers/NCELayer.cpp
@@ -16,7 +16,7 @@ limitations under the License. */
 
 #include "Layer.h"
 #include "MultinomialSampler.h"
-#include "paddle/math/MathFunctions.h"
+#include "paddle/legacy/math/MathFunctions.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/NormLayer.cpp b/paddle/legacy/gserver/layers/NormLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/NormLayer.cpp
rename to paddle/legacy/gserver/layers/NormLayer.cpp
diff --git a/paddle/gserver/layers/NormLayer.h b/paddle/legacy/gserver/layers/NormLayer.h
similarity index 98%
rename from paddle/gserver/layers/NormLayer.h
rename to paddle/legacy/gserver/layers/NormLayer.h
index 3807584415..5ac00034d0 100644
--- a/paddle/gserver/layers/NormLayer.h
+++ b/paddle/legacy/gserver/layers/NormLayer.h
@@ -17,7 +17,7 @@ limitations under the License. */
 #include <vector>
 #include "Layer.h"
 #include "NormLayer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/NormProjectionLayer.cpp b/paddle/legacy/gserver/layers/NormProjectionLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/NormProjectionLayer.cpp
rename to paddle/legacy/gserver/layers/NormProjectionLayer.cpp
diff --git a/paddle/gserver/layers/NormProjectionLayer.h b/paddle/legacy/gserver/layers/NormProjectionLayer.h
similarity index 97%
rename from paddle/gserver/layers/NormProjectionLayer.h
rename to paddle/legacy/gserver/layers/NormProjectionLayer.h
index 64803a1603..492d1fcb72 100644
--- a/paddle/gserver/layers/NormProjectionLayer.h
+++ b/paddle/legacy/gserver/layers/NormProjectionLayer.h
@@ -16,7 +16,7 @@ limitations under the License. */
 
 #include <vector>
 #include "NormLayer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/Operator.cpp b/paddle/legacy/gserver/layers/Operator.cpp
similarity index 100%
rename from paddle/gserver/layers/Operator.cpp
rename to paddle/legacy/gserver/layers/Operator.cpp
diff --git a/paddle/gserver/layers/Operator.h b/paddle/legacy/gserver/layers/Operator.h
similarity index 96%
rename from paddle/gserver/layers/Operator.h
rename to paddle/legacy/gserver/layers/Operator.h
index 42d525ef3e..20a248985e 100644
--- a/paddle/gserver/layers/Operator.h
+++ b/paddle/legacy/gserver/layers/Operator.h
@@ -15,10 +15,10 @@ limitations under the License. */
 #pragma once
 
 #include "ModelConfig.pb.h"
-#include "paddle/parameter/Parameter.h"
+#include "paddle/legacy/parameter/Parameter.h"
 
 #include "Layer.h"
-#include "paddle/parameter/Argument.h"
+#include "paddle/legacy/parameter/Argument.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/OuterProdLayer.cpp b/paddle/legacy/gserver/layers/OuterProdLayer.cpp
similarity index 99%
rename from paddle/gserver/layers/OuterProdLayer.cpp
rename to paddle/legacy/gserver/layers/OuterProdLayer.cpp
index 11a910f331..7988560d5a 100644
--- a/paddle/gserver/layers/OuterProdLayer.cpp
+++ b/paddle/legacy/gserver/layers/OuterProdLayer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/PadLayer.cpp b/paddle/legacy/gserver/layers/PadLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/PadLayer.cpp
rename to paddle/legacy/gserver/layers/PadLayer.cpp
diff --git a/paddle/gserver/layers/PadLayer.h b/paddle/legacy/gserver/layers/PadLayer.h
similarity index 100%
rename from paddle/gserver/layers/PadLayer.h
rename to paddle/legacy/gserver/layers/PadLayer.h
diff --git a/paddle/gserver/layers/ParameterReluLayer.cpp b/paddle/legacy/gserver/layers/ParameterReluLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/ParameterReluLayer.cpp
rename to paddle/legacy/gserver/layers/ParameterReluLayer.cpp
diff --git a/paddle/gserver/layers/ParameterReluLayer.h b/paddle/legacy/gserver/layers/ParameterReluLayer.h
similarity index 97%
rename from paddle/gserver/layers/ParameterReluLayer.h
rename to paddle/legacy/gserver/layers/ParameterReluLayer.h
index 4553413fcd..a4abd7af75 100644
--- a/paddle/gserver/layers/ParameterReluLayer.h
+++ b/paddle/legacy/gserver/layers/ParameterReluLayer.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/ThreadLocal.h"
 
 namespace paddle {
diff --git a/paddle/gserver/layers/Pool3DLayer.cpp b/paddle/legacy/gserver/layers/Pool3DLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/Pool3DLayer.cpp
rename to paddle/legacy/gserver/layers/Pool3DLayer.cpp
diff --git a/paddle/gserver/layers/Pool3DLayer.h b/paddle/legacy/gserver/layers/Pool3DLayer.h
similarity index 94%
rename from paddle/gserver/layers/Pool3DLayer.h
rename to paddle/legacy/gserver/layers/Pool3DLayer.h
index 32605f8b70..6851c44ab2 100644
--- a/paddle/gserver/layers/Pool3DLayer.h
+++ b/paddle/legacy/gserver/layers/Pool3DLayer.h
@@ -16,8 +16,8 @@ limitations under the License. */
 
 #include <vector>
 #include "Layer.h"
-#include "paddle/math/MathUtils.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/MathUtils.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/PoolLayer.cpp b/paddle/legacy/gserver/layers/PoolLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/PoolLayer.cpp
rename to paddle/legacy/gserver/layers/PoolLayer.cpp
diff --git a/paddle/gserver/layers/PoolLayer.h b/paddle/legacy/gserver/layers/PoolLayer.h
similarity index 94%
rename from paddle/gserver/layers/PoolLayer.h
rename to paddle/legacy/gserver/layers/PoolLayer.h
index 99f8f148e2..0808dfae84 100644
--- a/paddle/gserver/layers/PoolLayer.h
+++ b/paddle/legacy/gserver/layers/PoolLayer.h
@@ -16,8 +16,8 @@ limitations under the License. */
 
 #include <vector>
 #include "Layer.h"
-#include "paddle/math/MathUtils.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/MathUtils.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/PoolProjection.cpp b/paddle/legacy/gserver/layers/PoolProjection.cpp
similarity index 100%
rename from paddle/gserver/layers/PoolProjection.cpp
rename to paddle/legacy/gserver/layers/PoolProjection.cpp
diff --git a/paddle/gserver/layers/PoolProjection.h b/paddle/legacy/gserver/layers/PoolProjection.h
similarity index 97%
rename from paddle/gserver/layers/PoolProjection.h
rename to paddle/legacy/gserver/layers/PoolProjection.h
index 8004cc1550..d01b6a13f0 100644
--- a/paddle/gserver/layers/PoolProjection.h
+++ b/paddle/legacy/gserver/layers/PoolProjection.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "Projection.h"
-#include "paddle/math/MathUtils.h"
+#include "paddle/legacy/math/MathUtils.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/PoolProjectionLayer.cpp b/paddle/legacy/gserver/layers/PoolProjectionLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/PoolProjectionLayer.cpp
rename to paddle/legacy/gserver/layers/PoolProjectionLayer.cpp
diff --git a/paddle/gserver/layers/PoolProjectionLayer.h b/paddle/legacy/gserver/layers/PoolProjectionLayer.h
similarity index 97%
rename from paddle/gserver/layers/PoolProjectionLayer.h
rename to paddle/legacy/gserver/layers/PoolProjectionLayer.h
index 9ad144cc2a..fcd35bbba4 100644
--- a/paddle/gserver/layers/PoolProjectionLayer.h
+++ b/paddle/legacy/gserver/layers/PoolProjectionLayer.h
@@ -17,7 +17,7 @@ limitations under the License. */
 #include <vector>
 #include "PoolLayer.h"
 #include "PoolProjection.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 /**
diff --git a/paddle/gserver/layers/PowerLayer.cpp b/paddle/legacy/gserver/layers/PowerLayer.cpp
similarity index 98%
rename from paddle/gserver/layers/PowerLayer.cpp
rename to paddle/legacy/gserver/layers/PowerLayer.cpp
index 7e8d60db8f..26a57fcfdd 100644
--- a/paddle/gserver/layers/PowerLayer.cpp
+++ b/paddle/legacy/gserver/layers/PowerLayer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/PrintLayer.cpp b/paddle/legacy/gserver/layers/PrintLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/PrintLayer.cpp
rename to paddle/legacy/gserver/layers/PrintLayer.cpp
diff --git a/paddle/gserver/layers/PriorBox.cpp b/paddle/legacy/gserver/layers/PriorBox.cpp
similarity index 98%
rename from paddle/gserver/layers/PriorBox.cpp
rename to paddle/legacy/gserver/layers/PriorBox.cpp
index 39d2c2d737..83aab6e366 100644
--- a/paddle/gserver/layers/PriorBox.cpp
+++ b/paddle/legacy/gserver/layers/PriorBox.cpp
@@ -13,8 +13,8 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Layer.h"
-#include "paddle/math/BaseMatrix.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/BaseMatrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 /**
diff --git a/paddle/gserver/layers/Projection.cpp b/paddle/legacy/gserver/layers/Projection.cpp
similarity index 100%
rename from paddle/gserver/layers/Projection.cpp
rename to paddle/legacy/gserver/layers/Projection.cpp
diff --git a/paddle/gserver/layers/Projection.h b/paddle/legacy/gserver/layers/Projection.h
similarity index 98%
rename from paddle/gserver/layers/Projection.h
rename to paddle/legacy/gserver/layers/Projection.h
index 88a41355cf..974f5a2cac 100644
--- a/paddle/gserver/layers/Projection.h
+++ b/paddle/legacy/gserver/layers/Projection.h
@@ -16,7 +16,7 @@ limitations under the License. */
 
 #include "Layer.h"
 #include "ModelConfig.pb.h"
-#include "paddle/parameter/Parameter.h"
+#include "paddle/legacy/parameter/Parameter.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/ROIPoolLayer.cpp b/paddle/legacy/gserver/layers/ROIPoolLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/ROIPoolLayer.cpp
rename to paddle/legacy/gserver/layers/ROIPoolLayer.cpp
diff --git a/paddle/gserver/layers/ROIPoolLayer.h b/paddle/legacy/gserver/layers/ROIPoolLayer.h
similarity index 100%
rename from paddle/gserver/layers/ROIPoolLayer.h
rename to paddle/legacy/gserver/layers/ROIPoolLayer.h
diff --git a/paddle/gserver/layers/RecurrentLayer.cpp b/paddle/legacy/gserver/layers/RecurrentLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/RecurrentLayer.cpp
rename to paddle/legacy/gserver/layers/RecurrentLayer.cpp
diff --git a/paddle/gserver/layers/RecurrentLayer.h b/paddle/legacy/gserver/layers/RecurrentLayer.h
similarity index 100%
rename from paddle/gserver/layers/RecurrentLayer.h
rename to paddle/legacy/gserver/layers/RecurrentLayer.h
diff --git a/paddle/gserver/layers/RecurrentLayerGroup.cpp b/paddle/legacy/gserver/layers/RecurrentLayerGroup.cpp
similarity index 96%
rename from paddle/gserver/layers/RecurrentLayerGroup.cpp
rename to paddle/legacy/gserver/layers/RecurrentLayerGroup.cpp
index 6694e8f299..4f121bdb4a 100644
--- a/paddle/gserver/layers/RecurrentLayerGroup.cpp
+++ b/paddle/legacy/gserver/layers/RecurrentLayerGroup.cpp
@@ -13,9 +13,9 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include <functional>
-#include "paddle/gserver/layers/Layer.h"
+#include "paddle/legacy/gserver/layers/Layer.h"
 
-#include "paddle/gserver/gradientmachines/RecurrentGradientMachine.h"
+#include "paddle/legacy/gserver/gradientmachines/RecurrentGradientMachine.h"
 #include "paddle/utils/Stat.h"
 
 namespace paddle {
diff --git a/paddle/gserver/layers/ResizeLayer.cpp b/paddle/legacy/gserver/layers/ResizeLayer.cpp
similarity index 96%
rename from paddle/gserver/layers/ResizeLayer.cpp
rename to paddle/legacy/gserver/layers/ResizeLayer.cpp
index d4ae994593..8f8aad820f 100644
--- a/paddle/gserver/layers/ResizeLayer.cpp
+++ b/paddle/legacy/gserver/layers/ResizeLayer.cpp
@@ -13,8 +13,8 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Layer.h"
-#include "paddle/math/BaseMatrix.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/BaseMatrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 /**
diff --git a/paddle/gserver/layers/RotateLayer.cpp b/paddle/legacy/gserver/layers/RotateLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/RotateLayer.cpp
rename to paddle/legacy/gserver/layers/RotateLayer.cpp
diff --git a/paddle/gserver/layers/RotateLayer.h b/paddle/legacy/gserver/layers/RotateLayer.h
similarity index 97%
rename from paddle/gserver/layers/RotateLayer.h
rename to paddle/legacy/gserver/layers/RotateLayer.h
index 7ecbff2016..498e24372b 100644
--- a/paddle/gserver/layers/RotateLayer.h
+++ b/paddle/legacy/gserver/layers/RotateLayer.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 /**
diff --git a/paddle/gserver/layers/RowConvLayer.cpp b/paddle/legacy/gserver/layers/RowConvLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/RowConvLayer.cpp
rename to paddle/legacy/gserver/layers/RowConvLayer.cpp
diff --git a/paddle/gserver/layers/RowConvLayer.h b/paddle/legacy/gserver/layers/RowConvLayer.h
similarity index 100%
rename from paddle/gserver/layers/RowConvLayer.h
rename to paddle/legacy/gserver/layers/RowConvLayer.h
diff --git a/paddle/gserver/layers/RowL2NormLayer.cpp b/paddle/legacy/gserver/layers/RowL2NormLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/RowL2NormLayer.cpp
rename to paddle/legacy/gserver/layers/RowL2NormLayer.cpp
diff --git a/paddle/gserver/layers/SamplingIdLayer.cpp b/paddle/legacy/gserver/layers/SamplingIdLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/SamplingIdLayer.cpp
rename to paddle/legacy/gserver/layers/SamplingIdLayer.cpp
diff --git a/paddle/gserver/layers/ScaleShiftLayer.cpp b/paddle/legacy/gserver/layers/ScaleShiftLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/ScaleShiftLayer.cpp
rename to paddle/legacy/gserver/layers/ScaleShiftLayer.cpp
diff --git a/paddle/gserver/layers/ScaleSubRegionLayer.cpp b/paddle/legacy/gserver/layers/ScaleSubRegionLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/ScaleSubRegionLayer.cpp
rename to paddle/legacy/gserver/layers/ScaleSubRegionLayer.cpp
diff --git a/paddle/gserver/layers/ScaleSubRegionLayer.h b/paddle/legacy/gserver/layers/ScaleSubRegionLayer.h
similarity index 100%
rename from paddle/gserver/layers/ScaleSubRegionLayer.h
rename to paddle/legacy/gserver/layers/ScaleSubRegionLayer.h
diff --git a/paddle/gserver/layers/ScalingLayer.cpp b/paddle/legacy/gserver/layers/ScalingLayer.cpp
similarity index 98%
rename from paddle/gserver/layers/ScalingLayer.cpp
rename to paddle/legacy/gserver/layers/ScalingLayer.cpp
index 15e07daebe..e68ff8905e 100644
--- a/paddle/gserver/layers/ScalingLayer.cpp
+++ b/paddle/legacy/gserver/layers/ScalingLayer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/ScalingProjection.cpp b/paddle/legacy/gserver/layers/ScalingProjection.cpp
similarity index 100%
rename from paddle/gserver/layers/ScalingProjection.cpp
rename to paddle/legacy/gserver/layers/ScalingProjection.cpp
diff --git a/paddle/gserver/layers/SelectiveFullyConnectedLayer.cpp b/paddle/legacy/gserver/layers/SelectiveFullyConnectedLayer.cpp
similarity index 99%
rename from paddle/gserver/layers/SelectiveFullyConnectedLayer.cpp
rename to paddle/legacy/gserver/layers/SelectiveFullyConnectedLayer.cpp
index 43c98993f3..a181f55d91 100644
--- a/paddle/gserver/layers/SelectiveFullyConnectedLayer.cpp
+++ b/paddle/legacy/gserver/layers/SelectiveFullyConnectedLayer.cpp
@@ -15,7 +15,7 @@ limitations under the License. */
 #include "SelectiveFullyConnectedLayer.h"
 #include <algorithm>
 #include <vector>
-#include "paddle/math/SparseMatrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/SelectiveFullyConnectedLayer.h b/paddle/legacy/gserver/layers/SelectiveFullyConnectedLayer.h
similarity index 98%
rename from paddle/gserver/layers/SelectiveFullyConnectedLayer.h
rename to paddle/legacy/gserver/layers/SelectiveFullyConnectedLayer.h
index 4b32ce8b16..068da57d8d 100644
--- a/paddle/gserver/layers/SelectiveFullyConnectedLayer.h
+++ b/paddle/legacy/gserver/layers/SelectiveFullyConnectedLayer.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/ThreadLocal.h"
 
 namespace paddle {
diff --git a/paddle/gserver/layers/SequenceConcatLayer.cpp b/paddle/legacy/gserver/layers/SequenceConcatLayer.cpp
similarity index 99%
rename from paddle/gserver/layers/SequenceConcatLayer.cpp
rename to paddle/legacy/gserver/layers/SequenceConcatLayer.cpp
index c84c3ce4f0..024ca048b4 100644
--- a/paddle/gserver/layers/SequenceConcatLayer.cpp
+++ b/paddle/legacy/gserver/layers/SequenceConcatLayer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/SequenceLastInstanceLayer.cpp b/paddle/legacy/gserver/layers/SequenceLastInstanceLayer.cpp
similarity index 98%
rename from paddle/gserver/layers/SequenceLastInstanceLayer.cpp
rename to paddle/legacy/gserver/layers/SequenceLastInstanceLayer.cpp
index 28d0a9296d..b00bf65997 100644
--- a/paddle/gserver/layers/SequenceLastInstanceLayer.cpp
+++ b/paddle/legacy/gserver/layers/SequenceLastInstanceLayer.cpp
@@ -15,7 +15,7 @@ limitations under the License. */
 #include "paddle/utils/Logging.h"
 
 #include "SequencePoolLayer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Stat.h"
 
 namespace paddle {
diff --git a/paddle/gserver/layers/SequencePoolLayer.cpp b/paddle/legacy/gserver/layers/SequencePoolLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/SequencePoolLayer.cpp
rename to paddle/legacy/gserver/layers/SequencePoolLayer.cpp
diff --git a/paddle/gserver/layers/SequencePoolLayer.h b/paddle/legacy/gserver/layers/SequencePoolLayer.h
similarity index 98%
rename from paddle/gserver/layers/SequencePoolLayer.h
rename to paddle/legacy/gserver/layers/SequencePoolLayer.h
index 01183060af..1c019b3130 100644
--- a/paddle/gserver/layers/SequencePoolLayer.h
+++ b/paddle/legacy/gserver/layers/SequencePoolLayer.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 /**
diff --git a/paddle/gserver/layers/SequenceReshapeLayer.cpp b/paddle/legacy/gserver/layers/SequenceReshapeLayer.cpp
similarity index 99%
rename from paddle/gserver/layers/SequenceReshapeLayer.cpp
rename to paddle/legacy/gserver/layers/SequenceReshapeLayer.cpp
index 319310af8c..f72acadec9 100644
--- a/paddle/gserver/layers/SequenceReshapeLayer.cpp
+++ b/paddle/legacy/gserver/layers/SequenceReshapeLayer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/SequenceSliceLayer.cpp b/paddle/legacy/gserver/layers/SequenceSliceLayer.cpp
similarity index 99%
rename from paddle/gserver/layers/SequenceSliceLayer.cpp
rename to paddle/legacy/gserver/layers/SequenceSliceLayer.cpp
index a6d810b583..65b4787fed 100644
--- a/paddle/gserver/layers/SequenceSliceLayer.cpp
+++ b/paddle/legacy/gserver/layers/SequenceSliceLayer.cpp
@@ -13,8 +13,8 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
-#include "paddle/math/Vector.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/Vector.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/SequenceToBatch.cpp b/paddle/legacy/gserver/layers/SequenceToBatch.cpp
similarity index 100%
rename from paddle/gserver/layers/SequenceToBatch.cpp
rename to paddle/legacy/gserver/layers/SequenceToBatch.cpp
diff --git a/paddle/gserver/layers/SequenceToBatch.h b/paddle/legacy/gserver/layers/SequenceToBatch.h
similarity index 98%
rename from paddle/gserver/layers/SequenceToBatch.h
rename to paddle/legacy/gserver/layers/SequenceToBatch.h
index 5200e702d9..7ed517937d 100644
--- a/paddle/gserver/layers/SequenceToBatch.h
+++ b/paddle/legacy/gserver/layers/SequenceToBatch.h
@@ -13,8 +13,8 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #pragma once
-#include "paddle/math/Matrix.h"
-#include "paddle/math/Vector.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/Vector.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/layers/SliceProjection.cpp b/paddle/legacy/gserver/layers/SliceProjection.cpp
similarity index 100%
rename from paddle/gserver/layers/SliceProjection.cpp
rename to paddle/legacy/gserver/layers/SliceProjection.cpp
diff --git a/paddle/gserver/layers/SlopeInterceptLayer.cpp b/paddle/legacy/gserver/layers/SlopeInterceptLayer.cpp
similarity index 98%
rename from paddle/gserver/layers/SlopeInterceptLayer.cpp
rename to paddle/legacy/gserver/layers/SlopeInterceptLayer.cpp
index f7f4735c1b..beb288e4ad 100644
--- a/paddle/gserver/layers/SlopeInterceptLayer.cpp
+++ b/paddle/legacy/gserver/layers/SlopeInterceptLayer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/SpatialPyramidPoolLayer.cpp b/paddle/legacy/gserver/layers/SpatialPyramidPoolLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/SpatialPyramidPoolLayer.cpp
rename to paddle/legacy/gserver/layers/SpatialPyramidPoolLayer.cpp
diff --git a/paddle/gserver/layers/SpatialPyramidPoolLayer.h b/paddle/legacy/gserver/layers/SpatialPyramidPoolLayer.h
similarity index 97%
rename from paddle/gserver/layers/SpatialPyramidPoolLayer.h
rename to paddle/legacy/gserver/layers/SpatialPyramidPoolLayer.h
index 421bdfe09c..6cdfba33b3 100644
--- a/paddle/gserver/layers/SpatialPyramidPoolLayer.h
+++ b/paddle/legacy/gserver/layers/SpatialPyramidPoolLayer.h
@@ -16,7 +16,7 @@ limitations under the License. */
 
 #include "Layer.h"
 #include "PoolProjection.h"
-#include "paddle/math/MathUtils.h"
+#include "paddle/legacy/math/MathUtils.h"
 #include "paddle/utils/Logging.h"
 
 namespace paddle {
diff --git a/paddle/gserver/layers/SubNestedSequenceLayer.cpp b/paddle/legacy/gserver/layers/SubNestedSequenceLayer.cpp
similarity index 98%
rename from paddle/gserver/layers/SubNestedSequenceLayer.cpp
rename to paddle/legacy/gserver/layers/SubNestedSequenceLayer.cpp
index e2bb00bbfa..4f648ec01c 100644
--- a/paddle/gserver/layers/SubNestedSequenceLayer.cpp
+++ b/paddle/legacy/gserver/layers/SubNestedSequenceLayer.cpp
@@ -13,8 +13,8 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
-#include "paddle/math/Vector.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/Vector.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/SubSequenceLayer.cpp b/paddle/legacy/gserver/layers/SubSequenceLayer.cpp
similarity index 98%
rename from paddle/gserver/layers/SubSequenceLayer.cpp
rename to paddle/legacy/gserver/layers/SubSequenceLayer.cpp
index ba49f5710f..6b27550048 100644
--- a/paddle/gserver/layers/SubSequenceLayer.cpp
+++ b/paddle/legacy/gserver/layers/SubSequenceLayer.cpp
@@ -13,8 +13,8 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
-#include "paddle/math/Vector.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/Vector.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/SumToOneNormLayer.cpp b/paddle/legacy/gserver/layers/SumToOneNormLayer.cpp
similarity index 98%
rename from paddle/gserver/layers/SumToOneNormLayer.cpp
rename to paddle/legacy/gserver/layers/SumToOneNormLayer.cpp
index 00764717e8..4cd173a8c7 100644
--- a/paddle/gserver/layers/SumToOneNormLayer.cpp
+++ b/paddle/legacy/gserver/layers/SumToOneNormLayer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/SwitchOrderLayer.cpp b/paddle/legacy/gserver/layers/SwitchOrderLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/SwitchOrderLayer.cpp
rename to paddle/legacy/gserver/layers/SwitchOrderLayer.cpp
diff --git a/paddle/gserver/layers/SwitchOrderLayer.h b/paddle/legacy/gserver/layers/SwitchOrderLayer.h
similarity index 100%
rename from paddle/gserver/layers/SwitchOrderLayer.h
rename to paddle/legacy/gserver/layers/SwitchOrderLayer.h
diff --git a/paddle/gserver/layers/TableProjection.cpp b/paddle/legacy/gserver/layers/TableProjection.cpp
similarity index 100%
rename from paddle/gserver/layers/TableProjection.cpp
rename to paddle/legacy/gserver/layers/TableProjection.cpp
diff --git a/paddle/gserver/layers/TableProjection.h b/paddle/legacy/gserver/layers/TableProjection.h
similarity index 100%
rename from paddle/gserver/layers/TableProjection.h
rename to paddle/legacy/gserver/layers/TableProjection.h
diff --git a/paddle/gserver/layers/TensorLayer.cpp b/paddle/legacy/gserver/layers/TensorLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/TensorLayer.cpp
rename to paddle/legacy/gserver/layers/TensorLayer.cpp
diff --git a/paddle/gserver/layers/TensorLayer.h b/paddle/legacy/gserver/layers/TensorLayer.h
similarity index 97%
rename from paddle/gserver/layers/TensorLayer.h
rename to paddle/legacy/gserver/layers/TensorLayer.h
index 5c1ee40ced..1c30f7c889 100644
--- a/paddle/gserver/layers/TensorLayer.h
+++ b/paddle/legacy/gserver/layers/TensorLayer.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/ThreadLocal.h"
 
 namespace paddle {
diff --git a/paddle/gserver/layers/TransLayer.cpp b/paddle/legacy/gserver/layers/TransLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/TransLayer.cpp
rename to paddle/legacy/gserver/layers/TransLayer.cpp
diff --git a/paddle/gserver/layers/TransLayer.h b/paddle/legacy/gserver/layers/TransLayer.h
similarity index 96%
rename from paddle/gserver/layers/TransLayer.h
rename to paddle/legacy/gserver/layers/TransLayer.h
index 1cd8fd91f7..0a6b13933f 100644
--- a/paddle/gserver/layers/TransLayer.h
+++ b/paddle/legacy/gserver/layers/TransLayer.h
@@ -16,7 +16,7 @@ limitations under the License. */
 
 #include <vector>
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 /**
diff --git a/paddle/gserver/layers/TransposedFullMatrixProjection.cpp b/paddle/legacy/gserver/layers/TransposedFullMatrixProjection.cpp
similarity index 100%
rename from paddle/gserver/layers/TransposedFullMatrixProjection.cpp
rename to paddle/legacy/gserver/layers/TransposedFullMatrixProjection.cpp
diff --git a/paddle/gserver/layers/UpsampleLayer.cpp b/paddle/legacy/gserver/layers/UpsampleLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/UpsampleLayer.cpp
rename to paddle/legacy/gserver/layers/UpsampleLayer.cpp
diff --git a/paddle/gserver/layers/UpsampleLayer.h b/paddle/legacy/gserver/layers/UpsampleLayer.h
similarity index 97%
rename from paddle/gserver/layers/UpsampleLayer.h
rename to paddle/legacy/gserver/layers/UpsampleLayer.h
index c9d079c314..ea12a711a8 100644
--- a/paddle/gserver/layers/UpsampleLayer.h
+++ b/paddle/legacy/gserver/layers/UpsampleLayer.h
@@ -16,7 +16,7 @@ limitations under the License. */
 
 #include <vector>
 #include "Layer.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Stat.h"
 
diff --git a/paddle/gserver/layers/ValidationLayer.cpp b/paddle/legacy/gserver/layers/ValidationLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/ValidationLayer.cpp
rename to paddle/legacy/gserver/layers/ValidationLayer.cpp
diff --git a/paddle/gserver/layers/ValidationLayer.h b/paddle/legacy/gserver/layers/ValidationLayer.h
similarity index 97%
rename from paddle/gserver/layers/ValidationLayer.h
rename to paddle/legacy/gserver/layers/ValidationLayer.h
index be41128ef4..fbc94e8ef5 100644
--- a/paddle/gserver/layers/ValidationLayer.h
+++ b/paddle/legacy/gserver/layers/ValidationLayer.h
@@ -16,7 +16,7 @@ limitations under the License. */
 #include <memory>
 
 #include "Layer.h"
-#include "paddle/gserver/evaluators/Evaluator.h"
+#include "paddle/legacy/gserver/evaluators/Evaluator.h"
 
 DECLARE_int32(trainer_id);
 
diff --git a/paddle/gserver/layers/WarpCTCLayer.cpp b/paddle/legacy/gserver/layers/WarpCTCLayer.cpp
similarity index 100%
rename from paddle/gserver/layers/WarpCTCLayer.cpp
rename to paddle/legacy/gserver/layers/WarpCTCLayer.cpp
diff --git a/paddle/gserver/layers/WarpCTCLayer.h b/paddle/legacy/gserver/layers/WarpCTCLayer.h
similarity index 100%
rename from paddle/gserver/layers/WarpCTCLayer.h
rename to paddle/legacy/gserver/layers/WarpCTCLayer.h
diff --git a/paddle/gserver/tests/.gitignore b/paddle/legacy/gserver/tests/.gitignore
similarity index 100%
rename from paddle/gserver/tests/.gitignore
rename to paddle/legacy/gserver/tests/.gitignore
diff --git a/paddle/gserver/tests/CMakeLists.txt b/paddle/legacy/gserver/tests/CMakeLists.txt
similarity index 97%
rename from paddle/gserver/tests/CMakeLists.txt
rename to paddle/legacy/gserver/tests/CMakeLists.txt
index 9d7cad7584..93ddf5aa23 100644
--- a/paddle/gserver/tests/CMakeLists.txt
+++ b/paddle/legacy/gserver/tests/CMakeLists.txt
@@ -36,7 +36,7 @@ gserver_test(test_Upsample)
 
 set(PYTHON_PATH 
    ${PADDLE_SOURCE_DIR}/paddle/.set_python_path.sh -d 
-   ${PADDLE_BINARY_DIR}/python/:${PADDLE_BINARY_DIR}/paddle/gserver/tests)
+   ${PADDLE_BINARY_DIR}/python/:${PADDLE_BINARY_DIR}/paddle/legacy/gserver/tests)
 function(gserver_test_with_python TARGET)
   add_unittest_without_exec(${TARGET} ${TARGET}.cpp)
   add_test(NAME ${TARGET}
diff --git a/paddle/gserver/tests/LayerGradUtil.cpp b/paddle/legacy/gserver/tests/LayerGradUtil.cpp
similarity index 100%
rename from paddle/gserver/tests/LayerGradUtil.cpp
rename to paddle/legacy/gserver/tests/LayerGradUtil.cpp
diff --git a/paddle/gserver/tests/LayerGradUtil.h b/paddle/legacy/gserver/tests/LayerGradUtil.h
similarity index 99%
rename from paddle/gserver/tests/LayerGradUtil.h
rename to paddle/legacy/gserver/tests/LayerGradUtil.h
index 1999b2204b..941989a1da 100644
--- a/paddle/gserver/tests/LayerGradUtil.h
+++ b/paddle/legacy/gserver/tests/LayerGradUtil.h
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #pragma once
 #include "ModelConfig.pb.h"
-#include "paddle/gserver/layers/DataLayer.h"
+#include "paddle/legacy/gserver/layers/DataLayer.h"
 
 #include "paddle/testing/TestUtil.h"
 using namespace std;  // NOLINT
diff --git a/paddle/gserver/tests/MKLDNNTester.cpp b/paddle/legacy/gserver/tests/MKLDNNTester.cpp
similarity index 99%
rename from paddle/gserver/tests/MKLDNNTester.cpp
rename to paddle/legacy/gserver/tests/MKLDNNTester.cpp
index d2a9761a4e..bed58f94bb 100644
--- a/paddle/gserver/tests/MKLDNNTester.cpp
+++ b/paddle/legacy/gserver/tests/MKLDNNTester.cpp
@@ -13,8 +13,8 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "MKLDNNTester.h"
-#include "paddle/gserver/layers/MKLDNNBase.h"
-#include "paddle/gserver/layers/MKLDNNLayer.h"
+#include "paddle/legacy/gserver/layers/MKLDNNBase.h"
+#include "paddle/legacy/gserver/layers/MKLDNNLayer.h"
 #include "paddle/trainer/Trainer.h"
 
 namespace paddle {
diff --git a/paddle/gserver/tests/MKLDNNTester.h b/paddle/legacy/gserver/tests/MKLDNNTester.h
similarity index 97%
rename from paddle/gserver/tests/MKLDNNTester.h
rename to paddle/legacy/gserver/tests/MKLDNNTester.h
index 41ac46b70a..086846ce53 100644
--- a/paddle/gserver/tests/MKLDNNTester.h
+++ b/paddle/legacy/gserver/tests/MKLDNNTester.h
@@ -17,8 +17,8 @@ limitations under the License. */
 #include <string>
 #include <vector>
 #include "LayerGradUtil.h"
-#include "paddle/gserver/layers/MKLDNNBase.h"
-#include "paddle/gserver/layers/MKLDNNLayer.h"
+#include "paddle/legacy/gserver/layers/MKLDNNBase.h"
+#include "paddle/legacy/gserver/layers/MKLDNNLayer.h"
 
 namespace paddle {
 
diff --git a/paddle/gserver/tests/Sequence/dummy.list b/paddle/legacy/gserver/tests/Sequence/dummy.list
similarity index 100%
rename from paddle/gserver/tests/Sequence/dummy.list
rename to paddle/legacy/gserver/tests/Sequence/dummy.list
diff --git a/paddle/gserver/tests/Sequence/tour_dict_phrase.dict b/paddle/legacy/gserver/tests/Sequence/tour_dict_phrase.dict
similarity index 100%
rename from paddle/gserver/tests/Sequence/tour_dict_phrase.dict
rename to paddle/legacy/gserver/tests/Sequence/tour_dict_phrase.dict
diff --git a/paddle/gserver/tests/Sequence/tour_train_wdseg b/paddle/legacy/gserver/tests/Sequence/tour_train_wdseg
similarity index 100%
rename from paddle/gserver/tests/Sequence/tour_train_wdseg
rename to paddle/legacy/gserver/tests/Sequence/tour_train_wdseg
diff --git a/paddle/gserver/tests/Sequence/tour_train_wdseg.nest b/paddle/legacy/gserver/tests/Sequence/tour_train_wdseg.nest
similarity index 100%
rename from paddle/gserver/tests/Sequence/tour_train_wdseg.nest
rename to paddle/legacy/gserver/tests/Sequence/tour_train_wdseg.nest
diff --git a/paddle/legacy/gserver/tests/Sequence/train.list b/paddle/legacy/gserver/tests/Sequence/train.list
new file mode 100644
index 0000000000..1109a24492
--- /dev/null
+++ b/paddle/legacy/gserver/tests/Sequence/train.list
@@ -0,0 +1 @@
+legacy/gserver/tests/Sequence/tour_train_wdseg
diff --git a/paddle/legacy/gserver/tests/Sequence/train.list.nest b/paddle/legacy/gserver/tests/Sequence/train.list.nest
new file mode 100644
index 0000000000..a67df35024
--- /dev/null
+++ b/paddle/legacy/gserver/tests/Sequence/train.list.nest
@@ -0,0 +1 @@
+legacy/gserver/tests/Sequence/tour_train_wdseg.nest
diff --git a/paddle/gserver/tests/__init__.py b/paddle/legacy/gserver/tests/__init__.py
similarity index 100%
rename from paddle/gserver/tests/__init__.py
rename to paddle/legacy/gserver/tests/__init__.py
diff --git a/paddle/gserver/tests/concat_dotmul_a.conf b/paddle/legacy/gserver/tests/concat_dotmul_a.conf
similarity index 100%
rename from paddle/gserver/tests/concat_dotmul_a.conf
rename to paddle/legacy/gserver/tests/concat_dotmul_a.conf
diff --git a/paddle/gserver/tests/concat_dotmul_b.conf b/paddle/legacy/gserver/tests/concat_dotmul_b.conf
similarity index 100%
rename from paddle/gserver/tests/concat_dotmul_b.conf
rename to paddle/legacy/gserver/tests/concat_dotmul_b.conf
diff --git a/paddle/gserver/tests/concat_fullmatrix_a.conf b/paddle/legacy/gserver/tests/concat_fullmatrix_a.conf
similarity index 100%
rename from paddle/gserver/tests/concat_fullmatrix_a.conf
rename to paddle/legacy/gserver/tests/concat_fullmatrix_a.conf
diff --git a/paddle/gserver/tests/concat_fullmatrix_b.conf b/paddle/legacy/gserver/tests/concat_fullmatrix_b.conf
similarity index 100%
rename from paddle/gserver/tests/concat_fullmatrix_b.conf
rename to paddle/legacy/gserver/tests/concat_fullmatrix_b.conf
diff --git a/paddle/gserver/tests/concat_slice_a.conf b/paddle/legacy/gserver/tests/concat_slice_a.conf
similarity index 100%
rename from paddle/gserver/tests/concat_slice_a.conf
rename to paddle/legacy/gserver/tests/concat_slice_a.conf
diff --git a/paddle/gserver/tests/concat_slice_b.conf b/paddle/legacy/gserver/tests/concat_slice_b.conf
similarity index 100%
rename from paddle/gserver/tests/concat_slice_b.conf
rename to paddle/legacy/gserver/tests/concat_slice_b.conf
diff --git a/paddle/gserver/tests/concat_table_a.conf b/paddle/legacy/gserver/tests/concat_table_a.conf
similarity index 100%
rename from paddle/gserver/tests/concat_table_a.conf
rename to paddle/legacy/gserver/tests/concat_table_a.conf
diff --git a/paddle/gserver/tests/concat_table_b.conf b/paddle/legacy/gserver/tests/concat_table_b.conf
similarity index 100%
rename from paddle/gserver/tests/concat_table_b.conf
rename to paddle/legacy/gserver/tests/concat_table_b.conf
diff --git a/paddle/gserver/tests/img_conv_a.conf b/paddle/legacy/gserver/tests/img_conv_a.conf
similarity index 100%
rename from paddle/gserver/tests/img_conv_a.conf
rename to paddle/legacy/gserver/tests/img_conv_a.conf
diff --git a/paddle/gserver/tests/img_conv_b.conf b/paddle/legacy/gserver/tests/img_conv_b.conf
similarity index 100%
rename from paddle/gserver/tests/img_conv_b.conf
rename to paddle/legacy/gserver/tests/img_conv_b.conf
diff --git a/paddle/gserver/tests/img_conv_c.conf b/paddle/legacy/gserver/tests/img_conv_c.conf
similarity index 100%
rename from paddle/gserver/tests/img_conv_c.conf
rename to paddle/legacy/gserver/tests/img_conv_c.conf
diff --git a/paddle/gserver/tests/img_conv_cudnn.py b/paddle/legacy/gserver/tests/img_conv_cudnn.py
similarity index 100%
rename from paddle/gserver/tests/img_conv_cudnn.py
rename to paddle/legacy/gserver/tests/img_conv_cudnn.py
diff --git a/paddle/gserver/tests/img_conv_exconv.py b/paddle/legacy/gserver/tests/img_conv_exconv.py
similarity index 100%
rename from paddle/gserver/tests/img_conv_exconv.py
rename to paddle/legacy/gserver/tests/img_conv_exconv.py
diff --git a/paddle/gserver/tests/img_pool_a.conf b/paddle/legacy/gserver/tests/img_pool_a.conf
similarity index 100%
rename from paddle/gserver/tests/img_pool_a.conf
rename to paddle/legacy/gserver/tests/img_pool_a.conf
diff --git a/paddle/gserver/tests/img_pool_b.conf b/paddle/legacy/gserver/tests/img_pool_b.conf
similarity index 100%
rename from paddle/gserver/tests/img_pool_b.conf
rename to paddle/legacy/gserver/tests/img_pool_b.conf
diff --git a/paddle/gserver/tests/mkldnn_branch_net.conf b/paddle/legacy/gserver/tests/mkldnn_branch_net.conf
similarity index 100%
rename from paddle/gserver/tests/mkldnn_branch_net.conf
rename to paddle/legacy/gserver/tests/mkldnn_branch_net.conf
diff --git a/paddle/gserver/tests/mkldnn_simple_net.conf b/paddle/legacy/gserver/tests/mkldnn_simple_net.conf
similarity index 100%
rename from paddle/gserver/tests/mkldnn_simple_net.conf
rename to paddle/legacy/gserver/tests/mkldnn_simple_net.conf
diff --git a/paddle/gserver/tests/pyDataProvider.py b/paddle/legacy/gserver/tests/pyDataProvider.py
similarity index 100%
rename from paddle/gserver/tests/pyDataProvider.py
rename to paddle/legacy/gserver/tests/pyDataProvider.py
diff --git a/paddle/gserver/tests/pyDataProvider/pyDataProviderList b/paddle/legacy/gserver/tests/pyDataProvider/pyDataProviderList
similarity index 100%
rename from paddle/gserver/tests/pyDataProvider/pyDataProviderList
rename to paddle/legacy/gserver/tests/pyDataProvider/pyDataProviderList
diff --git a/paddle/gserver/tests/pyDataProvider/trainer.conf b/paddle/legacy/gserver/tests/pyDataProvider/trainer.conf
similarity index 100%
rename from paddle/gserver/tests/pyDataProvider/trainer.conf
rename to paddle/legacy/gserver/tests/pyDataProvider/trainer.conf
diff --git a/paddle/gserver/tests/rnn_data_provider.py b/paddle/legacy/gserver/tests/rnn_data_provider.py
similarity index 100%
rename from paddle/gserver/tests/rnn_data_provider.py
rename to paddle/legacy/gserver/tests/rnn_data_provider.py
diff --git a/paddle/gserver/tests/sequenceGen.py b/paddle/legacy/gserver/tests/sequenceGen.py
similarity index 100%
rename from paddle/gserver/tests/sequenceGen.py
rename to paddle/legacy/gserver/tests/sequenceGen.py
diff --git a/paddle/gserver/tests/sequence_layer_group.conf b/paddle/legacy/gserver/tests/sequence_layer_group.conf
similarity index 93%
rename from paddle/gserver/tests/sequence_layer_group.conf
rename to paddle/legacy/gserver/tests/sequence_layer_group.conf
index 50f2d89d02..ad1b61d582 100644
--- a/paddle/gserver/tests/sequence_layer_group.conf
+++ b/paddle/legacy/gserver/tests/sequence_layer_group.conf
@@ -16,13 +16,13 @@
 from paddle.trainer_config_helpers import *
 
 ######################## data source ################################
-dict_path = 'gserver/tests/Sequence/tour_dict_phrase.dict'
+dict_path = 'legacy/gserver/tests/Sequence/tour_dict_phrase.dict'
 dict_file = dict()
 for line_count, line in enumerate(open(dict_path, "r")):
     dict_file[line.strip()] = line_count
 
 define_py_data_sources2(
-    train_list='gserver/tests/Sequence/train.list',
+    train_list='legacy/gserver/tests/Sequence/train.list',
     test_list=None,
     module='sequenceGen',
     obj='process',
diff --git a/paddle/gserver/tests/sequence_lstm.conf b/paddle/legacy/gserver/tests/sequence_lstm.conf
similarity index 93%
rename from paddle/gserver/tests/sequence_lstm.conf
rename to paddle/legacy/gserver/tests/sequence_lstm.conf
index f49a827f22..6ab70e7071 100644
--- a/paddle/gserver/tests/sequence_lstm.conf
+++ b/paddle/legacy/gserver/tests/sequence_lstm.conf
@@ -16,13 +16,13 @@
 from paddle.trainer_config_helpers import *
 
 ######################## data source ################################
-dict_path = 'gserver/tests/Sequence/tour_dict_phrase.dict'
+dict_path = 'legacy/gserver/tests/Sequence/tour_dict_phrase.dict'
 dict_file = dict()
 for line_count, line in enumerate(open(dict_path, "r")):
     dict_file[line.strip()] = line_count
 
 define_py_data_sources2(
-    train_list='gserver/tests/Sequence/train.list',
+    train_list='legacy/gserver/tests/Sequence/train.list',
     test_list=None,
     module='sequenceGen',
     obj='process',
diff --git a/paddle/gserver/tests/sequence_nest_layer_group.conf b/paddle/legacy/gserver/tests/sequence_nest_layer_group.conf
similarity index 95%
rename from paddle/gserver/tests/sequence_nest_layer_group.conf
rename to paddle/legacy/gserver/tests/sequence_nest_layer_group.conf
index 71ef53d08a..75c36b1189 100644
--- a/paddle/gserver/tests/sequence_nest_layer_group.conf
+++ b/paddle/legacy/gserver/tests/sequence_nest_layer_group.conf
@@ -16,13 +16,13 @@
 from paddle.trainer_config_helpers import *
 
 ######################## data source ################################
-dict_path = 'gserver/tests/Sequence/tour_dict_phrase.dict'
+dict_path = 'legacy/gserver/tests/Sequence/tour_dict_phrase.dict'
 dict_file = dict()
 for line_count, line in enumerate(open(dict_path, "r")):
     dict_file[line.strip()] = line_count
 
 define_py_data_sources2(
-    train_list='gserver/tests/Sequence/train.list.nest',
+    train_list='legacy/gserver/tests/Sequence/train.list.nest',
     test_list=None,
     module='sequenceGen',
     obj='process2',
diff --git a/paddle/gserver/tests/sequence_nest_rnn.conf b/paddle/legacy/gserver/tests/sequence_nest_rnn.conf
similarity index 96%
rename from paddle/gserver/tests/sequence_nest_rnn.conf
rename to paddle/legacy/gserver/tests/sequence_nest_rnn.conf
index 2873a59966..bc3b22c2a9 100644
--- a/paddle/gserver/tests/sequence_nest_rnn.conf
+++ b/paddle/legacy/gserver/tests/sequence_nest_rnn.conf
@@ -16,7 +16,7 @@
 from paddle.trainer_config_helpers import *
 
 ######################## data source ################################
-define_py_data_sources2(train_list='gserver/tests/Sequence/dummy.list',
+define_py_data_sources2(train_list='legacy/gserver/tests/Sequence/dummy.list',
                         test_list=None,
                         module='rnn_data_provider',
                         obj='process_subseq')
diff --git a/paddle/gserver/tests/sequence_nest_rnn_multi_input.conf b/paddle/legacy/gserver/tests/sequence_nest_rnn_multi_input.conf
similarity index 97%
rename from paddle/gserver/tests/sequence_nest_rnn_multi_input.conf
rename to paddle/legacy/gserver/tests/sequence_nest_rnn_multi_input.conf
index afdacfffd7..165ab22989 100644
--- a/paddle/gserver/tests/sequence_nest_rnn_multi_input.conf
+++ b/paddle/legacy/gserver/tests/sequence_nest_rnn_multi_input.conf
@@ -16,7 +16,7 @@
 from paddle.trainer_config_helpers import *
 
 ######################## data source ################################
-define_py_data_sources2(train_list='gserver/tests/Sequence/dummy.list',
+define_py_data_sources2(train_list='legacy/gserver/tests/Sequence/dummy.list',
                         test_list=None,
                         module='rnn_data_provider',
                         obj='process_subseq')
diff --git a/paddle/gserver/tests/sequence_nest_rnn_multi_unequalength_inputs.py b/paddle/legacy/gserver/tests/sequence_nest_rnn_multi_unequalength_inputs.py
similarity index 98%
rename from paddle/gserver/tests/sequence_nest_rnn_multi_unequalength_inputs.py
rename to paddle/legacy/gserver/tests/sequence_nest_rnn_multi_unequalength_inputs.py
index 569d3c094b..9a48b7f25c 100644
--- a/paddle/gserver/tests/sequence_nest_rnn_multi_unequalength_inputs.py
+++ b/paddle/legacy/gserver/tests/sequence_nest_rnn_multi_unequalength_inputs.py
@@ -15,7 +15,7 @@ from paddle.trainer_config_helpers import *
 
 ######################## data source ################################
 define_py_data_sources2(
-    train_list='gserver/tests/Sequence/dummy.list',
+    train_list='legacy/gserver/tests/Sequence/dummy.list',
     test_list=None,
     module='rnn_data_provider',
     obj='process_unequalength_subseq')
diff --git a/paddle/gserver/tests/sequence_recurrent.py b/paddle/legacy/gserver/tests/sequence_recurrent.py
similarity index 93%
rename from paddle/gserver/tests/sequence_recurrent.py
rename to paddle/legacy/gserver/tests/sequence_recurrent.py
index b88c09084e..e2c6a7935c 100644
--- a/paddle/gserver/tests/sequence_recurrent.py
+++ b/paddle/legacy/gserver/tests/sequence_recurrent.py
@@ -15,13 +15,13 @@
 from paddle.trainer_config_helpers import *
 
 ######################## data source ################################
-dict_path = 'gserver/tests/Sequence/tour_dict_phrase.dict'
+dict_path = 'legacy/gserver/tests/Sequence/tour_dict_phrase.dict'
 dict_file = dict()
 for line_count, line in enumerate(open(dict_path, "r")):
     dict_file[line.strip()] = line_count
 
 define_py_data_sources2(
-    train_list='gserver/tests/Sequence/train.list',
+    train_list='legacy/gserver/tests/Sequence/train.list',
     test_list=None,
     module='sequenceGen',
     obj='process',
diff --git a/paddle/gserver/tests/sequence_recurrent_group.py b/paddle/legacy/gserver/tests/sequence_recurrent_group.py
similarity index 94%
rename from paddle/gserver/tests/sequence_recurrent_group.py
rename to paddle/legacy/gserver/tests/sequence_recurrent_group.py
index 0daf746700..b4638bd907 100644
--- a/paddle/gserver/tests/sequence_recurrent_group.py
+++ b/paddle/legacy/gserver/tests/sequence_recurrent_group.py
@@ -14,13 +14,13 @@
 from paddle.trainer_config_helpers import *
 
 ######################## data source ################################
-dict_path = 'gserver/tests/Sequence/tour_dict_phrase.dict'
+dict_path = 'legacy/gserver/tests/Sequence/tour_dict_phrase.dict'
 dict_file = dict()
 for line_count, line in enumerate(open(dict_path, "r")):
     dict_file[line.strip()] = line_count
 
 define_py_data_sources2(
-    train_list='gserver/tests/Sequence/train.list',
+    train_list='legacy/gserver/tests/Sequence/train.list',
     test_list=None,
     module='sequenceGen',
     obj='process',
diff --git a/paddle/gserver/tests/sequence_rnn.conf b/paddle/legacy/gserver/tests/sequence_rnn.conf
similarity index 95%
rename from paddle/gserver/tests/sequence_rnn.conf
rename to paddle/legacy/gserver/tests/sequence_rnn.conf
index 1084edfe70..3133595c9c 100644
--- a/paddle/gserver/tests/sequence_rnn.conf
+++ b/paddle/legacy/gserver/tests/sequence_rnn.conf
@@ -16,7 +16,7 @@
 from paddle.trainer_config_helpers import *
 
 ######################## data source ################################
-define_py_data_sources2(train_list='gserver/tests/Sequence/dummy.list',
+define_py_data_sources2(train_list='legacy/gserver/tests/Sequence/dummy.list',
                         test_list=None,
                         module='rnn_data_provider',
                         obj='process_seq')
diff --git a/paddle/gserver/tests/sequence_rnn_matched_inputs.py b/paddle/legacy/gserver/tests/sequence_rnn_matched_inputs.py
similarity index 97%
rename from paddle/gserver/tests/sequence_rnn_matched_inputs.py
rename to paddle/legacy/gserver/tests/sequence_rnn_matched_inputs.py
index 41a581e0cc..921cef04dd 100644
--- a/paddle/gserver/tests/sequence_rnn_matched_inputs.py
+++ b/paddle/legacy/gserver/tests/sequence_rnn_matched_inputs.py
@@ -16,7 +16,7 @@ from paddle.trainer_config_helpers import *
 
 ######################## data source ################################
 define_py_data_sources2(
-    train_list='gserver/tests/Sequence/dummy.list',
+    train_list='legacy/gserver/tests/Sequence/dummy.list',
     test_list=None,
     module='rnn_data_provider',
     obj='process_mixed')
diff --git a/paddle/gserver/tests/sequence_rnn_mixed_inputs.py b/paddle/legacy/gserver/tests/sequence_rnn_mixed_inputs.py
similarity index 97%
rename from paddle/gserver/tests/sequence_rnn_mixed_inputs.py
rename to paddle/legacy/gserver/tests/sequence_rnn_mixed_inputs.py
index ae89d8e2bb..c7bcaf6c4b 100644
--- a/paddle/gserver/tests/sequence_rnn_mixed_inputs.py
+++ b/paddle/legacy/gserver/tests/sequence_rnn_mixed_inputs.py
@@ -16,7 +16,7 @@ from paddle.trainer_config_helpers import *
 
 ######################## data source ################################
 define_py_data_sources2(
-    train_list='gserver/tests/Sequence/dummy.list',
+    train_list='legacy/gserver/tests/Sequence/dummy.list',
     test_list=None,
     module='rnn_data_provider',
     obj='process_mixed')
diff --git a/paddle/gserver/tests/sequence_rnn_multi_input.conf b/paddle/legacy/gserver/tests/sequence_rnn_multi_input.conf
similarity index 95%
rename from paddle/gserver/tests/sequence_rnn_multi_input.conf
rename to paddle/legacy/gserver/tests/sequence_rnn_multi_input.conf
index 9fae974f30..bf4be779a2 100644
--- a/paddle/gserver/tests/sequence_rnn_multi_input.conf
+++ b/paddle/legacy/gserver/tests/sequence_rnn_multi_input.conf
@@ -16,7 +16,7 @@
 from paddle.trainer_config_helpers import *
 
 ######################## data source ################################
-define_py_data_sources2(train_list='gserver/tests/Sequence/dummy.list',
+define_py_data_sources2(train_list='legacy/gserver/tests/Sequence/dummy.list',
                         test_list=None,
                         module='rnn_data_provider',
                         obj='process_seq')
diff --git a/paddle/gserver/tests/sequence_rnn_multi_unequalength_inputs.py b/paddle/legacy/gserver/tests/sequence_rnn_multi_unequalength_inputs.py
similarity index 97%
rename from paddle/gserver/tests/sequence_rnn_multi_unequalength_inputs.py
rename to paddle/legacy/gserver/tests/sequence_rnn_multi_unequalength_inputs.py
index 6473fb3f3e..3612b49c22 100644
--- a/paddle/gserver/tests/sequence_rnn_multi_unequalength_inputs.py
+++ b/paddle/legacy/gserver/tests/sequence_rnn_multi_unequalength_inputs.py
@@ -16,7 +16,7 @@ from paddle.trainer_config_helpers import *
 
 ######################## data source ################################
 define_py_data_sources2(
-    train_list='gserver/tests/Sequence/dummy.list',
+    train_list='legacy/gserver/tests/Sequence/dummy.list',
     test_list=None,
     module='rnn_data_provider',
     obj='process_unequalength_seq')
diff --git a/paddle/gserver/tests/test_ActivationGrad.cpp b/paddle/legacy/gserver/tests/test_ActivationGrad.cpp
similarity index 98%
rename from paddle/gserver/tests/test_ActivationGrad.cpp
rename to paddle/legacy/gserver/tests/test_ActivationGrad.cpp
index b5e4af26dc..f468d229a8 100644
--- a/paddle/gserver/tests/test_ActivationGrad.cpp
+++ b/paddle/legacy/gserver/tests/test_ActivationGrad.cpp
@@ -16,7 +16,7 @@ limitations under the License. */
 #include <string>
 #include <vector>
 #include "ModelConfig.pb.h"
-#include "paddle/gserver/layers/DataLayer.h"
+#include "paddle/legacy/gserver/layers/DataLayer.h"
 
 #include "LayerGradUtil.h"
 #include "paddle/testing/TestUtil.h"
diff --git a/paddle/gserver/tests/test_BatchNorm.cpp b/paddle/legacy/gserver/tests/test_BatchNorm.cpp
similarity index 97%
rename from paddle/gserver/tests/test_BatchNorm.cpp
rename to paddle/legacy/gserver/tests/test_BatchNorm.cpp
index a3ec66c758..c7a65a3051 100644
--- a/paddle/gserver/tests/test_BatchNorm.cpp
+++ b/paddle/legacy/gserver/tests/test_BatchNorm.cpp
@@ -16,12 +16,12 @@ limitations under the License. */
 #include <string>
 #include <vector>
 #include "ModelConfig.pb.h"
-#include "paddle/gserver/layers/DataLayer.h"
+#include "paddle/legacy/gserver/layers/DataLayer.h"
 #include "paddle/utils/GlobalConstants.h"
 
 #include "LayerGradUtil.h"
-#include "paddle/cuda/include/hl_batch_norm.h"
-#include "paddle/math/tests/TensorCheck.h"
+#include "paddle/legacy/cuda/include/hl_batch_norm.h"
+#include "paddle/legacy/math/tests/TensorCheck.h"
 #include "paddle/testing/TestUtil.h"
 
 using namespace paddle;  // NOLINT
diff --git a/paddle/gserver/tests/test_CRFLayerGrad.cpp b/paddle/legacy/gserver/tests/test_CRFLayerGrad.cpp
similarity index 97%
rename from paddle/gserver/tests/test_CRFLayerGrad.cpp
rename to paddle/legacy/gserver/tests/test_CRFLayerGrad.cpp
index 9f3d293656..1dafd1de4d 100644
--- a/paddle/gserver/tests/test_CRFLayerGrad.cpp
+++ b/paddle/legacy/gserver/tests/test_CRFLayerGrad.cpp
@@ -14,8 +14,8 @@ limitations under the License. */
 
 #include <gtest/gtest.h>
 #include "ModelConfig.pb.h"
-#include "paddle/gserver/layers/DataLayer.h"
-#include "paddle/gserver/layers/LinearChainCRF.h"
+#include "paddle/legacy/gserver/layers/DataLayer.h"
+#include "paddle/legacy/gserver/layers/LinearChainCRF.h"
 
 #include "LayerGradUtil.h"
 #include "paddle/testing/TestUtil.h"
diff --git a/paddle/gserver/tests/test_CompareSparse.cpp b/paddle/legacy/gserver/tests/test_CompareSparse.cpp
similarity index 98%
rename from paddle/gserver/tests/test_CompareSparse.cpp
rename to paddle/legacy/gserver/tests/test_CompareSparse.cpp
index 2fbc404125..51433c9aaa 100644
--- a/paddle/gserver/tests/test_CompareSparse.cpp
+++ b/paddle/legacy/gserver/tests/test_CompareSparse.cpp
@@ -17,12 +17,12 @@ limitations under the License. */
 #include "paddle/trainer/Trainer.h"
 
 #include <gtest/gtest.h>
-#include <paddle/pserver/ParameterServer2.h>
+#include <paddle/legacy/pserver/ParameterServer2.h>
 
 using namespace paddle;  // NOLINT
 using namespace std;     // NOLINT
 
-static const string& configFile1 = "gserver/tests/sequence_lstm.conf";
+static const string& configFile1 = "legacy/gserver/tests/sequence_lstm.conf";
 
 DECLARE_bool(use_gpu);
 DECLARE_string(config);
diff --git a/paddle/gserver/tests/test_CompareTwoNets.cpp b/paddle/legacy/gserver/tests/test_CompareTwoNets.cpp
similarity index 97%
rename from paddle/gserver/tests/test_CompareTwoNets.cpp
rename to paddle/legacy/gserver/tests/test_CompareTwoNets.cpp
index 1c9b4002a3..3ac86ce516 100644
--- a/paddle/gserver/tests/test_CompareTwoNets.cpp
+++ b/paddle/legacy/gserver/tests/test_CompareTwoNets.cpp
@@ -40,9 +40,10 @@ DEFINE_double(
 DECLARE_bool(thread_local_rand_use_global_seed);
 DECLARE_int32(seed);
 
-static const string& config_file_a = "gserver/tests/sequence_recurrent.py";
+static const string& config_file_a =
+    "legacy/gserver/tests/sequence_recurrent.py";
 static const string& config_file_b =
-    "gserver/tests/sequence_recurrent_group.py";
+    "legacy/gserver/tests/sequence_recurrent_group.py";
 
 struct ComData {
   vector<Argument> outArgs;
diff --git a/paddle/gserver/tests/test_ConvTrans.cpp b/paddle/legacy/gserver/tests/test_ConvTrans.cpp
similarity index 98%
rename from paddle/gserver/tests/test_ConvTrans.cpp
rename to paddle/legacy/gserver/tests/test_ConvTrans.cpp
index 2e394a74b7..41a03f3b44 100644
--- a/paddle/gserver/tests/test_ConvTrans.cpp
+++ b/paddle/legacy/gserver/tests/test_ConvTrans.cpp
@@ -16,8 +16,8 @@ limitations under the License. */
 #include <string>
 #include <vector>
 #include "ModelConfig.pb.h"
-#include "paddle/gserver/layers/DataLayer.h"
-#include "paddle/math/MathUtils.h"
+#include "paddle/legacy/gserver/layers/DataLayer.h"
+#include "paddle/legacy/math/MathUtils.h"
 #include "paddle/utils/GlobalConstants.h"
 
 #include "LayerGradUtil.h"
diff --git a/paddle/gserver/tests/test_ConvUnify.cpp b/paddle/legacy/gserver/tests/test_ConvUnify.cpp
similarity index 99%
rename from paddle/gserver/tests/test_ConvUnify.cpp
rename to paddle/legacy/gserver/tests/test_ConvUnify.cpp
index ba820d9a2a..a01a2b6937 100644
--- a/paddle/gserver/tests/test_ConvUnify.cpp
+++ b/paddle/legacy/gserver/tests/test_ConvUnify.cpp
@@ -16,8 +16,8 @@ limitations under the License. */
 #include <string>
 #include <vector>
 #include "ModelConfig.pb.h"
-#include "paddle/gserver/layers/DataLayer.h"
-#include "paddle/math/MathUtils.h"
+#include "paddle/legacy/gserver/layers/DataLayer.h"
+#include "paddle/legacy/math/MathUtils.h"
 #include "paddle/utils/GlobalConstants.h"
 
 #include "LayerGradUtil.h"
diff --git a/paddle/gserver/tests/test_CrossEntropyOverBeamGrad.cpp b/paddle/legacy/gserver/tests/test_CrossEntropyOverBeamGrad.cpp
similarity index 99%
rename from paddle/gserver/tests/test_CrossEntropyOverBeamGrad.cpp
rename to paddle/legacy/gserver/tests/test_CrossEntropyOverBeamGrad.cpp
index 0041ed3093..34eb0dedff 100644
--- a/paddle/gserver/tests/test_CrossEntropyOverBeamGrad.cpp
+++ b/paddle/legacy/gserver/tests/test_CrossEntropyOverBeamGrad.cpp
@@ -17,7 +17,7 @@ limitations under the License. */
 
 #include <gtest/gtest.h>
 #include "ModelConfig.pb.h"
-#include "paddle/gserver/layers/DataLayer.h"
+#include "paddle/legacy/gserver/layers/DataLayer.h"
 
 #include "LayerGradUtil.h"
 #include "paddle/testing/TestUtil.h"
diff --git a/paddle/gserver/tests/test_DetectionOutput.cpp b/paddle/legacy/gserver/tests/test_DetectionOutput.cpp
similarity index 100%
rename from paddle/gserver/tests/test_DetectionOutput.cpp
rename to paddle/legacy/gserver/tests/test_DetectionOutput.cpp
diff --git a/paddle/gserver/tests/test_Evaluator.cpp b/paddle/legacy/gserver/tests/test_Evaluator.cpp
similarity index 100%
rename from paddle/gserver/tests/test_Evaluator.cpp
rename to paddle/legacy/gserver/tests/test_Evaluator.cpp
diff --git a/paddle/gserver/tests/test_Expand.cpp b/paddle/legacy/gserver/tests/test_Expand.cpp
similarity index 100%
rename from paddle/gserver/tests/test_Expand.cpp
rename to paddle/legacy/gserver/tests/test_Expand.cpp
diff --git a/paddle/gserver/tests/test_KmaxSeqScore.cpp b/paddle/legacy/gserver/tests/test_KmaxSeqScore.cpp
similarity index 99%
rename from paddle/gserver/tests/test_KmaxSeqScore.cpp
rename to paddle/legacy/gserver/tests/test_KmaxSeqScore.cpp
index 168ffbdac8..6a1cfdc705 100644
--- a/paddle/gserver/tests/test_KmaxSeqScore.cpp
+++ b/paddle/legacy/gserver/tests/test_KmaxSeqScore.cpp
@@ -17,7 +17,7 @@ limitations under the License. */
 #include <string>
 #include <vector>
 #include "ModelConfig.pb.h"
-#include "paddle/gserver/layers/DataLayer.h"
+#include "paddle/legacy/gserver/layers/DataLayer.h"
 #include "paddle/utils/GlobalConstants.h"
 
 #include "LayerGradUtil.h"
diff --git a/paddle/gserver/tests/test_LayerGrad.cpp b/paddle/legacy/gserver/tests/test_LayerGrad.cpp
similarity index 99%
rename from paddle/gserver/tests/test_LayerGrad.cpp
rename to paddle/legacy/gserver/tests/test_LayerGrad.cpp
index 1254d58050..979cf8ee67 100644
--- a/paddle/gserver/tests/test_LayerGrad.cpp
+++ b/paddle/legacy/gserver/tests/test_LayerGrad.cpp
@@ -19,8 +19,8 @@ limitations under the License. */
 #include <string>
 #include <vector>
 #include "ModelConfig.pb.h"
-#include "paddle/gserver/layers/DataLayer.h"
-#include "paddle/math/MathUtils.h"
+#include "paddle/legacy/gserver/layers/DataLayer.h"
+#include "paddle/legacy/math/MathUtils.h"
 
 #include "LayerGradUtil.h"
 #include "paddle/testing/TestUtil.h"
diff --git a/paddle/gserver/tests/test_LinearChainCRF.cpp b/paddle/legacy/gserver/tests/test_LinearChainCRF.cpp
similarity index 97%
rename from paddle/gserver/tests/test_LinearChainCRF.cpp
rename to paddle/legacy/gserver/tests/test_LinearChainCRF.cpp
index 423c31e27d..1c95492551 100644
--- a/paddle/gserver/tests/test_LinearChainCRF.cpp
+++ b/paddle/legacy/gserver/tests/test_LinearChainCRF.cpp
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #include <gtest/gtest.h>
 #include <vector>
-#include "paddle/gserver/layers/LinearChainCRF.h"
+#include "paddle/legacy/gserver/layers/LinearChainCRF.h"
 #include "paddle/utils/Util.h"
 
 using namespace paddle;  // NOLINT
diff --git a/paddle/gserver/tests/test_MKLDNN.cpp b/paddle/legacy/gserver/tests/test_MKLDNN.cpp
similarity index 98%
rename from paddle/gserver/tests/test_MKLDNN.cpp
rename to paddle/legacy/gserver/tests/test_MKLDNN.cpp
index a34a3f6206..a20ccfb772 100644
--- a/paddle/gserver/tests/test_MKLDNN.cpp
+++ b/paddle/legacy/gserver/tests/test_MKLDNN.cpp
@@ -18,8 +18,8 @@ limitations under the License. */
 #include <vector>
 #include "MKLDNNTester.h"
 #include "ModelConfig.pb.h"
-#include "paddle/gserver/activations/MKLDNNActivation.h"
-#include "paddle/math/MathUtils.h"
+#include "paddle/legacy/gserver/activations/MKLDNNActivation.h"
+#include "paddle/legacy/math/MathUtils.h"
 
 using namespace paddle;  // NOLINT
 
@@ -426,7 +426,7 @@ DECLARE_string(config_args);
 TEST(MKLDNNNet, net) {
   std::vector<std::string> cases = {"simple", "branch"};
   for (auto name : cases) {
-    std::string config = "./gserver/tests/mkldnn_" + name + "_net.conf";
+    std::string config = "./legacy/gserver/tests/mkldnn_" + name + "_net.conf";
     for (auto channels : {2, 32}) {
       std::ostringstream oss;
       oss << "channels=" << channels;
diff --git a/paddle/gserver/tests/test_MaxPoolingWithMaskOutput.cpp b/paddle/legacy/gserver/tests/test_MaxPoolingWithMaskOutput.cpp
similarity index 98%
rename from paddle/gserver/tests/test_MaxPoolingWithMaskOutput.cpp
rename to paddle/legacy/gserver/tests/test_MaxPoolingWithMaskOutput.cpp
index 5188d2abed..2bc261b4a8 100644
--- a/paddle/gserver/tests/test_MaxPoolingWithMaskOutput.cpp
+++ b/paddle/legacy/gserver/tests/test_MaxPoolingWithMaskOutput.cpp
@@ -17,7 +17,7 @@ limitations under the License. */
 #include <vector>
 
 #include "LayerGradUtil.h"
-#include "paddle/math/MathUtils.h"
+#include "paddle/legacy/math/MathUtils.h"
 #include "paddle/testing/TestUtil.h"
 
 using namespace paddle;
diff --git a/paddle/gserver/tests/test_MultinomialSampler.cpp b/paddle/legacy/gserver/tests/test_MultinomialSampler.cpp
similarity index 98%
rename from paddle/gserver/tests/test_MultinomialSampler.cpp
rename to paddle/legacy/gserver/tests/test_MultinomialSampler.cpp
index 043025239e..ca1a588d83 100644
--- a/paddle/gserver/tests/test_MultinomialSampler.cpp
+++ b/paddle/legacy/gserver/tests/test_MultinomialSampler.cpp
@@ -20,7 +20,7 @@ limitations under the License. */
 #undef PADDLE_DISABLE_TIMER
 #include "paddle/utils/Stat.h"
 
-#include "paddle/gserver/layers/MultinomialSampler.h"
+#include "paddle/legacy/gserver/layers/MultinomialSampler.h"
 #include "paddle/utils/Util.h"
 
 using namespace paddle;  // NOLINT
diff --git a/paddle/gserver/tests/test_NetworkCompare.cpp b/paddle/legacy/gserver/tests/test_NetworkCompare.cpp
similarity index 89%
rename from paddle/gserver/tests/test_NetworkCompare.cpp
rename to paddle/legacy/gserver/tests/test_NetworkCompare.cpp
index fda3f2f793..5a6b224583 100644
--- a/paddle/gserver/tests/test_NetworkCompare.cpp
+++ b/paddle/legacy/gserver/tests/test_NetworkCompare.cpp
@@ -220,33 +220,33 @@ void compareNetwork(const std::string& config_file_a,
 }
 
 TEST(Compare, concat_dotmul) {
-  std::string config_file_a = "./gserver/tests/concat_dotmul_a.conf";
-  std::string config_file_b = "./gserver/tests/concat_dotmul_b.conf";
+  std::string config_file_a = "./legacy/gserver/tests/concat_dotmul_a.conf";
+  std::string config_file_b = "./legacy/gserver/tests/concat_dotmul_b.conf";
   compareNetwork(config_file_a, config_file_b);
 }
 
 TEST(Compare, concat_fullmatrix) {
-  std::string config_file_a = "./gserver/tests/concat_fullmatrix_a.conf";
-  std::string config_file_b = "./gserver/tests/concat_fullmatrix_b.conf";
+  std::string config_file_a = "./legacy/gserver/tests/concat_fullmatrix_a.conf";
+  std::string config_file_b = "./legacy/gserver/tests/concat_fullmatrix_b.conf";
   compareNetwork(config_file_a, config_file_b);
 }
 
 TEST(Compare, concat_table) {
-  std::string config_file_a = "./gserver/tests/concat_table_a.conf";
-  std::string config_file_b = "./gserver/tests/concat_table_b.conf";
+  std::string config_file_a = "./legacy/gserver/tests/concat_table_a.conf";
+  std::string config_file_b = "./legacy/gserver/tests/concat_table_b.conf";
   compareNetwork(config_file_a, config_file_b);
 }
 
 TEST(Compare, concat_slice) {
-  std::string config_file_a = "./gserver/tests/concat_slice_a.conf";
-  std::string config_file_b = "./gserver/tests/concat_slice_b.conf";
+  std::string config_file_a = "./legacy/gserver/tests/concat_slice_a.conf";
+  std::string config_file_b = "./legacy/gserver/tests/concat_slice_b.conf";
   compareNetwork(config_file_a, config_file_b);
 }
 
 #ifdef PADDLE_WITH_CUDA
 TEST(Compare, img_pool) {
-  std::string config_file_a = "./gserver/tests/img_pool_a.conf";
-  std::string config_file_b = "./gserver/tests/img_pool_b.conf";
+  std::string config_file_a = "./legacy/gserver/tests/img_pool_a.conf";
+  std::string config_file_b = "./legacy/gserver/tests/img_pool_b.conf";
   bool useGpu = FLAGS_use_gpu;
   FLAGS_use_gpu = true;
   compareNetwork(config_file_a, config_file_b);
@@ -254,8 +254,8 @@ TEST(Compare, img_pool) {
 }
 
 TEST(Compare, img_conv) {
-  std::string config_file_a = "./gserver/tests/img_conv_a.conf";
-  std::string config_file_b = "./gserver/tests/img_conv_b.conf";
+  std::string config_file_a = "./legacy/gserver/tests/img_conv_a.conf";
+  std::string config_file_b = "./legacy/gserver/tests/img_conv_b.conf";
   bool useGpu = FLAGS_use_gpu;
   FLAGS_use_gpu = true;
   compareNetwork(config_file_a, config_file_b);
@@ -264,8 +264,8 @@ TEST(Compare, img_conv) {
 
 // Test cudnn_conv and exconv give the same result
 TEST(Compare, img_conv2) {
-  std::string config_file_a = "./gserver/tests/img_conv_cudnn.py";
-  std::string config_file_b = "./gserver/tests/img_conv_exconv.py";
+  std::string config_file_a = "./legacy/gserver/tests/img_conv_cudnn.py";
+  std::string config_file_b = "./legacy/gserver/tests/img_conv_exconv.py";
   bool useGpu = FLAGS_use_gpu;
   double eps = FLAGS_checkgrad_eps;
   FLAGS_use_gpu = true;
diff --git a/paddle/gserver/tests/test_PriorBox.cpp b/paddle/legacy/gserver/tests/test_PriorBox.cpp
similarity index 100%
rename from paddle/gserver/tests/test_PriorBox.cpp
rename to paddle/legacy/gserver/tests/test_PriorBox.cpp
diff --git a/paddle/gserver/tests/test_PyDataProvider.cpp b/paddle/legacy/gserver/tests/test_PyDataProvider.cpp
similarity index 96%
rename from paddle/gserver/tests/test_PyDataProvider.cpp
rename to paddle/legacy/gserver/tests/test_PyDataProvider.cpp
index a1dee97950..9cde4ecca5 100644
--- a/paddle/gserver/tests/test_PyDataProvider.cpp
+++ b/paddle/legacy/gserver/tests/test_PyDataProvider.cpp
@@ -17,7 +17,7 @@ limitations under the License. */
 
 #include <gtest/gtest.h>
 
-#include "paddle/gserver/dataproviders/PyDataProvider.h"
+#include "paddle/legacy/gserver/dataproviders/PyDataProvider.h"
 #include "paddle/utils/Util.h"
 
 #include "paddle/testing/TestUtil.h"
@@ -35,7 +35,8 @@ TEST(PyDataProvider, py_fill_slots) {
   config.set_load_data_module(std::string("pyDataProvider"));
   config.set_load_data_object(std::string("SimpleDataProvider"));
   config.clear_files();
-  std::string dataFile = "gserver/tests/pyDataProvider/pyDataProviderList";
+  std::string dataFile =
+      "legacy/gserver/tests/pyDataProvider/pyDataProviderList";
   config.set_files(dataFile);
 #ifndef PADDLE_WITH_CUDA
   bool useGpu = false;
@@ -68,7 +69,8 @@ TEST(PyDataProvider, py_fill_nest_slots) {
   config.set_load_data_module(std::string("pyDataProvider"));
   config.set_load_data_object(std::string("SimpleNestDataProvider"));
   config.clear_files();
-  std::string dataFile = "gserver/tests/pyDataProvider/pyDataProviderList";
+  std::string dataFile =
+      "legacy/gserver/tests/pyDataProvider/pyDataProviderList";
   config.set_files(dataFile);
   EXPECT_EQ(config.IsInitialized(), true);
 #ifndef PADDLE_WITH_CUDA
diff --git a/paddle/gserver/tests/test_PyDataProvider2.cpp b/paddle/legacy/gserver/tests/test_PyDataProvider2.cpp
similarity index 99%
rename from paddle/gserver/tests/test_PyDataProvider2.cpp
rename to paddle/legacy/gserver/tests/test_PyDataProvider2.cpp
index b39fb35345..7f5a087b9a 100644
--- a/paddle/gserver/tests/test_PyDataProvider2.cpp
+++ b/paddle/legacy/gserver/tests/test_PyDataProvider2.cpp
@@ -15,7 +15,7 @@ limitations under the License. */
 #ifndef PADDLE_NO_PYTHON
 #include <gtest/gtest.h>
 #include <fstream>
-#include "paddle/gserver/dataproviders/DataProvider.h"
+#include "paddle/legacy/gserver/dataproviders/DataProvider.h"
 #include "paddle/utils/PythonUtil.h"
 #include "paddle/utils/Util.h"
 
diff --git a/paddle/gserver/tests/test_PyDataProvider2.py b/paddle/legacy/gserver/tests/test_PyDataProvider2.py
similarity index 100%
rename from paddle/gserver/tests/test_PyDataProvider2.py
rename to paddle/legacy/gserver/tests/test_PyDataProvider2.py
diff --git a/paddle/gserver/tests/test_RecurrentGradientMachine.cpp b/paddle/legacy/gserver/tests/test_RecurrentGradientMachine.cpp
similarity index 83%
rename from paddle/gserver/tests/test_RecurrentGradientMachine.cpp
rename to paddle/legacy/gserver/tests/test_RecurrentGradientMachine.cpp
index 9770567b88..9f9fee7ef6 100644
--- a/paddle/gserver/tests/test_RecurrentGradientMachine.cpp
+++ b/paddle/legacy/gserver/tests/test_RecurrentGradientMachine.cpp
@@ -13,8 +13,8 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include <gtest/gtest.h>
-#include <paddle/gserver/gradientmachines/GradientMachine.h>
-#include <paddle/parameter/ParameterUpdateFunctions.h>
+#include <paddle/legacy/gserver/gradientmachines/GradientMachine.h>
+#include <paddle/legacy/parameter/ParameterUpdateFunctions.h>
 #include <paddle/trainer/Trainer.h>
 #include <paddle/trainer/TrainerInternal.h>
 #include <paddle/utils/PythonUtil.h>
@@ -102,11 +102,11 @@ void test(const string& conf1, const string& conf2, double eps, bool useGpu) {
   FLAGS_use_gpu = useGpu;
   int num_passes = 5;
   real* cost1 = new real[num_passes];
-  const string dir1 = "gserver/tests/t1";
+  const string dir1 = "legacy/gserver/tests/t1";
   CalCost(conf1, dir1, cost1, num_passes);
 
   real* cost2 = new real[num_passes];
-  const string dir2 = "gserver/tests/t2";
+  const string dir2 = "legacy/gserver/tests/t2";
   CalCost(conf2, dir2, cost2, num_passes);
 
   for (int i = 0; i < num_passes; i++) {
@@ -121,8 +121,8 @@ void test(const string& conf1, const string& conf2, double eps, bool useGpu) {
 
 TEST(RecurrentGradientMachine, HasSubSequence) {
   for (bool useGpu : {false, true}) {
-    test("gserver/tests/sequence_layer_group.conf",
-         "gserver/tests/sequence_nest_layer_group.conf",
+    test("legacy/gserver/tests/sequence_layer_group.conf",
+         "legacy/gserver/tests/sequence_nest_layer_group.conf",
          1e-5,
          useGpu);
   }
@@ -130,8 +130,8 @@ TEST(RecurrentGradientMachine, HasSubSequence) {
 
 TEST(RecurrentGradientMachine, rnn) {
   for (bool useGpu : {false, true}) {
-    test("gserver/tests/sequence_rnn.conf",
-         "gserver/tests/sequence_nest_rnn.conf",
+    test("legacy/gserver/tests/sequence_rnn.conf",
+         "legacy/gserver/tests/sequence_nest_rnn.conf",
          1e-6,
          useGpu);
   }
@@ -139,8 +139,8 @@ TEST(RecurrentGradientMachine, rnn) {
 
 TEST(RecurrentGradientMachine, rnn_multi_input) {
   for (bool useGpu : {false, true}) {
-    test("gserver/tests/sequence_rnn_multi_input.conf",
-         "gserver/tests/sequence_nest_rnn_multi_input.conf",
+    test("legacy/gserver/tests/sequence_rnn_multi_input.conf",
+         "legacy/gserver/tests/sequence_nest_rnn_multi_input.conf",
          1e-6,
          useGpu);
   }
@@ -148,8 +148,8 @@ TEST(RecurrentGradientMachine, rnn_multi_input) {
 
 TEST(RecurrentGradientMachine, rnn_multi_unequalength_input) {
   for (bool useGpu : {false, true}) {
-    test("gserver/tests/sequence_rnn_multi_unequalength_inputs.py",
-         "gserver/tests/sequence_nest_rnn_multi_unequalength_inputs.py",
+    test("legacy/gserver/tests/sequence_rnn_multi_unequalength_inputs.py",
+         "legacy/gserver/tests/sequence_nest_rnn_multi_unequalength_inputs.py",
          1e-6,
          useGpu);
   }
@@ -157,8 +157,8 @@ TEST(RecurrentGradientMachine, rnn_multi_unequalength_input) {
 
 TEST(RecurrentGradientMachine, rnn_mixed_input) {
   for (bool useGpu : {false, true}) {
-    test("gserver/tests/sequence_rnn_mixed_inputs.py",
-         "gserver/tests/sequence_rnn_matched_inputs.py",
+    test("legacy/gserver/tests/sequence_rnn_mixed_inputs.py",
+         "legacy/gserver/tests/sequence_rnn_matched_inputs.py",
          1e-6,
          useGpu);
   }
diff --git a/paddle/gserver/tests/test_RecurrentLayer.cpp b/paddle/legacy/gserver/tests/test_RecurrentLayer.cpp
similarity index 98%
rename from paddle/gserver/tests/test_RecurrentLayer.cpp
rename to paddle/legacy/gserver/tests/test_RecurrentLayer.cpp
index b54e37b7db..852a08d493 100644
--- a/paddle/gserver/tests/test_RecurrentLayer.cpp
+++ b/paddle/legacy/gserver/tests/test_RecurrentLayer.cpp
@@ -16,8 +16,8 @@ limitations under the License. */
 #include <paddle/utils/Version.h>
 #include <vector>
 #include "ModelConfig.pb.h"
-#include "paddle/gserver/layers/DataLayer.h"
-#include "paddle/gserver/layers/Layer.h"
+#include "paddle/legacy/gserver/layers/DataLayer.h"
+#include "paddle/legacy/gserver/layers/Layer.h"
 
 #include "paddle/testing/TestUtil.h"
 
@@ -220,9 +220,9 @@ TEST(Layer, RecurrentLayer) {
 }
 
 #define protected public
-#include "paddle/gserver/layers/GatedRecurrentLayer.h"
-#include "paddle/gserver/layers/LstmLayer.h"
-#include "paddle/gserver/layers/RecurrentLayer.h"
+#include "paddle/legacy/gserver/layers/GatedRecurrentLayer.h"
+#include "paddle/legacy/gserver/layers/LstmLayer.h"
+#include "paddle/legacy/gserver/layers/RecurrentLayer.h"
 template <class T>
 class TestRecurrentLayer {
  public:
@@ -423,7 +423,7 @@ TEST(Layer, LstmLayer) {
 
 #ifdef PADDLE_WITH_MKLML
 
-#include "paddle/gserver/layers/MKLPackedRecurrentLayer.h"
+#include "paddle/legacy/gserver/layers/MKLPackedRecurrentLayer.h"
 
 LayerPtr initMKLPackedLayer(LayerConfig layerConfig,
                             bool reversed,
diff --git a/paddle/gserver/tests/test_SelectiveFCLayer.cpp b/paddle/legacy/gserver/tests/test_SelectiveFCLayer.cpp
similarity index 94%
rename from paddle/gserver/tests/test_SelectiveFCLayer.cpp
rename to paddle/legacy/gserver/tests/test_SelectiveFCLayer.cpp
index 583e3bc545..160d95f158 100644
--- a/paddle/gserver/tests/test_SelectiveFCLayer.cpp
+++ b/paddle/legacy/gserver/tests/test_SelectiveFCLayer.cpp
@@ -19,11 +19,11 @@ limitations under the License. */
 #include <cstdlib>
 #include <ctime>
 #include "ModelConfig.pb.h"
-#include "paddle/gserver/layers/DataLayer.h"
-#include "paddle/gserver/layers/FullyConnectedLayer.h"
-#include "paddle/gserver/layers/Layer.h"
-#include "paddle/gserver/layers/SelectiveFullyConnectedLayer.h"
-#include "paddle/math/CpuSparseMatrix.h"
+#include "paddle/legacy/gserver/layers/DataLayer.h"
+#include "paddle/legacy/gserver/layers/FullyConnectedLayer.h"
+#include "paddle/legacy/gserver/layers/Layer.h"
+#include "paddle/legacy/gserver/layers/SelectiveFullyConnectedLayer.h"
+#include "paddle/legacy/math/CpuSparseMatrix.h"
 
 using namespace paddle;  // NOLINT
 using namespace std;     // NOLINT
@@ -76,7 +76,7 @@ void calcOutput(ComData& comData,
   FLAGS_config = configFile;
   FLAGS_config_args = configArgs;
   FLAGS_use_gpu = useGpu;
-  FLAGS_init_model_path = "gserver/tests/SelectiveFcTest/model";
+  FLAGS_init_model_path = "legacy/gserver/tests/SelectiveFcTest/model";
   *ThreadLocalRand::getSeed() = 0;
   srand(0);
 
@@ -311,13 +311,13 @@ LayerPtr initFcLayer(LayerPtr dataLayer,
 #ifndef PADDLE_TYPE_DOUBLE
 // The parameter file used in fc.conf and selective_fc.conf is float
 TEST(Layer, SelectiveFcLayer_train_dense_mul) {
-  const string& fcConfig = "gserver/tests/SelectiveFcTest/conf/fc.conf";
+  const string& fcConfig = "legacy/gserver/tests/SelectiveFcTest/conf/fc.conf";
   const string& fcConfigArgs =
-      "filelist=gserver/tests/SelectiveFcTest/dense_mul_list";
+      "filelist=legacy/gserver/tests/SelectiveFcTest/dense_mul_list";
   const string& selFcConfig =
-      "gserver/tests/SelectiveFcTest/conf/selective_fc.conf";
+      "legacy/gserver/tests/SelectiveFcTest/conf/selective_fc.conf";
   const string& selConfigArgs =
-      "filelist=gserver/tests/SelectiveFcTest/dense_mul_list";
+      "filelist=legacy/gserver/tests/SelectiveFcTest/dense_mul_list";
 
   for (auto useGpu : {false, true}) {
 #ifndef PADDLE_WITH_CUDA
@@ -350,7 +350,7 @@ void testSelectiveFcLayerTrainSparseMul(const LayerConfig& config,
       creatDataLayer("data", batchSize, dataLayerSize, values, useGpu);
 
   const string& selfcParaFile =
-      "gserver/tests/SelectiveFcTest/model/rand_fc_param.w.transpose";
+      "legacy/gserver/tests/SelectiveFcTest/model/rand_fc_param.w.transpose";
   const string& selfcParaName = "rand_fc_param.w.transpose";
 
   std::shared_ptr<SelectiveFullyConnectedLayer> selfcLayer =
@@ -396,7 +396,7 @@ void testSelectiveFcLayerTrainSparseMul(const LayerConfig& config,
   size_t nnz = cpuOutMatSelfc->getElementCnt();
 
   const string& fcParaFile =
-      "gserver/tests/SelectiveFcTest/model/rand_fc_param.w";
+      "legacy/gserver/tests/SelectiveFcTest/model/rand_fc_param.w";
   const string& fcParaName = "rand_fc_param.w";
   LayerConfig fcLayerConfig;
   fcLayerConfig.set_name("fc_layer");
diff --git a/paddle/gserver/tests/test_SeqSliceLayerGrad.cpp b/paddle/legacy/gserver/tests/test_SeqSliceLayerGrad.cpp
similarity index 99%
rename from paddle/gserver/tests/test_SeqSliceLayerGrad.cpp
rename to paddle/legacy/gserver/tests/test_SeqSliceLayerGrad.cpp
index 406ca63b6e..05acd71421 100644
--- a/paddle/gserver/tests/test_SeqSliceLayerGrad.cpp
+++ b/paddle/legacy/gserver/tests/test_SeqSliceLayerGrad.cpp
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #include <gtest/gtest.h>
 #include "ModelConfig.pb.h"
-#include "paddle/gserver/layers/DataLayer.h"
+#include "paddle/legacy/gserver/layers/DataLayer.h"
 
 #include "LayerGradUtil.h"
 #include "paddle/testing/TestUtil.h"
diff --git a/paddle/gserver/tests/test_Upsample.cpp b/paddle/legacy/gserver/tests/test_Upsample.cpp
similarity index 99%
rename from paddle/gserver/tests/test_Upsample.cpp
rename to paddle/legacy/gserver/tests/test_Upsample.cpp
index 39b902fcc7..940d46baf7 100644
--- a/paddle/gserver/tests/test_Upsample.cpp
+++ b/paddle/legacy/gserver/tests/test_Upsample.cpp
@@ -17,7 +17,7 @@ limitations under the License. */
 #include <vector>
 
 #include "LayerGradUtil.h"
-#include "paddle/math/MathUtils.h"
+#include "paddle/legacy/math/MathUtils.h"
 #include "paddle/testing/TestUtil.h"
 
 void setPoolConfig(paddle::TestConfig* config,
diff --git a/paddle/gserver/tests/test_WarpCTCLayer.cpp b/paddle/legacy/gserver/tests/test_WarpCTCLayer.cpp
similarity index 97%
rename from paddle/gserver/tests/test_WarpCTCLayer.cpp
rename to paddle/legacy/gserver/tests/test_WarpCTCLayer.cpp
index f2299d7da2..34b88e6893 100644
--- a/paddle/gserver/tests/test_WarpCTCLayer.cpp
+++ b/paddle/legacy/gserver/tests/test_WarpCTCLayer.cpp
@@ -15,10 +15,10 @@ limitations under the License. */
 #include <gtest/gtest.h>
 #include <paddle/utils/Version.h>
 #include "ModelConfig.pb.h"
-#include "paddle/gserver/layers/CTCLayer.h"
-#include "paddle/gserver/layers/DataLayer.h"
-#include "paddle/gserver/layers/Layer.h"
-#include "paddle/gserver/layers/WarpCTCLayer.h"
+#include "paddle/legacy/gserver/layers/CTCLayer.h"
+#include "paddle/legacy/gserver/layers/DataLayer.h"
+#include "paddle/legacy/gserver/layers/Layer.h"
+#include "paddle/legacy/gserver/layers/WarpCTCLayer.h"
 
 #include "paddle/testing/TestUtil.h"
 
diff --git a/paddle/math/Allocator.h b/paddle/legacy/math/Allocator.h
similarity index 100%
rename from paddle/math/Allocator.h
rename to paddle/legacy/math/Allocator.h
diff --git a/paddle/math/BaseMatrix.cu b/paddle/legacy/math/BaseMatrix.cu
similarity index 100%
rename from paddle/math/BaseMatrix.cu
rename to paddle/legacy/math/BaseMatrix.cu
diff --git a/paddle/math/BaseMatrix.h b/paddle/legacy/math/BaseMatrix.h
similarity index 100%
rename from paddle/math/BaseMatrix.h
rename to paddle/legacy/math/BaseMatrix.h
diff --git a/paddle/math/CMakeLists.txt b/paddle/legacy/math/CMakeLists.txt
similarity index 84%
rename from paddle/math/CMakeLists.txt
rename to paddle/legacy/math/CMakeLists.txt
index 3c897b5f3e..9992ec71f4 100644
--- a/paddle/math/CMakeLists.txt
+++ b/paddle/legacy/math/CMakeLists.txt
@@ -37,13 +37,13 @@ if(MOBILE_INFERENCE)
          ${CMAKE_CURRENT_SOURCE_DIR}/SparseRowMatrix.cpp)
 endif()
 set(MATH_SOURCES
-    "${PADDLE_SOURCE_DIR}/paddle/math/BaseMatrix.cu"
-    "${PADDLE_SOURCE_DIR}/paddle/math/TrainingAlgorithmOp.cu"
+    "${PADDLE_SOURCE_DIR}/paddle/legacy/math/BaseMatrix.cu"
+    "${PADDLE_SOURCE_DIR}/paddle/legacy/math/TrainingAlgorithmOp.cu"
     ${MATH_SOURCES})
 if(NOT WITH_GPU)
     # then compile BaseMatrix.cu as c++ file
-    compile_cu_as_cpp("${PADDLE_SOURCE_DIR}/paddle/math/BaseMatrix.cu")
-    compile_cu_as_cpp("${PADDLE_SOURCE_DIR}/paddle/math/TrainingAlgorithmOp.cu")
+    compile_cu_as_cpp("${PADDLE_SOURCE_DIR}/paddle/legacy/math/BaseMatrix.cu")
+    compile_cu_as_cpp("${PADDLE_SOURCE_DIR}/paddle/legacy/math/TrainingAlgorithmOp.cu")
     add_library(paddle_math STATIC
         ${MATH_SOURCES})
 else()
diff --git a/paddle/math/CpuSparseMatrix.cpp b/paddle/legacy/math/CpuSparseMatrix.cpp
similarity index 99%
rename from paddle/math/CpuSparseMatrix.cpp
rename to paddle/legacy/math/CpuSparseMatrix.cpp
index 023450ffb7..88683ec984 100644
--- a/paddle/math/CpuSparseMatrix.cpp
+++ b/paddle/legacy/math/CpuSparseMatrix.cpp
@@ -16,7 +16,7 @@ limitations under the License. */
 #include "SparseMatrix.h"
 #include "float.h"
 #include "hl_gpu.h"
-#include "paddle/math/MathUtils.h"
+#include "paddle/legacy/math/MathUtils.h"
 #include "paddle/utils/Util.h"
 
 namespace paddle {
diff --git a/paddle/math/CpuSparseMatrix.h b/paddle/legacy/math/CpuSparseMatrix.h
similarity index 100%
rename from paddle/math/CpuSparseMatrix.h
rename to paddle/legacy/math/CpuSparseMatrix.h
diff --git a/paddle/math/ExecViaCpu.h b/paddle/legacy/math/ExecViaCpu.h
similarity index 100%
rename from paddle/math/ExecViaCpu.h
rename to paddle/legacy/math/ExecViaCpu.h
diff --git a/paddle/math/MKLDNNMatrix.cpp b/paddle/legacy/math/MKLDNNMatrix.cpp
similarity index 100%
rename from paddle/math/MKLDNNMatrix.cpp
rename to paddle/legacy/math/MKLDNNMatrix.cpp
diff --git a/paddle/math/MKLDNNMatrix.h b/paddle/legacy/math/MKLDNNMatrix.h
similarity index 99%
rename from paddle/math/MKLDNNMatrix.h
rename to paddle/legacy/math/MKLDNNMatrix.h
index d4a78f3e54..5a0e5f8592 100644
--- a/paddle/math/MKLDNNMatrix.h
+++ b/paddle/legacy/math/MKLDNNMatrix.h
@@ -17,7 +17,7 @@ limitations under the License. */
 #include <vector>
 #include "Matrix.h"
 #include "mkldnn.hpp"
-#include "paddle/parameter/Parameter.h"
+#include "paddle/legacy/parameter/Parameter.h"
 
 namespace paddle {
 
diff --git a/paddle/math/MathFunctions.cpp b/paddle/legacy/math/MathFunctions.cpp
similarity index 99%
rename from paddle/math/MathFunctions.cpp
rename to paddle/legacy/math/MathFunctions.cpp
index f48119aa51..152aeb5d64 100644
--- a/paddle/math/MathFunctions.cpp
+++ b/paddle/legacy/math/MathFunctions.cpp
@@ -12,7 +12,7 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 
-#include "paddle/math/MathFunctions.h"
+#include "paddle/legacy/math/MathFunctions.h"
 #include "hl_matrix_apply.cuh"
 #include "hl_matrix_ops.cuh"
 #include "paddle/utils/DynamicLoader.h"
diff --git a/paddle/math/MathFunctions.h b/paddle/legacy/math/MathFunctions.h
similarity index 100%
rename from paddle/math/MathFunctions.h
rename to paddle/legacy/math/MathFunctions.h
diff --git a/paddle/math/MathUtils.cpp b/paddle/legacy/math/MathUtils.cpp
similarity index 100%
rename from paddle/math/MathUtils.cpp
rename to paddle/legacy/math/MathUtils.cpp
diff --git a/paddle/math/MathUtils.h b/paddle/legacy/math/MathUtils.h
similarity index 100%
rename from paddle/math/MathUtils.h
rename to paddle/legacy/math/MathUtils.h
diff --git a/paddle/math/Matrix.cpp b/paddle/legacy/math/Matrix.cpp
similarity index 99%
rename from paddle/math/Matrix.cpp
rename to paddle/legacy/math/Matrix.cpp
index bcd6dfe1fd..50b0bc5011 100644
--- a/paddle/math/Matrix.cpp
+++ b/paddle/legacy/math/Matrix.cpp
@@ -29,7 +29,7 @@ limitations under the License. */
 #include "paddle/utils/Logging.h"
 
 #include "NEONFunctions.h"
-#include "paddle/function/GemmFunctor.h"
+#include "paddle/legacy/function/GemmFunctor.h"
 #include "paddle/utils/ThreadLocal.h"
 
 #include "SIMDFunctions.h"
diff --git a/paddle/math/Matrix.h b/paddle/legacy/math/Matrix.h
similarity index 99%
rename from paddle/math/Matrix.h
rename to paddle/legacy/math/Matrix.h
index 4c3b2c9536..74dc690792 100644
--- a/paddle/math/Matrix.h
+++ b/paddle/legacy/math/Matrix.h
@@ -31,7 +31,7 @@ limitations under the License. */
 
 namespace paddle {
 
-/// TODO(tianbing), move to paddle/function/TensorType.h
+/// TODO(tianbing), move to paddle/legacy/function/TensorType.h
 enum SparseValueType { NO_VALUE = 0, FLOAT_VALUE = 1 };
 
 /**
@@ -57,7 +57,7 @@ enum SparseValueType { NO_VALUE = 0, FLOAT_VALUE = 1 };
  *            value [1, 1, 2, 2, 5]
  * @endcode
  */
-/// TODO(tianbing), move to paddle/function/TensorType.h
+/// TODO(tianbing), move to paddle/legacy/function/TensorType.h
 enum SparseFormat { SPARSE_CSR = 0, SPARSE_CSC = 1 };
 
 class Matrix;
diff --git a/paddle/math/MatrixBitCode.cpp b/paddle/legacy/math/MatrixBitCode.cpp
similarity index 100%
rename from paddle/math/MatrixBitCode.cpp
rename to paddle/legacy/math/MatrixBitCode.cpp
diff --git a/paddle/math/MemoryHandle.cpp b/paddle/legacy/math/MemoryHandle.cpp
similarity index 100%
rename from paddle/math/MemoryHandle.cpp
rename to paddle/legacy/math/MemoryHandle.cpp
diff --git a/paddle/math/MemoryHandle.h b/paddle/legacy/math/MemoryHandle.h
similarity index 100%
rename from paddle/math/MemoryHandle.h
rename to paddle/legacy/math/MemoryHandle.h
diff --git a/paddle/math/NEONFunctions.cpp b/paddle/legacy/math/NEONFunctions.cpp
similarity index 100%
rename from paddle/math/NEONFunctions.cpp
rename to paddle/legacy/math/NEONFunctions.cpp
diff --git a/paddle/math/NEONFunctions.h b/paddle/legacy/math/NEONFunctions.h
similarity index 100%
rename from paddle/math/NEONFunctions.h
rename to paddle/legacy/math/NEONFunctions.h
diff --git a/paddle/math/PoolAllocator.cpp b/paddle/legacy/math/PoolAllocator.cpp
similarity index 100%
rename from paddle/math/PoolAllocator.cpp
rename to paddle/legacy/math/PoolAllocator.cpp
diff --git a/paddle/math/PoolAllocator.h b/paddle/legacy/math/PoolAllocator.h
similarity index 100%
rename from paddle/math/PoolAllocator.h
rename to paddle/legacy/math/PoolAllocator.h
diff --git a/paddle/math/RowBuffer.h b/paddle/legacy/math/RowBuffer.h
similarity index 100%
rename from paddle/math/RowBuffer.h
rename to paddle/legacy/math/RowBuffer.h
diff --git a/paddle/math/SIMDFunctions.cpp b/paddle/legacy/math/SIMDFunctions.cpp
similarity index 100%
rename from paddle/math/SIMDFunctions.cpp
rename to paddle/legacy/math/SIMDFunctions.cpp
diff --git a/paddle/math/SIMDFunctions.h b/paddle/legacy/math/SIMDFunctions.h
similarity index 100%
rename from paddle/math/SIMDFunctions.h
rename to paddle/legacy/math/SIMDFunctions.h
diff --git a/paddle/math/SparseMatrix.cpp b/paddle/legacy/math/SparseMatrix.cpp
similarity index 100%
rename from paddle/math/SparseMatrix.cpp
rename to paddle/legacy/math/SparseMatrix.cpp
diff --git a/paddle/math/SparseMatrix.h b/paddle/legacy/math/SparseMatrix.h
similarity index 100%
rename from paddle/math/SparseMatrix.h
rename to paddle/legacy/math/SparseMatrix.h
diff --git a/paddle/math/SparseRowMatrix.cpp b/paddle/legacy/math/SparseRowMatrix.cpp
similarity index 100%
rename from paddle/math/SparseRowMatrix.cpp
rename to paddle/legacy/math/SparseRowMatrix.cpp
diff --git a/paddle/math/SparseRowMatrix.h b/paddle/legacy/math/SparseRowMatrix.h
similarity index 100%
rename from paddle/math/SparseRowMatrix.h
rename to paddle/legacy/math/SparseRowMatrix.h
diff --git a/paddle/math/Storage.cpp b/paddle/legacy/math/Storage.cpp
similarity index 100%
rename from paddle/math/Storage.cpp
rename to paddle/legacy/math/Storage.cpp
diff --git a/paddle/math/Storage.h b/paddle/legacy/math/Storage.h
similarity index 100%
rename from paddle/math/Storage.h
rename to paddle/legacy/math/Storage.h
diff --git a/paddle/math/TensorApply.h b/paddle/legacy/math/TensorApply.h
similarity index 100%
rename from paddle/math/TensorApply.h
rename to paddle/legacy/math/TensorApply.h
diff --git a/paddle/math/TensorAssign.h b/paddle/legacy/math/TensorAssign.h
similarity index 100%
rename from paddle/math/TensorAssign.h
rename to paddle/legacy/math/TensorAssign.h
diff --git a/paddle/math/TensorEvaluate.h b/paddle/legacy/math/TensorEvaluate.h
similarity index 100%
rename from paddle/math/TensorEvaluate.h
rename to paddle/legacy/math/TensorEvaluate.h
diff --git a/paddle/math/TensorExpression.h b/paddle/legacy/math/TensorExpression.h
similarity index 100%
rename from paddle/math/TensorExpression.h
rename to paddle/legacy/math/TensorExpression.h
diff --git a/paddle/math/TrainingAlgorithmOp.cu b/paddle/legacy/math/TrainingAlgorithmOp.cu
similarity index 100%
rename from paddle/math/TrainingAlgorithmOp.cu
rename to paddle/legacy/math/TrainingAlgorithmOp.cu
diff --git a/paddle/math/TrainingAlgorithmOp.h b/paddle/legacy/math/TrainingAlgorithmOp.h
similarity index 100%
rename from paddle/math/TrainingAlgorithmOp.h
rename to paddle/legacy/math/TrainingAlgorithmOp.h
diff --git a/paddle/math/Vector.cpp b/paddle/legacy/math/Vector.cpp
similarity index 100%
rename from paddle/math/Vector.cpp
rename to paddle/legacy/math/Vector.cpp
diff --git a/paddle/math/Vector.h b/paddle/legacy/math/Vector.h
similarity index 100%
rename from paddle/math/Vector.h
rename to paddle/legacy/math/Vector.h
diff --git a/paddle/math/tests/CMakeLists.txt b/paddle/legacy/math/tests/CMakeLists.txt
similarity index 100%
rename from paddle/math/tests/CMakeLists.txt
rename to paddle/legacy/math/tests/CMakeLists.txt
diff --git a/paddle/math/tests/OriginalOptimizerApi.h b/paddle/legacy/math/tests/OriginalOptimizerApi.h
similarity index 99%
rename from paddle/math/tests/OriginalOptimizerApi.h
rename to paddle/legacy/math/tests/OriginalOptimizerApi.h
index e30d784b23..1f942e28f4 100644
--- a/paddle/math/tests/OriginalOptimizerApi.h
+++ b/paddle/legacy/math/tests/OriginalOptimizerApi.h
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #pragma once
 
-#include "paddle/math/Vector.h"
+#include "paddle/legacy/math/Vector.h"
 #include "paddle/utils/GlobalConstants.h"
 
 using namespace paddle;  // NOLINT
diff --git a/paddle/math/tests/PerfUtils.h b/paddle/legacy/math/tests/PerfUtils.h
similarity index 100%
rename from paddle/math/tests/PerfUtils.h
rename to paddle/legacy/math/tests/PerfUtils.h
diff --git a/paddle/math/tests/TensorCheck.h b/paddle/legacy/math/tests/TensorCheck.h
similarity index 99%
rename from paddle/math/tests/TensorCheck.h
rename to paddle/legacy/math/tests/TensorCheck.h
index 40ac04ef5d..41c8ece282 100644
--- a/paddle/math/tests/TensorCheck.h
+++ b/paddle/legacy/math/tests/TensorCheck.h
@@ -20,7 +20,7 @@ limitations under the License. */
  */
 
 #include <cmath>
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace autotest {
 
diff --git a/paddle/math/tests/TestUtils.h b/paddle/legacy/math/tests/TestUtils.h
similarity index 98%
rename from paddle/math/tests/TestUtils.h
rename to paddle/legacy/math/tests/TestUtils.h
index e1966ec8a7..60e76359da 100644
--- a/paddle/math/tests/TestUtils.h
+++ b/paddle/legacy/math/tests/TestUtils.h
@@ -41,8 +41,8 @@ limitations under the License. */
 
 #include <gtest/gtest.h>
 #include "TensorCheck.h"
-#include "paddle/math/Matrix.h"
-#include "paddle/math/SparseMatrix.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
 
 namespace autotest {
 
diff --git a/paddle/math/tests/test_Allocator.cpp b/paddle/legacy/math/tests/test_Allocator.cpp
similarity index 96%
rename from paddle/math/tests/test_Allocator.cpp
rename to paddle/legacy/math/tests/test_Allocator.cpp
index 84bc1c1d9e..710b55f57e 100644
--- a/paddle/math/tests/test_Allocator.cpp
+++ b/paddle/legacy/math/tests/test_Allocator.cpp
@@ -16,9 +16,9 @@ limitations under the License. */
 #include "paddle/utils/Logging.h"
 #include "paddle/utils/Util.h"
 #define private public
-#include "paddle/math/Allocator.h"
-#include "paddle/math/MemoryHandle.h"
-#include "paddle/math/PoolAllocator.h"
+#include "paddle/legacy/math/Allocator.h"
+#include "paddle/legacy/math/MemoryHandle.h"
+#include "paddle/legacy/math/PoolAllocator.h"
 
 using namespace paddle;  // NOLINT
 
diff --git a/paddle/math/tests/test_BaseMatrix.cpp b/paddle/legacy/math/tests/test_BaseMatrix.cpp
similarity index 99%
rename from paddle/math/tests/test_BaseMatrix.cpp
rename to paddle/legacy/math/tests/test_BaseMatrix.cpp
index 6f7beb60c8..488765c6ac 100644
--- a/paddle/math/tests/test_BaseMatrix.cpp
+++ b/paddle/legacy/math/tests/test_BaseMatrix.cpp
@@ -21,7 +21,7 @@ limitations under the License. */
 
 #include <gtest/gtest.h>
 #include "TestUtils.h"
-#include "paddle/math/BaseMatrix.h"
+#include "paddle/legacy/math/BaseMatrix.h"
 
 using paddle::BaseMatrix;
 using paddle::Matrix;
diff --git a/paddle/math/tests/test_CpuGpuVector.cpp b/paddle/legacy/math/tests/test_CpuGpuVector.cpp
similarity index 98%
rename from paddle/math/tests/test_CpuGpuVector.cpp
rename to paddle/legacy/math/tests/test_CpuGpuVector.cpp
index 395541a76a..3807158200 100644
--- a/paddle/math/tests/test_CpuGpuVector.cpp
+++ b/paddle/legacy/math/tests/test_CpuGpuVector.cpp
@@ -15,7 +15,7 @@ limitations under the License. */
 #ifdef PADDLE_WITH_CUDA
 
 #include <gtest/gtest.h>
-#include "paddle/math/Vector.h"
+#include "paddle/legacy/math/Vector.h"
 #include "paddle/utils/Util.h"
 #include "test_matrixUtil.h"
 
diff --git a/paddle/math/tests/test_ExecViaCpu.cpp b/paddle/legacy/math/tests/test_ExecViaCpu.cpp
similarity index 98%
rename from paddle/math/tests/test_ExecViaCpu.cpp
rename to paddle/legacy/math/tests/test_ExecViaCpu.cpp
index 72256cb9d4..55a3f5f505 100644
--- a/paddle/math/tests/test_ExecViaCpu.cpp
+++ b/paddle/legacy/math/tests/test_ExecViaCpu.cpp
@@ -16,7 +16,7 @@ limitations under the License. */
 #include <paddle/utils/PythonUtil.h>
 #include <paddle/utils/Util.h>
 #include <vector>
-#include "paddle/math/SparseMatrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
 
 using namespace paddle;  // NOLINT
 
diff --git a/paddle/math/tests/test_FPException.cpp b/paddle/legacy/math/tests/test_FPException.cpp
similarity index 98%
rename from paddle/math/tests/test_FPException.cpp
rename to paddle/legacy/math/tests/test_FPException.cpp
index d87fdcda9e..6fd17f2969 100644
--- a/paddle/math/tests/test_FPException.cpp
+++ b/paddle/legacy/math/tests/test_FPException.cpp
@@ -30,7 +30,7 @@ limitations under the License. */
  */
 
 #include <gtest/gtest.h>
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Common.h"
 
 using namespace paddle;  // NOLINT
diff --git a/paddle/math/tests/test_GpuProfiler.cpp b/paddle/legacy/math/tests/test_GpuProfiler.cpp
similarity index 98%
rename from paddle/math/tests/test_GpuProfiler.cpp
rename to paddle/legacy/math/tests/test_GpuProfiler.cpp
index 828159660b..450c9a035e 100644
--- a/paddle/math/tests/test_GpuProfiler.cpp
+++ b/paddle/legacy/math/tests/test_GpuProfiler.cpp
@@ -15,8 +15,8 @@ limitations under the License. */
 #ifdef PADDLE_WITH_CUDA
 
 #include <gtest/gtest.h>
-#include "paddle/math/Matrix.h"
-#include "paddle/math/SparseMatrix.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
 #include "paddle/testing/TestUtil.h"
 #include "paddle/utils/Stat.h"
 #include "paddle/utils/Util.h"
diff --git a/paddle/math/tests/test_Matrix.cpp b/paddle/legacy/math/tests/test_Matrix.cpp
similarity index 100%
rename from paddle/math/tests/test_Matrix.cpp
rename to paddle/legacy/math/tests/test_Matrix.cpp
diff --git a/paddle/math/tests/test_RowBuffer.cpp b/paddle/legacy/math/tests/test_RowBuffer.cpp
similarity index 98%
rename from paddle/math/tests/test_RowBuffer.cpp
rename to paddle/legacy/math/tests/test_RowBuffer.cpp
index e38de853e0..2ef8cd303d 100644
--- a/paddle/math/tests/test_RowBuffer.cpp
+++ b/paddle/legacy/math/tests/test_RowBuffer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include <gtest/gtest.h>
-#include "paddle/math/RowBuffer.h"
+#include "paddle/legacy/math/RowBuffer.h"
 
 TEST(RowBuffer, testAutoGrow) {
   paddle::RowBuffer buf(128);
diff --git a/paddle/math/tests/test_SIMDFunctions.cpp b/paddle/legacy/math/tests/test_SIMDFunctions.cpp
similarity index 99%
rename from paddle/math/tests/test_SIMDFunctions.cpp
rename to paddle/legacy/math/tests/test_SIMDFunctions.cpp
index b692679436..eef281b3f7 100644
--- a/paddle/math/tests/test_SIMDFunctions.cpp
+++ b/paddle/legacy/math/tests/test_SIMDFunctions.cpp
@@ -12,7 +12,7 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 
-#include "paddle/math/SIMDFunctions.h"
+#include "paddle/legacy/math/SIMDFunctions.h"
 #include "paddle/utils/Util.h"
 
 #include <gtest/gtest.h>
diff --git a/paddle/math/tests/test_SparseMatrix.cpp b/paddle/legacy/math/tests/test_SparseMatrix.cpp
similarity index 100%
rename from paddle/math/tests/test_SparseMatrix.cpp
rename to paddle/legacy/math/tests/test_SparseMatrix.cpp
diff --git a/paddle/math/tests/test_Tensor.cu b/paddle/legacy/math/tests/test_Tensor.cu
similarity index 99%
rename from paddle/math/tests/test_Tensor.cu
rename to paddle/legacy/math/tests/test_Tensor.cu
index acb2da86d0..3ce056d661 100644
--- a/paddle/math/tests/test_Tensor.cu
+++ b/paddle/legacy/math/tests/test_Tensor.cu
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #include <gtest/gtest.h>
 #include "TensorCheck.h"
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 using paddle::Matrix;
 using paddle::CpuMatrix;
diff --git a/paddle/math/tests/test_TrainingAlgorithm.cpp b/paddle/legacy/math/tests/test_TrainingAlgorithm.cpp
similarity index 99%
rename from paddle/math/tests/test_TrainingAlgorithm.cpp
rename to paddle/legacy/math/tests/test_TrainingAlgorithm.cpp
index fb58d26734..3ae9cf111a 100644
--- a/paddle/math/tests/test_TrainingAlgorithm.cpp
+++ b/paddle/legacy/math/tests/test_TrainingAlgorithm.cpp
@@ -16,7 +16,7 @@ limitations under the License. */
 #include "OriginalOptimizerApi.h"
 #include "PerfUtils.h"
 #include "TensorCheck.h"
-#include "paddle/math/TrainingAlgorithmOp.h"
+#include "paddle/legacy/math/TrainingAlgorithmOp.h"
 #include "paddle/utils/Util.h"
 
 using namespace paddle;  // NOLINT
diff --git a/paddle/math/tests/test_batchTranspose.cpp b/paddle/legacy/math/tests/test_batchTranspose.cpp
similarity index 100%
rename from paddle/math/tests/test_batchTranspose.cpp
rename to paddle/legacy/math/tests/test_batchTranspose.cpp
diff --git a/paddle/math/tests/test_lazyAssign.cu b/paddle/legacy/math/tests/test_lazyAssign.cu
similarity index 97%
rename from paddle/math/tests/test_lazyAssign.cu
rename to paddle/legacy/math/tests/test_lazyAssign.cu
index cbd74bbfe3..cf8c3d7719 100644
--- a/paddle/math/tests/test_lazyAssign.cu
+++ b/paddle/legacy/math/tests/test_lazyAssign.cu
@@ -15,8 +15,8 @@ limitations under the License. */
 #include <gtest/gtest.h>
 #include "PerfUtils.h"
 #include "TensorCheck.h"
-#include "paddle/math/Matrix.h"
-#include "paddle/math/TensorAssign.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/TensorAssign.h"
 
 using paddle::BaseMatrix;
 using paddle::CpuMatrix;
diff --git a/paddle/math/tests/test_matrixCompare.cpp b/paddle/legacy/math/tests/test_matrixCompare.cpp
similarity index 99%
rename from paddle/math/tests/test_matrixCompare.cpp
rename to paddle/legacy/math/tests/test_matrixCompare.cpp
index e45ddd433f..98521aeb04 100644
--- a/paddle/math/tests/test_matrixCompare.cpp
+++ b/paddle/legacy/math/tests/test_matrixCompare.cpp
@@ -18,9 +18,9 @@ limitations under the License. */
 
 #include <gtest/gtest.h>
 #include "TensorCheck.h"
-#include "paddle/math/MathUtils.h"
-#include "paddle/math/Matrix.h"
-#include "paddle/math/SparseMatrix.h"
+#include "paddle/legacy/math/MathUtils.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
 #include "paddle/testing/TestUtil.h"
 #include "paddle/utils/DynamicLoader.h"
 #include "paddle/utils/Stat.h"
diff --git a/paddle/math/tests/test_matrixUtil.h b/paddle/legacy/math/tests/test_matrixUtil.h
similarity index 99%
rename from paddle/math/tests/test_matrixUtil.h
rename to paddle/legacy/math/tests/test_matrixUtil.h
index 86297547dc..bb80172b1e 100644
--- a/paddle/math/tests/test_matrixUtil.h
+++ b/paddle/legacy/math/tests/test_matrixUtil.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 #include <gtest/gtest.h>
 #include <paddle/utils/Util.h>
-#include "paddle/math/SparseMatrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
 
 namespace paddle {
 
diff --git a/paddle/math/tests/test_perturbation.cpp b/paddle/legacy/math/tests/test_perturbation.cpp
similarity index 100%
rename from paddle/math/tests/test_perturbation.cpp
rename to paddle/legacy/math/tests/test_perturbation.cpp
diff --git a/paddle/math/tests/test_sparseMatrixCompare.cpp b/paddle/legacy/math/tests/test_sparseMatrixCompare.cpp
similarity index 99%
rename from paddle/math/tests/test_sparseMatrixCompare.cpp
rename to paddle/legacy/math/tests/test_sparseMatrixCompare.cpp
index 12647d21a2..959c9d40b0 100644
--- a/paddle/math/tests/test_sparseMatrixCompare.cpp
+++ b/paddle/legacy/math/tests/test_sparseMatrixCompare.cpp
@@ -18,7 +18,7 @@ limitations under the License. */
 /// only cpu version.
 
 #include <gtest/gtest.h>
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 #include "paddle/utils/Util.h"
 #include "test_matrixUtil.h"
 
diff --git a/paddle/optimizer/CMakeLists.txt b/paddle/legacy/optimizer/CMakeLists.txt
similarity index 100%
rename from paddle/optimizer/CMakeLists.txt
rename to paddle/legacy/optimizer/CMakeLists.txt
diff --git a/paddle/optimizer/adadelta_optimizer.cc b/paddle/legacy/optimizer/adadelta_optimizer.cc
similarity index 100%
rename from paddle/optimizer/adadelta_optimizer.cc
rename to paddle/legacy/optimizer/adadelta_optimizer.cc
diff --git a/paddle/optimizer/adadelta_optimizer.h b/paddle/legacy/optimizer/adadelta_optimizer.h
similarity index 100%
rename from paddle/optimizer/adadelta_optimizer.h
rename to paddle/legacy/optimizer/adadelta_optimizer.h
diff --git a/paddle/optimizer/adagrad_optimizer.cc b/paddle/legacy/optimizer/adagrad_optimizer.cc
similarity index 100%
rename from paddle/optimizer/adagrad_optimizer.cc
rename to paddle/legacy/optimizer/adagrad_optimizer.cc
diff --git a/paddle/optimizer/adagrad_optimizer.h b/paddle/legacy/optimizer/adagrad_optimizer.h
similarity index 100%
rename from paddle/optimizer/adagrad_optimizer.h
rename to paddle/legacy/optimizer/adagrad_optimizer.h
diff --git a/paddle/optimizer/adam_optimizer.cc b/paddle/legacy/optimizer/adam_optimizer.cc
similarity index 100%
rename from paddle/optimizer/adam_optimizer.cc
rename to paddle/legacy/optimizer/adam_optimizer.cc
diff --git a/paddle/optimizer/adam_optimizer.h b/paddle/legacy/optimizer/adam_optimizer.h
similarity index 100%
rename from paddle/optimizer/adam_optimizer.h
rename to paddle/legacy/optimizer/adam_optimizer.h
diff --git a/paddle/optimizer/lr_policy.h b/paddle/legacy/optimizer/lr_policy.h
similarity index 100%
rename from paddle/optimizer/lr_policy.h
rename to paddle/legacy/optimizer/lr_policy.h
diff --git a/paddle/optimizer/optimizer.cc b/paddle/legacy/optimizer/optimizer.cc
similarity index 100%
rename from paddle/optimizer/optimizer.cc
rename to paddle/legacy/optimizer/optimizer.cc
diff --git a/paddle/optimizer/optimizer.h b/paddle/legacy/optimizer/optimizer.h
similarity index 100%
rename from paddle/optimizer/optimizer.h
rename to paddle/legacy/optimizer/optimizer.h
diff --git a/paddle/optimizer/parameter_optimizer.cc b/paddle/legacy/optimizer/parameter_optimizer.cc
similarity index 100%
rename from paddle/optimizer/parameter_optimizer.cc
rename to paddle/legacy/optimizer/parameter_optimizer.cc
diff --git a/paddle/optimizer/parameter_optimizer.h b/paddle/legacy/optimizer/parameter_optimizer.h
similarity index 100%
rename from paddle/optimizer/parameter_optimizer.h
rename to paddle/legacy/optimizer/parameter_optimizer.h
diff --git a/paddle/optimizer/parameter_optimizer_test.cc b/paddle/legacy/optimizer/parameter_optimizer_test.cc
similarity index 100%
rename from paddle/optimizer/parameter_optimizer_test.cc
rename to paddle/legacy/optimizer/parameter_optimizer_test.cc
diff --git a/paddle/optimizer/serialization.h b/paddle/legacy/optimizer/serialization.h
similarity index 100%
rename from paddle/optimizer/serialization.h
rename to paddle/legacy/optimizer/serialization.h
diff --git a/paddle/optimizer/serialization_test.cc b/paddle/legacy/optimizer/serialization_test.cc
similarity index 100%
rename from paddle/optimizer/serialization_test.cc
rename to paddle/legacy/optimizer/serialization_test.cc
diff --git a/paddle/optimizer/sgd_optimizer.cc b/paddle/legacy/optimizer/sgd_optimizer.cc
similarity index 100%
rename from paddle/optimizer/sgd_optimizer.cc
rename to paddle/legacy/optimizer/sgd_optimizer.cc
diff --git a/paddle/optimizer/sgd_optimizer.h b/paddle/legacy/optimizer/sgd_optimizer.h
similarity index 100%
rename from paddle/optimizer/sgd_optimizer.h
rename to paddle/legacy/optimizer/sgd_optimizer.h
diff --git a/paddle/optimizer/tensor.h b/paddle/legacy/optimizer/tensor.h
similarity index 100%
rename from paddle/optimizer/tensor.h
rename to paddle/legacy/optimizer/tensor.h
diff --git a/paddle/parameter/Argument.cpp b/paddle/legacy/parameter/Argument.cpp
similarity index 99%
rename from paddle/parameter/Argument.cpp
rename to paddle/legacy/parameter/Argument.cpp
index 94522f718a..3f1d599e90 100644
--- a/paddle/parameter/Argument.cpp
+++ b/paddle/legacy/parameter/Argument.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "Argument.h"
-#include "paddle/math/SparseMatrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
 
 #include <algorithm>
 
diff --git a/paddle/parameter/Argument.h b/paddle/legacy/parameter/Argument.h
similarity index 98%
rename from paddle/parameter/Argument.h
rename to paddle/legacy/parameter/Argument.h
index e580d38216..f936d944cb 100644
--- a/paddle/parameter/Argument.h
+++ b/paddle/legacy/parameter/Argument.h
@@ -13,9 +13,9 @@ limitations under the License. */
 
 #include "hl_gpu.h"
 
-#include "paddle/math/Matrix.h"
-#include "paddle/math/Vector.h"
-#include "paddle/parameter/Parameter.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/Vector.h"
+#include "paddle/legacy/parameter/Parameter.h"
 #include "paddle/utils/Locks.h"
 #include "paddle/utils/Util.h"
 
diff --git a/paddle/parameter/AverageOptimizer.cpp b/paddle/legacy/parameter/AverageOptimizer.cpp
similarity index 100%
rename from paddle/parameter/AverageOptimizer.cpp
rename to paddle/legacy/parameter/AverageOptimizer.cpp
diff --git a/paddle/parameter/AverageOptimizer.h b/paddle/legacy/parameter/AverageOptimizer.h
similarity index 100%
rename from paddle/parameter/AverageOptimizer.h
rename to paddle/legacy/parameter/AverageOptimizer.h
diff --git a/paddle/parameter/CMakeLists.txt b/paddle/legacy/parameter/CMakeLists.txt
similarity index 100%
rename from paddle/parameter/CMakeLists.txt
rename to paddle/legacy/parameter/CMakeLists.txt
diff --git a/paddle/parameter/FirstOrderOptimizer.cpp b/paddle/legacy/parameter/FirstOrderOptimizer.cpp
similarity index 99%
rename from paddle/parameter/FirstOrderOptimizer.cpp
rename to paddle/legacy/parameter/FirstOrderOptimizer.cpp
index 182e833405..89bb840f82 100644
--- a/paddle/parameter/FirstOrderOptimizer.cpp
+++ b/paddle/legacy/parameter/FirstOrderOptimizer.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "FirstOrderOptimizer.h"
-#include "paddle/math/TrainingAlgorithmOp.h"
+#include "paddle/legacy/math/TrainingAlgorithmOp.h"
 #include "paddle/utils/Flags.h"
 #include "paddle/utils/Util.h"
 
diff --git a/paddle/parameter/FirstOrderOptimizer.h b/paddle/legacy/parameter/FirstOrderOptimizer.h
similarity index 100%
rename from paddle/parameter/FirstOrderOptimizer.h
rename to paddle/legacy/parameter/FirstOrderOptimizer.h
diff --git a/paddle/parameter/LearningRateScheduler.cpp b/paddle/legacy/parameter/LearningRateScheduler.cpp
similarity index 100%
rename from paddle/parameter/LearningRateScheduler.cpp
rename to paddle/legacy/parameter/LearningRateScheduler.cpp
diff --git a/paddle/parameter/LearningRateScheduler.h b/paddle/legacy/parameter/LearningRateScheduler.h
similarity index 100%
rename from paddle/parameter/LearningRateScheduler.h
rename to paddle/legacy/parameter/LearningRateScheduler.h
diff --git a/paddle/parameter/OptimizerFunctions.cpp b/paddle/legacy/parameter/OptimizerFunctions.cpp
similarity index 100%
rename from paddle/parameter/OptimizerFunctions.cpp
rename to paddle/legacy/parameter/OptimizerFunctions.cpp
diff --git a/paddle/parameter/OptimizerFunctions.h b/paddle/legacy/parameter/OptimizerFunctions.h
similarity index 100%
rename from paddle/parameter/OptimizerFunctions.h
rename to paddle/legacy/parameter/OptimizerFunctions.h
diff --git a/paddle/parameter/OptimizerWithRegularizer.cpp b/paddle/legacy/parameter/OptimizerWithRegularizer.cpp
similarity index 100%
rename from paddle/parameter/OptimizerWithRegularizer.cpp
rename to paddle/legacy/parameter/OptimizerWithRegularizer.cpp
diff --git a/paddle/parameter/OptimizerWithRegularizer.h b/paddle/legacy/parameter/OptimizerWithRegularizer.h
similarity index 100%
rename from paddle/parameter/OptimizerWithRegularizer.h
rename to paddle/legacy/parameter/OptimizerWithRegularizer.h
diff --git a/paddle/parameter/Parameter.cpp b/paddle/legacy/parameter/Parameter.cpp
similarity index 99%
rename from paddle/parameter/Parameter.cpp
rename to paddle/legacy/parameter/Parameter.cpp
index 0e6ea90f3d..d00019027b 100644
--- a/paddle/parameter/Parameter.cpp
+++ b/paddle/legacy/parameter/Parameter.cpp
@@ -22,9 +22,9 @@ limitations under the License. */
 #include "ParameterUpdateFunctions.h"
 #include "ThreadLocalBuffer.h"
 #include "hl_gpu.h"
-#include "paddle/math/CpuSparseMatrix.h"
-#include "paddle/math/MathUtils.h"
-#include "paddle/math/SparseRowMatrix.h"
+#include "paddle/legacy/math/CpuSparseMatrix.h"
+#include "paddle/legacy/math/MathUtils.h"
+#include "paddle/legacy/math/SparseRowMatrix.h"
 #include "paddle/utils/Logging.h"
 
 DEFINE_int32(enable_grad_share,
diff --git a/paddle/parameter/Parameter.h b/paddle/legacy/parameter/Parameter.h
similarity index 99%
rename from paddle/parameter/Parameter.h
rename to paddle/legacy/parameter/Parameter.h
index ef519bf35a..75cfb3f4aa 100644
--- a/paddle/parameter/Parameter.h
+++ b/paddle/legacy/parameter/Parameter.h
@@ -24,8 +24,8 @@ limitations under the License. */
 #include "TrainerConfig.pb.h"
 
 #include "ParameterUpdaterHook.h"
-#include "paddle/math/Matrix.h"
-#include "paddle/math/Vector.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/Vector.h"
 #include "paddle/utils/Common.h"
 #include "paddle/utils/GlobalConstants.h"
 #include "paddle/utils/Locks.h"
diff --git a/paddle/parameter/ParameterOptimizer.cpp b/paddle/legacy/parameter/ParameterOptimizer.cpp
similarity index 100%
rename from paddle/parameter/ParameterOptimizer.cpp
rename to paddle/legacy/parameter/ParameterOptimizer.cpp
diff --git a/paddle/parameter/ParameterOptimizer.h b/paddle/legacy/parameter/ParameterOptimizer.h
similarity index 100%
rename from paddle/parameter/ParameterOptimizer.h
rename to paddle/legacy/parameter/ParameterOptimizer.h
diff --git a/paddle/parameter/ParameterUpdateFunctions.cpp b/paddle/legacy/parameter/ParameterUpdateFunctions.cpp
similarity index 100%
rename from paddle/parameter/ParameterUpdateFunctions.cpp
rename to paddle/legacy/parameter/ParameterUpdateFunctions.cpp
diff --git a/paddle/parameter/ParameterUpdateFunctions.h b/paddle/legacy/parameter/ParameterUpdateFunctions.h
similarity index 97%
rename from paddle/parameter/ParameterUpdateFunctions.h
rename to paddle/legacy/parameter/ParameterUpdateFunctions.h
index 7434baa2d3..3dbde93b91 100644
--- a/paddle/parameter/ParameterUpdateFunctions.h
+++ b/paddle/legacy/parameter/ParameterUpdateFunctions.h
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #pragma once
 
-#include "paddle/math/Vector.h"
+#include "paddle/legacy/math/Vector.h"
 #include "paddle/utils/Common.h"
 
 namespace paddle {
diff --git a/paddle/parameter/ParameterUpdaterBase.cpp b/paddle/legacy/parameter/ParameterUpdaterBase.cpp
similarity index 100%
rename from paddle/parameter/ParameterUpdaterBase.cpp
rename to paddle/legacy/parameter/ParameterUpdaterBase.cpp
diff --git a/paddle/parameter/ParameterUpdaterBase.h b/paddle/legacy/parameter/ParameterUpdaterBase.h
similarity index 100%
rename from paddle/parameter/ParameterUpdaterBase.h
rename to paddle/legacy/parameter/ParameterUpdaterBase.h
diff --git a/paddle/parameter/ParameterUpdaterHook.cpp b/paddle/legacy/parameter/ParameterUpdaterHook.cpp
similarity index 98%
rename from paddle/parameter/ParameterUpdaterHook.cpp
rename to paddle/legacy/parameter/ParameterUpdaterHook.cpp
index 989185b66a..e4677f894a 100644
--- a/paddle/parameter/ParameterUpdaterHook.cpp
+++ b/paddle/legacy/parameter/ParameterUpdaterHook.cpp
@@ -22,8 +22,8 @@ limitations under the License. */
 #include <unordered_map>
 #include <vector>
 
-#include "paddle/math/Vector.h"
-#include "paddle/parameter/Parameter.h"
+#include "paddle/legacy/math/Vector.h"
+#include "paddle/legacy/parameter/Parameter.h"
 #include "paddle/utils/Flags.h"
 #include "paddle/utils/Util.h"
 
diff --git a/paddle/parameter/ParameterUpdaterHook.h b/paddle/legacy/parameter/ParameterUpdaterHook.h
similarity index 100%
rename from paddle/parameter/ParameterUpdaterHook.h
rename to paddle/legacy/parameter/ParameterUpdaterHook.h
diff --git a/paddle/parameter/Regularizer.cpp b/paddle/legacy/parameter/Regularizer.cpp
similarity index 100%
rename from paddle/parameter/Regularizer.cpp
rename to paddle/legacy/parameter/Regularizer.cpp
diff --git a/paddle/parameter/Regularizer.h b/paddle/legacy/parameter/Regularizer.h
similarity index 100%
rename from paddle/parameter/Regularizer.h
rename to paddle/legacy/parameter/Regularizer.h
diff --git a/paddle/parameter/ThreadLocalBuffer.cpp b/paddle/legacy/parameter/ThreadLocalBuffer.cpp
similarity index 100%
rename from paddle/parameter/ThreadLocalBuffer.cpp
rename to paddle/legacy/parameter/ThreadLocalBuffer.cpp
diff --git a/paddle/parameter/ThreadLocalBuffer.h b/paddle/legacy/parameter/ThreadLocalBuffer.h
similarity index 94%
rename from paddle/parameter/ThreadLocalBuffer.h
rename to paddle/legacy/parameter/ThreadLocalBuffer.h
index 07c96e59d0..d360feeed6 100644
--- a/paddle/parameter/ThreadLocalBuffer.h
+++ b/paddle/legacy/parameter/ThreadLocalBuffer.h
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #pragma once
-#include "paddle/math/Vector.h"
+#include "paddle/legacy/math/Vector.h"
 
 namespace paddle {
 namespace parameter {
diff --git a/paddle/parameter/Weight.cpp b/paddle/legacy/parameter/Weight.cpp
similarity index 100%
rename from paddle/parameter/Weight.cpp
rename to paddle/legacy/parameter/Weight.cpp
diff --git a/paddle/parameter/Weight.h b/paddle/legacy/parameter/Weight.h
similarity index 90%
rename from paddle/parameter/Weight.h
rename to paddle/legacy/parameter/Weight.h
index 113dd6530c..241c8d829c 100644
--- a/paddle/parameter/Weight.h
+++ b/paddle/legacy/parameter/Weight.h
@@ -16,9 +16,9 @@ limitations under the License. */
 #include <memory>
 #include <vector>
 
-#include "paddle/math/Matrix.h"
-#include "paddle/math/SparseRowMatrix.h"
-#include "paddle/parameter/Parameter.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/SparseRowMatrix.h"
+#include "paddle/legacy/parameter/Parameter.h"
 
 namespace paddle {
 
diff --git a/paddle/parameter/tests/CMakeLists.txt b/paddle/legacy/parameter/tests/CMakeLists.txt
similarity index 100%
rename from paddle/parameter/tests/CMakeLists.txt
rename to paddle/legacy/parameter/tests/CMakeLists.txt
diff --git a/paddle/parameter/tests/test_argument.cpp b/paddle/legacy/parameter/tests/test_argument.cpp
similarity index 97%
rename from paddle/parameter/tests/test_argument.cpp
rename to paddle/legacy/parameter/tests/test_argument.cpp
index 54ceb3e087..0c632e0cd1 100644
--- a/paddle/parameter/tests/test_argument.cpp
+++ b/paddle/legacy/parameter/tests/test_argument.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include <gtest/gtest.h>
-#include <paddle/parameter/Argument.h>
+#include <paddle/legacy/parameter/Argument.h>
 
 using namespace paddle;  // NOLINT
 
diff --git a/paddle/parameter/tests/test_common.cpp b/paddle/legacy/parameter/tests/test_common.cpp
similarity index 98%
rename from paddle/parameter/tests/test_common.cpp
rename to paddle/legacy/parameter/tests/test_common.cpp
index 89dcc6c751..3c4ee11934 100644
--- a/paddle/parameter/tests/test_common.cpp
+++ b/paddle/legacy/parameter/tests/test_common.cpp
@@ -16,7 +16,7 @@ limitations under the License. */
 #include <stdlib.h>
 
 #include <gtest/gtest.h>
-#include <paddle/parameter/ParameterUpdateFunctions.h>
+#include <paddle/legacy/parameter/ParameterUpdateFunctions.h>
 #include <paddle/utils/Flags.h>
 #include <paddle/utils/Stat.h>
 #include <paddle/utils/Thread.h>
diff --git a/paddle/pserver/BaseClient.cpp b/paddle/legacy/pserver/BaseClient.cpp
similarity index 100%
rename from paddle/pserver/BaseClient.cpp
rename to paddle/legacy/pserver/BaseClient.cpp
diff --git a/paddle/pserver/BaseClient.h b/paddle/legacy/pserver/BaseClient.h
similarity index 99%
rename from paddle/pserver/BaseClient.h
rename to paddle/legacy/pserver/BaseClient.h
index d50230e73a..92bb0a8b6a 100644
--- a/paddle/pserver/BaseClient.h
+++ b/paddle/legacy/pserver/BaseClient.h
@@ -15,8 +15,8 @@ limitations under the License. */
 #pragma once
 
 #include "ParameterService.pb.h"
-#include "paddle/math/Matrix.h"
-#include "paddle/pserver/ProtoServer.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/pserver/ProtoServer.h"
 #include "paddle/utils/Common.h"
 #include "paddle/utils/Queue.h"
 
diff --git a/paddle/pserver/CMakeLists.txt b/paddle/legacy/pserver/CMakeLists.txt
similarity index 100%
rename from paddle/pserver/CMakeLists.txt
rename to paddle/legacy/pserver/CMakeLists.txt
diff --git a/paddle/pserver/LightNetwork.cpp b/paddle/legacy/pserver/LightNetwork.cpp
similarity index 100%
rename from paddle/pserver/LightNetwork.cpp
rename to paddle/legacy/pserver/LightNetwork.cpp
diff --git a/paddle/pserver/LightNetwork.h b/paddle/legacy/pserver/LightNetwork.h
similarity index 100%
rename from paddle/pserver/LightNetwork.h
rename to paddle/legacy/pserver/LightNetwork.h
diff --git a/paddle/pserver/ParameterClient2.cpp b/paddle/legacy/pserver/ParameterClient2.cpp
similarity index 99%
rename from paddle/pserver/ParameterClient2.cpp
rename to paddle/legacy/pserver/ParameterClient2.cpp
index 43e4902b0f..98b3966250 100644
--- a/paddle/pserver/ParameterClient2.cpp
+++ b/paddle/legacy/pserver/ParameterClient2.cpp
@@ -15,7 +15,7 @@ limitations under the License. */
 #include <unistd.h>
 
 #include "ParameterClient2.h"
-#include "paddle/math/SparseRowMatrix.h"
+#include "paddle/legacy/math/SparseRowMatrix.h"
 #include "paddle/utils/Flags.h"
 #include "paddle/utils/Stat.h"
 #include "paddle/utils/StringUtil.h"
diff --git a/paddle/pserver/ParameterClient2.h b/paddle/legacy/pserver/ParameterClient2.h
similarity index 99%
rename from paddle/pserver/ParameterClient2.h
rename to paddle/legacy/pserver/ParameterClient2.h
index c96bb78715..2bc0e47866 100644
--- a/paddle/pserver/ParameterClient2.h
+++ b/paddle/legacy/pserver/ParameterClient2.h
@@ -19,10 +19,10 @@ limitations under the License. */
 #include <unordered_map>
 #include <vector>
 
-#include "paddle/math/Matrix.h"
-#include "paddle/math/Vector.h"
-#include "paddle/parameter/Parameter.h"
-#include "paddle/pserver/BaseClient.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/Vector.h"
+#include "paddle/legacy/parameter/Parameter.h"
+#include "paddle/legacy/pserver/BaseClient.h"
 #include "paddle/utils/Common.h"
 #include "paddle/utils/Flags.h"
 #include "paddle/utils/Locks.h"
diff --git a/paddle/pserver/ParameterServer2.cpp b/paddle/legacy/pserver/ParameterServer2.cpp
similarity index 99%
rename from paddle/pserver/ParameterServer2.cpp
rename to paddle/legacy/pserver/ParameterServer2.cpp
index f8814714c2..293fc7ca69 100644
--- a/paddle/pserver/ParameterServer2.cpp
+++ b/paddle/legacy/pserver/ParameterServer2.cpp
@@ -17,15 +17,15 @@ limitations under the License. */
 #include <algorithm>
 #include <fstream>
 
-#include "paddle/math/SIMDFunctions.h"
-#include "paddle/parameter/AverageOptimizer.h"
-#include "paddle/parameter/FirstOrderOptimizer.h"
-#include "paddle/parameter/OptimizerFunctions.h"
-#include "paddle/parameter/OptimizerWithRegularizer.h"
-#include "paddle/parameter/ParameterOptimizer.h"
-#include "paddle/parameter/ParameterUpdateFunctions.h"
-#include "paddle/parameter/Regularizer.h"
-#include "paddle/parameter/ThreadLocalBuffer.h"
+#include "paddle/legacy/math/SIMDFunctions.h"
+#include "paddle/legacy/parameter/AverageOptimizer.h"
+#include "paddle/legacy/parameter/FirstOrderOptimizer.h"
+#include "paddle/legacy/parameter/OptimizerFunctions.h"
+#include "paddle/legacy/parameter/OptimizerWithRegularizer.h"
+#include "paddle/legacy/parameter/ParameterOptimizer.h"
+#include "paddle/legacy/parameter/ParameterUpdateFunctions.h"
+#include "paddle/legacy/parameter/Regularizer.h"
+#include "paddle/legacy/parameter/ThreadLocalBuffer.h"
 #include "paddle/utils/Flags.h"
 #include "paddle/utils/GlobalConstants.h"
 #include "paddle/utils/Stat.h"
diff --git a/paddle/pserver/ParameterServer2.h b/paddle/legacy/pserver/ParameterServer2.h
similarity index 99%
rename from paddle/pserver/ParameterServer2.h
rename to paddle/legacy/pserver/ParameterServer2.h
index 0b8ef5c170..040699878d 100644
--- a/paddle/pserver/ParameterServer2.h
+++ b/paddle/legacy/pserver/ParameterServer2.h
@@ -25,10 +25,10 @@ limitations under the License. */
 #include <stddef.h>
 #include <stdlib.h>
 
-#include "paddle/math/Matrix.h"
-#include "paddle/math/Vector.h"
-#include "paddle/parameter/Parameter.h"
-#include "paddle/parameter/ParameterOptimizer.h"
+#include "paddle/legacy/math/Matrix.h"
+#include "paddle/legacy/math/Vector.h"
+#include "paddle/legacy/parameter/Parameter.h"
+#include "paddle/legacy/parameter/ParameterOptimizer.h"
 #include "paddle/utils/Common.h"
 #include "paddle/utils/Locks.h"
 #include "paddle/utils/Stat.h"
diff --git a/paddle/pserver/ParameterServer2Main.cpp b/paddle/legacy/pserver/ParameterServer2Main.cpp
similarity index 100%
rename from paddle/pserver/ParameterServer2Main.cpp
rename to paddle/legacy/pserver/ParameterServer2Main.cpp
diff --git a/paddle/pserver/ParameterServerController.cpp b/paddle/legacy/pserver/ParameterServerController.cpp
similarity index 100%
rename from paddle/pserver/ParameterServerController.cpp
rename to paddle/legacy/pserver/ParameterServerController.cpp
diff --git a/paddle/pserver/ParameterServerController.h b/paddle/legacy/pserver/ParameterServerController.h
similarity index 100%
rename from paddle/pserver/ParameterServerController.h
rename to paddle/legacy/pserver/ParameterServerController.h
diff --git a/paddle/pserver/ProtoServer.cpp b/paddle/legacy/pserver/ProtoServer.cpp
similarity index 100%
rename from paddle/pserver/ProtoServer.cpp
rename to paddle/legacy/pserver/ProtoServer.cpp
diff --git a/paddle/pserver/ProtoServer.h b/paddle/legacy/pserver/ProtoServer.h
similarity index 100%
rename from paddle/pserver/ProtoServer.h
rename to paddle/legacy/pserver/ProtoServer.h
diff --git a/paddle/pserver/RDMANetwork.h b/paddle/legacy/pserver/RDMANetwork.h
similarity index 100%
rename from paddle/pserver/RDMANetwork.h
rename to paddle/legacy/pserver/RDMANetwork.h
diff --git a/paddle/pserver/SocketChannel.cpp b/paddle/legacy/pserver/SocketChannel.cpp
similarity index 100%
rename from paddle/pserver/SocketChannel.cpp
rename to paddle/legacy/pserver/SocketChannel.cpp
diff --git a/paddle/pserver/SocketChannel.h b/paddle/legacy/pserver/SocketChannel.h
similarity index 100%
rename from paddle/pserver/SocketChannel.h
rename to paddle/legacy/pserver/SocketChannel.h
diff --git a/paddle/pserver/SparseParameterDistribution.cpp b/paddle/legacy/pserver/SparseParameterDistribution.cpp
similarity index 100%
rename from paddle/pserver/SparseParameterDistribution.cpp
rename to paddle/legacy/pserver/SparseParameterDistribution.cpp
diff --git a/paddle/pserver/SparseParameterDistribution.h b/paddle/legacy/pserver/SparseParameterDistribution.h
similarity index 100%
rename from paddle/pserver/SparseParameterDistribution.h
rename to paddle/legacy/pserver/SparseParameterDistribution.h
diff --git a/paddle/pserver/test/.gitignore b/paddle/legacy/pserver/test/.gitignore
similarity index 100%
rename from paddle/pserver/test/.gitignore
rename to paddle/legacy/pserver/test/.gitignore
diff --git a/paddle/pserver/test/CMakeLists.txt b/paddle/legacy/pserver/test/CMakeLists.txt
similarity index 100%
rename from paddle/pserver/test/CMakeLists.txt
rename to paddle/legacy/pserver/test/CMakeLists.txt
diff --git a/paddle/pserver/test/SocketTest.cpp b/paddle/legacy/pserver/test/SocketTest.cpp
similarity index 99%
rename from paddle/pserver/test/SocketTest.cpp
rename to paddle/legacy/pserver/test/SocketTest.cpp
index 206cd17c37..bb9ee355dd 100644
--- a/paddle/pserver/test/SocketTest.cpp
+++ b/paddle/legacy/pserver/test/SocketTest.cpp
@@ -22,7 +22,7 @@ limitations under the License. */
 
 #include <thread>
 
-#include "paddle/math/Vector.h"
+#include "paddle/legacy/math/Vector.h"
 #include "paddle/utils/Logging.h"
 
 struct MessageHeader {
diff --git a/paddle/pserver/test/test_ParameterServer2.cpp b/paddle/legacy/pserver/test/test_ParameterServer2.cpp
similarity index 99%
rename from paddle/pserver/test/test_ParameterServer2.cpp
rename to paddle/legacy/pserver/test/test_ParameterServer2.cpp
index 01d179258d..60419f3a4a 100644
--- a/paddle/pserver/test/test_ParameterServer2.cpp
+++ b/paddle/legacy/pserver/test/test_ParameterServer2.cpp
@@ -13,8 +13,8 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include <gtest/gtest.h>
-#include <paddle/pserver/ParameterClient2.h>
-#include <paddle/pserver/ParameterServer2.h>
+#include <paddle/legacy/pserver/ParameterClient2.h>
+#include <paddle/legacy/pserver/ParameterServer2.h>
 #include <paddle/utils/Flags.h>
 #include <paddle/utils/Util.h>
 
diff --git a/paddle/pserver/test/test_ProtoServer.cpp b/paddle/legacy/pserver/test/test_ProtoServer.cpp
similarity index 98%
rename from paddle/pserver/test/test_ProtoServer.cpp
rename to paddle/legacy/pserver/test/test_ProtoServer.cpp
index a66b14a1cc..8d5e26f995 100644
--- a/paddle/pserver/test/test_ProtoServer.cpp
+++ b/paddle/legacy/pserver/test/test_ProtoServer.cpp
@@ -15,8 +15,8 @@ limitations under the License. */
 #include <gtest/gtest.h>
 #include <memory>
 #include "ParameterService.pb.h"
-#include "paddle/math/Vector.h"
-#include "paddle/pserver/ProtoServer.h"
+#include "paddle/legacy/math/Vector.h"
+#include "paddle/legacy/pserver/ProtoServer.h"
 #include "paddle/utils/Stat.h"
 #include "paddle/utils/Util.h"
 
diff --git a/paddle/pserver/test/test_ProtoServer.sh b/paddle/legacy/pserver/test/test_ProtoServer.sh
similarity index 94%
rename from paddle/pserver/test/test_ProtoServer.sh
rename to paddle/legacy/pserver/test/test_ProtoServer.sh
index 970c90b494..1439350847 100755
--- a/paddle/pserver/test/test_ProtoServer.sh
+++ b/paddle/legacy/pserver/test/test_ProtoServer.sh
@@ -19,7 +19,7 @@ do
     if [ $port_used_num -eq 0 ]
     then
         echo $port;
-        pserver/test/test_ProtoServer --port=$port 
+        legacy/pserver/test/test_ProtoServer --port=$port
         if [ $? -eq 0 ]
            then
                exit 0
diff --git a/paddle/scripts/paddle_build.sh b/paddle/scripts/paddle_build.sh
index b66a05aaeb..d8f0b76b7b 100755
--- a/paddle/scripts/paddle_build.sh
+++ b/paddle/scripts/paddle_build.sh
@@ -106,7 +106,7 @@ function cmake_gen() {
         -DWITH_FLUID_ONLY=${WITH_FLUID_ONLY:-OFF}
         -DCMAKE_EXPORT_COMPILE_COMMANDS=ON
         -DWITH_CONTRIB=${WITH_CONTRIB:-ON}
-        -DWITH_ANAKIN=${WITH_ANAKIN:-ON}
+        -DWITH_ANAKIN=${WITH_ANAKIN:-OFF}
         -DWITH_INFERENCE_DEMO=${WITH_INFERENCE_DEMO:-ON}
     ========================================
 EOF
@@ -135,7 +135,7 @@ EOF
         -DWITH_FLUID_ONLY=${WITH_FLUID_ONLY:-OFF} \
         -DCMAKE_EXPORT_COMPILE_COMMANDS=ON \
         -DWITH_CONTRIB=${WITH_CONTRIB:-ON} \
-        -DWITH_ANAKIN=${WITH_ANAKIN:-ON} \
+        -DWITH_ANAKIN=${WITH_ANAKIN:-OFF} \
         -DWITH_INFERENCE_DEMO=${WITH_INFERENCE_DEMO:-ON}
 }
 
diff --git a/paddle/testing/TestUtil.cpp b/paddle/testing/TestUtil.cpp
index cfb8c713d9..fa8efc20f5 100644
--- a/paddle/testing/TestUtil.cpp
+++ b/paddle/testing/TestUtil.cpp
@@ -14,7 +14,7 @@ limitations under the License. */
 
 #include "TestUtil.h"
 #include <gflags/gflags.h>
-#include "paddle/math/SparseMatrix.h"
+#include "paddle/legacy/math/SparseMatrix.h"
 
 DEFINE_int32(fixed_seq_length, 0, "Produce some sequence of fixed length");
 
diff --git a/paddle/testing/TestUtil.h b/paddle/testing/TestUtil.h
index ec86469aeb..98b864e3c5 100644
--- a/paddle/testing/TestUtil.h
+++ b/paddle/testing/TestUtil.h
@@ -15,7 +15,7 @@ limitations under the License. */
 #pragma once
 
 #include <gtest/gtest.h>
-#include "paddle/math/Matrix.h"
+#include "paddle/legacy/math/Matrix.h"
 
 namespace paddle {
 
diff --git a/paddle/trainer/MergeModel.cpp b/paddle/trainer/MergeModel.cpp
index 56c38015fb..6624d6d27b 100644
--- a/paddle/trainer/MergeModel.cpp
+++ b/paddle/trainer/MergeModel.cpp
@@ -16,7 +16,7 @@ limitations under the License. */
 
 #include "ParamUtil.h"
 #include "Trainer.h"
-#include "paddle/pserver/ParameterServer2.h"
+#include "paddle/legacy/pserver/ParameterServer2.h"
 #include "paddle/utils/PythonUtil.h"
 
 DEFINE_string(model_dir, "", "Directory for separated model files");
diff --git a/paddle/trainer/NewRemoteParameterUpdater.h b/paddle/trainer/NewRemoteParameterUpdater.h
index 02693c675e..33c1fa7bdf 100644
--- a/paddle/trainer/NewRemoteParameterUpdater.h
+++ b/paddle/trainer/NewRemoteParameterUpdater.h
@@ -19,7 +19,7 @@ limitations under the License. */
 #include "OptimizerConfig.pb.h"
 #include "ParameterUpdater.h"
 #include "libpaddle_pserver_cclient.h"
-#include "paddle/pserver/ParameterClient2.h"
+#include "paddle/legacy/pserver/ParameterClient2.h"
 #include "paddle/utils/Queue.h"
 #include "paddle/utils/Util.h"
 
diff --git a/paddle/trainer/ParamUtil.cpp b/paddle/trainer/ParamUtil.cpp
index ffbca42e10..b577e3e868 100644
--- a/paddle/trainer/ParamUtil.cpp
+++ b/paddle/trainer/ParamUtil.cpp
@@ -31,8 +31,8 @@ limitations under the License. */
 #include "paddle/utils/Util.h"
 
 #include "TesterConfig.h"
-#include "paddle/gserver/gradientmachines/NeuralNetwork.h"
-#include "paddle/gserver/layers/ValidationLayer.h"
+#include "paddle/legacy/gserver/gradientmachines/NeuralNetwork.h"
+#include "paddle/legacy/gserver/layers/ValidationLayer.h"
 
 namespace paddle {
 
diff --git a/paddle/trainer/ParamUtil.h b/paddle/trainer/ParamUtil.h
index 10746b4d58..c34e079b90 100644
--- a/paddle/trainer/ParamUtil.h
+++ b/paddle/trainer/ParamUtil.h
@@ -19,8 +19,8 @@ limitations under the License. */
 #include <stdio.h>
 
 #include "hl_gpu.h"
-#include "paddle/gserver/dataproviders/DataProvider.h"
-#include "paddle/gserver/gradientmachines/GradientMachine.h"
+#include "paddle/legacy/gserver/dataproviders/DataProvider.h"
+#include "paddle/legacy/gserver/gradientmachines/GradientMachine.h"
 
 #include <stdlib.h>
 #include <fstream>
diff --git a/paddle/trainer/ParameterUpdater.h b/paddle/trainer/ParameterUpdater.h
index ef7ab92eca..0070254d1c 100644
--- a/paddle/trainer/ParameterUpdater.h
+++ b/paddle/trainer/ParameterUpdater.h
@@ -17,15 +17,15 @@ limitations under the License. */
 #include "paddle/utils/Thread.h"
 #include "paddle/utils/Util.h"
 
-#include "paddle/parameter/AverageOptimizer.h"
-#include "paddle/parameter/FirstOrderOptimizer.h"
-#include "paddle/parameter/OptimizerFunctions.h"
-#include "paddle/parameter/OptimizerWithRegularizer.h"
-#include "paddle/parameter/Parameter.h"
-#include "paddle/parameter/ParameterUpdaterBase.h"
+#include "paddle/legacy/parameter/AverageOptimizer.h"
+#include "paddle/legacy/parameter/FirstOrderOptimizer.h"
+#include "paddle/legacy/parameter/OptimizerFunctions.h"
+#include "paddle/legacy/parameter/OptimizerWithRegularizer.h"
+#include "paddle/legacy/parameter/Parameter.h"
+#include "paddle/legacy/parameter/ParameterUpdaterBase.h"
 
 #include "TrainerConfig.pb.h"
-#include "paddle/gserver/layers/Layer.h"
+#include "paddle/legacy/gserver/layers/Layer.h"
 
 #include <memory>
 #include <vector>
diff --git a/paddle/trainer/RemoteParameterUpdater.h b/paddle/trainer/RemoteParameterUpdater.h
index 3a40a46354..7a9b687ac2 100644
--- a/paddle/trainer/RemoteParameterUpdater.h
+++ b/paddle/trainer/RemoteParameterUpdater.h
@@ -17,7 +17,7 @@ limitations under the License. */
 #include <functional>
 #include <thread>
 #include "ParameterUpdater.h"
-#include "paddle/pserver/ParameterClient2.h"
+#include "paddle/legacy/pserver/ParameterClient2.h"
 #include "paddle/utils/Queue.h"
 #include "paddle/utils/Util.h"
 
diff --git a/paddle/trainer/Tester.cpp b/paddle/trainer/Tester.cpp
index 16e676d602..f7daf1327b 100644
--- a/paddle/trainer/Tester.cpp
+++ b/paddle/trainer/Tester.cpp
@@ -30,9 +30,9 @@ limitations under the License. */
 #include "paddle/utils/Util.h"
 
 #include "TesterConfig.h"
-#include "paddle/gserver/gradientmachines/GradientMachineMode.h"
-#include "paddle/gserver/gradientmachines/NeuralNetwork.h"
-#include "paddle/gserver/layers/ValidationLayer.h"
+#include "paddle/legacy/gserver/gradientmachines/GradientMachineMode.h"
+#include "paddle/legacy/gserver/gradientmachines/NeuralNetwork.h"
+#include "paddle/legacy/gserver/layers/ValidationLayer.h"
 
 namespace paddle {
 
diff --git a/paddle/trainer/Tester.h b/paddle/trainer/Tester.h
index 801c77e311..bce9775a09 100644
--- a/paddle/trainer/Tester.h
+++ b/paddle/trainer/Tester.h
@@ -19,8 +19,8 @@ limitations under the License. */
 #include <stdio.h>
 
 #include "hl_gpu.h"
-#include "paddle/gserver/dataproviders/DataProvider.h"
-#include "paddle/gserver/gradientmachines/GradientMachine.h"
+#include "paddle/legacy/gserver/dataproviders/DataProvider.h"
+#include "paddle/legacy/gserver/gradientmachines/GradientMachine.h"
 
 #include "TrainerConfig.pb.h"
 
diff --git a/paddle/trainer/TesterConfig.h b/paddle/trainer/TesterConfig.h
index 68d4c931ff..ef10c7dbf7 100644
--- a/paddle/trainer/TesterConfig.h
+++ b/paddle/trainer/TesterConfig.h
@@ -19,7 +19,7 @@ limitations under the License. */
 #include <stdio.h>
 
 #include "hl_gpu.h"
-#include "paddle/gserver/gradientmachines/GradientMachine.h"
+#include "paddle/legacy/gserver/gradientmachines/GradientMachine.h"
 
 #include "TrainerConfig.pb.h"
 
diff --git a/paddle/trainer/ThreadParameterUpdater.cpp b/paddle/trainer/ThreadParameterUpdater.cpp
index 3c85c3aaac..39e63c333e 100644
--- a/paddle/trainer/ThreadParameterUpdater.cpp
+++ b/paddle/trainer/ThreadParameterUpdater.cpp
@@ -16,8 +16,8 @@ limitations under the License. */
 
 #include "paddle/utils/Logging.h"
 
-#include "paddle/math/SparseRowMatrix.h"
-#include "paddle/parameter/ThreadLocalBuffer.h"
+#include "paddle/legacy/math/SparseRowMatrix.h"
+#include "paddle/legacy/parameter/ThreadLocalBuffer.h"
 #include "paddle/utils/Thread.h"
 
 DECLARE_int32(trainer_count);
diff --git a/paddle/trainer/ThreadParameterUpdater.h b/paddle/trainer/ThreadParameterUpdater.h
index b5e6a7ce3c..bd0ce99078 100644
--- a/paddle/trainer/ThreadParameterUpdater.h
+++ b/paddle/trainer/ThreadParameterUpdater.h
@@ -14,12 +14,12 @@ limitations under the License. */
 
 #pragma once
 
-#include "paddle/parameter/AverageOptimizer.h"
-#include "paddle/parameter/FirstOrderOptimizer.h"
-#include "paddle/parameter/OptimizerFunctions.h"
-#include "paddle/parameter/OptimizerWithRegularizer.h"
-#include "paddle/parameter/Parameter.h"
-#include "paddle/parameter/Regularizer.h"
+#include "paddle/legacy/parameter/AverageOptimizer.h"
+#include "paddle/legacy/parameter/FirstOrderOptimizer.h"
+#include "paddle/legacy/parameter/OptimizerFunctions.h"
+#include "paddle/legacy/parameter/OptimizerWithRegularizer.h"
+#include "paddle/legacy/parameter/Parameter.h"
+#include "paddle/legacy/parameter/Regularizer.h"
 #include "paddle/utils/Util.h"
 
 #include <memory>
diff --git a/paddle/trainer/Trainer.cpp b/paddle/trainer/Trainer.cpp
index 3e4a2b5fa8..edfd72197e 100644
--- a/paddle/trainer/Trainer.cpp
+++ b/paddle/trainer/Trainer.cpp
@@ -33,9 +33,9 @@ limitations under the License. */
 #include "TesterConfig.h"
 #include "ThreadParameterUpdater.h"
 #include "TrainerConfigHelper.h"
-#include "paddle/gserver/gradientmachines/GradientMachineMode.h"
-#include "paddle/gserver/gradientmachines/NeuralNetwork.h"
-#include "paddle/gserver/layers/ValidationLayer.h"
+#include "paddle/legacy/gserver/gradientmachines/GradientMachineMode.h"
+#include "paddle/legacy/gserver/gradientmachines/NeuralNetwork.h"
+#include "paddle/legacy/gserver/layers/ValidationLayer.h"
 
 DEFINE_string(config, "", "Trainer config file");
 
diff --git a/paddle/trainer/Trainer.h b/paddle/trainer/Trainer.h
index 78127b7be5..58acec1781 100644
--- a/paddle/trainer/Trainer.h
+++ b/paddle/trainer/Trainer.h
@@ -19,8 +19,8 @@ limitations under the License. */
 #include <stdio.h>
 
 #include "hl_gpu.h"
-#include "paddle/gserver/dataproviders/DataProvider.h"
-#include "paddle/gserver/gradientmachines/GradientMachine.h"
+#include "paddle/legacy/gserver/dataproviders/DataProvider.h"
+#include "paddle/legacy/gserver/gradientmachines/GradientMachine.h"
 
 #include <stdlib.h>
 #include <fstream>
diff --git a/paddle/trainer/TrainerInternal.cpp b/paddle/trainer/TrainerInternal.cpp
index 4c5d4a0913..b4b1a87cd5 100644
--- a/paddle/trainer/TrainerInternal.cpp
+++ b/paddle/trainer/TrainerInternal.cpp
@@ -24,8 +24,8 @@ limitations under the License. */
 
 #include <google/protobuf/text_format.h>
 
-#include "paddle/gserver/gradientmachines/NeuralNetwork.h"
-#include "paddle/gserver/layers/ValidationLayer.h"
+#include "paddle/legacy/gserver/gradientmachines/NeuralNetwork.h"
+#include "paddle/legacy/gserver/layers/ValidationLayer.h"
 #include "paddle/utils/GlobalConstants.h"
 #include "paddle/utils/PythonUtil.h"
 #include "paddle/utils/Stat.h"
diff --git a/paddle/trainer/TrainerInternal.h b/paddle/trainer/TrainerInternal.h
index 48ee53a5e6..ecc87966dc 100644
--- a/paddle/trainer/TrainerInternal.h
+++ b/paddle/trainer/TrainerInternal.h
@@ -25,7 +25,7 @@ limitations under the License. */
 #include "TrainerConfigHelper.h"
 #include "TrainerInternalConfig.h"
 #include "hl_gpu.h"
-#include "paddle/gserver/gradientmachines/GradientMachine.h"
+#include "paddle/legacy/gserver/gradientmachines/GradientMachine.h"
 
 namespace paddle {
 
diff --git a/paddle/trainer/TrainerInternalConfig.h b/paddle/trainer/TrainerInternalConfig.h
index 43aae38102..29d588e1be 100644
--- a/paddle/trainer/TrainerInternalConfig.h
+++ b/paddle/trainer/TrainerInternalConfig.h
@@ -19,7 +19,7 @@ limitations under the License. */
 #include <stdio.h>
 
 #include "hl_gpu.h"
-#include "paddle/gserver/gradientmachines/GradientMachine.h"
+#include "paddle/legacy/gserver/gradientmachines/GradientMachine.h"
 
 #include "TrainerConfig.pb.h"
 
diff --git a/paddle/trainer/TrainerMain.cpp b/paddle/trainer/TrainerMain.cpp
index c5c1d484e5..115e5d88a2 100644
--- a/paddle/trainer/TrainerMain.cpp
+++ b/paddle/trainer/TrainerMain.cpp
@@ -13,7 +13,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include <fenv.h>
-#include "paddle/pserver/ParameterServerController.h"
+#include "paddle/legacy/pserver/ParameterServerController.h"
 #include "paddle/utils/PythonUtil.h"
 
 #include "ParamUtil.h"
diff --git a/paddle/trainer/tests/config_parser_test.py b/paddle/trainer/tests/config_parser_test.py
index db66ebb5b7..88646e11f7 100644
--- a/paddle/trainer/tests/config_parser_test.py
+++ b/paddle/trainer/tests/config_parser_test.py
@@ -19,4 +19,5 @@ if __name__ == '__main__':
     parse_config_and_serialize(
         'trainer/tests/sample_trainer_config.conf',
         'extension_module_name=paddle.trainer.config_parser_extension')
-    parse_config_and_serialize('gserver/tests/pyDataProvider/trainer.conf', '')
+    parse_config_and_serialize(
+        'legacy/gserver/tests/pyDataProvider/trainer.conf', '')
diff --git a/paddle/trainer/tests/test_PyDataProviderWrapper.cpp b/paddle/trainer/tests/test_PyDataProviderWrapper.cpp
index 92dc8aa9ec..e3cd1c904d 100644
--- a/paddle/trainer/tests/test_PyDataProviderWrapper.cpp
+++ b/paddle/trainer/tests/test_PyDataProviderWrapper.cpp
@@ -15,9 +15,9 @@ limitations under the License. */
 #ifndef PADDLE_NO_PYTHON
 #include <DataConfig.pb.h>
 #include <gtest/gtest.h>
-#include <paddle/gserver/dataproviders/DataProvider.h>
-#include <paddle/math/Matrix.h>
-#include <paddle/parameter/Argument.h>
+#include <paddle/legacy/gserver/dataproviders/DataProvider.h>
+#include <paddle/legacy/math/Matrix.h>
+#include <paddle/legacy/parameter/Argument.h>
 #include <paddle/utils/PythonUtil.h>
 #include <fstream>
 #include <typeinfo>
diff --git a/paddle/trainer/tests/test_TrainerOnePass.cpp b/paddle/trainer/tests/test_TrainerOnePass.cpp
index de12c4d649..1e1b2d2bf4 100644
--- a/paddle/trainer/tests/test_TrainerOnePass.cpp
+++ b/paddle/trainer/tests/test_TrainerOnePass.cpp
@@ -18,7 +18,7 @@ limitations under the License. */
 #include "paddle/trainer/TrainerInternal.h"
 
 #include <gtest/gtest.h>
-#include <paddle/pserver/ParameterServer2.h>
+#include <paddle/legacy/pserver/ParameterServer2.h>
 
 using namespace paddle;  // NOLINT
 using namespace std;     // NOLINT
diff --git a/python/paddle/fluid/__init__.py b/python/paddle/fluid/__init__.py
index 45af83708e..3034c1a087 100644
--- a/python/paddle/fluid/__init__.py
+++ b/python/paddle/fluid/__init__.py
@@ -118,7 +118,8 @@ def __bootstrap__():
 
     read_env_flags = [
         'use_pinned_memory', 'check_nan_inf', 'benchmark', 'warpctc_dir',
-        'eager_delete_scope', 'use_mkldnn', 'initial_cpu_memory_in_mb'
+        'eager_delete_scope', 'use_mkldnn', 'initial_cpu_memory_in_mb',
+        'init_allocated_mem'
     ]
     if core.is_compiled_with_cuda():
         read_env_flags += [
diff --git a/python/paddle/fluid/executor.py b/python/paddle/fluid/executor.py
index 145f1423e4..b436dfe70a 100644
--- a/python/paddle/fluid/executor.py
+++ b/python/paddle/fluid/executor.py
@@ -348,6 +348,12 @@ class Executor(object):
         ]
         return outs
 
+    def begin_pass(self):
+        self.executor.begin_pass()
+
+    def end_pass(self):
+        self.executor.end_pass()
+
     def run(self,
             program=None,
             feed=None,
diff --git a/python/paddle/fluid/io.py b/python/paddle/fluid/io.py
index d94564e11f..5c8f4f6507 100644
--- a/python/paddle/fluid/io.py
+++ b/python/paddle/fluid/io.py
@@ -18,7 +18,7 @@ import time
 import shutil
 
 from paddle.fluid.evaluator import Evaluator
-from paddle.fluid.framework import Program, Parameter, default_main_program, Variable
+from paddle.fluid.framework import Program, Parameter, default_main_program, default_startup_program, Variable
 from . import core
 
 __all__ = [
@@ -1374,3 +1374,101 @@ def get_latest_checkpoint_serial(checkpoint_dir):
         if success_num > current_dir:
             current_dir = success_num
     return current_dir
+
+
+def get_test_program(filelist, program=None, startup_program=None):
+    """
+    Transpile current train program to a program to read test dataset
+    if the program is using reader ops like "open_files_op".
+    """
+
+    def _copy_reader_var_(block, var, new_name=None):
+        if new_name == None:
+            new_name = var.name
+        new_var = block.create_var(
+            name=str(new_name), type=core.VarDesc.VarType.READER)
+        new_var.desc.set_shapes(var.desc.shapes())
+        new_var.desc.set_dtypes(var.desc.dtypes())
+        new_var.persistable = True
+        return new_var
+
+    def _get_test_reader_name(train_reader_name):
+        return train_reader_name + "_test"
+
+    def _is_reader_op(op):
+        block = op.block
+        if "Out" in op.output_names:
+            reader_out = block.vars[op.output("Out")[0]]
+            if reader_out.type == core.VarDesc.VarType.READER:
+                return True
+        return False
+
+    if program == None:
+        program = default_main_program()
+    if startup_program == None:
+        startup_program = default_startup_program()
+    startup_block = startup_program.global_block()
+
+    # 1. find out the orignal reader var name
+    startup_reader_op_list = []
+
+    for op in startup_block.ops:
+        if _is_reader_op(op):
+            startup_reader_op_list.append(op)
+
+    if len(startup_reader_op_list) == 0:
+        return program
+
+    root_reader_op = startup_reader_op_list[0]
+    train_test_reader_map = {}
+    # 2. add operators to startup to read open and read test data files
+    for op in startup_reader_op_list:
+        assert (len(op.output("Out")) == 1)
+        train_reader_name = op.output("Out")[0]
+        train_reader = startup_block.vars[train_reader_name]
+        test_reader = _copy_reader_var_(
+            startup_block,
+            train_reader,
+            new_name=_get_test_reader_name(train_reader_name))
+        train_test_reader_map[train_reader.name] = test_reader
+
+        test_op_inputs = {}
+        for name in op.input_names:
+            train_arg_names = op.input(name)
+            test_arg_vars = []
+            for arg_name in train_arg_names:
+                arg_var = train_test_reader_map[
+                    arg_name] if name == "UnderlyingReader" else startup_block.vars[
+                        arg_name]
+                test_arg_vars.append(arg_var)
+            test_op_inputs[name] = test_arg_vars
+
+        test_op = startup_block.append_op(
+            type=op.type,
+            inputs=test_op_inputs,
+            outputs={'Out': [test_reader]},
+            attrs=op.attrs)
+        # root reader op's filelist attr for read test files
+        if op.type == root_reader_op.type:
+            test_op.set_attr("file_names", filelist)
+        if op.type == "create_multi_pass_reader":
+            test_op.set_attr("pass_num", 1)
+
+    # 3. rename reader vars in inference program to different name
+    #    to avoid read from train data.
+    main_block = program.global_block()
+    for var in main_block.vars.values():
+        if var.type == core.VarDesc.VarType.READER:
+            main_block.rename_var(
+                str(var.name), str(_get_test_reader_name(var.name)))
+
+    for op in main_block.ops:
+        if op.type == root_reader_op.type:
+            test_op.set_attr("file_names", filelist)
+        if op.type == "create_multi_pass_reader":
+            test_op.set_attr("pass_num", 1)
+
+    startup_program.sync_with_cpp()
+    program.sync_with_cpp()
+
+    return program
diff --git a/python/paddle/fluid/layers/detection.py b/python/paddle/fluid/layers/detection.py
index 200db87f17..6af01297df 100644
--- a/python/paddle/fluid/layers/detection.py
+++ b/python/paddle/fluid/layers/detection.py
@@ -30,6 +30,7 @@ __all__ = [
     'detection_output',
     'ssd_loss',
     'detection_map',
+    'anchor_generator',
 ]
 
 __auto__ = [
@@ -998,3 +999,95 @@ def multi_box_head(inputs,
     box.stop_gradient = True
     var.stop_gradient = True
     return mbox_locs_concat, mbox_confs_concat, box, var
+
+
+def anchor_generator(input,
+                     anchor_sizes=None,
+                     aspect_ratios=None,
+                     variance=[0.1, 0.1, 0.2, 0.2],
+                     stride=None,
+                     offset=0.5,
+                     name=None):
+    """
+    **Anchor generator operator**
+
+    Generate anchors for Faster RCNN algorithm.
+    Each position of the input produce N anchors, N =
+    size(anchor_sizes) * size(aspect_ratios). The order of generated anchors
+    is firstly aspect_ratios loop then anchor_sizes loop.
+
+    Args:
+       input(Variable): The input feature map, the format is NCHW.
+       anchor_sizes(list|tuple|float): The anchor sizes of generated anchors,
+       given in absolute pixels e.g. [64., 128., 256., 512.].
+       For instance, the anchor size of 64 means the area of this anchor equals to 64**2.
+       aspect_ratios(list|tuple|float): The height / width ratios of generated
+            anchors, e.g. [0.5, 1.0, 2.0].
+       variance(list|tuple): The variances to be used in box regression deltas.
+            Default:[0.1, 0.1, 0.2, 0.2].
+       stride(list|turple): The anchors stride across width and height,
+            e.g. [16.0, 16.0]
+       offset(float): Prior boxes center offset. Default: 0.5
+       name(str): Name of the prior box op. Default: None.
+
+    Returns:
+        Anchors(Variable):  The output anchors with a layout of [H, W, num_anchors, 4].
+              H is the height of input, W is the width of input,
+              num_anchors is the box count of each position.
+              Each anchor is in (xmin, ymin, xmax, ymax) format an unnormalized.
+        Variances(Variable): The expanded variances of anchors
+              with a layout of [H, W, num_priors, 4].
+              H is the height of input, W is the width of input
+              num_anchors is the box count of each position.
+              Each variance is in (xcenter, ycenter, w, h) format.
+
+
+    Examples:
+
+        .. code-block:: python
+
+            anchor, var = anchor_generator(
+                input=conv1,
+                anchor_sizes=[64, 128, 256, 512],
+                aspect_ratios=[0.5, 1.0, 2.0],
+                variance=[0.1, 0.1, 0.2, 0.2],
+                stride=[16.0, 16.0],
+                offset=0.5)
+    """
+    helper = LayerHelper("anchor_generator", **locals())
+    dtype = helper.input_dtype()
+
+    def _is_list_or_tuple_(data):
+        return (isinstance(data, list) or isinstance(data, tuple))
+
+    if not _is_list_or_tuple_(anchor_sizes):
+        anchor_sizes = [anchor_sizes]
+    if not _is_list_or_tuple_(aspect_ratios):
+        aspect_ratios = [aspect_ratios]
+    if not (_is_list_or_tuple_(stride) and len(stride) == 2):
+        raise ValueError('stride should be a list or tuple ',
+                         'with length 2, (stride_width, stride_height).')
+
+    anchor_sizes = list(map(float, anchor_sizes))
+    aspect_ratios = list(map(float, aspect_ratios))
+    stride = list(map(float, stride))
+
+    attrs = {
+        'anchor_sizes': anchor_sizes,
+        'aspect_ratios': aspect_ratios,
+        'variances': variance,
+        'stride': stride,
+        'offset': offset
+    }
+
+    anchor = helper.create_tmp_variable(dtype)
+    var = helper.create_tmp_variable(dtype)
+    helper.append_op(
+        type="anchor_generator",
+        inputs={"Input": input},
+        outputs={"Anchors": anchor,
+                 "Variances": var},
+        attrs=attrs, )
+    anchor.stop_gradient = True
+    var.stop_gradient = True
+    return anchor, var
diff --git a/python/paddle/fluid/layers/nn.py b/python/paddle/fluid/layers/nn.py
index 61c01b3b00..bcf520d5a4 100644
--- a/python/paddle/fluid/layers/nn.py
+++ b/python/paddle/fluid/layers/nn.py
@@ -95,7 +95,6 @@ __all__ = [
     'relu',
     'log',
     'crop',
-    'fill_zeros_like',
 ]
 
 
@@ -5185,40 +5184,3 @@ def crop(x, shape=None, offsets=None, name=None):
         outputs={'Out': out},
         attrs=None if len(attrs) == 0 else attrs)
     return out
-
-
-def fill_zeros_like(x):
-    """
-    This layer takes an input and outputs a variable that has the same structure as
-    the input and with all the element values as zero. The variable can be a Tensor
-    or TensorArray.
-
-    .. code-block:: text
-
-
-       Given
-          X = [[0, 1, 2, 0],
-               [0, 3, 4, 0],
-               [0, 0, 0, 0]],
-       output is:
-          Out = [[0, 0, 0, 0],
-                 [0, 0, 0, 0],
-                 [0, 0, 0, 0]].
-
-    Args:
-        x (Variable): The input variable, which could be a tensor or tensor array
-
-    Returns:
-        Variable: The zero-filled variable, which has the same type and shape as
-                  the input variable.
-
-    Examples:
-
-        .. code-block:: python
-            y = fluid.layers.fill_zeros_like(x)
-    """
-    helper = LayerHelper('fill_zeros_like', **locals())
-    out = helper.create_tmp_variable(dtype=x.dtype)
-    helper.append_op(
-        type='fill_zeros_like', inputs={'X': [x]}, outputs={'Out': [out]})
-    return out
diff --git a/python/paddle/fluid/layers/tensor.py b/python/paddle/fluid/layers/tensor.py
index ce5f08de62..b6614ecf3b 100644
--- a/python/paddle/fluid/layers/tensor.py
+++ b/python/paddle/fluid/layers/tensor.py
@@ -33,6 +33,7 @@ __all__ = [
     'fill_constant',
     'argmin',
     'argmax',
+    'argsort',
     'ones',
     'zeros',
     'reverse',
@@ -444,6 +445,58 @@ def argmax(x, axis=0):
     return out
 
 
+def argsort(input, axis=-1, name=None):
+    """
+    Performs sorting on the input Variable along the given axis, and outputs 
+    sorted data Varibale and its corresponding index Variable with the same 
+    shape as :attr:`input`.
+
+    .. code-block:: text
+    
+        For example, the given axis is -1 and the input Variable
+
+            input = [[0.15849551, 0.45865775, 0.8563702 ],
+                     [0.12070083, 0.28766365, 0.18776911]],
+
+        after argsort, the sorted Vairable becomes
+
+            out = [[0.15849551, 0.45865775, 0.8563702 ],
+                   [0.12070083, 0.18776911, 0.28766365]],
+
+        and the sorted indices along the given axis turn outs to be
+
+            indices = [[0, 1, 2], 
+                       [0, 2, 1]]
+
+    Args:
+        input(Variable): The input Variable for sorting.
+        axis(int): The axis along which to sort the input Variable. When 
+                   :attr:`axis` < 0, the actual axis will be :attr:`axis` + 
+                   rank(:attr:`input`). Default -1, the last dimension.
+        name(str|None): (optional) A name for this layer. If set None, the 
+                   layer will be named automatically.
+
+    Returns:
+        tuple: A tuple of sorted data Variable and the sorted indices.
+
+    Examples:
+        .. code-block:: python
+
+            input = fluid.layers.data(data=[2, 3])
+            out, indices = fluid.layers.argsort(input, axis=0)
+    """
+    helper = LayerHelper("argsort", **locals())
+    out = helper.create_tmp_variable(dtype=input.dtype, stop_gradient=True)
+    ids = helper.create_tmp_variable(VarDesc.VarType.INT64, stop_gradient=True)
+    helper.append_op(
+        type='argsort',
+        inputs={'X': input},
+        outputs={'Out': out,
+                 'Indices': ids},
+        attrs={'axis': axis})
+    return out, ids
+
+
 def ones(shape, dtype, force_cpu=False):
     """
     **ones**
diff --git a/python/paddle/fluid/tests/book/test_fit_a_line.py b/python/paddle/fluid/tests/book/test_fit_a_line.py
index 74f96f456a..71bf5f8b3a 100644
--- a/python/paddle/fluid/tests/book/test_fit_a_line.py
+++ b/python/paddle/fluid/tests/book/test_fit_a_line.py
@@ -110,14 +110,23 @@ def infer(use_cuda, save_dirname=None):
         # The input's dimension should be 2-D and the second dim is 13
         # The input data should be >= 0
         batch_size = 10
-        tensor_x = numpy.random.uniform(0, 10,
-                                        [batch_size, 13]).astype("float32")
+
+        test_reader = paddle.batch(
+            paddle.dataset.uci_housing.test(), batch_size=batch_size)
+
+        test_data = test_reader().next()
+        test_feat = numpy.array(
+            [data[0] for data in test_data]).astype("float32")
+        test_label = numpy.array(
+            [data[1] for data in test_data]).astype("float32")
+
         assert feed_target_names[0] == 'x'
         results = exe.run(inference_program,
-                          feed={feed_target_names[0]: tensor_x},
+                          feed={feed_target_names[0]: numpy.array(test_feat)},
                           fetch_list=fetch_targets)
         print("infer shape: ", results[0].shape)
         print("infer results: ", results[0])
+        print("ground truth: ", test_label)
 
 
 def main(use_cuda, is_local=True):
diff --git a/python/paddle/fluid/tests/test_detection.py b/python/paddle/fluid/tests/test_detection.py
index 8569d838bd..2d70c986b1 100644
--- a/python/paddle/fluid/tests/test_detection.py
+++ b/python/paddle/fluid/tests/test_detection.py
@@ -127,6 +127,24 @@ class TestPriorBox(unittest.TestCase):
         assert box.shape[3] == 4
 
 
+class TestAnchorGenerator(unittest.TestCase):
+    def test_anchor_generator(self):
+        data_shape = [3, 224, 224]
+        images = fluid.layers.data(
+            name='pixel', shape=data_shape, dtype='float32')
+        conv1 = fluid.layers.conv2d(images, 3, 3, 2)
+        anchor, var = fluid.layers.anchor_generator(
+            input=conv1,
+            anchor_sizes=[64, 128, 256, 512],
+            aspect_ratios=[0.5, 1.0, 2.0],
+            variance=[0.1, 0.1, 0.2, 0.2],
+            stride=[16.0, 16.0],
+            offset=0.5)
+        assert len(anchor.shape) == 4
+        assert anchor.shape == var.shape
+        assert anchor.shape[3] == 4
+
+
 class TestMultiBoxHead(unittest.TestCase):
     def test_multi_box_head(self):
         data_shape = [3, 224, 224]
diff --git a/python/paddle/fluid/tests/unittests/.gitignore b/python/paddle/fluid/tests/unittests/.gitignore
index 3538a9c200..b1e8fda03a 100644
--- a/python/paddle/fluid/tests/unittests/.gitignore
+++ b/python/paddle/fluid/tests/unittests/.gitignore
@@ -4,3 +4,5 @@ mnist_1.recordio
 mnist_2.recordio
 flowers.recordio
 wmt16.recordio
+data_balance_test.recordio
+data_balance_with_lod_test.recordio
diff --git a/python/paddle/fluid/tests/unittests/CMakeLists.txt b/python/paddle/fluid/tests/unittests/CMakeLists.txt
index 5f27864c14..f6c8dcabcb 100644
--- a/python/paddle/fluid/tests/unittests/CMakeLists.txt
+++ b/python/paddle/fluid/tests/unittests/CMakeLists.txt
@@ -52,3 +52,4 @@ py_test_modules(test_parallel_executor_crf MODULES test_parallel_executor_crf SE
 py_test_modules(test_parallel_executor_fetch_feed MODULES test_parallel_executor_fetch_feed SERIAL)
 set_tests_properties(test_listen_and_serv_op PROPERTIES TIMEOUT 20)
 set_tests_properties(test_dist_mnist PROPERTIES TIMEOUT 180)
+set_tests_properties(test_dist_word2vec PROPERTIES TIMEOUT 180)
diff --git a/python/paddle/fluid/tests/unittests/parallel_executor_test_base.py b/python/paddle/fluid/tests/unittests/parallel_executor_test_base.py
index 21f2037ad4..cddf00765f 100644
--- a/python/paddle/fluid/tests/unittests/parallel_executor_test_base.py
+++ b/python/paddle/fluid/tests/unittests/parallel_executor_test_base.py
@@ -18,6 +18,8 @@ import unittest
 import paddle.fluid as fluid
 import time
 import numpy as np
+import math
+import sys
 
 __all__ = ['TestParallelExecutorBase']
 
@@ -93,6 +95,12 @@ class TestParallelExecutorBase(unittest.TestCase):
                 print "%.4f Instance per second" % (
                     (batch_size * iter + 2) / (end - begin))
 
+            avg_last_loss_val = np.array(last_loss).mean()
+            avg_first_loss_val = np.array(first_loss).mean()
+            if math.isnan(float(avg_last_loss_val)) or math.isnan(
+                    float(avg_first_loss_val)):
+                sys.exit("got NaN loss, training failed.")
+
             print first_loss, last_loss
             # self.assertGreater(first_loss[0], last_loss[0])
             return first_loss, last_loss
diff --git a/python/paddle/fluid/tests/unittests/test_anchor_generator_op.py b/python/paddle/fluid/tests/unittests/test_anchor_generator_op.py
new file mode 100644
index 0000000000..9c7d5d41f0
--- /dev/null
+++ b/python/paddle/fluid/tests/unittests/test_anchor_generator_op.py
@@ -0,0 +1,110 @@
+#   Copyright (c) 2018 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://w_idxw.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import unittest
+import numpy as np
+import sys
+import math
+from op_test import OpTest
+
+
+def anchor_generator_in_python(input_feat, anchor_sizes, aspect_ratios,
+                               variances, stride, offset):
+    num_anchors = len(aspect_ratios) * len(anchor_sizes)
+    layer_h = input_feat.shape[2]
+    layer_w = input_feat.shape[3]
+    out_dim = (layer_h, layer_w, num_anchors, 4)
+    out_anchors = np.zeros(out_dim).astype('float32')
+
+    for h_idx in range(layer_h):
+        for w_idx in range(layer_w):
+            x_ctr = (w_idx * stride[0]) + offset * (stride[0] - 1)
+            y_ctr = (h_idx * stride[1]) + offset * (stride[1] - 1)
+            idx = 0
+            for r in range(len(aspect_ratios)):
+                ar = aspect_ratios[r]
+                for s in range(len(anchor_sizes)):
+                    anchor_size = anchor_sizes[s]
+                    area = stride[0] * stride[1]
+                    area_ratios = area / ar
+                    base_w = np.round(np.sqrt(area_ratios))
+                    base_h = np.round(base_w * ar)
+                    scale_w = anchor_size / stride[0]
+                    scale_h = anchor_size / stride[1]
+                    w = scale_w * base_w
+                    h = scale_h * base_h
+                    out_anchors[h_idx, w_idx, idx, :] = [
+                        (x_ctr - 0.5 * (w - 1)), (y_ctr - 0.5 * (h - 1)),
+                        (x_ctr + 0.5 * (w - 1)), (y_ctr + 0.5 * (h - 1))
+                    ]
+                    idx += 1
+
+    # set the variance.
+    out_var = np.tile(variances, (layer_h, layer_w, num_anchors, 1))
+    out_anchors = out_anchors.astype('float32')
+    out_var = out_var.astype('float32')
+    return out_anchors, out_var
+
+
+class TestAnchorGeneratorOp(OpTest):
+    def set_data(self):
+        self.init_test_params()
+        self.init_test_input()
+        self.init_test_output()
+        self.inputs = {'Input': self.input}
+
+        self.attrs = {
+            'anchor_sizes': self.anchor_sizes,
+            'aspect_ratios': self.aspect_ratios,
+            'stride': self.stride,
+            'offset': self.offset,
+            'variances': self.variances,
+        }
+
+        self.outputs = {'Anchors': self.out_anchors, 'Variances': self.out_var}
+
+    def test_check_output(self):
+        self.check_output()
+
+    def setUp(self):
+        self.op_type = "anchor_generator"
+        self.set_data()
+
+    def init_test_params(self):
+        self.batch_size = 1
+        self.input_channels = 2
+        self.layer_h = 2
+        self.layer_w = 2
+
+        self.anchor_sizes = [64., 128., 256., 512.]
+        self.aspect_ratios = [0.5, 1., 2.]
+        self.stride = [16., 16.]
+
+        self.offset = 0.5
+
+        self.variances = [0.1, 0.1, 0.2, 0.2]
+
+    def init_test_input(self):
+        self.input = np.random.random(
+            (self.batch_size, self.input_channels, self.layer_h,
+             self.layer_w)).astype('float32')
+
+    def init_test_output(self):
+        self.out_anchors, self.out_var = anchor_generator_in_python(
+            self.input, self.anchor_sizes, self.aspect_ratios, self.variances,
+            self.stride, self.offset)
+
+
+if __name__ == '__main__':
+    unittest.main()
diff --git a/python/paddle/fluid/tests/unittests/test_argsort_op.py b/python/paddle/fluid/tests/unittests/test_argsort_op.py
new file mode 100644
index 0000000000..b29a102a38
--- /dev/null
+++ b/python/paddle/fluid/tests/unittests/test_argsort_op.py
@@ -0,0 +1,56 @@
+#   Copyright (c) 2018 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import unittest
+import numpy as np
+from op_test import OpTest
+
+
+class TestArgsortOp(OpTest):
+    def setUp(self):
+        self.init_axis()
+        x = np.random.random((2, 3, 4, 5, 10)).astype("float32")
+        if self.axis < 0:
+            self.axis = self.axis + len(x.shape)
+        self.indices = np.argsort(x, kind='quicksort', axis=self.axis)
+        self.out = np.sort(x, kind='quicksort', axis=self.axis)
+        self.op_type = "argsort"
+        self.inputs = {'X': x}
+        self.attrs = {'axis': self.axis}
+        self.outputs = {'Indices': self.indices, 'Out': self.out}
+
+    def init_axis(self):
+        self.axis = -1
+
+    def test_check_output(self):
+        self.check_output()
+
+
+class TestArgsortOpAxis0(TestArgsortOp):
+    def init_axis(self):
+        self.axis = 0
+
+
+class TestArgsortOpAxis1(TestArgsortOp):
+    def init_axis(self):
+        self.axis = 1
+
+
+class TestArgsortOpAxisNeg2(TestArgsortOp):
+    def init_axis(self):
+        self.axis = -2
+
+
+if __name__ == "__main__":
+    unittest.main()
diff --git a/python/paddle/fluid/tests/unittests/test_data_balance.py b/python/paddle/fluid/tests/unittests/test_data_balance.py
new file mode 100644
index 0000000000..b558d7c2ea
--- /dev/null
+++ b/python/paddle/fluid/tests/unittests/test_data_balance.py
@@ -0,0 +1,187 @@
+# Copyright (c) 2018 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import unittest
+import paddle.fluid as fluid
+import paddle.v2 as paddle
+import numpy as np
+
+
+class TestDataBalance(unittest.TestCase):
+    def prepare_data(self):
+        def fake_data_generator():
+            for n in xrange(self.total_ins_num):
+                yield np.ones((3, 4)) * n, n
+
+        # Prepare data
+        with fluid.program_guard(fluid.Program(), fluid.Program()):
+            reader = paddle.batch(
+                fake_data_generator, batch_size=self.batch_size)
+            feeder = fluid.DataFeeder(
+                feed_list=[
+                    fluid.layers.data(
+                        name='image', shape=[3, 4], dtype='float32'),
+                    fluid.layers.data(
+                        name='label', shape=[1], dtype='int64'),
+                ],
+                place=fluid.CPUPlace())
+            self.num_batches = fluid.recordio_writer.convert_reader_to_recordio_file(
+                self.data_file_name, reader, feeder)
+
+    def prepare_lod_data(self):
+        def fake_data_generator():
+            for n in xrange(1, self.total_ins_num + 1):
+                d1 = (np.ones((n, 3)) * n).astype('float32')
+                d2 = (np.array(n).reshape((1, 1))).astype('int32')
+                yield d1, d2
+
+        # Prepare lod data
+        with fluid.program_guard(fluid.Program(), fluid.Program()):
+            with fluid.recordio_writer.create_recordio_writer(
+                    filename=self.lod_data_file_name) as writer:
+                eof = False
+                generator = fake_data_generator()
+                while (not eof):
+                    data_batch = [
+                        np.array([]).reshape((0, 3)), np.array([]).reshape(
+                            (0, 1))
+                    ]
+                    lod = [0]
+                    for _ in xrange(self.batch_size):
+                        try:
+                            ins = generator.next()
+                        except StopIteration:
+                            eof = True
+                            break
+                        for i, d in enumerate(ins):
+                            data_batch[i] = np.concatenate(
+                                (data_batch[i], d), axis=0)
+                        lod.append(lod[-1] + ins[0].shape[0])
+                    if data_batch[0].shape[0] > 0:
+                        for i, d in enumerate(data_batch):
+                            t = fluid.LoDTensor()
+                            t.set(data_batch[i], fluid.CPUPlace())
+                            if i == 0:
+                                t.set_lod([lod])
+                            writer.append_tensor(t)
+                        writer.complete_append_tensor()
+
+    def setUp(self):
+        self.use_cuda = fluid.core.is_compiled_with_cuda()
+        self.data_file_name = './data_balance_test.recordio'
+        self.lod_data_file_name = './data_balance_with_lod_test.recordio'
+        self.total_ins_num = 50
+        self.batch_size = 10
+        self.prepare_data()
+        self.prepare_lod_data()
+
+    def main(self):
+        main_prog = fluid.Program()
+        startup_prog = fluid.Program()
+        with fluid.program_guard(main_prog, startup_prog):
+            data_reader = fluid.layers.io.open_files(
+                filenames=[self.data_file_name],
+                shapes=[[-1, 3, 4], [-1, 1]],
+                lod_levels=[0, 0],
+                dtypes=['float32', 'int64'])
+            if self.use_cuda:
+                data_reader = fluid.layers.double_buffer(data_reader)
+            image, label = fluid.layers.read_file(data_reader)
+
+            place = fluid.CUDAPlace(0) if self.use_cuda else fluid.CPUPlace()
+            exe = fluid.Executor(place)
+            exe.run(startup_prog)
+
+            parallel_exe = fluid.ParallelExecutor(
+                use_cuda=self.use_cuda, main_program=main_prog)
+
+            if (parallel_exe.device_count > self.batch_size):
+                print("WARNING: Unittest TestDataBalance skipped. \
+                    For the result is not correct when device count \
+                    is larger than batch size.")
+                exit(0)
+            fetch_list = [image.name, label.name]
+
+            data_appeared = [False] * self.total_ins_num
+            while (True):
+                try:
+                    image_val, label_val = parallel_exe.run(fetch_list,
+                                                            return_numpy=True)
+                except fluid.core.EnforceNotMet as ex:
+                    self.assertIn("There is no next data.", ex.message)
+                    break
+                ins_num = image_val.shape[0]
+                broadcasted_label = np.ones(
+                    (ins_num, 3, 4)) * label_val.reshape((ins_num, 1, 1))
+                self.assertEqual(image_val.all(), broadcasted_label.all())
+                for l in label_val:
+                    self.assertFalse(data_appeared[l[0]])
+                    data_appeared[l[0]] = True
+            for i in data_appeared:
+                self.assertTrue(i)
+
+    def main_lod(self):
+        main_prog = fluid.Program()
+        startup_prog = fluid.Program()
+        with fluid.program_guard(main_prog, startup_prog):
+            data_reader = fluid.layers.io.open_files(
+                filenames=[self.lod_data_file_name],
+                shapes=[[-1, 3], [-1, 1]],
+                lod_levels=[1, 0],
+                dtypes=['float32', 'int32'],
+                thread_num=1)
+            ins, label = fluid.layers.read_file(data_reader)
+
+            place = fluid.CUDAPlace(0) if self.use_cuda else fluid.CPUPlace()
+            exe = fluid.Executor(place)
+            exe.run(startup_prog)
+
+            parallel_exe = fluid.ParallelExecutor(
+                use_cuda=self.use_cuda, main_program=main_prog)
+
+            if (parallel_exe.device_count > self.batch_size):
+                print("WARNING: Unittest TestDataBalance skipped. \
+                    For the result is not correct when device count \
+                    is larger than batch size.")
+                exit(0)
+            fetch_list = [ins.name, label.name]
+
+            data_appeared = [False] * self.total_ins_num
+            while (True):
+                try:
+                    ins_tensor, label_tensor = parallel_exe.run(
+                        fetch_list, return_numpy=False)
+                except fluid.core.EnforceNotMet as ex:
+                    self.assertIn("There is no next data.", ex.message)
+                    break
+
+                ins_val = np.array(ins_tensor)
+                label_val = np.array(label_tensor)
+                ins_lod = ins_tensor.lod()[0]
+                self.assertEqual(ins_val.shape[1], 3)
+                self.assertEqual(label_val.shape[1], 1)
+                self.assertEqual(len(ins_lod) - 1, label_val.shape[0])
+                for i in range(0, len(ins_lod) - 1):
+                    ins_elem = ins_val[ins_lod[i]:ins_lod[i + 1]][:]
+                    label_elem = label_val[i][0]
+                    self.assertEqual(ins_elem.all(), label_elem.all())
+                    self.assertFalse(data_appeared[int(label_elem - 1)])
+                    data_appeared[int(label_elem - 1)] = True
+
+            for i in data_appeared:
+                self.assertTrue(i)
+
+    def test_all(self):
+        self.main()
+        self.main_lod()
diff --git a/python/paddle/fluid/tests/unittests/test_dist_transpiler.py b/python/paddle/fluid/tests/unittests/test_dist_transpiler.py
index b4379ad447..75b4b4e50d 100644
--- a/python/paddle/fluid/tests/unittests/test_dist_transpiler.py
+++ b/python/paddle/fluid/tests/unittests/test_dist_transpiler.py
@@ -15,51 +15,248 @@
 import unittest
 import paddle.fluid as fluid
 from paddle.fluid.transpiler.distribute_transpiler import delete_ops
+import traceback
 
-from transpiler_test import TranspilerTest
 
-
-class TestDistTranspiler(TranspilerTest):
+class TranspilerTest(unittest.TestCase):
     def setUp(self):
-        self.current_pserver_ep = "127.0.0.1:6174"
+        self.trainer_id = 0
+        self.trainers = 2
+        self.pservers = 2
+        # NOTE: we do not actually bind this port
+        self.pserver_eps = "127.0.0.1:6174,127.0.0.1:6175"
+        self.pserver1_ep = "127.0.0.1:6174"
+        self.pserver2_ep = "127.0.0.1:6175"
+        self.slice_var_up = True
+        self.sync_mode = True
+        self.transpiler = None
+
+    def net_conf(self):
+        x = fluid.layers.data(name='x', shape=[1000], dtype='float32')
+        y_predict = fluid.layers.fc(input=x,
+                                    size=1000,
+                                    act=None,
+                                    param_attr=fluid.ParamAttr(name='fc_w'),
+                                    bias_attr=fluid.ParamAttr(name='fc_b'))
+        y = fluid.layers.data(name='y', shape=[1], dtype='float32')
+        cost = fluid.layers.square_error_cost(input=y_predict, label=y)
+        avg_cost = fluid.layers.mean(cost)
+        sgd_optimizer = fluid.optimizer.SGD(learning_rate=0.1)
+        sgd_optimizer.minimize(avg_cost)
+        return
+
+    def get_main_program(self):
+        main = fluid.Program()
+        with fluid.program_guard(main):
+            self.net_conf()
+        self.origin_prog = main.clone()
+        return main
+
+    def get_trainer(self):
+        t = self._transpiler_instance()
+        return t.get_trainer_program()
+
+    def get_pserver(self, ep):
+        t = self._transpiler_instance()
+        pserver = t.get_pserver_program(ep)
+        startup = t.get_startup_program(ep, pserver)
+        return pserver, startup
+
+    def _transpiler_instance(self):
+        if not self.transpiler:
+            main = self.get_main_program()
+            self.transpiler = fluid.DistributeTranspiler()
+            self.transpiler.transpile(
+                self.trainer_id,
+                program=main,
+                pservers=self.pserver_eps,
+                trainers=self.trainers,
+                slice_var_up=self.slice_var_up,
+                sync_mode=self.sync_mode)
+        return self.transpiler
 
+
+class TestBasicModel(TranspilerTest):
     def test_transpiler(self):
+        pserver, startup = self.get_pserver(self.pserver1_ep)
+        pserver2, startup2 = self.get_pserver(self.pserver2_ep)
+
         trainer = self.get_trainer()
-        pserver, startup = self.get_pserver(self.current_pserver_ep)
-        self.assertEqual([op.type for op in trainer.global_block().ops],
-                         self.get_expect_trainer_ops())
+
+        self.assertEqual([op.type for op in trainer.global_block().ops], [
+            'mul', 'elementwise_add', 'elementwise_sub', 'square', 'mean',
+            'fill_constant', 'mean_grad', 'square_grad', 'elementwise_sub_grad',
+            'elementwise_add_grad', 'send', 'mul_grad', 'split_byref', 'send',
+            'send_barrier', 'recv', 'recv', 'fetch_barrier', 'concat'
+        ])
 
         self.assertEqual(len(pserver.blocks), 3)
         # block0: listen_and_serv
         self.assertEqual([op.type for op in pserver.blocks[0].ops],
                          ["listen_and_serv"])
-        # block2: optimize pass
+        # block1~2: optimize pass
         self.assertEqual([op.type for op in pserver.blocks[1].ops],
                          ["sum", "scale", "sgd"])
-
         # confirm startup program
-
-        self.assertEqual([op.type for op in startup.global_block().ops], [
-            "fill_constant", "fill_constant", "uniform_random", "uniform_random"
-        ])
-
+        self.assertEqual([op.type for op in startup.global_block().ops],
+                         ["fill_constant", "fill_constant", "uniform_random"])
         # the variable #fc_w will be split into two blocks
         fc_w_var = startup.global_block().var("fc_w.block1")
         self.assertEqual(fc_w_var.shape, (500, 1000))
+        # all parameters should be optimized on pserver
+
+        pserver_params = []
+        for prog in [pserver, pserver2]:
+            for blk in prog.blocks:
+                for op in blk.ops:
+                    if "Param" in op.input_names:
+                        param_name = op.input("Param")[0]
+                        is_block_idx = param_name.find(".block")
+                        if is_block_idx != -1:
+                            origin_param_name = param_name[:is_block_idx]
+                        else:
+                            origin_param_name = param_name
+                        pserver_params.append(origin_param_name)
+        trainer_params = []
+        for op in self.origin_prog.global_block().ops:
+            if "Param" in op.input_names:
+                trainer_params.append(op.input("Param")[0])
+        self.assertEqual(set(pserver_params), set(trainer_params))
+
+
+class TestNoSliceVar(TranspilerTest):
+    def setUp(self):
+        super(TestNoSliceVar, self).setUp()
+        self.slice_var_up = False
+
+    def test_transpiler(self):
+        _, startup = self.get_pserver(self.pserver1_ep)
+        _, startup2 = self.get_pserver(self.pserver2_ep)
+
+        if startup.global_block().vars.has_key("fc_w"):
+            fc_w_var = startup.global_block().vars["fc_w"]
+        elif startup2.global_block().vars.has_key("fc_w"):
+            fc_w_var = startup2.global_block().vars["fc_w"]
+
+        self.assertEqual(fc_w_var.shape, (1000, 1000))
 
-    def get_expect_trainer_ops(self):
-        trainer = fluid.Program()
 
-        with fluid.program_guard(trainer):
-            optimize_ops, params_grads = self.net_conf()
+class TestLRDecay(TranspilerTest):
+    def net_conf(self):
+        x = fluid.layers.data(name='x', shape=[1000], dtype='float32')
+        y_predict = fluid.layers.fc(input=x,
+                                    size=1000,
+                                    act=None,
+                                    param_attr=fluid.ParamAttr(name='fc_w'),
+                                    bias_attr=fluid.ParamAttr(name='fc_b'))
+        y = fluid.layers.data(name='y', shape=[1], dtype='float32')
+        cost = fluid.layers.square_error_cost(input=y_predict, label=y)
+        avg_cost = fluid.layers.mean(cost)
+        sgd_optimizer = fluid.optimizer.SGD(
+            learning_rate=fluid.layers.exponential_decay(
+                learning_rate=1.0,
+                decay_steps=2100,
+                decay_rate=0.1,
+                staircase=True))
+        sgd_optimizer.minimize(avg_cost)
+        return
+
+    def test_transpiler(self):
+        pserver, startup = self.get_pserver(self.pserver1_ep)
+        trainer = self.get_trainer()
+
+        self.assertEqual(len(pserver.blocks), 4)
+        lr_decay_ops = [op.type for op in pserver.blocks[1].ops]
+        self.assertEqual(lr_decay_ops, [
+            "increment", "cast", "fill_constant", "elementwise_div", "floor",
+            "fill_constant", "elementwise_pow", "fill_constant",
+            "elementwise_mul"
+        ])
+
+
+class TestLRDecayConditional(TranspilerTest):
+    def net_conf(self):
+        x = fluid.layers.data(name='x', shape=[1000], dtype='float32')
+        y_predict = fluid.layers.fc(input=x,
+                                    size=1000,
+                                    act=None,
+                                    param_attr=fluid.ParamAttr(name='fc_w'),
+                                    bias_attr=fluid.ParamAttr(name='fc_b'))
+        y = fluid.layers.data(name='y', shape=[1], dtype='float32')
+        cost = fluid.layers.square_error_cost(input=y_predict, label=y)
+        avg_cost = fluid.layers.mean(cost)
+        sgd_optimizer = fluid.optimizer.SGD(
+            learning_rate=fluid.layers.piecewise_decay([10000, 20000],
+                                                       [1.0, 0.5, 1.0]))
+        sgd_optimizer.minimize(avg_cost)
+        return
+
+    def test_transpiler(self):
+        pserver, startup = self.get_pserver(self.pserver1_ep)
+        trainer = self.get_trainer()
+
+        serv_op = pserver.blocks[0].ops[0]
+        sub_blocks = []
+        optimize_blocks = []
+        for b in serv_op.attrs["optimize_blocks"]:
+            optimize_blocks.append(b.idx)
+        for b in pserver.blocks:
+            if b.idx not in optimize_blocks:
+                sub_blocks.append(b.idx)
+
+        self.assertEqual(len(pserver.blocks), 7)
+        lr_decay_ops = [op.type for op in pserver.blocks[1].ops]
+        self.assertEqual(lr_decay_ops, [
+            "increment", "cast", "fill_constant", "fill_constant", "less_than",
+            "logical_not", "conditional_block", "fill_constant",
+            "fill_constant", "less_than", "logical_not", "logical_and",
+            "logical_and", "conditional_block", "fill_constant",
+            "conditional_block"
+        ])
+        # test the condition blocks
+        for b in sub_blocks:
+            if b == 0:
+                continue
+            block = pserver.blocks[b]
+            self.assertEqual([op.type for op in block.ops], ["assign"])
+
+
+class TestL2Decay(TranspilerTest):
+    def net_conf(self):
+        x = fluid.layers.data(name='x', shape=[1000], dtype='float32')
+        y_predict = fluid.layers.fc(
+            input=x,
+            size=1000,
+            act=None,
+            param_attr=fluid.ParamAttr(
+                name='fc_w',
+                regularizer=fluid.regularizer.L2Decay(),
+                gradient_clip=fluid.clip.GradientClipByValue(0.1)),
+            bias_attr=fluid.ParamAttr(name='fc_b'))
+        y = fluid.layers.data(name='y', shape=[1], dtype='float32')
+        cost = fluid.layers.square_error_cost(input=y_predict, label=y)
+        avg_cost = fluid.layers.mean(cost)
+        sgd_optimizer = fluid.optimizer.SGD(learning_rate=0.1)
+        sgd_optimizer.minimize(avg_cost)
+        return
+
+    def test_transpiler(self):
+        pserver, startup = self.get_pserver(self.pserver1_ep)
+        trainer = self.get_trainer()
+
+        self.assertEqual(len(pserver.blocks), 3)
+        self.assertEqual([op.type for op in pserver.blocks[1].ops],
+                         ["sum", "scale", "clip", "sgd"])
+        self.assertEqual(
+            [op.type for op in pserver.blocks[2].ops],
+            ["sum", "scale", "clip", "scale", "elementwise_add", "sgd"])
+        # TODO(typhoonzero): test clipping and L2Decay ops are removed from trainer
+
 
-        delete_ops(trainer.global_block(), optimize_ops)
-        ops = [op.type for op in trainer.global_block().ops] + [
-            "split_byref", "send", "send_barrier", "recv", "recv",
-            "fetch_barrier", "concat"
-        ]
-        ops.insert(ops.index("elementwise_add_grad") + 1, "send")
-        return ops
+    # FIXME(typhoonzero): need to add test for async case:
+    # see https://github.com/PaddlePaddle/Paddle/issues/11691
+class TestAsyncSGD(TranspilerTest):
+    pass
 
 
 if __name__ == "__main__":
diff --git a/python/paddle/fluid/tests/unittests/test_dist_word2vec.py b/python/paddle/fluid/tests/unittests/test_dist_word2vec.py
new file mode 100644
index 0000000000..712fd5849d
--- /dev/null
+++ b/python/paddle/fluid/tests/unittests/test_dist_word2vec.py
@@ -0,0 +1,203 @@
+#   Copyright (c) 2018 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import numpy as np
+import argparse
+import time
+import math
+import paddle
+import paddle.fluid as fluid
+import paddle.fluid.profiler as profiler
+from paddle.fluid import core
+import unittest
+from multiprocessing import Process
+import os
+import signal
+
+IS_SPARSE = True
+EMBED_SIZE = 32
+HIDDEN_SIZE = 256
+N = 5
+BATCH_SIZE = 32
+ExecutionStrategy = core.ParallelExecutor.ExecutionStrategy
+
+
+def get_model():
+    def __network__(words):
+        embed_first = fluid.layers.embedding(
+            input=words[0],
+            size=[dict_size, EMBED_SIZE],
+            dtype='float32',
+            is_sparse=IS_SPARSE,
+            param_attr='shared_w')
+        embed_second = fluid.layers.embedding(
+            input=words[1],
+            size=[dict_size, EMBED_SIZE],
+            dtype='float32',
+            is_sparse=IS_SPARSE,
+            param_attr='shared_w')
+        embed_third = fluid.layers.embedding(
+            input=words[2],
+            size=[dict_size, EMBED_SIZE],
+            dtype='float32',
+            is_sparse=IS_SPARSE,
+            param_attr='shared_w')
+        embed_forth = fluid.layers.embedding(
+            input=words[3],
+            size=[dict_size, EMBED_SIZE],
+            dtype='float32',
+            is_sparse=IS_SPARSE,
+            param_attr='shared_w')
+
+        concat_embed = fluid.layers.concat(
+            input=[embed_first, embed_second, embed_third, embed_forth], axis=1)
+        hidden1 = fluid.layers.fc(input=concat_embed,
+                                  size=HIDDEN_SIZE,
+                                  act='sigmoid')
+        predict_word = fluid.layers.fc(input=hidden1,
+                                       size=dict_size,
+                                       act='softmax')
+        cost = fluid.layers.cross_entropy(input=predict_word, label=words[4])
+        avg_cost = fluid.layers.mean(cost)
+        return avg_cost, predict_word
+
+    word_dict = paddle.dataset.imikolov.build_dict()
+    dict_size = len(word_dict)
+
+    first_word = fluid.layers.data(name='firstw', shape=[1], dtype='int64')
+    second_word = fluid.layers.data(name='secondw', shape=[1], dtype='int64')
+    third_word = fluid.layers.data(name='thirdw', shape=[1], dtype='int64')
+    forth_word = fluid.layers.data(name='forthw', shape=[1], dtype='int64')
+    next_word = fluid.layers.data(name='nextw', shape=[1], dtype='int64')
+    avg_cost, predict_word = __network__(
+        [first_word, second_word, third_word, forth_word, next_word])
+
+    inference_program = paddle.fluid.default_main_program().clone()
+
+    sgd_optimizer = fluid.optimizer.SGD(learning_rate=0.001)
+    sgd_optimizer.minimize(avg_cost)
+
+    train_reader = paddle.batch(
+        paddle.dataset.imikolov.train(word_dict, N), BATCH_SIZE)
+    test_reader = paddle.batch(
+        paddle.dataset.imikolov.test(word_dict, N), BATCH_SIZE)
+
+    return inference_program, avg_cost, train_reader, test_reader, predict_word
+
+
+def get_transpiler(trainer_id, main_program, pserver_endpoints, trainers):
+    t = fluid.DistributeTranspiler()
+    t.transpile(
+        trainer_id=trainer_id,
+        program=main_program,
+        pservers=pserver_endpoints,
+        trainers=trainers)
+    return t
+
+
+def run_pserver(pserver_endpoints, trainers, current_endpoint):
+    get_model()
+    t = get_transpiler(0,
+                       fluid.default_main_program(), pserver_endpoints,
+                       trainers)
+    pserver_prog = t.get_pserver_program(current_endpoint)
+    startup_prog = t.get_startup_program(current_endpoint, pserver_prog)
+
+    place = fluid.CPUPlace()
+    exe = fluid.Executor(place)
+    exe.run(startup_prog)
+
+    exe.run(pserver_prog)
+
+
+class TestDistMnist(unittest.TestCase):
+    def setUp(self):
+        self._trainers = 1
+        self._pservers = 1
+        self._ps_endpoints = "127.0.0.1:9123"
+
+    def start_pserver(self, endpoint):
+        p = Process(
+            target=run_pserver,
+            args=(self._ps_endpoints, self._trainers, endpoint))
+        p.start()
+        return p.pid
+
+    def _wait_ps_ready(self, pid):
+        retry_times = 5
+        while True:
+            assert retry_times >= 0, "wait ps ready failed"
+            time.sleep(1)
+            try:
+                # the listen_and_serv_op would touch a file which contains the listen port
+                # on the /tmp directory until it was ready to process all the RPC call.
+                os.stat("/tmp/paddle.%d.port" % pid)
+                return
+            except os.error:
+                retry_times -= 1
+
+    def stop_pserver(self, pid):
+        os.kill(pid, signal.SIGKILL)
+
+    def test_with_place(self):
+        p = fluid.CUDAPlace(0) if core.is_compiled_with_cuda(
+        ) else fluid.CPUPlace()
+
+        pserver_pid = self.start_pserver(self._ps_endpoints)
+        self._wait_ps_ready(pserver_pid)
+
+        self.run_trainer(p, 0)
+
+        self.stop_pserver(pserver_pid)
+
+    def run_trainer(self, place, trainer_id):
+        test_program, avg_cost, train_reader, test_reader, predict = get_model()
+        t = get_transpiler(trainer_id,
+                           fluid.default_main_program(), self._ps_endpoints,
+                           self._trainers)
+
+        trainer_prog = t.get_trainer_program()
+
+        exe = fluid.Executor(place)
+        exe.run(fluid.default_startup_program())
+
+        use_gpu = True if core.is_compiled_with_cuda() else False
+
+        exec_strategy = ExecutionStrategy()
+        exec_strategy.use_cuda = use_gpu
+        train_exe = fluid.ParallelExecutor(
+            use_cuda=use_gpu,
+            main_program=trainer_prog,
+            loss_name=avg_cost.name,
+            exec_strategy=exec_strategy)
+
+        feed_var_list = [
+            var for var in trainer_prog.global_block().vars.itervalues()
+            if var.is_data
+        ]
+
+        feeder = fluid.DataFeeder(feed_var_list, place)
+        for pass_id in xrange(10):
+            for batch_id, data in enumerate(train_reader()):
+                avg_loss_np = train_exe.run(feed=feeder.feed(data),
+                                            fetch_list=[avg_cost.name])
+                loss = np.array(avg_loss_np).mean()
+                if float(loss) < 5.0:
+                    return
+                if math.isnan(loss):
+                    assert ("Got Nan loss, training failed")
+
+
+if __name__ == "__main__":
+    unittest.main()
diff --git a/python/paddle/fluid/tests/unittests/test_fill_zeros_like_op_for_array.py b/python/paddle/fluid/tests/unittests/test_fill_zeros_like_op_for_array.py
deleted file mode 100644
index 23871508d8..0000000000
--- a/python/paddle/fluid/tests/unittests/test_fill_zeros_like_op_for_array.py
+++ /dev/null
@@ -1,88 +0,0 @@
-#   Copyright (c) 2018 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-import unittest
-import paddle.fluid.core as core
-import numpy
-import paddle.fluid.layers as layers
-from paddle.fluid.framework import Program, program_guard
-from paddle.fluid.executor import Executor
-
-import paddle.fluid as fluid
-import paddle.fluid.core as core
-
-
-class TestFillZerosLikeOpForTensorArray(unittest.TestCase):
-    def place(self):
-        return core.CPUPlace()
-
-    def test_zero_filling_lod_tensor_array(self):
-        tensor = core.LoDTensor()
-        tensor.set(
-            numpy.arange(20).reshape(20, 1).astype('int32'), self.place())
-        tensor.set_lod([[0, 2, 5], [0, 3, 9, 11, 17, 20]])
-
-        expect = [
-            numpy.array(
-                [0, 0, 0, 0, 0], dtype='int32'), numpy.array(
-                    [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype='int32'),
-            numpy.array(
-                [0, 0, 0], dtype='int32')
-        ]
-
-        lod = [[[0, 2, 5]], [[0, 6, 12]], [[0, 3]]]
-        self.main(
-            tensor=tensor,
-            expect_array=expect,
-            expect_lod=lod,
-            expect_max_len=3)
-
-    def main(self, tensor, expect_array, expect_lod, expect_max_len, level=0):
-        place = self.place()
-        program = Program()
-        with program_guard(program):
-            x = layers.data(name='x', shape=[10])
-            x.persistable = True
-            table = layers.lod_rank_table(x, level=level)
-            max_len = layers.max_sequence_len(table)
-            max_len.persistable = True
-            array = layers.lod_tensor_to_array(x, table)
-            array = layers.fill_zeros_like(array)
-            array.persistable = True
-
-            result = layers.array_to_lod_tensor(array, table)
-            result.persistable = True
-        exe = Executor(place)
-        scope = core.Scope()
-        exe.run(program, feed={'x': tensor}, scope=scope)
-        var = scope.find_var(array.name)
-        array = var.get_lod_tensor_array()
-        if expect_array is not None and expect_lod is not None:
-            self.check_array_same(array, expect_array, expect_lod)
-
-        self.assertEqual(
-            numpy.array(scope.find_var(max_len.name).get_tensor())[0],
-            expect_max_len)
-
-    def check_array_same(self, array, expect_tensor, expect_lod):
-        self.assertEqual(len(expect_tensor), len(array))
-        for i, exp in enumerate(zip(expect_tensor, expect_lod)):
-            exp_tensor, exp_lod = exp
-            exp_tensor = numpy.expand_dims(exp_tensor, axis=1)
-            self.assertTrue(numpy.allclose(exp_tensor, numpy.array(array[i])))
-            self.assertEqual(exp_lod, array[i].lod())
-
-
-if __name__ == '__main__':
-    unittest.main()
diff --git a/python/paddle/fluid/tests/unittests/test_layers.py b/python/paddle/fluid/tests/unittests/test_layers.py
index 9d4b2d4434..842d34c07e 100644
--- a/python/paddle/fluid/tests/unittests/test_layers.py
+++ b/python/paddle/fluid/tests/unittests/test_layers.py
@@ -419,6 +419,15 @@ class TestBook(unittest.TestCase):
             self.assertIsNotNone(iou)
         print(str(program))
 
+    def test_argsort(self):
+        program = Program()
+        with program_guard(program):
+            data = layers.data(name='x', shape=[2, 3, 3], dtype="float32")
+            out, ids = layers.argsort(input=data, axis=1)
+            self.assertIsNotNone(out)
+            self.assertIsNotNone(ids)
+        print(str(program))
+
 
 if __name__ == '__main__':
     unittest.main()
diff --git a/python/paddle/fluid/tests/unittests/test_parallel_executor_test_while_train.py b/python/paddle/fluid/tests/unittests/test_parallel_executor_test_while_train.py
index 2527939444..9a2733927d 100644
--- a/python/paddle/fluid/tests/unittests/test_parallel_executor_test_while_train.py
+++ b/python/paddle/fluid/tests/unittests/test_parallel_executor_test_while_train.py
@@ -16,6 +16,8 @@ import paddle.fluid as fluid
 import numpy as np
 import unittest
 import os
+import sys
+import math
 
 
 def simple_fc_net():
@@ -73,6 +75,14 @@ class ParallelExecutorTestingDuringTraining(unittest.TestCase):
 
                 train_loss, = train_exe.run([loss.name], feed=feed_dict)
 
+                avg_test_loss_val = np.array(test_loss).mean()
+                if math.isnan(float(avg_test_loss_val)):
+                    sys.exit("got NaN loss, testing failed.")
+
+                avg_train_loss_val = np.array(train_loss).mean()
+                if math.isnan(float(avg_train_loss_val)):
+                    sys.exit("got NaN loss, training failed.")
+
                 self.assertTrue(
                     np.allclose(
                         train_loss, test_loss, atol=1e-8),
diff --git a/python/paddle/fluid/tests/unittests/test_simple_dist_transpiler.py b/python/paddle/fluid/tests/unittests/test_simple_dist_transpiler.py
deleted file mode 100644
index f4aa7426bc..0000000000
--- a/python/paddle/fluid/tests/unittests/test_simple_dist_transpiler.py
+++ /dev/null
@@ -1,80 +0,0 @@
-#   Copyright (c) 2018 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-import numpy as np
-
-import paddle.fluid as fluid
-from paddle.fluid.transpiler.distribute_transpiler import delete_ops
-
-from transpiler_test import TranspilerTest
-
-
-class TestSimpleDistTranspiler(TranspilerTest):
-    def setUp(self):
-        self.current_pserver_ep = "127.0.0.1:6175"
-
-    def test_simple_transpiler(self):
-        np.random.seed(1)
-
-        trainer = self.get_trainer()
-        pserver, startup = self.get_pserver(self.current_pserver_ep)
-        self.assertEqual([op.type for op in trainer.global_block().ops],
-                         self.get_expect_trainer_ops())
-
-        self.assertEqual(len(pserver.blocks), 2)
-        # block0: listen_and_serv
-        self.assertEqual([op.type for op in pserver.blocks[0].ops],
-                         ["listen_and_serv"])
-        # block1: optimize pass
-        self.assertEqual([op.type for op in pserver.blocks[1].ops],
-                         ["sum", "scale", "sgd"])
-
-        # confirm startup program
-        self.assertEqual([op.type for op in startup.global_block().ops],
-                         ["fill_constant", "uniform_random", "uniform_random"])
-
-        # the variable #fc_w will NOT be splited
-        fc_w_var = startup.global_block().var("fc_w@GRAD")
-        self.assertEqual(fc_w_var.shape, (1000, 1000))
-
-        fc_w_var = startup.global_block().var("fc_w@GRAD.trainer_0")
-        self.assertEqual(fc_w_var.shape, (1000, 1000))
-
-    def get_expect_trainer_ops(self):
-        trainer = fluid.Program()
-
-        with fluid.program_guard(trainer):
-            optimize_ops, params_grads = self.net_conf()
-
-        delete_ops(trainer.global_block(), optimize_ops)
-        ops = [op.type for op in trainer.global_block().ops] + [
-            "send", "send_barrier", "recv", "recv", "fetch_barrier"
-        ]
-        ops.insert(ops.index("elementwise_add_grad") + 1, "send")
-        return ops
-
-    def _transpiler_instance(self):
-        main = self.get_main_program()
-        t = fluid.DistributeTranspiler()
-        t.transpile(
-            self.trainer_id,
-            program=main,
-            pservers=self.pserver_eps,
-            trainers=self.trainers,
-            slice_var_up=False)
-        return t
-
-
-if __name__ == "__main__":
-    unittest.main()
diff --git a/python/paddle/fluid/tests/unittests/transpiler_test.py b/python/paddle/fluid/tests/unittests/transpiler_test.py
deleted file mode 100644
index d84c5d9c41..0000000000
--- a/python/paddle/fluid/tests/unittests/transpiler_test.py
+++ /dev/null
@@ -1,73 +0,0 @@
-#   Copyright (c) 2018 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-import unittest
-import numpy as np
-
-import paddle.fluid as fluid
-import paddle.fluid.core as core
-import paddle.fluid.layers as layers
-
-
-class TranspilerTest(unittest.TestCase):
-    @classmethod
-    def setUpClass(self):
-        self.trainer_id = 0
-        self.trainers = 2
-        self.pservers = 2
-        self.pserver_eps = "127.0.0.1:6174,127.0.0.1:6175"
-
-    def net_conf(self):
-        x = fluid.layers.data(name='x', shape=[1000], dtype='float32')
-
-        y_predict = fluid.layers.fc(input=x,
-                                    size=1000,
-                                    act=None,
-                                    param_attr=fluid.ParamAttr(name='fc_w'))
-
-        y = fluid.layers.data(name='y', shape=[1], dtype='float32')
-
-        cost = fluid.layers.square_error_cost(input=y_predict, label=y)
-        avg_cost = fluid.layers.mean(cost)
-        sgd_optimizer = fluid.optimizer.SGD(learning_rate=0.1)
-
-        optimize_ops, params_grads = sgd_optimizer.minimize(avg_cost)
-        return optimize_ops, params_grads
-
-    def get_main_program(self):
-        main = fluid.Program()
-
-        with fluid.program_guard(main):
-            self.net_conf()
-
-        return main
-
-    def get_trainer(self):
-        return self._transpiler_instance().get_trainer_program()
-
-    def get_pserver(self, ep):
-        t = self._transpiler_instance()
-        pserver = t.get_pserver_program(ep)
-        startup = t.get_startup_program(ep, pserver)
-        return pserver, startup
-
-    def _transpiler_instance(self):
-        main = self.get_main_program()
-        t = fluid.DistributeTranspiler()
-        t.transpile(
-            self.trainer_id,
-            program=main,
-            pservers=self.pserver_eps,
-            trainers=self.trainers)
-        return t
diff --git a/python/paddle/fluid/transpiler/distribute_transpiler.py b/python/paddle/fluid/transpiler/distribute_transpiler.py
index 343901cda3..05fed72ee6 100644
--- a/python/paddle/fluid/transpiler/distribute_transpiler.py
+++ b/python/paddle/fluid/transpiler/distribute_transpiler.py
@@ -455,6 +455,8 @@ class DistributeTranspiler(object):
                     __append_optimize_op__(op, per_opt_block, grad_to_block_id,
                                            merged_var, lr_ops)
 
+        # dedup grad to ids list
+        grad_to_block_id = list(set(grad_to_block_id))
         # append global ops
         if global_ops:
             opt_state_block = pserver_program.create_block(
@@ -960,8 +962,6 @@ class DistributeTranspiler(object):
             if not block_map.has_key(varname):
                 block_map[varname] = []
             block_map[varname].append((long(offset), long(size)))
-        # Do not remove this important debug message:
-        print("block map: %s" % block_map)
 
         for varname, splited in block_map.iteritems():
             orig_var = program.global_block().var(varname)
@@ -1401,6 +1401,16 @@ class DistributeTranspiler(object):
                     break
         return lr_ops
 
+    def _is_opt_role_op(self, op):
+        # NOTE: depend on oprole to find out whether this op is for
+        # optimize
+        op_maker = core.op_proto_and_checker_maker
+        optimize_role = core.op_proto_and_checker_maker.OpRole.Optimize
+        if op_maker.kOpRoleAttrName() in op.attrs and \
+            int(op.attrs[op_maker.kOpRoleAttrName()]) == int(optimize_role):
+            return True
+        return False
+
     def _get_optimize_pass(self):
         """
         Get optimizer operators, paramters and gradients from origin_program
@@ -1413,10 +1423,7 @@ class DistributeTranspiler(object):
         params_grads = []
         origin_var_dict = self.origin_program.global_block().vars
         for op in block.ops:
-            # NOTE(Yancey1989): we can not use op role to distinguish an optimizer op
-            # or not, because all ops in optimizer sub-graph would
-            # sign the optimizer op role
-            if self._is_optimizer_op(op):
+            if self._is_opt_role_op(op):
                 opt_ops.append(op)
                 # HACK(wuyi): if we find grad vars from input of optimize
                 # ops, we may get the output of clip op. Use syntax "@GRAD"
diff --git a/python/paddle/trainer_config_helpers/layers.py b/python/paddle/trainer_config_helpers/layers.py
index e6a03759ef..d9787ef42a 100644
--- a/python/paddle/trainer_config_helpers/layers.py
+++ b/python/paddle/trainer_config_helpers/layers.py
@@ -4182,9 +4182,9 @@ def recurrent_group(step, input, reverse=False, name=None, targetInlink=None):
 
     You can see following configs for further usages:
 
-    - time steps: lstmemory_group, paddle/gserver/tests/sequence_layer_group.conf, \
+    - time steps: lstmemory_group, paddle/legacy/gserver/tests/sequence_layer_group.conf, \
                   demo/seqToseq/seqToseq_net.py
-    - sequence steps: paddle/gserver/tests/sequence_nest_layer_group.conf
+    - sequence steps: paddle/legacy/gserver/tests/sequence_nest_layer_group.conf
 
     :param step: A step function which takes the input of recurrent_group as its own
                  input and returns values as recurrent_group's output every time step.
diff --git a/python/paddle/v2/inference.py b/python/paddle/v2/inference.py
index 14b64742fd..28ee042282 100644
--- a/python/paddle/v2/inference.py
+++ b/python/paddle/v2/inference.py
@@ -63,7 +63,7 @@ class Inference(object):
             assert isinstance(val, api.Vector)
             val.copyFromNumpyArray(parameters.get(name).flatten())
             # the setValueUpdated function is called in randomize, zeroMem,
-            # load function in paddle/parameter/Parameter.cpp. But in the
+            # load function in paddle/legacy/parameter/Parameter.cpp. But in the
             # inference mode, the setValueUpdated is never called, it will
             # cause the parameter will not be dispatched
             # in MultiGradientMachine for multi-GPU. So setValueUpdated is
diff --git a/python/setup.py.in b/python/setup.py.in
index 8257f1d5e2..032784f4a2 100644
--- a/python/setup.py.in
+++ b/python/setup.py.in
@@ -95,7 +95,7 @@ if '${WITH_FLUID_ONLY}'== 'OFF':
     paddle_bin_dir = 'opt/paddle/bin'
     paddle_bins = ['${PADDLE_BINARY_DIR}/paddle/trainer/paddle_trainer',
                    '${PADDLE_BINARY_DIR}/paddle/trainer/paddle_merge_model',
-                   '${PADDLE_BINARY_DIR}/paddle/pserver/paddle_pserver_main',
+                   '${PADDLE_BINARY_DIR}/paddle/legacy/pserver/paddle_pserver_main',
                    '${PADDLE_BINARY_DIR}/paddle/scripts/paddle']
 
 package_data={'paddle.fluid': ['core.so']}
diff --git a/tools/codestyle/cpplint_pre_commit.hook b/tools/codestyle/cpplint_pre_commit.hook
index a9775e10ef..041ba868af 100755
--- a/tools/codestyle/cpplint_pre_commit.hook
+++ b/tools/codestyle/cpplint_pre_commit.hook
@@ -4,7 +4,7 @@ TOTAL_ERRORS=0
 
 # The trick to remove deleted files: https://stackoverflow.com/a/2413151
 for file in $(git diff --cached --name-status | awk '$1 != "D" {print $2}'); do
-    if [[ $file =~ ^(paddle/api/.*|paddle/capi/.*|paddle/contrib/.*|paddle/cuda/.*|paddle/function/.*|paddle/gserver/.*|paddle/math/.*|paddle/optimizer/.*|paddle/parameter/.*|paddle/pserver/.*|paddle/trainer/.*|paddle/utils/.*) ]]; then
+    if [[ $file =~ ^(paddle/api/.*|paddle/capi/.*|paddle/contrib/.*|paddle/legacy/cuda/.*|paddle/legacy/function/.*|paddle/legacy/gserver/.*|paddle/legacy/math/.*|paddle/legacy/optimizer/.*|paddle/legacy/parameter/.*|paddle/legacy/pserver/.*|paddle/trainer/.*|paddle/utils/.*|paddle/testing/TestUtil.*) ]]; then
         continue;
     else
         cpplint --filter=-readability/fn_size $file;