Merge branch 'develop' into infershape_example

6 years ago · 8f6597aa0e
parent 31ccaf0916 08e757318c
commit 8f6597aa0e
91 changed files with 3408 additions and 2213 deletions
--- a/paddle/fluid/framework/CMakeLists.txt
+++ b/paddle/fluid/framework/CMakeLists.txt
@ -174,7 +174,7 @@ else()
  cc_test(test_naive_executor SRCS naive_executor_test.cc DEPS naive_executor elementwise_add_op)
 endif()
-target_link_libraries(executor garbage_collector)
+target_link_libraries(executor garbage_collector while_op_helper)
 cc_library(parallel_executor SRCS parallel_executor.cc DEPS
        threaded_ssa_graph_executor scope_buffered_ssa_graph_executor parallel_ssa_graph_executor
--- a/paddle/fluid/framework/details/CMakeLists.txt
+++ b/paddle/fluid/framework/details/CMakeLists.txt
@ -61,7 +61,8 @@ cc_library(inplace_op_pass SRCS inplace_op_pass.cc DEPS memory_optimize_pass op_
 cc_library(modify_op_lock_and_record_event_pass SRCS modify_op_lock_and_record_event_pass.cc DEPS computation_op_handle op_graph_view multi_devices_helper)
 cc_library(reference_count_pass_helper SRCS reference_count_pass_helper.cc DEPS garbage_collector computation_op_handle)
 cc_library(eager_deletion_op_handle SRCS eager_deletion_op_handle.cc DEPS lod_tensor selected_rows reference_count_pass_helper)
-cc_library(eager_deletion_pass SRCS eager_deletion_pass.cc DEPS computation_op_handle eager_deletion_op_handle graph graph_helper pass)
+cc_library(while_op_eager_deletion_pass SRCS while_op_eager_deletion_pass.cc DEPS while_op_helper graph_helper pass computation_op_handle)
 cc_library(eager_deletion_pass SRCS eager_deletion_pass.cc DEPS computation_op_handle eager_deletion_op_handle graph graph_helper pass while_op_eager_deletion_pass)
 cc_library(reference_count_pass SRCS reference_count_pass.cc DEPS computation_op_handle graph graph_helper pass op_graph_view reference_count_pass_helper)
 cc_library(sequential_execution_pass SRCS sequential_execution_pass.cc DEPS graph graph_helper pass)
--- a/paddle/fluid/framework/details/computation_op_handle.h
+++ b/paddle/fluid/framework/details/computation_op_handle.h
@ -14,6 +14,7 @@
 #pragma once
 #include <memory>
 #include <string>
 #include <vector>
@ -31,6 +32,8 @@ class ComputationOpHandle : public OpHandleBase {
  ComputationOpHandle(ir::Node *node, Scope *scope, platform::Place place,
                      size_t scope_idx);
  OperatorBase *GetOp() { return op_.get(); }
  std::string Name() const override;
  const Scope *GetScope() const { return scope_; }
--- a/paddle/fluid/framework/details/eager_deletion_op_handle.cc
+++ b/paddle/fluid/framework/details/eager_deletion_op_handle.cc
@ -12,6 +12,10 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 #include <memory>
 #include <unordered_set>
 #include <utility>
 #include "paddle/fluid/framework/details/eager_deletion_op_handle.h"
 #include "paddle/fluid/framework/lod_tensor_array.h"
 #include "paddle/fluid/framework/scope.h"
@ -45,6 +49,7 @@ EagerDeletionOpHandle::EagerDeletionOpHandle(
    }
  }
 #endif
  PADDLE_ENFORCE(!var_names_.empty(), "Var names cannot be empty");
 }
 EagerDeletionOpHandle::~EagerDeletionOpHandle() {
@ -60,15 +65,20 @@ EagerDeletionOpHandle::~EagerDeletionOpHandle() {
 std::string EagerDeletionOpHandle::Name() const { return "eager_deletion"; }
 void EagerDeletionOpHandle::RunImpl() {
-  auto *exec_scope = scope_->FindVar(kLocalExecScopeName)->Get<Scope *>();
+  Scope *exec_scope = nullptr;
  std::deque<std::shared_ptr<memory::Allocation>> garbages;
  for (auto &name : var_names_) {
    auto it = ref_cnts_->find(name);
-    // Var not found, not reference count has not decreased to 0
+    // Reference count has not decreased to 0
    if (it == ref_cnts_->end() || it->second.fetch_sub(1) != 1) {
      continue;
    }
    if (!exec_scope) {
      exec_scope = scope_->FindVar(kLocalExecScopeName)->Get<Scope *>();
    }
    // Var not found
    auto *var = exec_scope->FindVar(name);
    if (var == nullptr) {
      continue;
--- a/paddle/fluid/framework/details/eager_deletion_pass.cc
+++ b/paddle/fluid/framework/details/eager_deletion_pass.cc
@ -12,20 +12,173 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 #include <algorithm>
 #include <functional>
 #include <queue>
 #include <string>
 #include <tuple>
 #include <vector>
 #include "paddle/fluid/framework/details/computation_op_handle.h"
 #include "paddle/fluid/framework/details/eager_deletion_op_handle.h"
 #include "paddle/fluid/framework/details/eager_deletion_pass.h"
 #include "paddle/fluid/framework/details/multi_devices_helper.h"
 #include "paddle/fluid/framework/ir/graph_helper.h"
 DEFINE_double(memory_fraction_of_eager_deletion, 1.0,
              "Fraction of eager deletion. If less than 1.0, all variables in "
              "the program would be sorted according to its memory size, and "
              "only the FLAGS_memory_fraction_of_eager_deletion of the largest "
              "variables would be deleted.");
 namespace paddle {
 namespace framework {
 namespace details {
 // op -> variables which can be deleted after op runs
 using OpToVarNameSetMap =
    std::unordered_map<ComputationOpHandle *, std::unordered_set<std::string>>;
 // Check whether the variable is LoDTensor based on static VarDesc info
 static bool IsLoDTensor(VarDesc *var) {
  return var->Proto()->type().type() == proto::VarType::LOD_TENSOR;
 }
 // Get memory size of LoDTensor
 static int64_t GetMemorySize(
    const std::unordered_map<std::string, std::vector<VarHandle *>> &vars,
    const std::string &var_name) {
  auto *var_desc = TryGetLatestVarDesc(vars.at(var_name));
  PADDLE_ENFORCE_NOT_NULL(var_desc);
  PADDLE_ENFORCE(IsLoDTensor(var_desc));
  auto dims = var_desc->GetShape();
  return SizeOfType(var_desc->GetDataType()) *
         std::accumulate(dims.begin(), dims.end(), static_cast<int64_t>(1),
                         std::multiplies<int64_t>());
 }
 // Split all variables in the graph into LoDTensor and Non-LoDTensor (e.g.
 // SelectedRows, LoDTensorArray)
 // Since partial GC is based on static analysis of memory size of each variable
 // So we should skip SelectedRows and LoDTensorArray here
 static void SplitIntoLoDTensorAndNonLoDTensorVars(
    const OpToVarNameSetMap &m, const GraphVars &vars,
    OpToVarNameSetMap *lod_tensors, OpToVarNameSetMap *other_vars) {
  lod_tensors->clear();
  other_vars->clear();
  for (auto &op_vars_pair : m) {
    for (auto &var_name : op_vars_pair.second) {
      auto *var_desc = TryGetLatestVarDesc(
          vars[op_vars_pair.first->GetScopeIdx()].at(var_name));
      if (IsLoDTensor(var_desc)) {
        (*lod_tensors)[op_vars_pair.first].insert(var_name);
      } else {
        (*other_vars)[op_vars_pair.first].insert(var_name);
      }
    }
  }
 }
 struct GCVarInfo {
  GCVarInfo(const std::string &name, int64_t memory_size,
            ComputationOpHandle *op, size_t scope_idx)
      : name_(name),
        memory_size_(memory_size),
        op_(op),
        scope_idx_(scope_idx) {}
  std::string name_;         // variable name
  int64_t memory_size_;      // memory size
  ComputationOpHandle *op_;  // op after which the variable could be deleted
  size_t scope_idx_;         // scope index where the variable locates
  int64_t AbsMemorySize() const { return std::abs(memory_size_); }
 };
 // Delete delete_lod_tensor_only is not used currently
 static OpToVarNameSetMap ShrinkGCVars(
    const OpToVarNameSetMap &m, const GraphVars &vars,
    const std::vector<platform::Place> &places, double fraction_of_memory_size,
    bool delete_lod_tensor_only = false) {
  // Do not perform gc when fraction_of_memory_size = 0
  if (fraction_of_memory_size <= 0.0) return {};
  /**
   * Step 1: Split all variables into LoDTensor and Non-LoDTensor.
   * We can only calculate memory size of LoDTensors
   */
  OpToVarNameSetMap lod_tensors, other_vars;
  SplitIntoLoDTensorAndNonLoDTensorVars(m, vars, &lod_tensors, &other_vars);
  // Perform complete gc when fraction_of_memory_size >= 1
  if (fraction_of_memory_size >= 1.0) {
    return delete_lod_tensor_only ? lod_tensors : m;
  }
  /**
   * Step 2: build GCVarInfos, and calculate total memory sizes of each device
   */
  // place -> variable info (name, memory size, place, scope_idx)
  std::map<platform::Place, std::vector<GCVarInfo>> place_to_vars;
  // place -> total memory sizes
  std::map<platform::Place, int64_t> place_to_size;
  for (auto &op_vars_pair : lod_tensors) {
    auto *op = op_vars_pair.first;
    auto &var_names = op_vars_pair.second;
    auto scope_idx = op->GetScopeIdx();
    auto &place = places[scope_idx];
    for (auto &var_name : var_names) {
      auto var_size = GetMemorySize(vars[scope_idx], var_name);
      GCVarInfo var_info(var_name, var_size, op, scope_idx);
      place_to_size[place] += var_info.AbsMemorySize();
      place_to_vars[place].emplace_back(std::move(var_info));
    }
  }
  /**
   * Step 3: sort GCVarInfos, and only delete the largest variables.
   */
  OpToVarNameSetMap partial_vars;
  for (auto &place_to_var_pair : place_to_vars) {
    auto &place = place_to_var_pair.first;
    auto &gc_vars = place_to_var_pair.second;
    std::sort(gc_vars.begin(), gc_vars.end(),
              [](const GCVarInfo &var1, const GCVarInfo &var2) {
                return var1.AbsMemorySize() > var2.AbsMemorySize();
              });
    int64_t accumulated_size = 0;
    int64_t size_threshold =
        static_cast<int64_t>(fraction_of_memory_size * place_to_size[place]);
    for (size_t i = 0; i < gc_vars.size() && accumulated_size < size_threshold;
         ++i) {
      partial_vars[gc_vars[i].op_].insert(gc_vars[i].name_);
      accumulated_size += gc_vars[i].AbsMemorySize();
    }
  }
  /**
   * Step 4: Combine other vars (SelectedRows, LoDTensorArray)
   */
  if (!delete_lod_tensor_only) {
    for (auto &op_vars_pair : other_vars) {
      partial_vars[op_vars_pair.first].insert(op_vars_pair.second.begin(),
                                              op_vars_pair.second.end());
    }
  }
  return partial_vars;
 }
 class EagerDeletionPass : public ir::Pass {
 protected:
  std::unique_ptr<ir::Graph> ApplyImpl(
      std::unique_ptr<ir::Graph> graph) const override;
 };
 std::unique_ptr<ir::Graph> EagerDeletionPass::ApplyImpl(
    std::unique_ptr<ir::Graph> graph) const {
  auto &ref_cnts =
@ -43,9 +196,7 @@ std::unique_ptr<ir::Graph> EagerDeletionPass::ApplyImpl(
  // a reverse map of last_live_ops
  //   i.e., last op --> variable names which can be deleted.
-  std::unordered_map<ComputationOpHandle *, std::unordered_set<std::string>>
+  OpToVarNameSetMap op_vars_map;
      op_vars_map;
  for (auto &var_ops_map : last_live_ops) {
    for (auto &var_ops_pair : var_ops_map) {
      const std::string &var_name = var_ops_pair.first;
@ -55,6 +206,9 @@ std::unique_ptr<ir::Graph> EagerDeletionPass::ApplyImpl(
    }
  }
  op_vars_map = ShrinkGCVars(op_vars_map, vars, places,
                             FLAGS_memory_fraction_of_eager_deletion);
  for (auto &pair : op_vars_map) {
    auto *op = pair.first;
    auto &var_names = pair.second;
@ -85,8 +239,13 @@ std::unique_ptr<ir::Graph> EagerDeletionPass::ApplyImpl(
    eager_deletion_op->AddOutput(dummy_leaf);
  }
  VLOG(10) << "FLAGS_memory_fraction_of_eager_deletion = "
           << FLAGS_memory_fraction_of_eager_deletion;
  VLOG(10) << "Create " << op_vars_map.size() << " EagerDeletionOpHandle(s)";
-  return graph;
+
  auto while_op_eager_deletion_pass =
      ir::PassRegistry::Instance().Get("while_op_eager_deletion_pass");
  return while_op_eager_deletion_pass->Apply(std::move(graph));
 }
 }  // namespace details
@ -99,3 +258,5 @@ REGISTER_PASS(eager_deletion_pass,
    .RequirePassAttr(paddle::framework::details::kLastLiveOpsOfVars)
    .RequirePassAttr(paddle::framework::details::kAllPlaces)
    .RequirePassAttr(paddle::framework::details::kGarbageCollector);
 USE_PASS(while_op_eager_deletion_pass);
--- a/paddle/fluid/framework/details/eager_deletion_pass.h
+++ b/paddle/fluid/framework/details/eager_deletion_pass.h
@ -1,32 +0,0 @@
 // Copyright (c) 2018 PaddlePaddle Authors. All Rights Reserved.
 //
 // Licensed under the Apache License, Version 2.0 (the "License");
 // you may not use this file except in compliance with the License.
 // You may obtain a copy of the License at
 //
 //     http://www.apache.org/licenses/LICENSE-2.0
 //
 // Unless required by applicable law or agreed to in writing, software
 // distributed under the License is distributed on an "AS IS" BASIS,
 // WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 // See the License for the specific language governing permissions and
 // limitations under the License.
 #pragma once
 #include "paddle/fluid/framework/ir/graph.h"
 #include "paddle/fluid/framework/ir/pass.h"
 namespace paddle {
 namespace framework {
 namespace details {
 class EagerDeletionPass : public ir::Pass {
 protected:
  std::unique_ptr<ir::Graph> ApplyImpl(
      std::unique_ptr<ir::Graph> graph) const override;
 };
 }  // namespace details
 }  // namespace framework
 }  // namespace paddle
--- a/paddle/fluid/framework/details/reference_count_pass.cc
+++ b/paddle/fluid/framework/details/reference_count_pass.cc
@ -12,9 +12,13 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 #include <memory>
 #include <queue>
 #include <string>
 #include <type_traits>
 #include <unordered_map>
 #include <unordered_set>
 #include <utility>
 #include <vector>
 #include "paddle/fluid/framework/details/computation_op_handle.h"
@ -189,15 +193,6 @@ ExtractComputationOpFromLastLivedVar(VarHandle *var, size_t scope_idx,
  return shrink_func(computation_op);
 }
 static VarDesc *TryGetLatestVarDesc(const std::vector<VarHandle *> &vars) {
  VarDesc *var_desc = nullptr;
  std::find_if(vars.rbegin(), vars.rend(), [&](VarHandle *var_handle) -> bool {
    var_desc = var_handle->Node()->Var();
    return var_desc != nullptr;
  });
  return var_desc;
 }
 std::unique_ptr<ir::Graph> ReferenceCountPass::ApplyImpl(
    std::unique_ptr<ir::Graph> graph) const {
  auto &ref_cnts = Get<std::vector<ReferenceCountMap>>(kGlobalReferenceCount);
--- a/paddle/fluid/framework/details/reference_count_pass_helper.cc
+++ b/paddle/fluid/framework/details/reference_count_pass_helper.cc
@ -13,9 +13,22 @@
 // limitations under the License.
 #include "paddle/fluid/framework/details/reference_count_pass_helper.h"
 #include "paddle/fluid/framework/details/var_handle.h"
 #include "paddle/fluid/framework/var_desc.h"
 namespace paddle {
 namespace framework {
-namespace details {}  // namespace details
+namespace details {
 VarDesc *TryGetLatestVarDesc(const std::vector<VarHandle *> &vars) {
  VarDesc *var_desc = nullptr;
  std::find_if(vars.rbegin(), vars.rend(), [&](VarHandle *var_handle) -> bool {
    var_desc = var_handle->Node()->Var();
    return var_desc != nullptr;
  });
  return var_desc;
 }
 }  // namespace details
 }  // namespace framework
 }  // namespace paddle
--- a/paddle/fluid/framework/details/reference_count_pass_helper.h
+++ b/paddle/fluid/framework/details/reference_count_pass_helper.h
@ -16,6 +16,7 @@
 #include <atomic>
 #include <map>
 #include <memory>
 #include <string>
 #include <unordered_map>
 #include <unordered_set>
@ -25,6 +26,10 @@
 namespace paddle {
 namespace framework {
 class VarDesc;
 class VarHandle;
 namespace details {
 class ComputationOpHandle;
@ -43,9 +48,11 @@ const char kGarbageCollector[] = "garbage_collector";
 const char kAllPlaces[] = "all_places";
 using LastLiveOpsOfVars =
-    std::unordered_map<std::string, std::unordered_set<ComputationOpHandle*>>;
+    std::unordered_map<std::string, std::unordered_set<ComputationOpHandle *>>;
 const char kLastLiveOpsOfVars[] = "last_live_ops_of_var";
 VarDesc *TryGetLatestVarDesc(const std::vector<VarHandle *> &vars);
 }  // namespace details
 }  // namespace framework
 }  // namespace paddle
--- a/paddle/fluid/framework/details/while_op_eager_deletion_pass.cc
+++ b/paddle/fluid/framework/details/while_op_eager_deletion_pass.cc
@ -0,0 +1,62 @@
 // Copyright (c) 2019 PaddlePaddle Authors. All Rights Reserved.
 //
 // Licensed under the Apache License, Version 2.0 (the "License");
 // you may not use this file except in compliance with the License.
 // You may obtain a copy of the License at
 //
 //     http://www.apache.org/licenses/LICENSE-2.0
 //
 // Unless required by applicable law or agreed to in writing, software
 // distributed under the License is distributed on an "AS IS" BASIS,
 // WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 // See the License for the specific language governing permissions and
 // limitations under the License.
 #include "paddle/fluid/framework/details/computation_op_handle.h"
 #include "paddle/fluid/framework/details/multi_devices_helper.h"
 #include "paddle/fluid/framework/ir/graph_helper.h"
 #include "paddle/fluid/operators/controlflow/while_op_helper.h"
 namespace paddle {
 namespace framework {
 namespace details {
 class WhileOpEagerDeletionPass : public ir::Pass {
 protected:
  std::unique_ptr<ir::Graph> ApplyImpl(
      std::unique_ptr<ir::Graph> graph) const override {
    auto all_ops = ir::FilterByNodeWrapper<OpHandleBase>(*graph);
    // Find all while_op and while_grad_op
    std::unordered_map<size_t, std::pair<std::vector<OperatorBase *>,
                                         std::vector<OperatorBase *>>>
        target_ops;
    for (auto *op : all_ops) {
      auto compute_op = dynamic_cast<ComputationOpHandle *>(op);
      if (compute_op == nullptr) continue;
      if (compute_op->Name() == "while") {
        target_ops[compute_op->GetScopeIdx()].first.emplace_back(
            compute_op->GetOp());
      } else if (compute_op->Name() == "while_grad") {
        target_ops[compute_op->GetScopeIdx()].second.emplace_back(
            compute_op->GetOp());
      }
    }
    for (auto &ops_pair : target_ops) {
      auto &while_ops = ops_pair.second.first;
      auto &while_grad_ops = ops_pair.second.second;
      operators::PrepareSafeEagerDeletionOnWhileOpAndWhileGradOp(
          while_ops, while_grad_ops);
    }
    return graph;
  }
 };
 }  // namespace details
 }  // namespace framework
 }  // namespace paddle
 REGISTER_PASS(while_op_eager_deletion_pass,
              paddle::framework::details::WhileOpEagerDeletionPass);
--- a/paddle/fluid/framework/executor.cc
+++ b/paddle/fluid/framework/executor.cc
@ -14,6 +14,10 @@ limitations under the License. */
 #include "paddle/fluid/framework/executor.h"
 #include <deque>
 #include <memory>
 #include <unordered_map>
 #include <unordered_set>
 #include <utility>
 #include "paddle/fluid/framework/feed_fetch_method.h"
 #include "paddle/fluid/framework/lod_rank_table.h"
@ -23,6 +27,7 @@ limitations under the License. */
 #include "paddle/fluid/framework/threadpool.h"
 #include "paddle/fluid/framework/transfer_scope_cache.h"
 #include "paddle/fluid/framework/variable_helper.h"
 #include "paddle/fluid/operators/controlflow/while_op_helper.h"
 #include "paddle/fluid/operators/distributed/distributed.h"
 #include "paddle/fluid/platform/place.h"
 #include "paddle/fluid/platform/profiler.h"
@ -75,11 +80,11 @@ static std::unordered_map<std::string, size_t> GetNonPersistableReferenceCounts(
 ExecutorPrepareContext::ExecutorPrepareContext(
    const framework::ProgramDesc& prog, size_t block_id,
-    const std::vector<std::string>& skip_ref_cnt_vars)
+    const std::vector<std::string>& keep_vars, bool force_disable_gc)
-    : prog_(prog), block_id_(block_id) {
+    : prog_(prog), block_id_(block_id), force_disable_gc_(force_disable_gc) {
-  if (GetEagerDeletionThreshold() >= 0) {
+  if (GetEagerDeletionThreshold() >= 0 && !force_disable_gc_) {
-    global_ref_cnts_ = GetNonPersistableReferenceCounts(prog.Block(block_id),
+    global_ref_cnts_ =
-                                                        skip_ref_cnt_vars);
+        GetNonPersistableReferenceCounts(prog.Block(block_id), keep_vars);
  }
 }
@ -184,13 +189,15 @@ void Executor::CreateVariables(const ProgramDesc& pdesc, Scope* scope,
 }
 void Executor::Run(const ProgramDesc& pdesc, Scope* scope, int block_id,
-                   bool create_local_scope, bool create_vars) {
+                   bool create_local_scope, bool create_vars,
                   const std::vector<std::string>& skip_ref_cnt_vars,
                   bool force_disable_gc) {
  platform::RecordBlock b(block_id);
  if (FLAGS_use_mkldnn) EnableMKLDNN(pdesc);
 #ifdef PADDLE_WITH_NGRAPH
  if (FLAGS_use_ngraph) operators::NgraphEngine::EnableNgraph(pdesc);
 #endif
-  auto ctx = Prepare(pdesc, block_id);
+  auto ctx = Prepare(pdesc, block_id, skip_ref_cnt_vars, force_disable_gc);
  RunPreparedContext(ctx.get(), scope, create_local_scope, create_vars);
 }
@ -357,9 +364,9 @@ void Executor::Run(const ProgramDesc& program, Scope* scope,
 std::unique_ptr<ExecutorPrepareContext> Executor::Prepare(
    const ProgramDesc& program, int block_id,
-    const std::vector<std::string>& skip_ref_cnt_vars) {
+    const std::vector<std::string>& skip_ref_cnt_vars, bool force_disable_gc) {
-  std::unique_ptr<ExecutorPrepareContext> ctx(
+  std::unique_ptr<ExecutorPrepareContext> ctx(new ExecutorPrepareContext(
-      new ExecutorPrepareContext(program, block_id, skip_ref_cnt_vars));
+      program, block_id, skip_ref_cnt_vars, force_disable_gc));
  PADDLE_ENFORCE_LT(static_cast<size_t>(block_id), program.Size());
  auto& block = program.Block(block_id);
  for (auto& op_desc : block.AllOps()) {
@ -370,7 +377,8 @@ std::unique_ptr<ExecutorPrepareContext> Executor::Prepare(
 std::vector<std::shared_ptr<ExecutorPrepareContext>> Executor::Prepare(
    const ProgramDesc& program, const std::vector<int>& block_ids,
-    const std::vector<std::vector<std::string>>& skip_ref_cnt_vars) {
+    const std::vector<std::vector<std::string>>& skip_ref_cnt_vars,
    bool force_disable_gc) {
  PADDLE_ENFORCE(
      skip_ref_cnt_vars.empty() || skip_ref_cnt_vars.size() == block_ids.size(),
      "skip_ref_cnt_vars should be either empty or equals to block number %d",
@ -380,9 +388,11 @@ std::vector<std::shared_ptr<ExecutorPrepareContext>> Executor::Prepare(
  for (auto& bid : block_ids) {
    ExecutorPrepareContext* ctx;
    if (skip_ref_cnt_vars.empty()) {
-      ctx = new ExecutorPrepareContext(program, bid);
+      ctx = new ExecutorPrepareContext(program, bid, std::vector<std::string>(),
                                       force_disable_gc);
    } else {
-      ctx = new ExecutorPrepareContext(program, bid, skip_ref_cnt_vars[idx]);
+      ctx = new ExecutorPrepareContext(program, bid, skip_ref_cnt_vars[idx],
                                       force_disable_gc);
    }
    PADDLE_ENFORCE_LT(static_cast<size_t>(bid), program.Size());
    auto& block = program.Block(bid);
@ -409,8 +419,9 @@ void Executor::RunPreparedContext(ExecutorPrepareContext* ctx, Scope* scope,
  int64_t max_memory_size = GetEagerDeletionThreshold();
  std::unique_ptr<GarbageCollector> gc;
-  // skip while_op and while_grad_op temporarily
+  // FIXME(zjl): recurrent_op is rather complex, we would
-  if (max_memory_size >= 0 && !keep_kids) {
+  // disable gc forcely in recurrent_op
  if (!ctx->force_disable_gc_ && max_memory_size >= 0) {
    ctx->ResetReferenceCount();
 #ifdef PADDLE_WITH_CUDA
    if (platform::is_gpu_place(place_)) {
@ -428,6 +439,11 @@ void Executor::RunPreparedContext(ExecutorPrepareContext* ctx, Scope* scope,
 #ifdef PADDLE_WITH_CUDA
    }
 #endif
    // If gc is enabled and block size > 1
    if (gc && ctx->prog_.Size() > 1) {
      operators::PrepareSafeEagerDeletionOnWhileOpAndWhileGradOp(ctx->block_id_,
                                                                 ctx->ops_);
    }
  }
  for (auto& op : ctx->ops_) {
--- a/paddle/fluid/framework/executor.h
+++ b/paddle/fluid/framework/executor.h
@ -15,7 +15,9 @@ limitations under the License. */
 #pragma once
 #include <map>
 #include <memory>
 #include <string>
 #include <unordered_map>
 #include <vector>
 #include "paddle/fluid/framework/garbage_collector.h"
 #include "paddle/fluid/framework/op_info.h"
@ -30,7 +32,8 @@ namespace framework {
 struct ExecutorPrepareContext {
  ExecutorPrepareContext(const framework::ProgramDesc& prog, size_t block_id,
                         const std::vector<std::string>& skip_ref_cnt_vars =
-                             std::vector<std::string>());
+                             std::vector<std::string>(),
                         bool force_disable_gc = false);
  ~ExecutorPrepareContext();
@ -38,6 +41,7 @@ struct ExecutorPrepareContext {
  const framework::ProgramDesc& prog_;
  size_t block_id_;
  bool force_disable_gc_;
  std::vector<std::unique_ptr<OperatorBase>> ops_;
  std::unordered_map<std::string, size_t> global_ref_cnts_;
@ -66,7 +70,10 @@ class Executor {
   *  Scope
   */
  void Run(const ProgramDesc& prog, Scope* scope, int block_id,
-           bool create_local_scope = true, bool create_vars = true);
+           bool create_local_scope = true, bool create_vars = true,
           const std::vector<std::string>& skip_ref_cnt_vars =
               std::vector<std::string>(),
           bool force_disable_gc = false);
  // This API is very slow.
  void Run(const ProgramDesc& program, Scope* scope,
@ -79,12 +86,14 @@ class Executor {
  static std::unique_ptr<ExecutorPrepareContext> Prepare(
      const ProgramDesc& program, int block_id,
      const std::vector<std::string>& skip_ref_cnt_vars =
-          std::vector<std::string>());
+          std::vector<std::string>(),
      bool force_disable_gc = false);
  static std::vector<std::shared_ptr<ExecutorPrepareContext>> Prepare(
      const ProgramDesc& program, const std::vector<int>& block_ids,
      const std::vector<std::vector<std::string>>& skip_ref_cnt_vars =
-          std::vector<std::vector<std::string>>());
+          std::vector<std::vector<std::string>>(),
      bool force_disable_gc = false);
  void CreateVariables(const ProgramDesc& pdesc, Scope* scope, int block_id);
--- a/paddle/fluid/imperative/layer.cc
+++ b/paddle/fluid/imperative/layer.cc
@ -159,10 +159,9 @@ class Autograd {
      for (auto it : candidate->pre_ops_) {
        for (OpBase* pre_op : it.second) {
          if (!pre_op) continue;
-          VLOG(5) << "op dep " << candidate->op_desc_->Type() << " trace id "
+          VLOG(5) << "op dep " << candidate->Type() << " trace id "
                  << candidate->trace_id_ << " <---- " << it.first << " <---- "
-                  << pre_op->op_desc_->Type() << " trace id "
+                  << pre_op->Type() << " trace id " << pre_op->trace_id_;
                  << pre_op->trace_id_;
          if (visited.find(pre_op) == visited.end()) {
            visited.insert(pre_op);
            queue.push_back(pre_op);
@ -180,10 +179,12 @@ std::unique_ptr<VarBase> VarBase::NewVarBase(const platform::Place& dst_place,
  PADDLE_ENFORCE(var_->IsInitialized(),
                 "Variable must be initialized when getting numpy tensor");
-  std::unique_ptr<VarBase> new_var(new VarBase());
+  // TODO(minqiyang): change this after move unique_name generator to CXX
  const framework::LoDTensor& self_tensor = var_->Get<framework::LoDTensor>();
  std::unique_ptr<VarBase> new_var(new VarBase(
      "Itmp", self_tensor.type(), self_tensor.dims(), dst_place, true, false));
  framework::LoDTensor* tensor =
      new_var->var_->GetMutable<framework::LoDTensor>();
  tensor->Resize(var_->Get<framework::LoDTensor>().dims());
  tensor->set_lod(var_->Get<framework::LoDTensor>().lod());
  if (blocking) {
@ -199,52 +200,62 @@ std::unique_ptr<VarBase> VarBase::NewVarBase(const platform::Place& dst_place,
  }
  if (platform::is_gpu_place(dst_place)) {
-    VLOG(3) << "copy tensor " << var_desc_->Name() << " from gpu";
+    VLOG(3) << "copy tensor " << Name() << " from gpu";
  }
  return new_var;
 }
 framework::LoDTensor& VarBase::GradValue() {
-  VLOG(3) << "get var grad " << var_desc_->Name();
+  VLOG(3) << "get var grad " << Name();
  PADDLE_ENFORCE_NOT_NULL(grads_,
                          "Could not get grad value from no grad variable");
  return *(grads_->var_->GetMutable<framework::LoDTensor>());
 }
 std::map<std::string, std::vector<VarBase*>> OpBase::ApplyGrad() {
  if (grad_op_descs_.empty() && backward_id_ <= 0) {
-    VLOG(3) << "op with no grad: " << op_desc_->Type();
+    VLOG(3) << "op with no grad: " << Type();
    return {};
  }
-  VLOG(3) << "apply op grad: " << op_desc_->Type();
+  VLOG(3) << "apply op grad: " << Type();
-  std::vector<framework::VariableValueMap> grad_outputs;
+  std::vector<framework::VariableValueMap> tmp_grad_outputs;
  if (backward_id_ > 0) {
    VLOG(3) << "py_layer_grad";
-    grad_outputs.resize(1);
+    tmp_grad_outputs.resize(1);
-    grad_outputs[0][framework::GradVarName(PyLayer::kFwdOut)] =
+    tmp_grad_outputs[0][framework::GradVarName(PyLayer::kFwdOut)] =
        PyLayer::ApplyGrad(
            backward_id_,
            grad_input_vars_[0][framework::GradVarName(PyLayer::kFwdInp)]);
  } else {
-    grad_outputs.resize(grad_op_descs_.size());
+    const size_t grad_op_count = grad_op_descs_.size();
-    for (size_t k = 0; k < grad_op_descs_.size(); ++k) {
+
    tmp_grad_outputs.resize(grad_op_count);
    for (size_t k = 0; k < grad_op_count; ++k) {
      framework::OpDesc* grad_op_desc = grad_op_descs_[k];
-      VLOG(3) << "op grad " << grad_op_desc->Type();
+      auto& grad_output_variable_map = grad_output_vars_[k];
-      for (auto it : grad_output_vars_[k]) {
+
-        auto& outputs = grad_outputs[k][it.first];
+      VLOG(3) << "apply grad op " << grad_op_desc->Type();
      // Allocate tmp grad output variable
      for (auto it : grad_output_variable_map) {
        auto& outputs = tmp_grad_outputs[k][it.first];
        outputs.reserve(it.second.size());
        for (size_t i = 0; i < it.second.size(); ++i) {
          // Allocate a new variable
          Variable* tmp_var = new framework::Variable();
          tmp_var->GetMutable<framework::LoDTensor>();
-          outputs.push_back(tmp_var);
+          outputs.emplace_back(tmp_var);
        }
      }
-      framework::RuntimeContext ctx(grad_input_vars_[k], grad_outputs[k]);
+      // Run grad op
      framework::RuntimeContext ctx(grad_input_vars_[k], tmp_grad_outputs[k]);
      // No need to do compile time infer shape here.
      // grad_op_desc_->InferShape(*block_);
-      grad_op_desc->InferVarType(block_);
+      // grad_op_desc->InferVarType(block_);
      std::unique_ptr<framework::OperatorBase> opbase =
          framework::OpRegistry::CreateOp(*grad_op_desc);
@ -260,9 +271,10 @@ std::map<std::string, std::vector<VarBase*>> OpBase::ApplyGrad() {
    }
  }
  // Add tmp grad outputs to original grad vars
  for (size_t k = 0; k < grad_output_vars_.size(); ++k) {
    for (auto it : grad_output_vars_[k]) {
-      auto& outputs = grad_outputs[k][it.first];
+      auto& outputs = tmp_grad_outputs[k][it.first];
      auto& origin_outputs = it.second;
      PADDLE_ENFORCE_EQ(outputs.size(), origin_outputs.size());
@ -316,19 +328,14 @@ void PyLayer::RegisterFunc(int func_id, const py::object& py_func) {
 int PyLayer::NumFuncs() { return py_funcs_.size(); }
-std::vector<VarBase*> PyLayer::Apply(int func_id,
+std::vector<Variable*> PyLayer::Apply(int func_id,
-                                     const std::vector<VarBase*>& inputs) {
+                                      const std::vector<VarBase*>& inputs) {
  std::vector<framework::Variable*> invars;
  for (const VarBase* in : inputs) {
    invars.push_back(in->var_);
  }
  PADDLE_ENFORCE(py_funcs_.find(func_id) != py_funcs_.end());
-  std::vector<Variable*> outvars = CallPythonFunc(py_funcs_[func_id], invars);
+  return CallPythonFunc(py_funcs_[func_id], invars);
  std::vector<VarBase*> ret;
  for (Variable* v : outvars) {
    ret.push_back(new VarBase(v, new VarBase(true)));
  }
  return ret;
 }
 std::vector<Variable*> PyLayer::ApplyGrad(
--- a/paddle/fluid/imperative/layer.h
+++ b/paddle/fluid/imperative/layer.h
@ -112,31 +112,53 @@ class OpBase;
 */
 class VarBase {
 public:
-  VarBase() : VarBase(new framework::Variable(), new VarBase(true)) {}
+  // Internal interface, create VarBase from exist variable
-
+  VarBase(const std::string& name, framework::Variable* var, VarBase* grad,
-  explicit VarBase(bool stop_gradient)
+          bool stop_gradient)
-      : VarBase(new framework::Variable(),
+      : VarBase(name, var->Get<framework::LoDTensor>().type(),
-                stop_gradient ? nullptr : new VarBase(true), stop_gradient) {}
+                var->Get<framework::LoDTensor>().dims(),
-
+                var->Get<framework::LoDTensor>().place(), var, grad,
-  VarBase(framework::Variable* var, VarBase* grad)
+                stop_gradient, false) {}
-      : VarBase(var, grad, false) {}
+
  // Python interface
  VarBase(const std::string& name, const framework::proto::VarType::Type dtype,
          const std::vector<int64_t>& shape, const platform::Place& place,
          bool stop_gradient, bool persistable)
      : VarBase(name, dtype, framework::make_ddim(shape), place, stop_gradient,
                persistable) {}
  // Internal interface, create VarBase from with ddim
  VarBase(const std::string& name, const framework::proto::VarType::Type dtype,
          const framework::DDim& shape, const platform::Place& place,
          bool stop_gradient, bool persistable)
      : VarBase(name, dtype, shape, place, nullptr, nullptr, stop_gradient,
                persistable) {}
 private:
-  VarBase(framework::Variable* var, VarBase* grad, bool stop_gradient)
+  VarBase(const std::string& name, framework::proto::VarType::Type dtype,
-      : name_(),
+          const framework::DDim& shape, const platform::Place& place,
-        var_desc_(nullptr),
+          framework::Variable* var, VarBase* grad, bool stop_gradient,
          bool persistable)
      : name_(name),
        dtype_(dtype),
        place_(place),
        var_(var),
        grads_(grad),
        block_(nullptr),
        persistable_(false),
        stop_gradient_(stop_gradient),
        persistable_(persistable),
        pre_op_(nullptr),
        pre_op_out_name_(),
-        pre_op_out_idx_(-1) {}
+        pre_op_out_idx_(-1) {
    if (!var_) {
      var_ = new framework::Variable();
      auto tensor = var_->GetMutable<framework::LoDTensor>();
      tensor->Resize(shape);
      tensor->mutable_data(place_, dtype_);
    }
  }
 public:
  virtual ~VarBase() {
    // TODO(minqiyang): remove var desc from block desc
    if (var_) {
      delete var_;
      var_ = nullptr;
@ -151,14 +173,30 @@ class VarBase {
    pre_op_out_idx_ = -1;
  }
-  inline OpBase* PreOp() const { return pre_op_; }
+  inline void SetName(const std::string& name) { name_ = name; }
-  inline int PreOpOutIdx() const { return pre_op_out_idx_; }
+  inline std::string Name() const { return name_; }
  inline std::vector<int64_t> Shape() const {
    if (var_->IsInitialized()) {
      return framework::vectorize(var_->Get<framework::LoDTensor>().dims());
    } else {
      return {};
    }
  }
  inline framework::proto::VarType::Type DType() const { return dtype_; }
  inline void SetStopGradient(bool stop_gradient) {
    stop_gradient_ = stop_gradient;
  }
  inline bool IsStopGradient() const { return stop_gradient_; }
  inline void SetPersistable(bool persistable) { persistable_ = persistable; }
  inline bool IsPersistable() const { return persistable_; }
  inline OpBase* PreOp() const { return pre_op_; }
  inline int PreOpOutIdx() const { return pre_op_out_idx_; }
  void RunBackward();
  inline void ResetPreOp(OpBase* op) {
@ -180,7 +218,7 @@ class VarBase {
  }
  void ClearGradient() {
-    VLOG(1) << "clear gradient of " << var_desc_->Name();
+    VLOG(1) << "clear gradient of " << Name();
    if (grads_ && grads_->var_ && grads_->var_->IsInitialized()) {
      auto grads_t = grads_->var_->GetMutable<framework::LoDTensor>();
      operators::math::set_constant(
@ -196,23 +234,20 @@ class VarBase {
                                      const bool blocking) const;
  inline std::string GradName() const {
-    PADDLE_ENFORCE(
+    return string::Sprintf("%s@IGrad", Name());
        var_desc_,
        "Couldn't get gradient variable's name, please call backward() first");
    return string::Sprintf("%s@IGrad", var_desc_->Name());
  }
  std::string name_;
-  framework::VarDesc* var_desc_;
+  framework::proto::VarType::Type dtype_;
  platform::Place place_;
  framework::Variable* var_;
  VarBase* grads_;
  framework::BlockDesc* block_;
  bool persistable_;
 private:
  bool stop_gradient_;
  bool persistable_;
  OpBase* pre_op_;
  std::string pre_op_out_name_;
  int pre_op_out_idx_;
@ -223,11 +258,11 @@ class VarBase {
 */
 class PYBIND11_HIDDEN OpBase {
 public:
-  OpBase()
+  OpBase(const std::string& type)
-      : op_desc_(nullptr),
+      : type_(type),
        trace_id_(-1),
        forward_id_(-1),
        backward_id_(-1),
        trace_id_(-1),
        place_(platform::CPUPlace()),
        backward_hooks_() {}
@ -249,13 +284,34 @@ class PYBIND11_HIDDEN OpBase {
  std::map<std::string, std::vector<VarBase*>> ApplyGrad();
  inline std::string Type() const { return type_; }
  inline std::string GradOpType(size_t index) const {
    PADDLE_ENFORCE_NOT_NULL(grad_op_descs_[index]);
    return grad_op_descs_[index]->Type();
  }
  void RegisterBackwardHooks(const py::object& callable);
  void InvokeBackwardHooks();
-  // One of `op_desc_` or `forward_id_` is set, not both.
+  void TrackPreOp(const VarBase* inp_var, const std::string& inp_name) {
-  // For pure python PyLayer, use `forward_id_`, otherwise, use op_desc_.
+    if (inp_var->PreOp() && !inp_var->IsStopGradient()) {
-  framework::OpDesc* op_desc_;
+      VLOG(3) << "add pre op " << inp_var->PreOp()->Type() << " in slot "
              << inp_name;
      pre_ops_[inp_name].push_back(inp_var->PreOp());
      pre_ops_out_idx_[inp_name].push_back(inp_var->PreOpOutIdx());
    } else {
      VLOG(3) << "no pre op in slot " << inp_name
              << " input var stop_gradient: " << inp_var->IsStopGradient();
      pre_ops_[inp_name].push_back(nullptr);
      // pre_ops_out_idx_[inp_name].push_back(-1);
    }
  }
  std::string type_;
  // One of `trace_id_` or `forward_id_` is set, not both.
  // For pure python PyLayer, use `forward_id_`, otherwise, use trace_id_.
  int trace_id_;
  int forward_id_;
  // When has backward, one of `grad_op_descs_` or `backward_id_` is set,
@ -263,7 +319,6 @@ class PYBIND11_HIDDEN OpBase {
  // Note: each fwd op corresponds to a vector of bwd ops.
  std::vector<framework::OpDesc*> grad_op_descs_;
  int backward_id_;
  int trace_id_;
  platform::Place place_;
@ -277,8 +332,6 @@ class PYBIND11_HIDDEN OpBase {
  // Outputs to a vector of bwd ops.
  std::vector<framework::VariableValueMap> grad_output_vars_;
  framework::BlockDesc* block_;
  std::vector<py::object> backward_hooks_;
 };
@ -303,8 +356,8 @@ class PyLayer {
  static int NumFuncs();
-  static std::vector<VarBase*> Apply(int func_id,
+  static std::vector<framework::Variable*> Apply(
-                                     const std::vector<VarBase*>& inputs);
+      int func_id, const std::vector<VarBase*>& inputs);
  static std::vector<framework::Variable*> ApplyGrad(
      int func_id, const std::vector<framework::Variable*>& inputs);
--- a/paddle/fluid/imperative/tracer.cc
+++ b/paddle/fluid/imperative/tracer.cc
--- a/paddle/fluid/imperative/tracer.h
+++ b/paddle/fluid/imperative/tracer.h
@ -17,6 +17,8 @@
 #include <map>
 #include <set>
 #include <string>
 #include <unordered_map>
 #include <unordered_set>
 #include <vector>
 #include "paddle/fluid/framework/op_desc.h"
@ -34,7 +36,8 @@ void CreateGradOp(const framework::OpDesc& op_desc,
                  framework::OpDesc** grad_op_desc,
                  std::unordered_map<std::string, std::string>* grad_to_var);
-void InitVar(framework::Variable* var, framework::Variable* grad_var);
+void InitVar(const VarBase* var, framework::Variable* grad_var,
             platform::DeviceContext* dev_ctx);
 platform::Place GetExpectedPlace(platform::Place place, VarBasePtrMap inputs);
@ -46,7 +49,7 @@ class Tracer {
  std::set<std::string> Trace(OpBase* op, const VarBasePtrMap& inputs,
                              const VarBasePtrMap& outputs,
-                              framework::BlockDesc* block,
+                              framework::AttributeMap attrs_map,
                              const platform::Place expected_place,
                              const bool stop_gradient = false);
--- a/paddle/fluid/inference/api/details/zero_copy_tensor.cc
+++ b/paddle/fluid/inference/api/details/zero_copy_tensor.cc
@ -126,15 +126,20 @@ void ZeroCopyTensor::copy_to_cpu(T *data) {
 }
 template void ZeroCopyTensor::copy_from_cpu<float>(const float *data);
 template void ZeroCopyTensor::copy_from_cpu<int64_t>(const int64_t *data);
 template void ZeroCopyTensor::copy_from_cpu<int32_t>(const int32_t *data);
 template void ZeroCopyTensor::copy_to_cpu<float>(float *data);
 template void ZeroCopyTensor::copy_to_cpu<int64_t>(int64_t *data);
 template void ZeroCopyTensor::copy_to_cpu<int32_t>(int32_t *data);
 template float *ZeroCopyTensor::data<float>(PaddlePlace *place,
                                            int *size) const;
 template int64_t *ZeroCopyTensor::data<int64_t>(PaddlePlace *place,
                                                int *size) const;
 template int32_t *ZeroCopyTensor::data<int32_t>(PaddlePlace *place,
                                                int *size) const;
 template float *ZeroCopyTensor::mutable_data<float>(PaddlePlace place);
 template int64_t *ZeroCopyTensor::mutable_data<int64_t>(PaddlePlace place);
 template int32_t *ZeroCopyTensor::mutable_data<int32_t>(PaddlePlace place);
 void *ZeroCopyTensor::FindTensor() const {
  PADDLE_ENFORCE(!name_.empty(),
--- a/paddle/fluid/inference/api/helper.h
+++ b/paddle/fluid/inference/api/helper.h
@ -139,9 +139,8 @@ static void TensorAssignData(PaddleTensor *tensor,
 }
 template <typename T>
-static int ZeroCopyTensorAssignData(ZeroCopyTensor *tensor,
+static void ZeroCopyTensorAssignData(ZeroCopyTensor *tensor,
-                                    const std::vector<std::vector<T>> &data) {
+                                     const std::vector<std::vector<T>> &data) {
  int size{0};
  auto *ptr = tensor->mutable_data<T>(PaddlePlace::kCPU);
  int c = 0;
  for (const auto &f : data) {
@ -149,7 +148,15 @@ static int ZeroCopyTensorAssignData(ZeroCopyTensor *tensor,
      ptr[c++] = v;
    }
  }
-  return size;
+}
 template <typename T>
 static void ZeroCopyTensorAssignData(ZeroCopyTensor *tensor,
                                     const PaddleBuf &data) {
  auto *ptr = tensor->mutable_data<T>(PaddlePlace::kCPU);
  for (size_t i = 0; i < data.length() / sizeof(T); i++) {
    ptr[i] = *(reinterpret_cast<T *>(data.data()) + i);
  }
 }
 static bool CompareTensor(const PaddleTensor &a, const PaddleTensor &b) {
--- a/paddle/fluid/inference/tests/api/analyzer_pyramid_dnn_tester.cc
+++ b/paddle/fluid/inference/tests/api/analyzer_pyramid_dnn_tester.cc
@ -107,6 +107,9 @@ void SetConfig(AnalysisConfig *cfg) {
  cfg->DisableGpu();
  cfg->SwitchSpecifyInputNames();
  cfg->SwitchIrOptim();
  if (FLAGS_zero_copy) {
    cfg->SwitchUseFeedFetchOps(false);
  }
 }
 void SetInput(std::vector<std::vector<PaddleTensor>> *inputs) {
@ -131,7 +134,7 @@ TEST(Analyzer_Pyramid_DNN, profile) {
  TestPrediction(reinterpret_cast<const PaddlePredictor::Config *>(&cfg),
                 input_slots_all, &outputs, FLAGS_num_threads);
-  if (FLAGS_num_threads == 1 && !FLAGS_test_all_data) {
+  if (FLAGS_num_threads == 1 && !FLAGS_test_all_data && !FLAGS_zero_copy) {
    PADDLE_ENFORCE_EQ(outputs.size(), 1UL);
    size_t size = GetSize(outputs[0]);
    PADDLE_ENFORCE_GT(size, 0);
@ -166,6 +169,19 @@ TEST(Analyzer_Pyramid_DNN, compare) {
      reinterpret_cast<const PaddlePredictor::Config *>(&cfg), input_slots_all);
 }
 // Compare result of AnalysisConfig and AnalysisConfig + ZeroCopy
 TEST(Analyzer_Pyramid_DNN, compare_zero_copy) {
  AnalysisConfig cfg;
  SetConfig(&cfg);
  std::vector<std::vector<PaddleTensor>> input_slots_all;
  SetInput(&input_slots_all);
  std::vector<std::string> outputs_name;
  outputs_name.emplace_back("cos_sim_2.tmp_0");
  CompareAnalysisAndZeroCopy(reinterpret_cast<PaddlePredictor::Config *>(&cfg),
                             input_slots_all, outputs_name);
 }
 // Compare Deterministic result
 TEST(Analyzer_Pyramid_DNN, compare_determine) {
  AnalysisConfig cfg;
--- a/paddle/fluid/inference/tests/api/analyzer_rnn1_tester.cc
+++ b/paddle/fluid/inference/tests/api/analyzer_rnn1_tester.cc
@ -207,6 +207,9 @@ void SetConfig(AnalysisConfig *cfg) {
  cfg->DisableGpu();
  cfg->SwitchSpecifyInputNames();
  cfg->SwitchIrOptim();
  if (FLAGS_zero_copy) {
    cfg->SwitchUseFeedFetchOps(false);
  }
 }
 void SetInput(std::vector<std::vector<PaddleTensor>> *inputs) {
@ -285,133 +288,17 @@ TEST(Analyzer_rnn1, multi_thread) {
                 input_slots_all, &outputs, 2 /* multi_thread */);
 }
-// Validate that the AnalysisPredictor + ZeroCopyTensor really works by testing
+// Compare result of AnalysisConfig and AnalysisConfig + ZeroCopy
-// on the complex RNN1 model.
+TEST(Analyzer_rnn1, compare_zero_copy) {
-TEST(Analyzer_rnn1, ZeroCopy) {
+  AnalysisConfig cfg;
-  AnalysisConfig config;
+  SetConfig(&cfg);
  SetConfig(&config);
  config.SwitchUseFeedFetchOps(false);
  PaddlePlace place;
  auto predictor = CreatePaddlePredictor<AnalysisConfig>(config);
  config.SwitchUseFeedFetchOps(true);
  auto native_predictor =
      CreatePaddlePredictor<NativeConfig>(config.ToNativeConfig());
  config.SwitchUseFeedFetchOps(
      true);  // the analysis predictor needs feed/fetch.
  auto analysis_predictor = CreatePaddlePredictor<AnalysisConfig>(config);
 #define NEW_TENSOR(name__) \
  auto name__##_tensor = predictor->GetInputTensor(#name__);
  NEW_TENSOR(data_lod_attention);
  NEW_TENSOR(cell_init);
  NEW_TENSOR(data);
  NEW_TENSOR(week);
  NEW_TENSOR(minute);
  NEW_TENSOR(hidden_init);
  // Prepare data for AnalysisPredictor
  DataRecord data(FLAGS_infer_data, FLAGS_batch_size);
  PrepareZeroCopyInputs(data_lod_attention_tensor.get(), cell_init_tensor.get(),
                        data_tensor.get(), hidden_init_tensor.get(),
                        week_tensor.get(), minute_tensor.get(), &data,
                        FLAGS_batch_size);
  // Prepare data for NativePredictor
  std::vector<std::vector<PaddleTensor>> native_inputs;
  SetInput(&native_inputs);
  std::vector<PaddleTensor> native_outputs;
  std::vector<PaddleTensor> analysis_outputs;
  auto output_tensor = predictor->GetOutputTensor("final_output.tmp_1");
  // Run analysis predictor
  int num_ops;
  auto fuse_statis = GetFuseStatis(predictor.get(), &num_ops);
  ASSERT_TRUE(fuse_statis.count("fc_fuse"));
  ASSERT_EQ(fuse_statis.at("fc_fuse"), 1);
  ASSERT_EQ(fuse_statis.at("fc_nobias_lstm_fuse"), 2);  // bi-directional LSTM
  ASSERT_EQ(fuse_statis.at("seq_concat_fc_fuse"), 1);
  ASSERT_EQ(num_ops,
            13);  // After graph optimization, only 13 operators exists.
  Timer timer;
  double total_time{0};
  for (int i = 0; i < FLAGS_repeat; i++) {
    timer.tic();
    predictor->ZeroCopyRun();
    total_time += timer.toc();
  }
  LOG(INFO) << "ZeroCopy output: " << DescribeZeroCopyTensor(*output_tensor);
  ASSERT_TRUE(native_predictor->Run(native_inputs.front(), &native_outputs));
  LOG(INFO) << "native output " << DescribeTensor(native_outputs.front());
  int output_size{0};  // this is the number of elements not memory size
  auto *zero_copy_data = output_tensor->data<float>(&place, &output_size);
  auto *native_data = static_cast<float *>(native_outputs.front().data.data());
  for (int i = 0; i < output_size; i++) {
    EXPECT_NEAR(zero_copy_data[i], native_data[i], 1e-3);
  }
 }
 TEST(Analyzer_rnn1, ZeroCopyMultiThread) {
  AnalysisConfig config;
  SetConfig(&config);
  config.SwitchUseFeedFetchOps(false);
 #define NEW_TENSOR(name__) \
  auto name__##_tensor = predictor->GetInputTensor(#name__);
  std::vector<std::unique_ptr<PaddlePredictor>> predictors;
  predictors.emplace_back(CreatePaddlePredictor<AnalysisConfig>(config));
  for (int tid = 1; tid < FLAGS_num_threads; tid++) {
    predictors.emplace_back(predictors.front()->Clone());
  }
  double total_time_of_threads{0};
  std::vector<std::thread> threads;
  for (int tid = 0; tid < FLAGS_num_threads; tid++) {
    threads.emplace_back([&, tid] {
      auto &predictor = predictors[tid];
      NEW_TENSOR(data_lod_attention);
      NEW_TENSOR(cell_init);
      NEW_TENSOR(data);
      NEW_TENSOR(week);
      NEW_TENSOR(minute);
      NEW_TENSOR(hidden_init);
      // Prepare data for AnalysisPredictor
      DataRecord data(FLAGS_infer_data, FLAGS_batch_size);
      Timer timer;
      double total_time{0};
      for (int i = 0; i < FLAGS_repeat; i++) {
        PrepareZeroCopyInputs(data_lod_attention_tensor.get(),
                              cell_init_tensor.get(), data_tensor.get(),
                              hidden_init_tensor.get(), week_tensor.get(),
                              minute_tensor.get(), &data, FLAGS_batch_size);
        timer.tic();
        predictor->ZeroCopyRun();
        total_time += timer.toc();
      }
      total_time_of_threads += total_time;
      LOG(INFO) << "thread time: " << total_time / FLAGS_repeat;
    });
  }
  for (auto &t : threads) {
    t.join();
  }
-  LOG(INFO) << "average time: "
+  std::vector<std::vector<PaddleTensor>> input_slots_all;
-            << total_time_of_threads / FLAGS_num_threads / FLAGS_repeat;
+  SetInput(&input_slots_all);
  std::vector<std::string> outputs_name;
  outputs_name.emplace_back("final_output.tmp_1");
  CompareAnalysisAndZeroCopy(reinterpret_cast<PaddlePredictor::Config *>(&cfg),
                             input_slots_all, outputs_name);
 }
 }  // namespace inference
--- a/paddle/fluid/inference/tests/api/analyzer_seq_pool1_tester.cc
+++ b/paddle/fluid/inference/tests/api/analyzer_seq_pool1_tester.cc
@ -144,6 +144,9 @@ void SetConfig(AnalysisConfig *cfg, bool use_mkldnn = false) {
  cfg->SwitchSpecifyInputNames();
  cfg->SwitchIrDebug();
  cfg->SetCpuMathLibraryNumThreads(FLAGS_paddle_num_threads);
  if (FLAGS_zero_copy) {
    cfg->SwitchUseFeedFetchOps(false);
  }
  if (use_mkldnn) {
    cfg->EnableMKLDNN();
  }
@ -184,10 +187,10 @@ TEST(Analyzer_seq_pool1, compare_determine) {
                       input_slots_all);
 }
-void analysis_fuse_statis(bool use_zerocopy) {
+// Check the fuse status
 TEST(Analyzer_seq_pool1, fuse_statis) {
  AnalysisConfig cfg;
  SetConfig(&cfg);
  cfg.SwitchUseFeedFetchOps(!use_zerocopy);
  int num_ops;
  auto predictor = CreatePaddlePredictor<AnalysisConfig>(cfg);
  auto fuse_statis = GetFuseStatis(predictor.get(), &num_ops);
@ -203,137 +206,17 @@ void analysis_fuse_statis(bool use_zerocopy) {
  EXPECT_EQ(num_ops, 171);
 }
-// Check the fuse status
+// Compare result of AnalysisConfig and AnalysisConfig + ZeroCopy
-TEST(Analyzer_seq_pool1, fuse_statis) { analysis_fuse_statis(false); }
+TEST(Analyzer_seq_pool1, compare_zero_copy) {
-
+  AnalysisConfig cfg;
-void PrepareZeroCopyInputs(
+  SetConfig(&cfg);
    const std::unique_ptr<PaddlePredictor> &predictor,
    std::vector<std::unique_ptr<ZeroCopyTensor>> *inputs) {
  DataRecord data(FLAGS_infer_data, FLAGS_batch_size);
  // only feed one batch
  const auto &one_batch = data.NextBatch();
  inputs->clear();
  for (size_t i = 0; i < one_batch.size(); ++i) {
    auto &slot = one_batch[i];
    auto tensor = predictor->GetInputTensor(slot.name + "_embed");
    tensor->Reshape(slot.shape);
    tensor->SetLoD({slot.lod});
    ZeroCopyTensorAssignData<float>(tensor.get(), slot.data);
    inputs->emplace_back(std::move(tensor));
  }
 }
 // return the output values
 std::vector<float> zerocopy_profile(int repeat_times) {
  AnalysisConfig config;
  SetConfig(&config);
  config.SwitchUseFeedFetchOps(false);
  auto predictor = CreatePaddlePredictor<AnalysisConfig>(config);
  std::vector<std::unique_ptr<ZeroCopyTensor>> inputs;
  PrepareZeroCopyInputs(predictor, &inputs);
  auto output_tensor = predictor->GetOutputTensor(out_var_name);
  Timer timer;
  LOG(INFO) << "Warm up run...";
  timer.tic();
  predictor->ZeroCopyRun();
  PrintTime(FLAGS_batch_size, 1, 1, 0, timer.toc(), 1);
  if (FLAGS_profile) {
    paddle::platform::ResetProfiler();
  }
  LOG(INFO) << "Run " << repeat_times << " times...";
  timer.tic();
  for (int i = 0; i < repeat_times; i++) {
    predictor->ZeroCopyRun();
  }
  PrintTime(FLAGS_batch_size, repeat_times, 1, 0, timer.toc() / repeat_times,
            1);
  LOG(INFO) << "ZeroCopy output: " << DescribeZeroCopyTensor(*output_tensor);
  PaddlePlace place;
  int output_size{0};
  auto *pdata = output_tensor->data<float>(&place, &output_size);
  std::vector<float> res(output_size);
  for (int i = 0; i < output_size; ++i) {
    res[i] = pdata[i];
  }
  return res;
 }
 TEST(Analyzer_seq_pool1, zerocopy_profile) { zerocopy_profile(FLAGS_repeat); }
 TEST(Analyzer_seq_pool1, zerocopy_profile_threads) {
  AnalysisConfig config;
  SetConfig(&config);
  config.SwitchUseFeedFetchOps(false);
  std::vector<std::unique_ptr<PaddlePredictor>> predictors;
  predictors.emplace_back(CreatePaddlePredictor<AnalysisConfig>(config));
  for (int tid = 1; tid < FLAGS_num_threads; tid++) {
    predictors.emplace_back(predictors.front()->Clone());
  }
  double total_time_of_threads{0};
  std::vector<std::thread> threads;
  for (int tid = 0; tid < FLAGS_num_threads; tid++) {
    threads.emplace_back([&, tid] {
      auto &predictor = predictors[tid];
      std::vector<std::unique_ptr<ZeroCopyTensor>> inputs;
      PrepareZeroCopyInputs(predictor, &inputs);
      auto output_tensor = predictor->GetOutputTensor(out_var_name);
      Timer timer;
      double total_time{0};
      LOG(INFO) << "Warm up run...";
      timer.tic();
      predictor->ZeroCopyRun();
      PrintTime(FLAGS_batch_size, 1, FLAGS_num_threads, tid, timer.toc(), 1);
      if (FLAGS_profile) {
        paddle::platform::ResetProfiler();
      }
      int repeat_times = FLAGS_repeat;
      LOG(INFO) << "Run " << repeat_times << " times...";
      timer.tic();
      for (int i = 0; i < repeat_times; i++) {
        predictor->ZeroCopyRun();
      }
      total_time += timer.toc();
      total_time_of_threads += total_time;
      LOG(INFO) << "thread time: " << total_time / repeat_times;
    });
  }
  for (auto &t : threads) {
    t.join();
  }
  LOG(INFO) << "average time: "
            << total_time_of_threads / FLAGS_num_threads / FLAGS_repeat;
 }
 TEST(Analyzer_seq_pool1, zerocopy_fuse_statis) { analysis_fuse_statis(true); }
 TEST(Analyzer_seq_pool1, zerocopy_compare_native) {
  AnalysisConfig config;
  SetConfig(&config);
  config.SwitchUseFeedFetchOps(true);
  auto predictor = CreatePaddlePredictor<NativeConfig>(config.ToNativeConfig());
  std::vector<PaddleTensor> native_outputs;
  std::vector<std::vector<PaddleTensor>> input_slots_all;
  SetInput(&input_slots_all);
-  ASSERT_TRUE(predictor->Run(input_slots_all[0], &native_outputs));
+  std::vector<std::string> outputs_name;
-  EXPECT_EQ(native_outputs.size(), 1UL);
+  outputs_name.emplace_back(out_var_name);
-
+  CompareAnalysisAndZeroCopy(reinterpret_cast<PaddlePredictor::Config *>(&cfg),
-  auto zerocopy_output = zerocopy_profile(1);
+                             input_slots_all, outputs_name);
  EXPECT_EQ(zerocopy_output.size() * sizeof(float),
            native_outputs.front().data.length());
  auto *native_data = static_cast<float *>(native_outputs.front().data.data());
  for (size_t i = 0; i < zerocopy_output.size(); ++i) {
    EXPECT_LT(
        std::fabs((zerocopy_output[i] - native_data[i]) / zerocopy_output[i]),
        1e-3);
  }
 }
 }  // namespace analysis
--- a/paddle/fluid/inference/tests/api/tester_helper.h
+++ b/paddle/fluid/inference/tests/api/tester_helper.h
--- a/paddle/fluid/inference/tests/test.cmake
+++ b/paddle/fluid/inference/tests/test.cmake
@ -30,19 +30,20 @@ function(inference_download_and_uncompress INSTALL_DIR URL FILENAME)
      ${EXTERNAL_PROJECT_NAME}
      ${EXTERNAL_PROJECT_LOG_ARGS}
      PREFIX                ${INSTALL_DIR}
-      URL                   ${URL}/${FILENAME}
+      DOWNLOAD_COMMAND      wget -q -O ${INSTALL_DIR}/${FILENAME} ${URL}/${FILENAME} &&
                            ${CMAKE_COMMAND} -E tar xzf ${INSTALL_DIR}/${FILENAME}
      DOWNLOAD_DIR          ${INSTALL_DIR}
      DOWNLOAD_NO_PROGRESS  1
      CONFIGURE_COMMAND     ""
      BUILD_COMMAND         ""
      UPDATE_COMMAND        ""
-      INSTALL_COMMAND       ${CMAKE_COMMAND} -E copy_directory ${UNPACK_DIR} ${INSTALL_DIR}
+      INSTALL_COMMAND       ""
  )
 endfunction()
 set(WORD2VEC_INSTALL_DIR "${INFERENCE_DEMO_INSTALL_DIR}/word2vec")
-if (NOT EXISTS ${WORD2VEC_INSTALL_DIR})
+if(NOT EXISTS ${WORD2VEC_INSTALL_DIR} AND NOT WIN32)
-    inference_download_and_uncompress(${WORD2VEC_INSTALL_DIR} ${INFERENCE_URL} "word2vec.inference.model.tar.gz")
+  inference_download_and_uncompress(${WORD2VEC_INSTALL_DIR} ${INFERENCE_URL} "word2vec.inference.model.tar.gz")
 endif()
 set(WORD2VEC_MODEL_DIR "${WORD2VEC_INSTALL_DIR}/word2vec.inference.model")
--- a/paddle/fluid/memory/allocation/legacy_allocator.cc
+++ b/paddle/fluid/memory/allocation/legacy_allocator.cc
@ -14,6 +14,7 @@
 #include "paddle/fluid/memory/allocation/legacy_allocator.h"
 #include <memory>
 #include <string>
 #include <utility>
 #include <vector>
--- a/paddle/fluid/operators/controlflow/CMakeLists.txt
+++ b/paddle/fluid/operators/controlflow/CMakeLists.txt
@ -1,4 +1,5 @@
 include(operators)
 register_operators(DEPS naive_executor)
 cc_library(while_op_helper SRCS while_op_helper.cc DEPS operator) 
 file(APPEND ${pybind_file} "USE_OP(less_than);\nUSE_OP(logical_and);\nUSE_NO_KERNEL_OP(read_from_array);\n")
--- a/Show More
+++ b/Show More