Split VarBase from Python Variable for Dygraph (#21359)

* test=develop, fix docker with paddle nccl problem * don't expose numerous Tensor.set(), test=develop * fix condition, test=develop * fix float16 bug, test=develop * feed should be Tensor or np.array, not Variable or number, test=develop * use forcecast to copy numpy slice to new array, test=develop * remove float16-uint16 hacking, test=develop * add variable method to varbase and refactor to_variable to support return varbase * support kwargs in varbase constructor * add VarBase constructor to support default python args * refine varbase initial method * reset branch * fix ut for change VarBase error info to PaddleEnforce * cherry is parameter change before * overload isinstance to replace too many change of is_variable * rm useless files * rm useless code merged by git * test=develop, fix some ut failed error * test=develop, fix test_graph_wrapper * add some tests, test=develop * refine __getitem__, test=develop * add tests, test=develop * fix err_msg, test=develop
5 years ago · cdd46d7e02
parent cdba41af4d
commit cdd46d7e02
34 changed files with 1151 additions and 600 deletions
--- a/cmake/third_party.cmake
+++ b/cmake/third_party.cmake
@ -203,6 +203,7 @@ elseif(${CBLAS_PROVIDER} STREQUAL EXTERN_OPENBLAS)
    list(APPEND third_party_deps extern_openblas)
 endif()

+
 if(WITH_MKLDNN)
    include(external/mkldnn)    # download, build, install mkldnn
    list(APPEND third_party_deps extern_mkldnn)
--- a/paddle/fluid/imperative/layer.cc
+++ b/paddle/fluid/imperative/layer.cc
@ -236,11 +236,13 @@ std::shared_ptr<VarBase> VarBase::NewVarBase(const platform::Place& dst_place,

    // TODO(Jiabin): change this after move unique_name generator to CXX
    auto new_var = std::make_shared<VarBase>(
-        false, "Itmp" + std::to_string(copied_counter_++));
+        true, Name() + std::to_string(copied_counter_++));

    auto* dst_tensor = new_var->var_.GetMutable<framework::LoDTensor>();
    dst_tensor->set_lod(src_tensor.lod());
-
+    new_var->SetPersistable(Persistable());
+    new_var->SetDataType(DataType());
+    new_var->SetType(Type());
    framework::TensorCopy(src_tensor, dst_place, dst_tensor);
    if (blocking) {
      platform::DeviceContextPool::Instance().Get(dst_place)->Wait();
@ -253,7 +255,6 @@ std::shared_ptr<VarBase> VarBase::NewVarBase(const platform::Place& dst_place,
    if (platform::is_gpu_place(dst_place)) {
      VLOG(3) << "copy tensor " << Name() << " from gpu";
    }
-
    return new_var;
  } else {
    auto& src_selected_rows = var_.Get<framework::SelectedRows>();
--- a/paddle/fluid/imperative/tests/test_layer.cc
+++ b/paddle/fluid/imperative/tests/test_layer.cc
@ -158,7 +158,7 @@ TEST(test_layer, test_varbase_basic) {
  vin->MutableVar()->GetMutable<framework::LoDTensor>()->mutable_data<float>(
      place);
  std::shared_ptr<imperative::VarBase> vout(vin->NewVarBase(place, false));
-  ASSERT_EQ(vout->Name(), "Itmp0");
+  ASSERT_EQ(vout->Name(), "vin0");

  std::shared_ptr<imperative::VarBase> vin_with_grad(
      new imperative::VarBase(true, "vin"));
--- a/paddle/fluid/pybind/imperative.cc
+++ b/paddle/fluid/pybind/imperative.cc
--- a/paddle/fluid/pybind/pybind.cc
+++ b/paddle/fluid/pybind/pybind.cc
@ -194,14 +194,8 @@ static std::vector<std::shared_ptr<imperative::VarBase>> GetVarBaseList(
    if (!py_obj || py_obj == Py_None) {
      PADDLE_THROW("Save parameter [%s] is None", para.first);
    }
-
-    const char *kIVarField = "_ivar";
-    PyObject *py_ivar = GetPythonAttribute(py_obj, kIVarField);
-    PADDLE_ENFORCE_NOT_NULL(py_ivar, "Can not find  ivar in Variable");
-
    vec_res.emplace_back(
-        PyObjectCast<std::shared_ptr<imperative::VarBase>>(py_ivar));
-    Py_DECREF(py_ivar);
+        PyObjectCast<std::shared_ptr<imperative::VarBase>>(py_obj));
  }

  return vec_res;
--- a/paddle/fluid/pybind/tensor_py.h
+++ b/paddle/fluid/pybind/tensor_py.h
@ -486,7 +486,8 @@ inline framework::Tensor *PySliceTensor(const framework::Tensor &self,
  }
 }

-inline py::array TensorToPyArray(const framework::Tensor &tensor) {
+inline py::array TensorToPyArray(const framework::Tensor &tensor,
+                                 bool need_deep_copy = false) {
  if (!tensor.IsInitialized()) {
    return py::array();
  }
@ -510,9 +511,26 @@ inline py::array TensorToPyArray(const framework::Tensor &tensor) {
  std::string py_dtype_str = details::TensorDTypeToPyDTypeStr(tensor.type());

  if (!is_gpu_tensor) {
-    return py::array(py::buffer_info(
-        const_cast<void *>(tensor_buf_ptr), sizeof_dtype, py_dtype_str,
-        static_cast<size_t>(tensor.dims().size()), py_dims, py_strides));
+    if (!need_deep_copy) {
+      return py::array(py::buffer_info(
+          const_cast<void *>(tensor_buf_ptr), sizeof_dtype, py_dtype_str,
+          static_cast<size_t>(tensor.dims().size()), py_dims, py_strides));
+    } else {
+      py::array py_arr(py::dtype(py_dtype_str.c_str()), py_dims, py_strides);
+      PADDLE_ENFORCE_EQ(py_arr.writeable(), true,
+                        platform::errors::InvalidArgument(
+                            "PyArray must be writable, otherwise memory leak "
+                            "or double free would occur"));
+      PADDLE_ENFORCE_EQ(py_arr.owndata(), true,
+                        platform::errors::InvalidArgument(
+                            "PyArray must own data, otherwise memory leak "
+                            "or double free would occur"));
+      platform::CPUPlace place;
+      size_t copy_bytes = sizeof_dtype * numel;
+      paddle::memory::Copy(place, py_arr.mutable_data(), place, tensor_buf_ptr,
+                           copy_bytes);
+      return py_arr;
+    }
  }

 #ifdef PADDLE_WITH_CUDA
--- a/python/paddle/fluid/init.py
+++ b/python/paddle/fluid/init.py
@ -88,13 +88,13 @@ from .dygraph.nn import *
 from .dygraph.layers import *
 from .io import save, load, load_program_state, set_program_state
 from .dygraph.checkpoint import save_dygraph, load_dygraph
-
+from .dygraph.varbase_patch_methods import monkey_patch_varbase
 Tensor = LoDTensor

 __all__ = framework.__all__ + executor.__all__ + \
    trainer_desc.__all__ + inferencer.__all__ + transpiler.__all__ + \
    parallel_executor.__all__ + lod_tensor.__all__ + \
-    data_feed_desc.__all__ + compiler.__all__ + backward.__all__ + [
+    data_feed_desc.__all__ + compiler.__all__ + backward.__all__  + [
        'io',
        'initializer',
        'embedding',
@ -126,6 +126,7 @@ __all__ = framework.__all__ + executor.__all__ + \
        'install_check',
        'save',
        'load',
+        'VarBase'
    ]


@ -234,3 +235,4 @@ def __bootstrap__():
 # Consider paddle.init(args) or paddle.main(args)
 monkey_patch_variable()
 __bootstrap__()
+monkey_patch_varbase()
--- a/python/paddle/fluid/dygraph/base.py
+++ b/python/paddle/fluid/dygraph/base.py
@ -138,6 +138,7 @@ def guard(place=None):
    train = framework.Program()
    startup = framework.Program()
    tracer = Tracer()
+    VarBase = core.VarBase

    if place is None:
        if core.is_compiled_with_cuda():
@ -205,28 +206,21 @@ def to_variable(value, block=None, name=None, zero_copy=None):
    if isinstance(value, np.ndarray):
        assert framework.in_dygraph_mode(
        ), "to_variable could only be called in dygraph mode"
-
-        if not block:
-            block = framework.default_main_program().current_block()
-        py_var = framework.Variable(
-            block,
-            type=core.VarDesc.VarType.LOD_TENSOR,
-            name=name,
-            shape=value.shape,
-            dtype=value.dtype,
-            stop_gradient=True)
-        var = py_var._ivar.value()
-        tensor = var.get_tensor()
        if isinstance(framework._current_expected_place(),
                      framework.core.CPUPlace):
            if zero_copy is None:
                zero_copy = True
-            tensor.set(value, framework._current_expected_place(), zero_copy)
        else:
            assert not zero_copy, "zero_copy mode can only be used with CPUPlace"
-            tensor.set(value, framework._current_expected_place(), False)
+            zero_copy = False
+        py_var = core.VarBase(
+            value=value,
+            name=name,
+            persistable=False,
+            place=framework._current_expected_place(),
+            zero_copy=zero_copy)
        return py_var
-    elif isinstance(value, framework.Variable):
+    elif isinstance(value, (core.VarBase, framework.Variable)):
        return value
    else:
        raise TypeError(
--- a/python/paddle/fluid/dygraph/jit.py
+++ b/python/paddle/fluid/dygraph/jit.py
@ -33,7 +33,7 @@ def create_program_from_desc(program_desc):

 def _extract_vars(inputs, result_list):
    if isinstance(inputs, Variable):
-        result_list.append(inputs._ivar)
+        result_list.append(inputs)

    if isinstance(inputs, (list, tuple)):
        for var in inputs:
@ -67,7 +67,7 @@ def _trace(layer,
            outputs = [original_outputs]
        else:
            outputs = original_outputs
-        out_vars = [var._ivar for var in outputs]
+        out_vars = [var for var in outputs]

        program_desc, feed_names, fetch_names = tracer.create_program_desc(
            var_list, feed_prefix, out_vars, fetch_prefix, tmp_prefix)
@ -104,7 +104,7 @@ class TracedLayer(object):

        self._scope = core.Scope()
        for p in parameters:
-            src_tensor = p._ivar.value().get_tensor()
+            src_tensor = p.value().get_tensor()
            dst_tensor = self._scope.var(p.name).get_tensor()
            dst_tensor._share_data_with(src_tensor)

@ -234,7 +234,7 @@ class TracedLayer(object):
        feed_dict = {}
        if in_dygraph_mode():
            for x, name in zip(inputs, self._feed_names):
-                feed_dict[name] = x._ivar.value().get_tensor()
+                feed_dict[name] = x.value().get_tensor()
        else:
            for x, name in zip(inputs, self._feed_names):
                feed_dict[name] = x
--- a/python/paddle/fluid/dygraph/layers.py
+++ b/python/paddle/fluid/dygraph/layers.py
@ -25,7 +25,6 @@ from .layer_object_helper import LayerObjectHelper
 from .base import program_desc_tracing_guard
 from paddle.fluid import framework
 from ..param_attr import ParamAttr
-from paddle.fluid.framework import Variable

 __all__ = ['Layer']

--- a/python/paddle/fluid/dygraph/parallel.py
+++ b/python/paddle/fluid/dygraph/parallel.py
@ -219,12 +219,8 @@ class DataParallel(layers.Layer):
        grad_vars = []
        for param in self._layers.parameters():
            # NOTE(zcd): The grad_ivar maybe no generated.
-            if param.trainable and param._ivar._grad_ivar():
-                g_var = framework.Variable(
-                    block=self._helper.main_program.current_block(),
-                    name=param._ivar._grad_name(),
-                    stop_gradient=True,
-                    ivar=param._ivar._grad_ivar())
+            if param.trainable and param._grad_ivar():
+                g_var = param._grad_ivar()
                grad_vars.append(g_var)
                assert g_var not in grad_var_set
                grad_var_set.add(g_var)
--- a/python/paddle/fluid/dygraph/varbase_patch_methods.py
+++ b/python/paddle/fluid/dygraph/varbase_patch_methods.py
@ -0,0 +1,216 @@
+# Copyright (c) 2019 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+from .. import framework
+from .. import core
+from . import BackwardStrategy
+from ..framework import Variable, _getitem_impl_
+from .. import unique_name
+import numpy as np
+
+
+def monkey_patch_varbase():
+    # TODO(jiabin): move this to cplusplus end if we find some performance issue on it
+    @framework.dygraph_only
+    def set_value(self, value):
+        """
+        **Notes**:
+            **This API is ONLY avaliable in Dygraph mode**
+
+        Set a new value for this Variable.
+
+        Args:
+            value (Variable|np.ndarray): the new value.
+
+        Examples:
+            .. code-block:: python
+
+                import paddle.fluid as fluid
+                from paddle.fluid.dygraph.base import to_variable
+                from paddle.fluid.dygraph import FC
+                import numpy as np
+
+                data = np.ones([3, 32, 32], dtype='float32')
+                with fluid.dygraph.guard():
+                    fc = fluid.dygraph.FC("fc", 4)
+                    t = to_variable(data)
+                    fc(t)  # call with default weight
+                    custom_weight = np.random.randn(1024, 4).astype("float32")
+                    fc.weight.set_value(custom_weight)  # change existing weight
+                    out = fc(t)  # call with different weight
+
+        """
+        assert isinstance(value, (np.ndarray, core.VarBase)), \
+            "Variable set_value function, arguments type only support Variable, numpy, VarBase"
+
+        value_np = value
+        if isinstance(value, core.VarBase):
+            value_np = value.numpy()
+
+        self_tensor_np = self.numpy()
+
+        assert self_tensor_np.shape == value_np.shape, \
+            "Variable Shape not match, Variable [ {} ] need tensor with shape {} but load set tensor with shape {}".format(
+                self.name, self_tensor_np.shape, value_np.shape)
+
+        assert self_tensor_np.dtype == value_np.dtype, \
+            "Variable dtype not match, Variable [ {} ] need tensor with dtype {}  but load tensor with dtype {}".format(
+                self.name, self_tensor_np.dtype, value_np.dtype)
+
+        self.value().get_tensor().set(value_np,
+                                      framework._current_expected_place())
+
+    @framework.dygraph_only
+    def backward(self, backward_strategy=None):
+        """
+        **Notes**:
+            **This API is ONLY avaliable in Dygraph mode**
+
+        Run backward of current Graph which starts from current Variable
+
+        Args:
+            backward_strategy( :ref:`api_fluid_dygraph_BackwardStrategy` ): The Backward Strategy to run backward
+
+        Returns:
+            NoneType: None
+
+        Examples:
+            .. code-block:: python
+
+                import paddle.fluid as fluid
+                import numpy as np
+
+                x = np.ones([2, 2], np.float32)
+                with fluid.dygraph.guard():
+                    inputs2 = []
+                    for _ in range(10):
+                        tmp = fluid.dygraph.base.to_variable(x)
+                        # if we don't set tmp's stop_gradient as False then, all path to loss will has no gradient since
+                        # there is no one need gradient on it.
+                        tmp.stop_gradient=False
+                        inputs2.append(tmp)
+                    ret2 = fluid.layers.sums(inputs2)
+                    loss2 = fluid.layers.reduce_sum(ret2)
+                    backward_strategy = fluid.dygraph.BackwardStrategy()
+                    backward_strategy.sort_sum_gradient = True
+                    loss2.backward(backward_strategy)
+
+        """
+        if framework.in_dygraph_mode():
+            if backward_strategy is None:
+                backward_strategy = BackwardStrategy()
+                backward_strategy.sort_sum_gradient = False
+
+            self._run_backward(backward_strategy, framework._dygraph_tracer())
+        else:
+            raise ValueError(
+                "Variable.backward() is only avaliable in DyGraph mode")
+
+    @framework.dygraph_only
+    def gradient(self):
+        """
+        **Notes**:
+            **This API is ONLY avaliable in Dygraph mode**
+
+        Get the Gradient of Current Variable
+
+        Returns:
+            ndarray: Numpy value of the gradient of current Variable
+
+        Examples:
+            .. code-block:: python
+
+                import paddle.fluid as fluid
+                import numpy as np
+
+                x = np.ones([2, 2], np.float32)
+                with fluid.dygraph.guard():
+                    inputs2 = []
+                    for _ in range(10):
+                        tmp = fluid.dygraph.base.to_variable(x)
+                        tmp.stop_gradient=False
+                        inputs2.append(tmp)
+                    ret2 = fluid.layers.sums(inputs2)
+                    loss2 = fluid.layers.reduce_sum(ret2)
+                    backward_strategy = fluid.dygraph.BackwardStrategy()
+                    backward_strategy.sort_sum_gradient = True
+                    loss2.backward(backward_strategy)
+                    print(loss2.gradient())
+
+        """
+        if self._grad_ivar() is None:
+            raise ValueError(
+                "%s has no grad, Please set Variable.stop_gradient=False, or "
+                "check if this is the first and only variable need grad, if so, please set its pre-Variable's "
+                "stop_gradient=False, to make sure it has gradient " %
+                self.name)
+        new_ivar = self._grad_ivar()._copy_to(core.CPUPlace(), True)
+        if self._grad_ivar().type == core.VarDesc.VarType.SELECTED_ROWS:
+            return (np.array(new_ivar.value().get_selected_rows().get_tensor()),
+                    np.array(new_ivar.value().get_selected_rows().rows()))
+        else:
+            return np.array(new_ivar.value().get_tensor())
+
+    def __str__(self):
+        return self.to_string(True)
+
+    @property
+    def block(self):
+        return framework.default_main_program().global_block()
+
+    def to_string(self, throw_on_error, with_details=False):
+        """
+        Get debug string.
+
+        Args:
+
+            throw_on_error (bool): True if raise an exception when self is not initialized.
+
+            with_details (bool): more details about variables and parameters (e.g. trainable, optimize_attr, ...) will be printed when with_details is True. Default value is False;
+
+        Returns:
+            str: The debug string.
+
+        Examples:
+            .. code-block:: python
+
+                import paddle.fluid as fluid
+
+                cur_program = fluid.Program()
+                cur_block = cur_program.current_block()
+                new_variable = cur_block.create_var(name="X",
+                                                    shape=[-1, 23, 48],
+                                                    dtype='float32')
+                print(new_variable.to_string(True))
+                print("=============with detail===============")
+                print(new_variable.to_string(True, True))
+        """
+        if framework.in_dygraph_mode():
+            # TODO(panyx0718): add more dygraph debug info.
+            tensor = self.value().get_tensor()
+            if tensor._is_initialized():
+                return 'name %s, dtype: %s shape: %s %s' % (
+                    self.name, self.dtype, self.shape, str(tensor))
+            else:
+                return 'name %s, shape: %s, not inited' % (self.name,
+                                                           self.shape)
+
+    def __getitem__(self, item):
+        return _getitem_impl_(self, item)
+
+    for method_name, method in (("set_value", set_value), ("block", block),
+                                ("backward", backward), ("gradient", gradient),
+                                ("__str__", __str__), ("to_string", to_string),
+                                ("__getitem__", __getitem__)):
+        setattr(core.VarBase, method_name, method)
--- a/python/paddle/fluid/dygraph_grad_clip.py
+++ b/python/paddle/fluid/dygraph_grad_clip.py
@ -264,7 +264,7 @@ class GradClipByGlobalNorm(GradClipBase):
            if g is None:
                continue
            merge_grad = g
-            if g._ivar.type == core.VarDesc.VarType.SELECTED_ROWS:
+            if g.type == core.VarDesc.VarType.SELECTED_ROWS:
                merge_grad = layers.merge_selected_rows(g)
                merge_grad = layers.get_tensor_from_selected_rows(merge_grad)
            power = layers.square(merge_grad)
--- a/python/paddle/fluid/framework.py
+++ b/python/paddle/fluid/framework.py
--- a/python/paddle/fluid/layer_helper_base.py
+++ b/python/paddle/fluid/layer_helper_base.py
@ -44,33 +44,46 @@ class LayerHelperBase(object):
    def startup_program(self):
        return default_startup_program()

-    def to_variable(self, value, block=None):
-        """convert value to variable
+    def to_variable(self, value, name=None):
+        """
+        The API will create a ``Variable`` object from numpy\.ndarray or Variable object.
+
+        Parameters:
+            value(ndarray): The numpy\.ndarray object that needs to be converted, it can be multi-dimension, and the data type is one of numpy\.{float16, float32, float64, int16, int32, int64, uint8, uint16}.
+            block(fluid.Block, optional): Which block this variable will be in. Default: None.
+            name(str, optional): The default value is None. Normally there is no need for user to set this property. For more information, please refer to :ref:`api_guide_Name`
+
+        Returns:
+            Variable: ``Tensor`` created from the specified numpy\.ndarray object, data type and shape is the same as ``value`` .
+
+        Examples:

-            Args:
-                value: value to be convert
-                block: the block of the variable
+         .. code-block:: python
+
+            import numpy as np
+            import paddle.fluid as fluid
+
+            with fluid.dygraph.guard():
+                x = np.ones([2, 2], np.float32)
+                y = fluid.dygraph.to_variable(x)

-        Return Variable construct from value
        """
        if isinstance(value, np.ndarray):
            assert in_dygraph_mode(
            ), "to_variable could only be called in dygraph mode"
-
-            if not block:
-                block = default_main_program().current_block()
-            py_var = Variable(
-                block,
-                type=core.VarDesc.VarType.LOD_TENSOR,
-                name=None,
-                shape=value.shape,
-                dtype=value.dtype)
-            var = py_var._ivar.value()
-            tensor = var.get_tensor()
-            tensor.set(value, _current_expected_place())
+            py_var = core.VarBase(
+                value=value,
+                name=name,
+                persistable=False,
+                place=_current_expected_place(),
+                zero_copy=False)
            return py_var
-        elif isinstance(value, Variable):
+        elif isinstance(value, (core.VarBase, Variable)):
            return value
+        else:
+            raise TypeError(
+                "to_variable only accepts 'ndarray' or 'Variable' or 'VarBase' as value's input"
+            )

    def _create_weight_normalize(self, attr, shape, dtype):
        from .layers import elementwise_mul, elementwise_div, reshape
@ -386,7 +399,7 @@ class LayerHelperBase(object):
        """
        assert isinstance(var, Variable)
        if in_dygraph_mode():
-            initializer(var, var.block)
+            initializer(var, self.main_program.global_block())
        else:
            self.startup_program.global_block().create_var(
                name=var.name,
--- a/python/paddle/fluid/layers/loss.py
+++ b/python/paddle/fluid/layers/loss.py
@ -233,6 +233,7 @@ def cross_entropy(input, label, soft_label=False, ignore_index=kIgnoreIndex):
            predict = fluid.layers.fc(input=x, size=class_num, act='softmax')
            cost = fluid.layers.cross_entropy(input=predict, label=label)
    """
+
    check_type_and_dtype(input, 'input', Variable,
                         ['float16', 'float32', 'float64'], 'cross_entropy')
    if not soft_label:
@ -729,7 +730,6 @@ def nce(input,
        sampler = 1
    elif sampler == "custom_dist":
        assert custom_dist is not None
-        # assert isinstance(custom_dist, Variable)

        custom_dist_len = num_total_classes
        alias_probs_ = [0] * custom_dist_len
--- a/python/paddle/fluid/layers/math_op_patch.py
+++ b/python/paddle/fluid/layers/math_op_patch.py
@ -15,7 +15,7 @@
 from __future__ import print_function

 from .. import core
-from ..framework import Variable, unique_name
+from ..framework import Variable, unique_name, in_dygraph_mode, default_main_program
 from .layer_function_generator import OpProtoHolder
 from ..initializer import force_init_on_cpu

@ -40,7 +40,10 @@ def monkey_patch_variable():
        return dtype

    def current_block(var):
-        return var.block
+        if in_dygraph_mode():
+            return default_main_program().global_block()
+        else:
+            return var.block

    def create_new_tmp_var(block, dtype):
        tmp_name = unique_tmp_name()
@ -281,5 +284,9 @@ def monkey_patch_variable():
        setattr(Variable, method_name,
                _elemwise_method_creator_(method_name, op_type, reverse,
                                          scalar_method))
+        setattr(core.VarBase, method_name,
+                _elemwise_method_creator_(method_name, op_type, reverse,
+                                          scalar_method))

    Variable.astype = astype
+    setattr(core.VarBase, "astype", astype)
--- a/python/paddle/fluid/optimizer.py
+++ b/python/paddle/fluid/optimizer.py
@ -32,7 +32,6 @@ from .layers import ops
 from .regularizer import append_regularization_ops
 from .dygraph import base as imperative_base
 from .dygraph.learning_rate_scheduler import LearningRateDecay
-from .framework import _var_base_to_np
 from paddle.fluid import core
 from paddle.fluid.layers import tensor
 from functools import reduce
@ -122,7 +121,13 @@ class Optimizer(object):
                state_dict[var_tmp.name] = var_tmp
        # global step if use lr decay
        if isinstance(self._learning_rate, LearningRateDecay):
-            var_temp = Variable(None, name='global_step', dtype='int32')
+            var_tmp = None
+            if not framework.in_dygraph_mode():
+                var_temp = Variable(None, name='global_step', dtype='int32')
+            else:
+                var_temp = framework._varbase_creator(
+                    None, name='global_step', dtype='int32')
+
            tensor.fill_constant(
                [1], "int32", self._learning_rate.step_num, out=var_temp)

@ -164,7 +169,7 @@ class Optimizer(object):
            global_step = state_dict['global_step']

            if isinstance(global_step, core.VarBase):
-                step_np = global_step._copy_to(core.CPUPlace(), True)
+                step_np = global_step
                step_np = np.array(step_np.value().get_tensor())
                assert step_np.shape == (1,),  \
                        "global step shape is (1,), the shape is {}".format( step_np.shape )
@ -189,7 +194,7 @@ class Optimizer(object):
            for para_name, var_tmp in v.items():
                assert var_tmp.name in state_dict, \
                        "optimizer variable {} not found".format( var_tmp.name )
-                var = var_tmp._ivar.value()
+                var = var_tmp.value()
                tensor = var.get_tensor()
                model_np = np.array(tensor)

@ -198,7 +203,7 @@ class Optimizer(object):
                if isinstance(load_para, Variable):
                    load_para_np = load_para.numpy()
                elif isinstance(load_para, core.VarBase):
-                    load_para_np = _var_base_to_np(load_para)
+                    load_para_np = load_para.numpy()
                elif isinstance(load_para, np.ndarray):
                    load_para_np = load_para
                else:
@ -515,7 +520,11 @@ class Optimizer(object):
        Examples:
            See examples in ``apply_gradients``.
        """
-        no_grad_set = self._get_no_grad_set(loss, no_grad_set)
+        act_no_grad_set = None
+        if not framework.in_dygraph_mode():
+            act_no_grad_set = self._get_no_grad_set(loss, no_grad_set)
+        else:
+            pass

        self._dtype = loss.dtype
        if framework.in_dygraph_mode():
@ -528,15 +537,9 @@ class Optimizer(object):
            for param in parameters:
                if not param.trainable:
                    continue
-                if param._ivar._grad_ivar() is not None:
-                    ivar_type = param._ivar._grad_ivar().type
+                if param._grad_ivar() is not None:
                    # create gradient variable
-                    grad_var = Variable(
-                        block=loss.block,
-                        type=ivar_type,
-                        name=param._ivar._grad_name(),
-                        stop_gradient=True,
-                        ivar=param._ivar._grad_ivar())
+                    grad_var = param._grad_ivar()
                    params_grads.append((param, grad_var))
        else:
            if callbacks is None:
@ -550,7 +553,7 @@ class Optimizer(object):
                    loss.shape)
            with program_guard(program, startup_program):
                params_grads = append_backward(loss, parameter_list,
-                                               no_grad_set, callbacks)
+                                               act_no_grad_set, callbacks)
                # Note: since we can't use all_reduce_op now,
                #  dgc_op should be the last op of one grad.
                self._append_dgc_ops(params_grads)
--- a/python/paddle/fluid/tests/unittests/op_test.py
+++ b/python/paddle/fluid/tests/unittests/op_test.py
@ -268,7 +268,7 @@ class OpTest(unittest.TestCase):
            data = value[0]
            lod = value[1]
            v = fluid.dygraph.base.to_variable(value=data)
-            v._ivar.value().get_tensor().set_recursive_sequence_lengths(lod)
+            v.value().get_tensor().set_recursive_sequence_lengths(lod)
            return v
        else:
            return fluid.dygraph.base.to_variable(value)
@ -289,7 +289,7 @@ class OpTest(unittest.TestCase):
                if if_return_inputs_grad_dict:
                    v.stop_gradient = False
                if has_lod:
-                    v._ivar.value().get_tensor().set_recursive_sequence_lengths(
+                    v.value().get_tensor().set_recursive_sequence_lengths(
                        lod_temp)
            else:
                v = block.create_var(
@ -840,8 +840,8 @@ class OpTest(unittest.TestCase):
                    if check_dygraph:
                        imperative_actual = find_imperative_actual(
                            sub_out_name, dygraph_outs, place)
-                        imperative_actual_t = np.array(
-                            imperative_actual._ivar.value().get_tensor())
+                        imperative_actual_t = np.array(imperative_actual.value()
+                                                       .get_tensor())
                    idx = find_actual(sub_out_name, fetch_list)
                    actual = outs[idx]
                    actual_t = np.array(actual)
@ -868,7 +868,7 @@ class OpTest(unittest.TestCase):
                            ") has different lod at " + str(place))
                        if check_dygraph:
                            self.assertListEqual(
-                                imperative_actual._ivar.value().get_tensor()
+                                imperative_actual.value().get_tensor()
                                .recursive_sequence_lengths(), expect[1],
                                "Output (" + out_name +
                                ") has different lod at " + str(place) +
@ -877,8 +877,8 @@ class OpTest(unittest.TestCase):
                if check_dygraph:
                    imperative_actual = find_imperative_actual(
                        out_name, dygraph_outs, place)
-                    imperative_actual_t = np.array(
-                        imperative_actual._ivar.value().get_tensor())
+                    imperative_actual_t = np.array(imperative_actual.value()
+                                                   .get_tensor())
                idx = find_actual(out_name, fetch_list)
                actual = outs[idx]
                actual_t = np.array(actual)
@ -913,7 +913,7 @@ class OpTest(unittest.TestCase):
                                         ") has different lod at " + str(place))
                    if check_dygraph:
                        self.assertListEqual(
-                            imperative_actual._ivar.value().get_tensor()
+                            imperative_actual.value().get_tensor()
                            .recursive_sequence_lengths(), expect[1],
                            "Output (" + out_name + ") has different lod at " +
                            str(place) + " in dygraph mode")
--- a/python/paddle/fluid/tests/unittests/test_imperative_auto_prune.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_auto_prune.py
@ -153,8 +153,8 @@ class TestImperativeAutoPrune(unittest.TestCase):
            v2 = fluid.dygraph.to_variable(value2)
            loss = case1(v1, v2)
            loss.backward()
-            self.assertTrue(case1.fc2._w._ivar._grad_ivar() is not None)
-            self.assertTrue(case1.fc1._w._ivar._grad_ivar() is not None)
+            self.assertTrue(case1.fc2._w._grad_ivar() is not None)
+            self.assertTrue(case1.fc1._w._grad_ivar() is not None)

    def test_auto_prune2(self):
        with fluid.dygraph.guard():
@ -166,8 +166,8 @@ class TestImperativeAutoPrune(unittest.TestCase):
            loss = case2(v1, v2)

            loss.backward()
-            self.assertTrue(case2.fc2._w._ivar._grad_ivar() is None)
-            self.assertTrue(case2.fc1._w._ivar._grad_ivar() is not None)
+            self.assertTrue(case2.fc2._w._grad_ivar() is None)
+            self.assertTrue(case2.fc1._w._grad_ivar() is not None)

    def test_auto_prune3(self):
        with fluid.dygraph.guard():
@ -178,7 +178,7 @@ class TestImperativeAutoPrune(unittest.TestCase):
            v2 = fluid.dygraph.to_variable(value2)
            loss, part2 = case3(v1, v2, 1)
            loss.backward()
-            self.assertTrue(case3.fc._w._ivar._grad_ivar() is not None)
+            self.assertTrue(case3.fc._w._grad_ivar() is not None)
            self.assertTrue((part2.gradient() == 0).all())

    def test_auto_prune4(self):
@ -190,7 +190,7 @@ class TestImperativeAutoPrune(unittest.TestCase):
            v2 = fluid.dygraph.to_variable(value2)
            loss, part2 = case4(v1, v2, 1)
            part2.backward()
-            self.assertTrue(case4.fc._w._ivar._grad_ivar() is not None)
+            self.assertTrue(case4.fc._w._grad_ivar() is not None)
            self.assertTrue((part2.gradient() == 1).all())

    def test_auto_prune5(self):
@ -202,7 +202,7 @@ class TestImperativeAutoPrune(unittest.TestCase):
            v2 = fluid.dygraph.to_variable(value2)
            loss, part1, part2 = case4(v1, v2, 2)
            part1.backward()
-            self.assertTrue(case4.fc._w._ivar._grad_ivar() is not None)
+            self.assertTrue(case4.fc._w._grad_ivar() is not None)
            self.assertTrue((part2.gradient() == 0).all())

    def test_auto_prune6(self):
@ -333,8 +333,8 @@ class TestImperativeAutoPrune(unittest.TestCase):
            for items in params_grads:
                assert items[0].name is not model.embed1._w.name
                assert items[0].name is not model.fc1._w.name
-            assert model.embed1._w._ivar._grad_ivar() is None
-            assert model.fc1._w._ivar._grad_ivar() is None
+            assert model.embed1._w._grad_ivar() is None
+            assert model.fc1._w._grad_ivar() is None

        with fluid.dygraph.guard(place):
            model = MyLayer2("mylayer", vocab_size, size)
@ -351,8 +351,8 @@ class TestImperativeAutoPrune(unittest.TestCase):
            for items in params_grads:
                assert items[0].name is not model.embed1._w.name
                assert items[0].name is not model.fc1._w.name
-            assert model.embed1._w._ivar._grad_ivar() is None
-            assert model.fc1._w._ivar._grad_ivar() is None
+            assert model.embed1._w._grad_ivar() is None
+            assert model.fc1._w._grad_ivar() is None

    def test_case2_prune_no_grad_branch(self):
        with fluid.dygraph.guard():
@ -363,8 +363,8 @@ class TestImperativeAutoPrune(unittest.TestCase):
            case3 = AutoPruneLayer2("l2")
            loss = case3(v1, v2)
            loss.backward()
-            self.assertTrue(case3.fc2._w._ivar._grad_ivar() is None)
-            self.assertTrue(case3.fc._w._ivar._grad_ivar() is not None)
+            self.assertTrue(case3.fc2._w._grad_ivar() is None)
+            self.assertTrue(case3.fc._w._grad_ivar() is not None)

    def test_case2_prune_no_grad_branch(self):
        with fluid.dygraph.guard():
@ -375,8 +375,8 @@ class TestImperativeAutoPrune(unittest.TestCase):
            case3 = AutoPruneLayer2("l2")
            loss = case3(v1, v2)
            loss.backward()
-            self.assertTrue(case3.fc2._w._ivar._grad_ivar() is None)
-            self.assertTrue(case3.fc._w._ivar._grad_ivar() is not None)
+            self.assertTrue(case3.fc2._w._grad_ivar() is None)
+            self.assertTrue(case3.fc._w._grad_ivar() is not None)

    def test_case3_prune_no_grad_branch2(self):
        with fluid.dygraph.guard():
@ -389,14 +389,14 @@ class TestImperativeAutoPrune(unittest.TestCase):
            out = fluid.layers.one_hot(input=label, depth=100)
            loss = fluid.layers.mean(out)
            loss.backward()
-            self.assertTrue(fc._w._ivar._grad_ivar() is None)
+            self.assertTrue(fc._w._grad_ivar() is None)

    def test_case4_with_no_grad_op_maker(self):
        with fluid.dygraph.guard():
            out = fluid.layers.gaussian_random(shape=[20, 30])
            loss = fluid.layers.mean(out)
            loss.backward()
-            self.assertTrue(out._ivar._grad_ivar() is None)
+            self.assertTrue(out._grad_ivar() is None)


 if __name__ == '__main__':
--- a/python/paddle/fluid/tests/unittests/test_imperative_basic.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_basic.py
@ -177,6 +177,30 @@ class SimpleRNN(fluid.Layer):


 class TestImperative(unittest.TestCase):
+    def test_isinstance(self):
+        var = fluid.layers.data(shape=[1], name='x', dtype='float32')
+        self.assertTrue(isinstance(var, fluid.Variable))
+        with fluid.dygraph.guard():
+            var_base = fluid.dygraph.base.to_variable(np.array([3, 4, 5]))
+            self.assertTrue(isinstance(var_base, core.VarBase))
+            self.assertTrue(isinstance(var_base, fluid.Variable))
+
+    def test_create_VarBase(self):
+        x = np.ones([2, 2], np.float32)
+        y = np.zeros([3, 3], np.float32)
+        with fluid.dygraph.guard():
+            tmp = fluid.core.VarBase(value=x, place=fluid.core.CPUPlace())
+            tmp2 = fluid.core.VarBase(y, fluid.core.CPUPlace())
+            tmp3 = fluid.dygraph.base.to_variable(x)
+            tmp4 = fluid.core.VarBase(y)
+            tmp5 = fluid.core.VarBase(value=x)
+
+            self.assertTrue(np.array_equal(x, tmp.numpy()))
+            self.assertTrue(np.array_equal(y, tmp2.numpy()))
+            self.assertTrue(np.array_equal(x, tmp3.numpy()))
+            self.assertTrue(np.array_equal(y, tmp4.numpy()))
+            self.assertTrue(np.array_equal(x, tmp5.numpy()))
+
    def test_sum_op(self):
        x = np.ones([2, 2], np.float32)
        with fluid.dygraph.guard():
@ -215,17 +239,17 @@ class TestImperative(unittest.TestCase):
            try:
                new_variable.numpy()
            except Exception as e:
-                assert type(e) == ValueError
+                assert type(e) == core.EnforceNotMet

            try:
                new_variable.backward()
            except Exception as e:
-                assert type(e) == ValueError
+                assert type(e) == core.EnforceNotMet

            try:
                new_variable.clear_gradient()
            except Exception as e:
-                assert type(e) == ValueError
+                assert type(e) == core.EnforceNotMet

    def test_empty_grad(self):
        with fluid.dygraph.guard():
@ -239,7 +263,7 @@ class TestImperative(unittest.TestCase):
            try:
                new_var.clear_gradient()
            except Exception as e:
-                assert type(e) == ValueError
+                assert type(e) == core.EnforceNotMet

        with fluid.dygraph.guard():
            cur_program = fluid.Program()
@ -257,7 +281,7 @@ class TestImperative(unittest.TestCase):
            new_var = fluid.dygraph.base.to_variable(x)
            self.assertFalse(new_var.persistable)
            new_var.persistable = True
-            self.assertFalse(new_var.persistable)
+            self.assertTrue(new_var.persistable)

    def test_layer(self):
        with fluid.dygraph.guard():
--- a/python/paddle/fluid/tests/unittests/test_imperative_lod_tensor_to_selected_rows.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_lod_tensor_to_selected_rows.py
@ -70,7 +70,6 @@ class SimpleNet(fluid.Layer):
        loss = fluid.layers.reshape(loss, shape=[-1, self.num_steps])
        loss = fluid.layers.reduce_mean(loss, dim=[0])
        loss = fluid.layers.reduce_sum(loss)
-        loss.permissions = True

        return loss

--- a/python/paddle/fluid/tests/unittests/test_imperative_ocr_attention_model.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_ocr_attention_model.py
@ -459,8 +459,7 @@ class TestDygraphOCRAttention(unittest.TestCase):
                for batch_id in range(batch_num):
                    label_in = to_variable(label_in_np)
                    label_out = to_variable(label_out_np)
-                    label_out._stop_gradient = True
-                    label_out.trainable = False
+                    label_out.stop_gradient = True
                    img = to_variable(image_np)
                    dy_prediction = ocr_attention(img, label_in)
                    label_out = fluid.layers.reshape(
@ -481,7 +480,7 @@ class TestDygraphOCRAttention(unittest.TestCase):
                    dy_grad_value = {}
                    for param in ocr_attention.parameters():
                        if param.trainable:
-                            np_array = np.array(param._ivar._grad_ivar().value()
+                            np_array = np.array(param._grad_ivar().value()
                                                .get_tensor())
                            dy_grad_value[param.name + core.grad_var_suffix(
                            )] = np_array
@ -514,7 +513,7 @@ class TestDygraphOCRAttention(unittest.TestCase):
                name='label_in', shape=[1], dtype='int64', lod_level=0)
            static_label_out = fluid.layers.data(
                name='label_out', shape=[1], dtype='int64', lod_level=0)
-            static_label_out._stop_gradient = True
+            static_label_out.stop_gradient = True
            static_label_out.trainable = False

            static_prediction = ocr_attention(images, static_label_in)
--- a/python/paddle/fluid/tests/unittests/test_imperative_optimizer.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_optimizer.py
@ -83,7 +83,7 @@ class TestImperativeOptimizerBase(unittest.TestCase):

                img = data[0]
                label = data[1]
-                label._stop_gradient = True
+                label.stop_gradient = True

                cost = mlp(img)
                avg_loss = fluid.layers.reduce_mean(cost)
--- a/python/paddle/fluid/tests/unittests/test_imperative_partitial_backward.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_partitial_backward.py
@ -33,10 +33,10 @@ class TestImperativePartitialBackward(unittest.TestCase):
            loss.backward()

            for param in fc1.parameters():
-                self.assertIsNotNone(param._ivar._grad_ivar())
+                self.assertIsNotNone(param._grad_ivar())

            for param in fc2.parameters():
-                self.assertIsNone(param._ivar._grad_ivar())
+                self.assertIsNone(param._grad_ivar())

            optimizer = fluid.optimizer.AdamOptimizer()
            _, params_grads = optimizer.minimize(loss)
--- a/Show More
+++ b/Show More