Solve conflict with branch 14.0 in doc (#12301)

* Add new_doc to develop branch * Add pics of Anakin tutorial * Update anakin_tutorial.md * Delete anakin_fm_en.png * Delete contri1.JPG * Delete contri2.JPG * Update build_and_install_lib_cn.rst * Update compile_paddle_lib_cn.md * Update compile_paddle_lib_en.md * Update install_doc.rst * Update install_doc.rst
7 years ago · 03d70c1f70
parent e011e34abe
commit 03d70c1f70
162 changed files with 9634 additions and 28 deletions
--- a/doc/fluid/howto/inference/build_and_install_lib_cn.rst
+++ b/doc/fluid/howto/inference/build_and_install_lib_cn.rst
@ -7,13 +7,13 @@
 ======================   ========================================
 版本说明                            C++预测库   
 ======================   ========================================
-cpu_avx_mkl              `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_CpuAvxCp27cp27mu/.lastSuccessful/fluid.tgz>`_ 
+cpu_avx_mkl              `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_CpuAvxCp27cp27mu/.lastSuccessful/fluid.tgz/?branch=0.14.0>`_ 
-cpu_avx_openblas         `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_CpuAvxOpenblas/.lastSuccessful/fluid.tgz>`_
+cpu_avx_openblas         `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_CpuAvxOpenblas/.lastSuccessful/fluid.tgz/?branch=0.14.0>`_
-cpu_noavx_openblas       `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_CpuNoavxOpenblas/.lastSuccessful/fluid.tgz>`_
+cpu_noavx_openblas       `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_CpuNoavxOpenblas/.lastSuccessful/fluid.tgz/?branch=0.14.0>`_
-cuda7.5_cudnn5_avx_mkl   `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_Cuda75cudnn5cp27cp27mu/.lastSuccessful/fluid.tgz>`_
+cuda7.5_cudnn5_avx_mkl   `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_Cuda75cudnn5cp27cp27mu/.lastSuccessful/fluid.tgz/?branch=0.14.0>`_
-cuda8.0_cudnn5_avx_mkl   `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_Cuda80cudnn5cp27cp27mu/.lastSuccessful/fluid.tgz>`_
+cuda8.0_cudnn5_avx_mkl   `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_Cuda80cudnn5cp27cp27mu/.lastSuccessful/fluid.tgz/?branch=0.14.0>`_
-cuda8.0_cudnn7_avx_mkl   `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_Cuda8cudnn7cp27cp27mu/.lastSuccessful/fluid.tgz>`_
+cuda8.0_cudnn7_avx_mkl   `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_Cuda8cudnn7cp27cp27mu/.lastSuccessful/fluid.tgz/?branch=0.14.0>`_
-cuda9.0_cudnn7_avx_mkl   `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_Cuda90cudnn7avxMkl/.lastSuccessful/fluid.tgz>`_
+cuda9.0_cudnn7_avx_mkl   `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_Cuda90cudnn7avxMkl/.lastSuccessful/fluid.tgz/?branch=0.14.0>`_
 ======================   ========================================
 从源码编译
--- a/doc/fluid/index_cn.rst
+++ b/doc/fluid/index_cn.rst
@ -1,12 +1,16 @@
- PaddlePaddle Fluid
+.. PaddlePaddle Fluid documentation master file, created by
-==========================
+   sphinx-quickstart on Thu Jun  7 17:04:53 2018.
   You can adapt this file completely to your liking, but it should at least
   contain the root `toctree` directive.
 ##############
 欢迎使用 Fluid
 ##############
 ..  toctree::
    :maxdepth: 1
-  getstarted/index_cn.rst
+    new_docs/beginners_guide/index.rst
-  build_and_install/index_cn.rst
+    new_docs/user_guides/index.rst
-  design/index_cn.rst
+    new_docs/advanced_usage/index.rst
-  howto/index_cn.rst
+    new_docs/faq/index_cn.rst
  dev/index_cn.rst
  faq/index_cn.rst
--- a/doc/fluid/new_docs/advanced_usage/benchmark.rst
+++ b/doc/fluid/new_docs/advanced_usage/benchmark.rst
@ -0,0 +1,120 @@
 #################
 如何进行基准测试
 #################
 本文介绍如何给深度学习框架做基准测试。基准测试主要包含验证模型的精度和性能两方面，下文包含搭建测试环境，选择基准测试模型，验证测试结果等几方面内容。
 验证深度学习框架，可分为训练和测试两个阶段， 验证指标略有不同，本文只介绍训练阶段的指标验证。训练阶段关注的是模型训练集上的精度，训练集是完备的，因此关注大batch\_size下的训练速度,关注吞吐量，例如图像模型常用的batch\_size=128, 多卡情况下会加大；预测阶段关注的是在测试集上的精度，线上服务测试数据不能提前收集，因此关注小batch\_size下的预测速度，关注延迟，例如预测服务常用的batch\_size=1, 4等。
 `Fluid <https://github.com/PaddlePaddle/Paddle>`__ 是PaddlePaddle从0.11.0版本开始引入的设计，本文的基准测试在该版本上完成。
 环境搭建
 """"""""""""
 基准测试中模型精度和硬件、框架无关，由模型结构和数据共同决定；性能方面由测试硬件和框架性能决定。框架基准测试为了对比框架之间的差异，控制硬件环境，系统库等版本一致。下文中的对比实验都在相同的硬件条件和系统环境条件下进行.
 不同架构的GPU卡性能差异巨大，在验证模型在GPU上训练性能时，可使用NVIDIA提供的工具:code `nvidia-smi` 检验当前使用的GPU型号，如果测试多卡训练性能，需确认硬件连接是 `nvlink <https://zh.wikipedia.org/zh/NVLink>`__ 或 `PCIe <https://zh.wikipedia.org/zh-hans/PCI_Express>`__ 。 同样地，CPU型号会极大影响模型在CPU上的训练性能。可读取`/proc/cpuinfo`中的参数，确认当前正在使用的CPU型号。
 下载GPU对应的Cuda Tool Kit和 Cudnn，或者使用NVIDIA官方发布的nvidia-docker镜像 `nvidia-docker <https://github.com/NVIDIA/nvidia-docker>`__, 镜像内包含了Cuda和Cudnn，本文采用这种方式。 Cuda Tool Kit包含了GPU代码使用到的基础库，影响在此基础上编译出的Fluid二进制运行性能。
 准备好Cuda环境后，从github上的下载Paddle并源码编译，会生成对应的最适合当前GPU的sm\_arch二进制\ `sm\_arch <https://docs.nvidia.com/cuda/cuda-compiler-driver-nvcc/index.html>`__\ 。另外，cudnn对卷积类任务影响巨大，在基准测试中需要小版本一致，例如Cudnn7.0.2与Cudnn7.1.4在Resnet上有5%以上差异。
 选择基准模型
 """"""""""""
 对框架做基准测试，需要覆盖不同训练任务和不同大小的模型，本文中选取了图像和NLP的最为常用的5个模型。
 ============  ============  =================  ============
 任务种类        模型名称       网络结构         数据集     
 ============  ============  =================  ============
 图像分类      mnist         Lenet              mnist
 图像分类      VGG           VGG-16             Flowers102
 图像分类      Resnet        Resnet-50          Flowers102
 文本分类      Stacked-LSTM  Stacked-LSTM       IMDB 
 机器翻译      seq-seq       Stacked-LSTM       wmt14 
 ============  ============  =================  ============
 其中mnist, VGG, Resnet属于CNN模型, stacked-lstm, seq2seq代表RNN模型。
 `benchmark <https://github.com/PaddlePaddle/Paddle/tree/develop/benchmark/fluid>`__
 基准模型测试脚本中，均跳过了前几个batch的训练过程，原因是加载数据和分配显存受系统当前运行情况影响，会导致统计性能不准确。运行完若干个轮次后，统计对应指标。
 基准模型的数据的选择方面，数据量大且验证效果多的公开数据集为首选。图像模型VGG和resnet, 本文选择了 `flowers102 <http://www.robots.ox.ac.uk/~vgg/data/flowers/102/>`__ ，图像大小预处理为和Imagenet相同大小，因此性能可直接对比
 NLP模型的公开且影响力大数据集较少，seq2seq模型选择了wmt14数据，stacked-lstm模型中选择了 `imdb <https://www.imdb.com/interfaces/>`__ 数据。
 注意，图像模型每条样本大小相同，图像经过变换后大小一致，因此经过的计算路径基本相同，计算速度和显存占用波动较小，可以从若干个batch的数据中采样得到当前的训练性能数据。而NLP模型由于样本长度不定，计算路径和显存占用也不相同，因此只能完整运行若干个轮次后，统计速度和显存消耗。
 显存分配是特别耗时的操作，因此Fluid默认会占用所有可用显存空间形成显存池，用以加速计算过程中的显存分配。如果需要统计模型真实显存消耗，可设置环境变量`FLAGS_fraction_of_gpu_memory_to_use=0.0`，观察最大显存开销。
 测试过程
 """"""""""""
 -  CPU 单机单线程测试
 测试CPU上单线程的性能，先设置CUDA的环境变量为空，``CUDA_VISIBLE_DEVICES=``，并通过环境变量关闭OpenMP和MKL的多线程 ``OMP_NUM_THREADS=1``， ``MKL_NUM_THREADS=1;``。
 然后代码中设置为使用CPUPlace，如果使用Paddle代码库中的脚本，只需要命令行参数传入 use_gpu=False即可。
 .. code-block:: python
    >>> import paddle.fluid as fluid
    >>> place = fluid.CPUPlace() 
 .. code:: bash
    docker run -it --name CASE_NAME --security-opt seccomp=unconfined -v $PWD/benchmark:/benchmark paddlepaddle/paddle:latest-dev /bin/bash
 -  GPU 单机单卡测试
 本教程使用了Cuda8, Cudnn7.0.1。来源为:code `nvidia/cuda:8.0-cudnn7-devel-ubuntu16.04`
 .. code:: bash
    nvidia-docker run -it --name CASE_NAME --security-opt seccomp=unconfined -v $PWD/benchmark:/benchmark -v /usr/lib/x86_64-linux-gnu:/usr/lib/x86_64-linux-gnu paddlepaddle/paddle:latest-dev /bin/bash
 在单卡上测试，设置CUDA的环境变量使用一块GPU，``CUDA_VISIBLE_DEVICES=0``
 然后代码中设置为使用CUDAPlace，如果使用Paddle代码库中的脚本，只需要命令行参数传入 use_gpu=True即可。
 .. code-block:: python
    >>> import paddle.fluid as fluid
    >>> place = fluid.CUDAPlace(0) // 0 指第0块GPU
 测试结果
 """"""""""""
 本教程对比相同环境下的Fluid0.12.0和TensorFlow1.4.0的性能表现。
 硬件环境为 CPU: Intel(R) Xeon(R) CPU E5-2660 v4 @ 2.00GHz, GPU: TITAN X(Pascal) 12G x 1, Nvidia-Driver 384.90。
 系统环境为Ubuntu 16.04.3 LTS, 本文中采用了docker环境，系统版本为nvidia-docker17.05.0-ce。
 测试的Fluid版本为\ `v.0.12.0 <https://github.com/PaddlePaddle/Paddle/releases/tag/v.0.12.0>`__ 。
 TensorFlow版本为\ `v.1.4.0-rc1 <https://github.com/tensorflow/tensorflow/tree/v1.4.0-rc1>`__ 。
 使用的脚本和配置见\ `benchmark <https://github.com/PaddlePaddle/Paddle/tree/develop/benchmark/fluid>`__ 。
 图表中统计单位为samples/秒。
 - CPU 单机单线程测试结果
  ================  ====================  ===================
   Speed            Fluid CPU              TensorFlow CPU    
  ================  ====================  ===================
  mnist             1298.75 samples/s     637.57 samples/s  
  VGG-16            0.4147 images/s       0.1229 images/s   
  Resnet-50         1.6935 images/s       0.3657 images/s   
  Stacked-LSTM      472.3225 words/s      48.2293words/s    
  Seq2Seq           217.1655 words/s      28.6164 words/s   
  ================  ====================  ===================
 - GPU 单机单卡测试结果
  =============== =====================  =================
   Speed           Fluid GPU              TensorFlow GPU      
  =============== =====================  =================
   mnist           19710.90 samples/s    15576.3 samples/s        
   VGG-16          59.83327 images/s     40.9967 images/s    
   Resnet-50       105.84412             97.8923 images/s    
   Stacked-LSTM    1319.99315            1608.2526 words/s   
   Seq2Seq         7147.89081            6845.1161 words/s   
  =============== =====================  =================
--- a/doc/fluid/new_docs/advanced_usage/deploy/anakin_arm_benchmark.md
+++ b/doc/fluid/new_docs/advanced_usage/deploy/anakin_arm_benchmark.md
@ -0,0 +1,56 @@
 # Anakin ARM 性能测试
 ## 测试环境和参数:
 + 测试模型Mobilenetv1, mobilenetv2, mobilenet-ssd
 + 采用android ndk交叉编译，gcc 4.9，enable neon， ABI： armveabi-v7a with neon -mfloat-abi=softfp
 + 测试平台
   - 荣耀v9(root): 处理器:麒麟960, 4 big cores in 2.36GHz, 4 little cores in 1.8GHz
   - nubia z17:处理器:高通835, 4 big cores in 2.36GHz, 4 little cores in 1.9GHz
   - 360 N5:处理器:高通653, 4 big cores in 1.8GHz, 4 little cores in 1.4GHz
 + 多线程：openmp
 + 时间：warmup10次，运行10次取均值
 + ncnn版本：来源于github的master branch中commits ID：307a77f04be29875f40d337cfff6df747df09de6（msg:convert            LogisticRegressionOutput)版本
 + TFlite版本：来源于github的master branch中commits ID：65c05bc2ac19f51f7027e66350bc71652662125c（msg:Removed unneeded file copy that was causing failure in Pi builds)版本
 在BenchMark中本文将使用**`ncnn`**、**`TFlite`**和**`Anakin`**进行性能对比分析
 ## BenchMark model
 > 注意在性能测试之前，请先将测试model通过[External Converter](#10003)转换为Anakin model
 > 对这些model，本文在ARM上进行多线程的单batch size测试。
 - [Mobilenet v1](#11)  *caffe model 可以在[这儿](https://github.com/shicai/MobileNet-Caffe)下载*
 - [Mobilenet v2](#22)  *caffe model 可以在[这儿](https://github.com/shicai/MobileNet-Caffe)下载*
 - [mobilenet-ssd](#33)  *caffe model 可以在[这儿](https://github.com/chuanqi305/MobileNet-SSD)下载*
 ### <span id = '11'> mobilenetv1 </span>
   |platform | Anakin (1) | Anakin (2) | Anakin (4) | ncnn (1) | ncnn (2) | ncnn (4) | TFlite (1) | TFlite (2) | TFlite (4)| 
   |:---: | :---: | :---: | :---:| :---:| :---:| :---:| :---:| :---:| :---:|
   |麒麟960|107.7ms|61.1ms|38.2ms|152.8ms|85.2ms|51.9ms|152.6ms|nan|nan|
   |高通835|105.7ms|63.1ms|~~46.8ms~~|152.7ms|87.0ms|~~92.7ms~~|146.9ms|nan|nan|
   |高通653|120.3ms|64.2ms|46.6ms|202.5ms|117.6ms|84.8ms|158.6ms|nan|nan| 
 ### <span id = '22'> mobilenetv2 </span>
   |platform | Anakin (1) | Anakin (2) | Anakin (4) | ncnn (1) | ncnn (2) | ncnn (4) | TFlite (1) | TFlite (2) | TFlite (4)| 
   |:---: | :---: | :---: | :---:| :---:| :---:| :---:| :---:| :---:| :---:|
   |麒麟960|93.1ms|53.9ms|34.8ms|144.4ms|84.3ms|55.3ms|100.6ms|nan|nan|
   |高通835|93.0ms|55.6ms|41.1ms|139.1ms|88.4ms|58.1ms|95.2ms|nan|nan|
   |高通653|106.6ms|64.2ms|48.0ms|199.9ms|125.1ms|98.9ms|108.5ms|nan|nan|
 ### <span id = '33'> mobilenet-ssd </span>
   |platform | Anakin (1) | Anakin (2) | Anakin (4) | ncnn (1) | ncnn (2) | ncnn (4) | TFlite (1) | TFlite (2) | TFlite (4)| 
   |:---: | :---: | :---: | :---:| :---:| :---:| :---:| :---:| :---:| :---:|
   |麒麟960|213.9ms|120.5ms|74.5ms|307.9ms|166.5ms|104.2ms|nan|nan|nan|
   |高通835|213.0ms|125.7ms|~~98.4ms~~|292.9ms|177.9ms|~~167.8ms~~|nan|nan|nan|
   |高通653|236.0ms|129.6ms|96.0ms|377.7ms|228.9ms|165.0ms|nan|nan|nan
 ## How to run those Benchmark models?
 1. 首先, 使用[External Converter](../docs/Manual/Converter_en.md)对caffe model 进行转换
 2. 然后将转换后的Anakin model和编译好的benchmark_arm 二进制文件通过'adb push'命令上传至测试机
 3. 接着在测试机含有Anakin model的目录中运行'./benchmark_arm ./ anakin_model.anakin.bin 1 10 10 1' 命令
 4. 最后，终端显示器上将会打印该模型的运行时间
 5. 其中运行命令的参数个数和含义可以通过运行'./benchmark_arm'看到
--- a/doc/fluid/new_docs/advanced_usage/deploy/anakin_example.md
+++ b/doc/fluid/new_docs/advanced_usage/deploy/anakin_example.md
@ -0,0 +1,28 @@
 # Example
 Anakin目前只支持NCHW的格式
 示例文件在test/framework/net下
 ## 在NV的GPU上运行CNN模型
 示例文件为打开example_nv_cnn_net.cpp，整体流程如下：
 - 将模型的的path设置为anakin模型的路径，初始化NV平台的图对象。 anakin模型可以通过转换器转化caffe或fluid的模型得到
 - 根据模型设置网络图的输入尺寸，进行图优化
 - 根据优化后的网络图初始化网络执行器
 - 取出网络的输入tensor，将数据拷贝到输入tensor
 - 运行推导
 - 取出网络的输出tensor
 以NV平台为例演示Anakin框架的使用方法，注意编译时需要打开GPU编译开关
 ## 在X86上运行RNN模型
 示例文件为example_x86_rnn_net.cpp
 整体流程与在NV的GPU上运行CNN模型相似，不同之处如下：
 - 使用X86标识初始化图对象和网络执行器对象
 - rnn模型的输入尺寸是可变的，初始化图时的输入维度是维度的最大值，输入维度N代表总的词的个数。还需要设置输入tensor的seq_offset来标示这些词是如何划分为句子的,如{0,5,12}表示共有12个词，其中第0到第4个词是第一句话，第5到第11个词是第二句话
 以X86平台为例演示Anakin框架的使用方法，注意编译时需要打开X86编译开关
 ## 在NV的GPU上使用Anakin的线程池运行CNN模型
 示例文件为example_nv_cnn_net_multi_thread.cpp ，示例使用worker的同步预测接口
 整体流程与在NV的GPU上运行CNN模型相似，不同之处如下：
 - 用模型地址和线程池大小初始化worker对象
 - 将输入tensor注入任务队列,获得输出tensor
--- a/doc/fluid/new_docs/advanced_usage/deploy/anakin_gpu_benchmark.md
+++ b/doc/fluid/new_docs/advanced_usage/deploy/anakin_gpu_benchmark.md
@ -0,0 +1,170 @@
 # Anakin GPU Benchmark
 ## Machine:
 >  CPU: `12-core Intel(R) Xeon(R) CPU E5-2620 v2 @2.10GHz`
 >  GPU: `Tesla P4`
 >  cuDNN: `v7`
 ## Counterpart of anakin  :
 The counterpart of **`Anakin`** is the acknowledged high performance inference engine **`NVIDIA TensorRT 3`** ,   The models which TensorRT 3 doesn't support we use the custom plugins  to support.
 ## Benchmark Model
 The following convolutional neural networks are tested with both `Anakin` and `TenorRT3`.
 You can use pretrained caffe model or the model trained by youself.
 > Please note that you should transform caffe model or others into anakin model with the help of [`external converter ->`](../docs/Manual/Converter_en.md)
 - [Vgg16](#1)   *caffe model can be found [here->](https://gist.github.com/jimmie33/27c1c0a7736ba66c2395)*
 - [Yolo](#2)  *caffe model can be found [here->](https://github.com/hojel/caffe-yolo-model)*
 - [Resnet50](#3)  *caffe model can be found [here->](https://github.com/KaimingHe/deep-residual-networks#models)*
 - [Resnet101](#4)  *caffe model can be found [here->](https://github.com/KaimingHe/deep-residual-networks#models)*
 - [Mobilenet v1](#5)  *caffe model can be found [here->](https://github.com/shicai/MobileNet-Caffe)*
 - [Mobilenet v2](#6)  *caffe model can be found [here->](https://github.com/shicai/MobileNet-Caffe)*
 - [RNN](#7)  *not support yet*
 We tested them on single-GPU with single-thread.
 ### <span id = '1'>VGG16 </span>
 - Latency (`ms`) of different batch
 | BatchSize | TensorRT | Anakin |
 | --- | --- | --- |
 | 1 | 8.8690 | 8.2815 |
 | 2 | 15.5344 | 13.9116 |
 | 4 | 26.6000 | 21.8747 |
 | 8 | 49.8279 | 40.4076 |
 | 32 | 188.6270 | 163.7660 |
 - GPU Memory Used (`MB`)
 | BatchSize | TensorRT | Anakin |
 | --- | --- | --- |
 | 1 | 963 | 997 |
 | 2 | 965 | 1039 |
 | 4 | 991 | 1115 |
 | 8 | 1067 | 1269 |
 | 32 | 1715 | 2193 |
 ### <span id = '2'>Yolo </span>
 - Latency (`ms`) of different batch
 | BatchSize | TensorRT | Anakin |
 | --- | --- | --- |
 | 1 | 16.4596| 15.2124 |
 | 2 | 26.6347| 25.0442 |
 | 4 | 43.3695| 43.5017 |
 | 8 | 80.9139 | 80.9880 |
 | 32 | 293.8080| 310.8810 |
 - GPU Memory Used (`MB`)
 | BatchSize | TensorRT | Anakin |
 | --- | --- | --- |
 | 1 | 1569 | 1775 |
 | 2 | 1649 | 1815 |
 | 4 | 1709 | 1887 |
 | 8 | 1731 | 2031 |
 | 32 | 2253 | 2907 |
 ### <span id = '3'> Resnet50 </span>
 - Latency (`ms`) of different batch
 | BatchSize | TensorRT | Anakin |
 | --- | --- | --- |
 | 1 | 4.2459   |  4.1061 |
 | 2 |  6.2627  |  6.5159 |
 | 4 | 10.1277  | 11.3327 |
 | 8 | 17.8209  | 20.6680 |
 | 32 | 65.8582 | 77.8858 |
 - GPU Memory Used (`MB`)
 | BatchSize | TensorRT | Anakin |
 | --- | --- | --- |
 | 1 | 531  | 503 |
 | 2 | 543  | 517 |
 | 4 | 583 | 541 |
 | 8 | 611 | 589 |
 | 32 |  809 | 879 |
 ### <span id = '4'> Resnet101 </span>
 - Latency (`ms`) of different batch
 | BatchSize | TensorRT | Anakin |
 | --- | --- | --- |
 | 1 | 7.5562 | 7.0837 |
 | 2 | 11.6023 | 11.4079 |
 | 4 | 18.3650 | 20.0493 |
 | 8 | 32.7632 | 36.0648 |
 | 32 | 123.2550 | 135.4880 |
 - GPU Memory Used (`MB)`
 | BatchSize | TensorRT | Anakin |
 | --- | --- | --- |
 | 1 | 701  | 683 |
 | 2 | 713  | 697 |
 | 4 | 793 | 721 |
 | 8 | 819 | 769 |
 | 32 | 1043 | 1059 |
 ###  <span id = '5'> MobileNet V1 </span>
 - Latency (`ms`) of different batch
 | BatchSize | TensorRT | Anakin |
 | --- | --- | --- |
 | 1 | 45.5156  |  1.3947 |
 | 2 |  46.5585  |  2.5483 |
 | 4 | 48.4242  | 4.3404 |
 | 8 |  52.7957 |  8.1513 |
 | 32 | 83.2519 | 31.3178 |
 - GPU Memory Used (`MB`)
 | BatchSize | TensorRT | Anakin |
 | --- | --- | --- |
 | 1 | 329  | 283 |
 | 2 | 345  | 289 |
 | 4 | 371 | 299 |
 | 8 | 393 | 319 |
 | 32 |  531 | 433 |
 ###  <span id = '6'> MobileNet V2</span>
 - Latency (`ms`) of different batch
 | BatchSize | TensorRT | Anakin |
 | --- | --- | --- |
 | 1 | 65.6861 | 2.9842 |
 | 2 | 66.6814 | 4.7472 |
 | 4 | 69.7114 | 7.4163 |
 | 8 | 76.1092 | 12.8779 |
 | 32 | 124.9810 | 47.2142 |
 - GPU Memory Used (`MB`)
 | BatchSize | TensorRT | Anakin |
 | --- | --- | --- |
 | 1 | 341 | 293 |
 | 2 | 353 | 301 |
 | 4 | 385 | 319 |
 | 8 | 421 | 351 |
 | 32 | 637 | 551 |
 ## How to run those Benchmark models?
 > 1. At first, you should parse the caffe model with [`external converter`](https://github.com/PaddlePaddle/Anakin/blob/b95f31e19993a192e7428b4fcf852b9fe9860e5f/docs/Manual/Converter_en.md).
 > 2. Switch to *source_root/benchmark/CNN* directory. Use 'mkdir ./models' to create ./models and put anakin models into this file.
 > 3. Use command 'sh run.sh', we will create files in logs to save model log with different batch size. Finally, model latency summary will be displayed on the screen.
 > 4. If you want to get more detailed information with op time, you can modify CMakeLists.txt with setting `ENABLE_OP_TIMER` to `YES`, then recompile and run. You will find detailed information in  model log file.
--- a/doc/fluid/new_docs/advanced_usage/deploy/anakin_tutorial.md
+++ b/doc/fluid/new_docs/advanced_usage/deploy/anakin_tutorial.md
--- a/doc/fluid/new_docs/advanced_usage/deploy/build_and_install_lib_cn.rst
+++ b/doc/fluid/new_docs/advanced_usage/deploy/build_and_install_lib_cn.rst
@ -0,0 +1,99 @@
 .. _install_or_build_cpp_inference_lib:
 安装与编译C++预测库
 ===========================
 直接下载安装
 -------------
 ======================   ========================================
 版本说明                            C++预测库   
 ======================   ========================================
 cpu_avx_mkl              `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_CpuAvxCp27cp27mu/.lastSuccessful/fluid.tgz>`_ 
 cpu_avx_openblas         `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_CpuAvxOpenblas/.lastSuccessful/fluid.tgz>`_
 cpu_noavx_openblas       `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_CpuNoavxOpenblas/.lastSuccessful/fluid.tgz>`_
 cuda7.5_cudnn5_avx_mkl   `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_Cuda75cudnn5cp27cp27mu/.lastSuccessful/fluid.tgz>`_
 cuda8.0_cudnn5_avx_mkl   `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_Cuda80cudnn5cp27cp27mu/.lastSuccessful/fluid.tgz>`_
 cuda8.0_cudnn7_avx_mkl   `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_Cuda8cudnn7cp27cp27mu/.lastSuccessful/fluid.tgz>`_
 cuda9.0_cudnn7_avx_mkl   `fluid.tgz <https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_Cuda90cudnn7avxMkl/.lastSuccessful/fluid.tgz>`_
 ======================   ========================================
 从源码编译
 ----------
 用户也可以从 PaddlePaddle 核心代码编译C++预测库，只需在编译时配制下面这些编译选项：
 =================   =========
 选项                 值   
 =================   =========
 CMAKE_BUILD_TYPE    Release
 FLUID_INSTALL_DIR   安装路径    
 WITH_FLUID_ONLY     ON（推荐）
 WITH_SWIG_PY        OFF（推荐
 WITH_PYTHON         OFF（推荐）
 WITH_GPU            ON/OFF
 WITH_MKL            ON/OFF
 =================   =========
 建议按照推荐值设置，以避免链接不必要的库。其它可选编译选项按需进行设定。
 下面的代码片段从github拉取最新代码，配制编译选项（需要将PADDLE_ROOT替换为PaddlePaddle预测库的安装路径）：
  .. code-block:: bash
     pip install paddlepaddle-gpu
     PADDLE_ROOT=/path/of/capi
     git clone https://github.com/PaddlePaddle/Paddle.git
     cd Paddle
     mkdir build
     cd build
     cmake -DFLUID_INSTALL_DIR=$PADDLE_ROOT \
           -DCMAKE_BUILD_TYPE=Release \
           -DWITH_FLUID_ONLY=ON \
           -DWITH_SWIG_PY=OFF \
           -DWITH_PYTHON=OFF \
           -DWITH_MKL=OFF \
           -DWITH_GPU=OFF  \
           ..
      make
      make inference_lib_dist
 成功编译后，使用C++预测库所需的依赖（包括：（1）编译出的PaddlePaddle预测库和头文件；（2）第三方链接库和头文件；（3）版本信息与编译选项信息）
 均会存放于PADDLE_ROOT目录中。目录结构如下：
  .. code-block:: text
     PaddleRoot/
     ├── CMakeCache.txt
     ├── paddle
     │   └── fluid
     │       ├── framework
     │       ├── inference
     │       ├── memory
     │       ├── platform
     │       ├── pybind
     │       └── string
     ├── third_party
     │   ├── boost
     │   │   └── boost
     │   ├── eigen3
     │   │   ├── Eigen
     │   │   └── unsupported
     │   └── install
     │       ├── gflags
     │       ├── glog
     │       ├── mklml
     │       ├── protobuf
     │       ├── snappy
     │       ├── snappystream
     │       └── zlib
     └── version.txt
 version.txt 中记录了该预测库的版本信息，包括Git Commit ID、使用OpenBlas或MKL数学库、CUDA/CUDNN版本号，如：
  .. code-block:: text
     GIT COMMIT ID: c95cd4742f02bb009e651a00b07b21c979637dc8
     WITH_MKL: ON
     WITH_GPU: ON
     CUDA version: 8.0
     CUDNN version: v5
--- a/doc/fluid/new_docs/advanced_usage/deploy/convert_paddle_to_anakin.md
+++ b/doc/fluid/new_docs/advanced_usage/deploy/convert_paddle_to_anakin.md
@ -0,0 +1,73 @@
 # 模型转换指南
 Anakin 支持不同框架的模型预测。但由于格式的差别，Anakin 需要您预先转换模型。本文档介绍如何转换模型。
 ## 简介
 Anakin 模型转换器输入支持 Caffe 和 Fluid 两种格式的预测模型，模型包含网络结构（model 或 prototxt）和权重参数（param 或 caffemodel）。   
 模型转换的输出是一个 bin 文件，它作为 Anakin 框架的 graph 参数导入。   
 您还可以使用模型转换器的 launch board 功能生成网络结构的 HTML 预览。   
 ## 系统要求
 - python 2.7+
 - pyyaml
 - flask
 - protobuf 3.5+
 ## 用法
 ### 1、环境
 转换器所需的依赖标注于 *系统要求* 一节。
 ### 2、配置
 您需要对 *config.yaml* 文件进行修改以告知您的需求。工程中给出了 *config.yaml* 示例，下面作进一步说明。
 #### config.yaml
 ```bash
 OPTIONS:
    Framework: CAFFE       # 依框架类型填写 CAFFE 或 FLUID
    SavePath: ./output     # 转换结束后模型的保存位置
    ResultName: googlenet  # 输出模型的名字
    Config:
        LaunchBoard: ON    # 是否生成网络结构预览页面
        Server:
            ip: 0.0.0.0
            port: 8888     # 从一个可用端口访问预览页面
        OptimizedGraph:    # 当您使用了 Anakin 框架的 Optimized 功能时，才应该打开此项
            enable: OFF
            path: /path/to/anakin_optimized_anakin_model/googlenet.anakin.bin.saved
    LOGGER:
        LogToPath: ./log/  # 生成日志的路径
        WithColor: ON
 TARGET:
    CAFFE:
        # 当 Framework 为 CAFFE 时需填写
        ProtoPaths:
            - /path/to/caffe/src/caffe/proto/caffe.proto
        PrototxtPath: /path/to/your/googlenet.prototxt
        ModelPath: /path/to/your/googlenet.caffemodel
    FLUID:
        # 当 Framework 为 FLUID 时需填写
        Debug: NULL
        ProtoPaths:
            - /
        PrototxtPath: /path/to/fluid/inference_model
        ModelPath: /path/to/fluid/inference_model
 	# ...
 ```
 ### 3、转换
 在完成配置文件的修改后，您只需执行 ```python converter.py``` 就可以进行模型转换了。
 ### 4、预览
 最后一步，就是在浏览器中查看令人振奋的转换结果！网址是在 *config.yaml* 中配置的，例如 http://0.0.0.0:8888 。
 > 注意：若您使用了默认的 IP 地址 0.0.0.0，请在预览时使用真实的服务器地址 real_ip:port 替代它。
--- a/doc/fluid/new_docs/advanced_usage/deploy/how_to_add_anakin_op.md
+++ b/doc/fluid/new_docs/advanced_usage/deploy/how_to_add_anakin_op.md
--- a/doc/fluid/new_docs/advanced_usage/deploy/how_to_support_new_device_in_anakin.md
+++ b/doc/fluid/new_docs/advanced_usage/deploy/how_to_support_new_device_in_anakin.md
--- a/doc/fluid/new_docs/advanced_usage/deploy/index_anakin.rst
+++ b/doc/fluid/new_docs/advanced_usage/deploy/index_anakin.rst
@ -0,0 +1,26 @@
 服务器端部署 - Anakin
 #####################
 使用文档
 ~~~~~~~
 .. toctree::
   :maxdepth: 1
   install_anakin.md
   convert_paddle_to_anakin.md
   run_anakin_on_arm.md
   anakin_tutorial.md
   anakin_example.md
   anakin_gpu_benchmark.md
   anakin_arm_benchmark.md
 开发文档
 ~~~~~~~
 .. toctree::
   :maxdepth: 1
   how_to_add_anakin_op.md
   how_to_support_new_device_in_anakin.md
--- a/doc/fluid/new_docs/advanced_usage/deploy/index_mobile.rst
+++ b/doc/fluid/new_docs/advanced_usage/deploy/index_mobile.rst
@ -0,0 +1,9 @@
 移动端部署
 ##########
 .. toctree::
   :maxdepth: 2
   mobile_build.md
   mobile_dev.md
--- a/doc/fluid/new_docs/advanced_usage/deploy/index_native.rst
+++ b/doc/fluid/new_docs/advanced_usage/deploy/index_native.rst
@ -0,0 +1,8 @@
 服务器端部署 - 原生引擎
 #######################
 ..  toctree::
    :maxdepth: 2
    build_and_install_lib_cn.rst
    native_infer.rst
--- a/doc/fluid/new_docs/advanced_usage/deploy/install_anakin.md
+++ b/doc/fluid/new_docs/advanced_usage/deploy/install_anakin.md
@ -0,0 +1,69 @@
 ## 从源码编译安装Anakin ##
 我们已经在CentOS 7.3上成功的安装和测试了Anakin，对于其他操作系统，我们将很快支持。
 ### 安装概览 ###
 * [在CentOS上安装 Anakin]()
 * [在Ubuntu上安装 Anakin]()
 * [在ARM上安装 Anakin](run_on_arm_ch.md)
 * [验证安装]()
 ### 在CentOS上安装 Anakin ###
 #### 1. 系统要求 ####
 *  make 3.82+
 *  cmake 2.8.12+
 *  gcc 4.8.2+
 *  g++ 4.8.2+
 *  其他需要补充的。。。
 #### 2. 编译CPU版Anakin ####
 暂时不支持
 #### 3. 编译支持NVIDIA GPU的Anakin ####
 - 3.1. 安装依赖
  - 3.1.1 protobuf  
    >$ git clone https://github.com/google/protobuf  
    >$ cd protobuf  
    >$ git submodule update --init --recursive  
    >$ ./autogen.sh  
    >$ ./configure --prefix=/path/to/your/insall_dir  
    >$ make  
    >$ make check  
    >$ make install  
    >$ sudo ldconfig
    如安装protobuf遇到任何问题，请访问[这里](https://github.com/google/protobuf/blob/master/src/README.md)
 - 3.2 CUDA Toolkit
  - [CUDA 8.0](https://developer.nvidia.com/cuda-zone) or higher. 具体信息参见[NVIDIA's documentation](https://docs.nvidia.com/cuda/cuda-installation-guide-linux/).
  - [cuDNN v7](https://developer.nvidia.com/cudnn). 具体信息参见[NVIDIA's documentation](https://docs.nvidia.com/cuda/cuda-installation-guide-linux/). 
 - 3.3  编译Anakin
  >$ git clone https:/xxxxx  
  >$ cd anakin  
  >$ mkdir build  
  >$ camke ..  
  >$ make
 #### 4. 编译支持AMD GPU的Anakin ####
 暂时还不支持
 ### 在Ubuntu上安装 Anakin ###
 暂时还不支持
 ### 在ARM上安装 Anakin ###
 暂时还不支持
 ### 验证安装 ###
 we are coming soon...
--- a/doc/fluid/new_docs/advanced_usage/deploy/mobile_build.md
+++ b/doc/fluid/new_docs/advanced_usage/deploy/mobile_build.md
@ -0,0 +1,59 @@
 # 环境搭建
 ## 使用 docker
 ### 1. 安装 docker
 安装 docker 的方式，参考官方文档 [https://docs.docker.com/install/](https://docs.docker.com/install/)
 ### 2. 使用 docker 搭建构建环境
 首先进入 paddle-mobile 的目录下，执行 `docker build`
 以 Linux/Mac 为例 (windows 建议在 'Docker Quickstart Terminal' 中执行)
 ```
 $ docker build -t paddle-mobile:dev - < Dockerfile
 ```
 使用 `docker images` 可以看到我们新建的 image
 ```
 $ docker images
 REPOSITORY      TAG     IMAGE ID       CREATED         SIZE
 paddle-mobile   dev     33b146787711   45 hours ago    372MB
 ```
 ### 3. 使用 docker 构建
 进入 paddle-mobile 目录，执行 docker run
 ```
 $ docker run -it --mount type=bind,source=$PWD,target=/paddle-mobile paddle-mobile:dev
 root@5affd29d4fc5:/ # cd /paddle-mobile
 # 生成构建 android 产出的 Makefile
 root@5affd29d4fc5:/ # rm CMakeCache.txt
 root@5affd29d4fc5:/ # cmake -DCMAKE_TOOLCHAIN_FILE=tools/toolchains/arm-android-neon.cmake
 # 生成构建 linux 产出的 Makefile
 root@5affd29d4fc5:/ # rm CMakeCache.txt
 root@5affd29d4fc5:/ # cmake -DCMAKE_TOOLCHAIN_FILE=tools/toolchains/arm-linux-gnueabi.cmake
 ```
 ### 4. 设置编译选项
 可以通过 ccmake 设置编译选项
 ```
 root@5affd29d4fc5:/ # ccmake .
                                                     Page 1 of 1
 CMAKE_ASM_FLAGS
 CMAKE_ASM_FLAGS_DEBUG
 CMAKE_ASM_FLAGS_RELEASE
 CMAKE_BUILD_TYPE
 CMAKE_INSTALL_PREFIX             /usr/local
 CMAKE_TOOLCHAIN_FILE             /paddle-mobile/tools/toolchains/arm-android-neon.cmake
 CPU                              ON
 DEBUGING                         ON
 FPGA                             OFF
 LOG_PROFILE                      ON
 MALI_GPU                         OFF
 NET                              googlenet
 USE_EXCEPTION                    ON
 USE_OPENMP                       OFF
 ```
 修改选项后，按 `c`, `g` 更新 Makefile
 ### 5. 构建
 使用 make 命令进行构建
 ```
 root@5affd29d4fc5:/ # make
 ```
 ### 6. 查看构建产出
 构架产出可以在 host 机器上查看，在 paddle-mobile 的目录下，build 以及 test/build 下，可以使用 adb 指令或者 scp 传输到 device 上执行
 ## 不使用 docker
 不使用 docker 的方法，可以直接用 cmake 生成 makefile 后构建。使用 ndk 构建 android 应用需要正确设置 NDK_ROOT。构建 linux 应用需要安装 arm-linux-gnueabi-gcc 或者类似的交叉编译工具，可能需要设置 CC，CXX 环境变量，或者在 tools/toolchains/ 中修改 arm-linux-gnueabi.cmake，或者增加自己需要的 toolchain file。
--- a/doc/fluid/new_docs/advanced_usage/deploy/mobile_dev.md
+++ b/doc/fluid/new_docs/advanced_usage/deploy/mobile_dev.md
@ -0,0 +1,72 @@
 # iOS开发文档
 ## 编译
 ### 一. 使用 build.sh 编译
 ```sh 
 sh build.sh ios
 # 如果只想编译某个特定模型的 op, 则需执行以下命令
 sh build.sh ios googlenet
 # 在这个文件夹下, 你可以拿到生成的 .a 库
 cd ../build/release/ios/build
 ```
 ### 二. 使用 xcode 编译
 我们提供了 ios 开发更为熟悉的 xcode 编译环境:
 在 ios/ 目录下打开 PaddleMobile.xcworkspace 即可编译 PaddleMobile 或者 运行 Demo
 ### 三. 集成
 #### 如使用 c++ 接口
 将 
 ```
 libpaddle-mobile.a 
 io.h  
 program.h 
 types.h 
 lod_tensor.h 
 tensor.h
 ```
 拖入工程, io.h 为接口文件, 可在 [github](https://github.com/PaddlePaddle/paddle-mobile/blob/develop/src/io/io.h)上查看接口注释
 #### 如使用 oc 接口
 将在xcode 编译生成的
 ```
 libPaddleMobile.a 
 PaddleMobile.h
 ```
 拖入工程, 接口如下:
 ```
 /*
 	创建单例对象
 */
 + (instancetype)sharedInstance;
 /*
 	load 模型, 开辟内存
 */
 - (BOOL)load:(NSString *)modelPath andWeightsPath:(NSString *)weighsPath;
 /*
 	进行预测, means 和 scale 为训练模型时的预处理参数, 如训练时没有做这些预处理则直接使用 predict
 */
 - (NSArray *)predict:(CGImageRef)image means:(NSArray<NSNumber *> *)means scale:(float)scale;
 /*
 	进行预测
 */
 - (NSArray *)predict:(CGImageRef)image;
 /*
 	清理内存
 */
 - (void)clear;
 ```
--- a/doc/fluid/new_docs/advanced_usage/deploy/native_infer.rst
+++ b/doc/fluid/new_docs/advanced_usage/deploy/native_infer.rst
@ -0,0 +1,108 @@
 Paddle 预测 API
 ===============
 为了更简单方便的预测部署，Fluid 提供了一套高层 API
 用来隐藏底层不同的优化实现。
 `预测库相关代码 <https://github.com/PaddlePaddle/Paddle/tree/develop/paddle/contrib/inference>`__
 包括
 -  头文件 ``paddle_inference_api.h`` 定义了所有的接口
 -  库文件\ ``libpaddle_fluid.so`` 或 ``libpaddle_fluid.a``
 -  库文件 ``libpaddle_inference_api.so`` 或
   ``libpaddle_inference_api.a``
 编译和依赖可以参考 :ref:`install_or_build_cpp_inference_lib` 。
 下面是一些 API 概念的介绍
 PaddleTensor
 ------------
 PaddleTensor 定义了预测最基本的输入输出的数据格式，其定义是
 .. code:: cpp
    struct PaddleTensor {
      std::string name;  // variable name.
      std::vector<int> shape;
      PaddleBuf data;  // blob of data.
      PaddleDType dtype;
    };
 -  ``name`` 用于指定输入数据对应的 模型中variable 的名字
   （暂时没有用，但会在后续支持任意 target 时启用）
 -  ``shape`` 表示一个 Tensor 的 shape
 -  ``data`` 数据以连续内存的方式存储在\ ``PaddleBuf``
   中，\ ``PaddleBuf``
   可以接收外面的数据或者独立\ ``malloc``\ 内存，详细可以参考头文件中相关定义。
 -  ``dtype`` 表示 Tensor 的数据类型
 engine
 ------
 高层 API 底层有多种优化实现，我们称之为 engine，目前有三种 engine
 -  原生 engine，由 paddle 原生的 forward operator
   组成，可以天然支持所有paddle 训练出的模型，
 -  Anakin engine，封装了
   `Anakin <https://github.com/PaddlePaddle/Anakin>`__
   ，在某些模型上性能不错，但只能接受自带模型格式，无法支持所有 paddle
   模型，
 -  TensorRT mixed engine，用子图的方式支持了
   `TensorRT <https://developer.nvidia.com/tensorrt>`__ ，支持所有paddle
   模型，并自动切割部分计算子图到 TensorRT 上加速（WIP）
 其实现为
 .. code:: cpp
    enum class PaddleEngineKind {
      kNative = 0,       // Use the native Fluid facility.
      kAnakin,           // Use Anakin for inference.
      kAutoMixedTensorRT // Automatically mixing TensorRT with the Fluid ops.
    };
 预测部署过程
 ------------
 总体上分为以下步骤
 1. 用合适的配置创建 ``PaddlePredictor``
 2. 创建输入用的 ``PaddleTensor``\ ，传入到 ``PaddlePredictor`` 中
 3. 获取输出的 ``PaddleTensor`` ，将结果取出
 下面完整演示一个简单的模型，部分细节代码隐去
 .. code:: cpp
    #include "paddle_inference_api.h"
    // 创建一个 config，并修改相关设置
    paddle::NativeConfig config;
    config.model_dir = "xxx";
    config.use_gpu = false;
    // 创建一个原生的 PaddlePredictor
    auto predictor =
          paddle::CreatePaddlePredictor<NativeConfig, PaddleEngineKind::kNative>(config);
    // 创建输入 tensor
    int64_t data[4] = {1, 2, 3, 4};
    paddle::PaddleTensor tensor{.name = "",
                                .shape = std::vector<int>({4, 1}),
                                .data = PaddleBuf(data, sizeof(data)),
                                .dtype = PaddleDType::INT64};
    // 创建输出 tensor，输出 tensor 的内存可以复用
    std::vector<paddle::PaddleTensor> outputs;
    // 执行预测
    CHECK(predictor->Run(slots, &outputs));
    // 获取 outputs ...
 编译时，联编 ``libpaddle_fluid.a/.so`` 和
 ``libpaddle_inference_api.a/.so`` 便可。
 详细代码参考
 ------------
 -  `inference
   demos <https://github.com/PaddlePaddle/Paddle/tree/develop/paddle/contrib/inference/demo>`__
 -  `复杂单线程/多线程例子 <https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/contrib/inference/test_paddle_inference_api_impl.cc>`__
--- a/doc/fluid/new_docs/advanced_usage/deploy/run_anakin_on_arm.md
+++ b/doc/fluid/new_docs/advanced_usage/deploy/run_anakin_on_arm.md
@ -0,0 +1,151 @@
 ## 源码编译 Anakin ##
 目前Anakin支持ARM Android平台，采用Android NDK交叉编译工具链，已在mac os和centos上编译和测试通过。
 ### 安装概览 ###
 * [系统需求](#0001)
 * [安装第三方依赖](#0002)
 * [Anakin源码编译](#0003)
 * [验证安装](#0004)
 ### <span id = '0001'> 1. 系统需求 </span> ###
 *  宿主机: linux, mac    
 *  cmake 3.8.2+    
 *  Android NDK r14, Linux 版本[从这里下载](https://dl.google.com/android/repository/android-ndk-r14b-linux-x86_64.zip)
 ### <span id = '0002'> 2. 安装第三方依赖 </span> ###
 - 2.1 protobuf3.4.0     
   源码从这里[下载](https://github.com/google/protobuf/releases/tag/v3.4.0)    
 - 2.1.1 为宿主机编译protobuf     
 ```bash
   $ tar -xzf protobuf-3.4.0.tar.gz  
   $ cd protobuf-3.4.0   
   $ ./autogen.sh  
   $ ./configure    
   $ make  
   $ make check   
   $ make install
   ```
   上述 $make install 执行后，可在 /usr/local/include/google 找到 libprotobuf 所需的头文件,将整个google文件夹拷贝至Anakin/third-party/arm-android/protobuf/下，
   如有问题，请点[这里](https://github.com/google/protobuf/blob/v3.4.0/src/README.md)。
   然后将已经生成文件清除。
 ```bash
   $ make distclean
   ```
 - 2.1.1 交叉编译Android`armeabi-v7a`的protobuf，注意设置ANDROID_NDK的路径，以及ARCH_ABI、HOSTOSN的值，   
 ```bash
   $ export ANDROID_NDK=your_ndk_path 
   $ ARCH_ABI="arm-linux-androideabi-4.9"
   $ HOSTOSN="darwin-x86_64"
   $ export SYSROOT=$ANDROID_NDK/platforms/android-9/arch-arm  
   $ export PREBUILT=$ANDROID_NDK/toolchains/$ARCH_ABI
   $ export LDFLAGS="--sysroot=$SYSROOT"
   $ export LD="$ANDROID_NDK/toolchains/$ARCH_ABI/prebuilt/$HOSTOSN/arm-linux-androideabi/bin/ld $LDFLAGS"
   $ export LIBS="-llog $ANDROID_NDK/sources/cxx-stl/gnu-libstdc++/4.9/libs/armeabi-v7a/libgnustl_static.a"
   $ export CPPFLAGS=""
   $ export INCLUDES="-I$ANDROID_NDK/sources/cxx-stl/gnu-libstdc++/4.9/include/ -I$ANDROID_NDK/platforms/android-9/arch-arm/usr/include/ -I$ANDROID_NDK/sources/cxx-stl/gnu-libstdc++/4.9/libs/armeabi-v7a/include/"
   $ export CXXFLAGS="-march=armv7-a -mfloat-abi=softfp -DGOOGLE_PROTOBUF_NO_RTTI --sysroot=$SYSROOT"
   $ export CCFLAGS="$CXXFLAGS"
   $ export CXX="$PREBUILT/prebuilt/$HOSTOSN/bin/arm-linux-androideabi-g++ $CXXFLAGS"
   $ export CC="$CXX"
   $ export RANLIB="$ANDROID_NDK/toolchains/$ARCH_ABI/prebuilt/$HOSTOSN/bin/arm-linux-androideabi-ranlib"  
   $ ./autogen.sh  
   $ ./configure --host=arm-linux-androideabi --with-sysroot=$SYSROOT --enable-cross-compile --with-protoc=protoc --disable-shared CXX="$CXX" CC="$CC" LD="$LD"  
   $ make
  ```
  编译生成 *.a 静态库，若希望编译*.so 动态链接库 ，请在./configure参数中改--disable-shared为--disable-static --enable-shared。  
  生成文件在src/.libs/下，将生成的文件拷贝至Anakin/third-party/arm-android/protobuf/lib下。  
  在[cmake](../../cmake/find_modules.cmake)中更新`ARM_RPOTO_ROOT`的路径。        
  ```cmake
  set(ARM_RPOTO_ROOT "${CMAKE_SOURCE_DIR}/third-party/arm-android/protobuf")
  ```
 - 2.2 opencv 2.4.3+(optional)    
    Anakin只在examples示例中使用opencv   
    Android系统的opencv从[这里下载](https://opencv.org/releases.html)    
    解压后将 `3rdparty/libs/armeabi-v7a`中的库文件拷贝到`libs/armeabi-v7a`    
    在[cmake](../../cmake/find_modules.cmake)中搜索`anakin_find_opencv`, 
    并设置 `include_directories` 和 `LINK_DIRECTORIES`为自己安装的库的路径。   
    ```cmake
    include_directories(${CMAKE_SOURCE_DIR}/third-party/arm-android/opencv/sdk/native/jni/include/)
    LINK_DIRECTORIES(${CMAKE_SOURCE_DIR}/third-party/arm-android/opencv/sdk/native/libs/armeabi-v7a/)
    ```
 ### <span id = '0003'> 3. Anakin源码编译 </span> ###
 #### 编译Android版本
   克隆[源码](https://github.com/PaddlePaddle/Anakin/tree/arm)
 ```bash
    cd your_dir
    git clone https://github.com/PaddlePaddle/Anakin.git
    cd Anakin
    git fetch origin arm
    git checkout arm
  ```
  修改`android_build.sh`    
 - 修改NDK路径    
  ```bash
    #modify "your_ndk_path" to your NDK path
    export ANDROID_NDK=your_ndk_path
  ```
 - 修改ARM 处理器架构     
  对于32位ARM处理器, 将ANDROID_ABI 设置为 `armeabi-v7a with NEON`， 
  对于64位ARM处理器, 可以将ANDROID_ABI 设置为 `armeabi-v7a with NEON`或者`arm64-v8a`。        
  目前我们只支持 `armeabi-v7a with NEON`；`arm64-v8a` 还在开发中。      
  ```bash
      -DANDROID_ABI="armeabi-v7a with NEON"
  ```
 - 设置Android API    
  根据Android系统的版本设置API level， 例如API Level 21 -> Android 5.0.1    
  ```bash
      -DANDROID_NATIVE_API_LEVEL=21
  ```
 - 选择编译静态库或动态库    
  设置`BUILD_SHARED=NO`编译静态库    
  设置`BUILD_SHARED=YES`编译动态库    
  ```bash
      -DBUILD_SHARED=NO
  ```
 - OpenMP多线程支持    
  设置`USE_OPENMP=YES`开启OpenMP多线程    
  ```bash
      -DUSE_OPENMP=YES
  ```
 - 编译单测文件    
  设置`BUILD_WITH_UNIT_TEST=YES`将会编译单测文件    
    ```bash
        -DBUILD_WITH_UNIT_TEST=YES
    ```
 - 编译示例文件    
  设置`BUILD_EXAMPLES=YES`将会编译示例文件    
    ```bash
        -DBUILD_EXAMPLES=YES
    ```
 - 开启opencv    
  如果使用opencv，设置`USE_OPENCV=YES`    
    ```bash
        -DUSE_OPENCV=YES
    ```
 - 开始编译    
  运行脚本 `android_build.sh` 将自动编译Anakin     
  ```bash
      ./android_build.sh
  ```
 ### <span id = '0004'> 4. 验证安装 </span> ###    
  编译好的库会放在目录`${Anakin_root}/output`下；    
  编译好的单测文件会放在`${Anakin_root}/output/unit_test`目录下；    
  编译好的示例文件会放在`${Anakin_root}/output/examples`目录下。
  对于Android系统，打开设备的调试模式，通过ADB可以访问的目录是`data/local/tmp`，通过ADB push将测试文件、模型和数据发送到设备目录， 运行测试文件。
--- a/doc/fluid/new_docs/advanced_usage/development/contribute_to_paddle.md
+++ b/doc/fluid/new_docs/advanced_usage/development/contribute_to_paddle.md
@ -0,0 +1 @@
 ../../../dev/contribute_to_paddle_cn.md
--- a/doc/fluid/new_docs/advanced_usage/development/cpu_profiling_cn.md
+++ b/doc/fluid/new_docs/advanced_usage/development/cpu_profiling_cn.md
@ -0,0 +1 @@
 ../../../howto/optimization/cpu_profiling_cn.md
--- a/doc/fluid/new_docs/advanced_usage/development/gpu_profiling_cn.rst
+++ b/doc/fluid/new_docs/advanced_usage/development/gpu_profiling_cn.rst
@ -0,0 +1,242 @@
 ============
 GPU性能调优
 ============
 ..  contents::
 此教程将向您分步介绍如何使用内置的定时工具、 **nvprof** 或 **nvvp** 来运行性能分析和调优。
 - 什么是性能分析？
 - 为什么需要性能分析？
 - 如何进行性能分析？
 - 性能分析工具介绍
 - 详细教程
 - 性能分析小技巧
 什么是性能分析？
 ================
 在软件工程的范畴里，性能分析（Profiling）是一个动态程序分析的术语，它可以指测量一个程序的空间（内存）复杂度或时间复杂度，
 也可以说是某些特定指令的使用情况，或者是函数调用的频率和耗时等。通常情况下，分析得到的信息用于协助进行程序的优化。
 简单来说，性能分析工具是用于给应用程序的性能做定量分析的。如果想很好的理解程序的行为，那程序分析工具是必不可少的利器。简单的性能分析，可以告诉您某个操作到底花了多长时间？而更深入的分析，甚至能解释为什么某个操作花了很长时间？
 为什么需要性能分析？
 ============================
 训练好一个深层神经网络通常要耗费非常长的时间，所以性能也就逐步变成了深度学习领域最重要的指标。
 而优化性能的首要任务，是需要了解哪些步骤拖慢了整体。
 如果某一块根本就不怎么耗时，那也就不需要急着优化性能啦！
 如何进行性能分析？
 ========================
 为了达到性能最优，您可以采用下面五个步骤：
 - 对代码进行性能分析
 - 找到运行慢的部分
 - 找到运行慢的原因
 - 修改成更快的版本
 - 再次对代码进行性能分析
 Usually, processor has two key performance limits include float point throughput and
 memory throughput. For GPU,  it also need more parallelism to fulfill its potential.
 This is why they can be so fast.
 通常情况下，处理器有两个关键性能限制：一个是浮点计算量，另一个是内存操作量。
 GPU则还需要高并行性，才能发挥其全部能力。这正是它们速度快的原因。
 性能分析工具介绍
 ======================
 就通常的GPU性能分析来说，市面上已经有NVIDIA或第三方提供的众多工具。
 **nvprof** 是Nvidia性能分析工具， **nvvp** 则是带GUI的Nvidia可视化性能分析工具。
 在这个教程中，我们主要会介绍nvprof和nvvp。
 :code:`test_GpuProfiler` from :code:`paddle/legacy/math/tests` directory will be used to evaluate
 above profilers.
 :code:`paddle/legacy/math/test` 目录中的 :code:`test_GpuProfiler` 就是用于展示上述分析工具的用法。
 .. literalinclude:: ../../../../paddle/legacy/math/tests/test_GpuProfiler.cpp
   :language: c++
   :lines: 137-151
   :linenos:
 上述的代码片段包含了两种方法，您可以任意使用一个或两个来对感兴趣的代码段做性能分析。
 1. :code:`REGISTER_TIMER_INFO` 是一个内置的定时器封装，可以用来计算CPU函数或cuda内核的时间消耗。
 2. :code:`REGISTER_GPU_PROFILER` is a general purpose wrapper object of :code:`cudaProfilerStart` and :code:`cudaProfilerStop` to avoid
 program crashes when CPU version of PaddlePaddle invokes them.
 3. :code:`REGISTER_GPU_PROFILER` 是一个封装对象，封装了 :code:`cudaProfilerStart` 和 :code:`cudaProfileStop` 两个操作；同时其内部实现可以避免纯CPU版本PaddlePaddle在执行本语句时发生崩溃。
 您会在接下来的部分中获得更多的细节介绍。
 详细教程
 ============
 内置定时器
 ------------
 如果想要启用PaddlePaddle的内置定时器，您首先需要在相关代码段中加入 :code:`REGISTER_TIMER_INFO`。
 接下来就可以使用 :code:`printStatus` 或者 :code:`printAllStatus` 函数来将信息输出到界面中。
 下面举个简单的例子：
 1. 加入 :code:`REGISTER_TIMER_INFO` 和 :code:`printAllStatus` 函数（如高亮部分）。
    .. literalinclude:: ../../../../paddle/legacy/math/tests/test_GpuProfiler.cpp
        :language: c++
        :lines: 137-151
        :emphasize-lines: 8-12,14
        :linenos:
 2. cmake配置中将 **WITH_TIMER** 打开，重新编译PaddlePaddle。
    .. code-block:: bash
        cmake .. -DWITH_TIMER=ON
        make
 3. 执行您的代码，并观察结果(如高亮部分）。
    .. code-block:: bash
        :emphasize-lines: 1,12-15
        > ./paddle/legacy/math/tests/test_GpuProfiler
        I1117 11:13:42.313065 2522362816 Util.cpp:155] commandline: ./paddle/legacy/math/tests/test_GpuProfiler
        I1117 11:13:42.845065 2522362816 Util.cpp:130] Calling runInitFunctions
        I1117 11:13:42.845208 2522362816 Util.cpp:143] Call runInitFunctions done.
        [==========] Running 1 test from 1 test case.
        [----------] Global test environment set-up.
        [----------] 1 test from Profiler
        [ RUN      ] Profiler.BilinearFwdBwd
        I1117 11:13:42.845310 2522362816 test_GpuProfiler.cpp:114] Enable GPU Profiler Stat: [testBilinearFwdBwd] "numSamples = 10, channels = 16, im
        gSizeX = 64, imgSizeY = 64"
        I1117 11:13:42.850154 2522362816 ThreadLocal.cpp:37] thread use undeterministic rand seed:20659751
        I1117 11:13:42.981501 2522362816 Stat.cpp:130] ======= StatSet: [GlobalStatInfo] status ======
        I1117 11:13:42.981539 2522362816 Stat.cpp:133] Stat=testBilinearFwdBwd     total=136.141    avg=136.141    max=136.141    min=136.141   count=1
        I1117 11:13:42.981572 2522362816 Stat.cpp:141] ======= BarrierStatSet status ======
        I1117 11:13:42.981575 2522362816 Stat.cpp:154] --------------------------------------------------
        [       OK ] Profiler.BilinearFwdBwd (136 ms)
        [----------] 1 test from Profiler (136 ms total)
        [----------] Global test environment tear-down
        [==========] 1 test from 1 test case ran. (136 ms total)
        [  PASSED  ] 1 test.
 nvprof 工具
 ----------------
 要使用命令行分析工具 **nvprof**，您按如下步骤操作即可：
 1. 将 :code:`REGISTER_GPU_PROFILER` 函数加到代码中（参考强调部分）。
    .. literalinclude:: ../../../../paddle/legacy/math/tests/test_GpuProfiler.cpp
        :language: c++
        :lines: 137-151
        :emphasize-lines: 6-7
        :linenos:
 2. cmake中将 **WITH_PROFILER** 配置打开，重新编译PaddlePaddle。
    .. code-block:: bash
        cmake .. -DWITH_PROFILER=ON
        make
 3. 使用 **nvprof** 来分析执行文件。
    .. code-block:: bash
        nvprof  ./paddle/legacy/math/tests/test_GpuProfiler
 然后，您就能获得如下的分析结果：
 .. code-block:: bash
    ==78544== Profiling application: ./paddle/legacy/math/tests/test_GpuProfiler
    ==78544== Profiling result:
    Time(%)     Time     Calls       Avg       Min       Max  Name
    27.60%  9.6305ms         5  1.9261ms  3.4560us  6.4035ms  [CUDA memcpy HtoD]
    26.07%  9.0957ms         1  9.0957ms  9.0957ms  9.0957ms  KeBilinearInterpBw
    23.78%  8.2977ms         1  8.2977ms  8.2977ms  8.2977ms  KeBilinearInterpFw
    22.55%  7.8661ms         2  3.9330ms  1.5798ms  6.2863ms  [CUDA memcpy DtoH]
    ==78544== API calls:
    Time(%)     Time     Calls       Avg       Min       Max  Name
    46.85%  682.28ms         8  85.285ms  12.639us  682.03ms  cudaStreamCreateWithFlags
    39.83%  580.00ms         4  145.00ms     302ns  550.27ms  cudaFree
    9.82%   143.03ms         9  15.892ms  8.7090us  142.78ms  cudaStreamCreate
    1.23%   17.983ms         7  2.5690ms  23.210us  6.4563ms  cudaMemcpy
    1.23%   17.849ms         2  8.9247ms  8.4726ms  9.3768ms  cudaStreamSynchronize
    0.66%   9.5969ms         7  1.3710ms  288.43us  2.4279ms  cudaHostAlloc
    0.13%   1.9530ms        11  177.54us  7.6810us  591.06us  cudaMalloc
    0.07%   1.0424ms         8  130.30us  1.6970us  453.72us  cudaGetDevice
    0.04%   527.90us        40  13.197us     525ns  253.99us  cudaEventCreateWithFlags
    0.03%   435.73us       348  1.2520us     124ns  42.704us  cuDeviceGetAttribute
    0.03%   419.36us         1  419.36us  419.36us  419.36us  cudaGetDeviceCount
    0.02%   260.75us         2  130.38us  129.32us  131.43us  cudaGetDeviceProperties
    0.02%   222.32us         2  111.16us  106.94us  115.39us  cudaLaunch
    0.01%   214.06us         4  53.514us  28.586us  77.655us  cuDeviceGetName
    0.01%   115.45us         4  28.861us  9.8250us  44.526us  cuDeviceTotalMem
    0.01%   83.988us         4  20.997us     578ns  77.760us  cudaSetDevice
    0.00%   38.918us         1  38.918us  38.918us  38.918us  cudaEventCreate
    0.00%   34.573us        31  1.1150us     279ns  12.784us  cudaDeviceGetAttribute
    0.00%   17.767us         1  17.767us  17.767us  17.767us  cudaProfilerStart
    0.00%   15.228us         2  7.6140us  3.5460us  11.682us  cudaConfigureCall
    0.00%   14.536us         2  7.2680us  1.1490us  13.387us  cudaGetLastError
    0.00%   8.6080us        26     331ns     173ns     783ns  cudaSetupArgument
    0.00%   5.5470us         6     924ns     215ns  2.6780us  cuDeviceGet
    0.00%   5.4090us         6     901ns     328ns  3.3320us  cuDeviceGetCount
    0.00%   4.1770us         3  1.3920us  1.0630us  1.8300us  cuDriverGetVersion
    0.00%   3.4650us         3  1.1550us  1.0810us  1.2680us  cuInit
    0.00%      830ns         1     830ns     830ns     830ns  cudaRuntimeGetVersion
 nvvp 工具
 --------------
 如果想使用可视化的分析器 **nvvp**，您可以导入 :code:`nvprof -o ...` 的输出，或者从工具的界面里运行您的应用。
 **备注: nvvp 也支持CPU的性能分析** (需在nvvp界面中选上才能开启）
 ..  image:: nvvp1.png
    :align: center
    :scale: 33%
 从内核函数的角度， **nvvp** 可以精确说明一个长耗时操作的具体原因。
 同时，如下图所示， **nvvp** 的内核block使用情况、寄存器使用情况和共享内存使用情况能让我们对GPU的整体使用有更好的理解。
 ..  image:: nvvp2.png
    :align: center
    :scale: 33%
 而从应用的角度， **nvvp** 可以帮您提供一些定位性能瓶颈的建议。
 例如，下图中就展示了一些关于内存数据迁徙和计算资源利用率的建议，为您做性能调优提供了方向。
 ..  image:: nvvp3.png
    :align: center
    :scale: 33%
 ..  image:: nvvp4.png
    :align: center
    :scale: 33%
 性能分析小技巧
 ==================
 - 开始阶段，从 **nvprof** 和 **nvvp** 的输出信息入手是个不错的选择。
 - 接下来可以考虑下时间线的分析。
 - 如果真想挖掘内核深处的某个秘密，您最好先确认：这一块的耗时比例真的太高，值得深入分析。
 - 可能的情况下，试着让输出的分析数据和理论值对应。
    1) 例如，如果我知道内核花了10ms来移动1GB数据，那我会期望分析工具统计到速度是100GB/s。
    2) 若有不一致之处，很有可能实际应用就是没有按照您的预期情况运行。
 - 了解您的硬件：如果您的GPU理论可以达到6 TFLOPs（6万亿次浮点运算每秒），而当前已经有5.5 TFLOPs了，那估计这里的潜力就没啥好挖的了……
 性能分析是性能优化的关键一步。有的时候简简单单的改变就能在性能上产生明显的优化效果！
 当然，具体情况因人而异。
 参考资料
 ===========
 Jeremy Appleyard, `GPU Profiling for Deep Learning <http://www.robots.ox.ac.uk/~seminars/seminars/Extra/2015_10_08_JeremyAppleyard.pdf>`_, 2015
--- a/doc/fluid/new_docs/advanced_usage/development/host_memory_profiling_cn.md
+++ b/doc/fluid/new_docs/advanced_usage/development/host_memory_profiling_cn.md
@ -0,0 +1 @@
 ../../../howto/optimization/host_memory_profiling_cn.md
--- a/doc/fluid/new_docs/advanced_usage/development/new_op.md
+++ b/doc/fluid/new_docs/advanced_usage/development/new_op.md
@ -0,0 +1 @@
 ../../../dev/new_op_cn.md
--- a/doc/fluid/new_docs/advanced_usage/development/nvvp1.png
+++ b/doc/fluid/new_docs/advanced_usage/development/nvvp1.png
--- a/Show More
+++ b/Show More
		`@ -0,0 +1 @@`
							`../../../howto/optimization/cpu_profiling_cn.md`
		`@ -0,0 +1 @@`
							`../../../howto/optimization/host_memory_profiling_cn.md`