fluid_cluster_train_cn_doc

helinwang-patch-1
tangwei12 7 years ago
parent 85db0ae746
commit 7aa48dea11

@ -58,7 +58,7 @@ exit(1)
我们创建了一个简单的全连接神经网络程序并且通过fluid的Executor执行了100次迭代,现在我们需要将该非分布式版本的程序更新为分布式版本的程序。
### 介绍Parameter Server
在非分布式版本的训练脚本中只存在Trainer一种角色它不仅处理常规的计算任务也处理参数相关的计算和保存任务。在分布式版本的训练过程中由于存在多个Trainer节点进行同样的数据计算任务因此需要有一个中心化的节点来统一处理参数相关的保存和分配。在PaddlePaddle中我们称这样的节点为Parameter Server, ![Parameter Server 设计文档](https://github.com/PaddlePaddle/Paddle/blob/develop/doc/fluid/design/dist_train/parameter_server.md)
在非分布式版本的训练脚本中只存在Trainer一种角色它不仅处理常规的计算任务也处理参数相关的计算和保存任务。在分布式版本的训练过程中由于存在多个Trainer节点进行同样的数据计算任务因此需要有一个中心化的节点来统一处理参数相关的保存和分配。在PaddlePaddle中我们称这样的节点为Parameter Server, [Parameter Server 设计文档](https://github.com/PaddlePaddle/Paddle/blob/develop/doc/fluid/design/dist_train/parameter_server.md)
**因此在分布式的Fluid环境中我们有两个角色需要创建分别是 Parameter Server 和 Trainer。**

Loading…
Cancel
Save