fluid_cluster_train_cn_doc

helinwang-patch-1
tangwei12 7 years ago
parent 5d212da481
commit b3962a934f

@ -95,15 +95,15 @@ for pass_id in range(100):
```
### 分布式训练脚本运行说明
分布式任务的运行需要外部指定多个参数:
```
| 参数名 | 值类型 | 说明 | 示例 |
| :------------- | :---| :--------------------------------------- | :------------- |
|:-------------|:---|:---------------------------------------|:-------------|
| trainer_id | int | 当前训练节点的ID训练节点ID编号为0 - n-1 n为trainers的值 | 0/1/2/3 |
| pservers | str | parameter server 列表 | 127.0.0.1:6710,127.0.0.1:6711 |
| trainers | int | 训练节点的总个数,>0的数字 | |
| server_endpoint | str | 当前所起的服务节点的IP:PORT | 127.0.0.1:8789 |
| training_role | str | 节点角色, TRAINER/PSERVER | PSERVER |
```
启动顺序先启动全部的PSERVER (Parameter Server)后再启动TRAINER(Trainer)。
**其中training_role 是用来区分当前所起服务的角色的用于训练程序中用户可根据需要自行定义其他参数为fluid.DistributeTranspiler的transpile函数所需要需要在调用函数前进行定义至于如何从外部环境传入用户可自定义。**

Loading…
Cancel
Save