You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Paddle/doc/v2/faq/cluster/index_cn.rst

18 lines
1.0 KiB

###############
集群训练与预测
###############
.. contents::
1. 集群多节点训练,日志中保存均为网络通信类错误
------------------------------------------------
集群多节点训练,日志报错为网络通信类错误,比如 :code:`Connection reset by peer` 等。
此类报错通常是由于某一个节点的错误导致这个节点的训练进程退出,从而引发其他节点无法连接导致,可以参考下面的步骤排查:
*:code:`train.log` :code:`server.log` 找到最早报错的地方查看是否是其他错误引发的报错比如FPE内存不足磁盘空间不足等
* 如果发现最早的报错就是网络通信的问题很有可能是非独占方式执行导致的端口冲突可以联系OP看当前MPI集群是否支持resource=full参数提交如果支持增加此参数提交并更换job 端口。
* 如果当前MPI集群并不支持任务独占模式可以联系OP是否可以更换集群或升级当前集群。