首选:
大幅增加
SlurmdTimeout
。这是容忍“间歇性断连”最直接的方法。只要断连时间在超时范围内,任务就不会受影响。
次选:
确保
ReturnToService=2
,保证网络恢复后节点能自动上线。
排查根因:
检查交换机日志、网线、网卡驱动或 MTU 设置,解决物理层的网络抖动才是治本之策。