• 首选: 大幅增加 SlurmdTimeout。这是容忍“间歇性断连”最直接的方法。只要断连时间在超时范围内,任务就不会受影响。
  • 次选: 确保 ReturnToService=2,保证网络恢复后节点能自动上线。
  • 排查根因: 检查交换机日志、网线、网卡驱动或 MTU 设置,解决物理层的网络抖动才是治本之策。