linux服务崩溃 自动重启 靠 systemd 的 Restart 策略,非外部脚本;配置 Restart=always/on-failure、RestartSec、StartLimitIntervalSec 和 StartLimitBurst 可实现自我修复与防雪崩。

Linux 服务崩溃后能 自动重启,核心靠的是systemd 的 Restart 策略,不是靠外部脚本或定时任务——后者低效且难维护。只要配置得当,服务异常退出后几秒内就能恢复,真正实现“自我修复”。
确认服务由 systemd 管理
绝大多数现代 Linux 发行版(ubuntu 16.04+、centos 7+、debian 8+)默认使用 systemd。先验证你的服务是否走这套机制:
- 运行 systemctl status 服务名(如
systemctl status nginx),看到Loaded: loaded (……)行,说明是 systemd 服务 - 若提示
Unit xxx.service could not be found,可能是旧式 SysV init 脚本,需先转换为。service 文件再配置重启逻辑
在 [Service] 段添加重启策略
编辑对应。service 文件(路径通常为 /lib/systemd/system/xxx.service 或 /etc/systemd/system/xxx.service),在 [Service] 区块下加入:
- Restart=always:任何退出都重启(包括正常 exit 0)。适合 Web 服务器、API 网关等无状态服务
- Restart=on-failure:仅当进程非零退出、被信号终止(如 S igsEGV)、超时或 OOM kill 时重启。更适合 数据库 类有状态服务
- RestartSec=5:每次重启前等待 5 秒,防止启动失败引发高频 循环(可设为 3~30 秒,视服务冷启动时间调整)
限制重启频率,防雪崩
光加 Restart 不够,还要防故障持续时无限重启拖垮系统。在同一个 [Service] 块中补充:
- StartLimitIntervalSec=60:统计周期为 60 秒
- StartLimitBurst=3:该周期内最多重启 3 次
- 超出后,systemd 会暂停重启并标记为
start-limit-hit,需人工介入排查根本原因
启用并验证配置
改完别忘了让 systemd 重新读取配置:
- sudo systemctl daemon-reload:重载所有 unit 文件
- sudo systemctl restart 服务名:重启服务使新策略生效
- sudo systemctl kill –signal=SIGSEGV 服务名:模拟崩溃(慎用于生产),观察是否在 RestartSec 设定时间内自动拉起
- 检查日志:journalctl -u 服务名 -n 20 -f,确认出现
Started ……和Starting ……交替记录