Linux集群如何构建_从基础到进阶全流程讲透【教程】

7次阅读

linux集群核心在于协同工作，需满足通信、任务分发、状态感知与故障应对；搭建关键在合理选型、可靠网络、软件适配与严谨配置，按高可用、高性能计算、负载均衡 、容器化四类明确架构并实施。

Linux 集群如何构建_从基础到进阶全流程讲透【教程】

Linux 集群不是简单把几台机器连起来就行，核心在于“协同工作”——节点间能通信、任务可分发、状态可感知、故障能应对。搭建的关键不在于堆硬件，而在于选型合理、网络可靠、软件适配、配置严谨。

不同目标对应不同架构，选错类型后续全是返工：

高可用集群（HA）：用 Corosync+Pacemaker 或 Keepalived，重点防单点故障，比如 Web 服务双机热备、数据库 主从自动切换
高性能计算集群（HPC）：依赖 MPI（如 OpenMPI）+ 作业调度器（Slurm 最常用），需低延迟网络（InfiniBand 优先）、共享存储（Lustre/NFS）
负载均衡集群 ：nginx+Keepalived 做四层 / 七层分发，或用 HAproxy+consul 实现服务发现与健康检查
容器化集群（类 K8s 轻量替代）：可基于 K3s 或 MicroK8s 快速部署，适合中小团队管理应用服务，但本质仍是 分布式 协调问题

集群的“血管”不通，再好的软件也跑不动。别省这步：

所有节点使用静态 IP，禁用 NetworkManager（它会干扰集群通信），改用 systemd-networkd 或传统 ifconfig+route 脚本固化配置
时间必须严格同步：chrony比 ntpd 更稳，主节点设为 server，其余设为 client，并开启 `makestep` 强制校准
ssh免密互通是基础操作：用同一组密钥批量部署到所有节点的~/.ssh/authorized_keys，并关闭 StrictHostKeyChecking
/etc/hosts 里写全主机名映射（不用dns），避免 hostname - f 解析失败导致 Pacemaker 或 Slurm 启动异常

以最常用的高可用 + 负载均衡组合为例（如 Web+DB 集群），跳过理论，直给关键动作：

资源隔离先做 ：用 firewalld 或 iptables 放行 Corosync（5405/udp）、Pacemaker（2224/tcp）、DRBD（7788/tcp）等端口，禁止其他无关访问
共享存储慎选 ：NFS 简单但有单点风险；DRBD 适合两节点主备，注意配置on-no-quorum 策略防脑裂；生产环境建议 ceph 或 GlusterFS
资源定义要带约束 ：Pacemaker 中不用primitive 裸定义服务，必须加colocation（共驻）和order（启动顺序），例如“VIP 必须在 Web 服务之前绑定”
健康检查写具体 ：别只用ping，对数据库加pg_isready -q，对http 服务用curl -f http://localhost/health，超时和失败次数设严一点（如 timeout=20s, interval=30s, failure_max=3）

上线只是开始，集群活得好不好，靠的是持续观测和快速响应：

用 pcs status 或crm_mon -1看实时资源视图，重点关注 Online 状态、Failed计数、Last Failure时间
日志集中处理：所有节点 rsyslog 转发到 elk 或 Loki+grafana，搜索关键字corosync.*Error、slurm.*failed、drbd.*Split-brain
模拟故障练手：手动systemctl stop pacemaker、拔网线、kill - 9 主库进程，观察是否自动恢复，记录切换耗时
定期清理：pcs Resource cleanup清失败历史，drbdadm verify校验数据一致性，slurmctld --version确认各节点版本统一

基本上就这些。没有银弹，只有匹配场景的组合。从两台虚拟机起步，跑通 VIP 漂移和故障切换，再逐步加节点、换存储、接监控——集群能力是迭代出来的，不是堆出来的。

发表于：运维

六天前

复制链接

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

VSCode如何处理不同文件的编码格式

Java DOM Level 3 Core是什么新增了哪些功能