自定义调度器通过监听未绑定Pod并基于特定策略将其绑定到节点,使用Go可实现简单调度器或通过调度框架扩展复杂逻辑,需注意避免与默认调度器冲突。
在 kubernetes 中,调度器负责将 Pod 分配到合适的节点上运行。虽然默认调度器已经支持很多策略(如资源请求、亲和性、污点容忍等),但在某些特定场景下,我们需要更精细的控制。Go 语言作为 Kubernetes 的主要开发语言,非常适合用来开发自定义调度器或扩展调度策略。
自定义调度器的基本原理
Kubernetes 调度器本质上是一个监听未绑定 Pod 的控制器。当发现 Pod 的 spec.nodeName 为空时,它会根据预设策略选择一个最合适的节点,并通过调度绑定(Binding)操作将 Pod 分配过去。
开发自定义调度器的关键点:
- 实现自己的调度逻辑,监听 Pod 事件
- 调用 Kubernetes API 获取集群节点和资源状态
- 执行 scheduler binding 将 Pod 绑定到目标节点
- 避免与默认调度器冲突:设置 spec.schedulerName
使用 Go 实现一个简单的自定义调度器
下面是一个使用 Go 编写的极简自定义调度器示例,它将 Pod 调度到标签包含 role=special 的节点上。
立即学习“go语言免费学习笔记(深入)”;
import ( “context” “log” “time”
corev1 “k8s.io/api/core/v1” metav1 “k8s.io/apimachinery/pkg/apis/meta/v1” “k8s.io/client-go/kubernetes” “k8s.io/client-go/rest” “k8s.io/client-go/tools/cache” “k8s.io/client-go/tools/clientcmd” )
func getClient() (*kubernetes.Clientset, Error) { // 在集群内运行用 in-cluster config,本地调试用 kubeconfig config, err := rest.InClusterConfig() if err != nil { config, err = clientcmd.BuildConfigFromFlags(“”, “/path/to/kubeconfig”) if err != nil { return nil, err } } return kubernetes.NewforConfig(config) }
func schedulePod(client kubernetes.Clientset, pod corev1.Pod) error { // 查找带有 role=special 标签的节点 nodes, err := client.CoreV1().Nodes().List(context.TODO(), metav1.ListOptions{ LabelSelector: “role=special”, }) if err != nil || len(nodes.Items) == 0 { log.printf(“No suitable node found for pod %s”, pod.Name) return err }
nodeName := nodes.Items[0].Name binding := &corev1.Binding{ ObjectMeta: metav1.ObjectMeta{Namespace: pod.Namespace, Name: pod.Name}, Target: corev1.ObjectReference{kind: “Node”, APIVersion: “v1”, Name: nodeName}, }
return client.CoreV1().Pods(pod.Namespace).Bind(context.TODO(), pod.Name, binding, metav1.CreateOptions{}) }
func main() { client, err := getClient() if err != nil { log.Fatal(err) }
podListWatcher := cache.NewListWatchFromClient( client.CoreV1().RESTClient(), “pods”, corev1.NamespaceDefault, nil, )
_, controller := cache.NewInformer( podListWatcher, &corev1.Pod{}, 0, cache.ResourceEventHandlerFuncs{ AddFunc: func(obj Interface{}) { pod := obj.(*corev1.Pod) // 只处理未调度且使用本调度器的 Pod if pod.Spec.NodeName == “” && pod.Spec.SchedulerName == “my-scheduler” { log.Printf(“Scheduling pod: %s”, pod.Name) if err := schedulePod(client, pod); err != nil { log.Printf(“Failed to schedule pod %s: %v”, pod.Name, err) } else { log.Printf(“Pod %s scheduled to node %s”, pod.Name, pod.Spec.NodeName) } } }, }, )
log.Println(“Starting custom scheduler…”) controller.Run(context.TODO().Done()) }
编译并打包成镜像后,通过 Deployment 部署到集群中即可运行。
扩展调度策略:实现复杂调度逻辑
更高级的调度需求可能包括:
- 基于节点自定义指标(如 GPU 温度、负载)
- 跨 AZ 容灾调度
- 优先调度到空闲节点(Bin Packing 或 Spread)
- 结合外部系统(如 CMDB、成本系统)决策
实现方式建议:
- 使用 MultipleScheduler 模式,多个调度器共存
- 通过 Pod.Spec.SchedulerName 指定使用哪个调度器
- 集成 Metrics Server 或 Custom Metrics API 获取实时数据
- 使用 Descheduler 配合实现动态再平衡
使用调度框架(Scheduling Framework)进行插件化扩展
Kubernetes 1.15+ 引入了调度框架,允许以插件形式扩展调度器。相比完全自研调度器,这种方式更安全、更易维护。
你可以通过 Go 编写以下类型的插件:
例如,实现一个基于节点标签权重的打分插件:
type NodeAffinityScorer Struct{}
func (pl NodeAffinityScorer) Score(ctx context.Context, state framework.CycleState, pod v1.Pod, nodeName String) (int64, framework.Status) { node, err := pl.handle.NodeInfoSnapshot().NodeInfos().Get(nodeName) if err != nil { return 0, framework.NewStatus(framework.Error, err.Error()) }
score := int64(0) if val, exists := node.Node().Labels[“performance”]; exists && val == “high” { score = 100 } return score, framework.NewStatus(framework.Success) }
注册插件后,通过配置启用:
apiVersion: kubescheduler.config.k8s.io/v1beta3 kind: KubeSchedulerConfiguration profiles: – schedulerName: my-scheduler plugins: score: enabled: – name: NodeAffinityScorer weight: 10
基本上就这些。Go 配合 Kubernetes 客户端库能高效实现各种调度逻辑,从简单绑定到复杂插件系统都可以覆盖。关键是理解调度生命周期,选择合适的扩展方式。不复杂但容易忽略细节,比如权限、并发、失败重试等。