字節跳動開源 Godel-Rescheduler,號稱適用于云原生系統的全局最優重調度框架
IT之家 4 月 18 日消息,在云原生調度中,一次調度往往無法解決所有問題,需要配合重調度來優化資源分配和任務擺放。今日,字節跳動技術團隊宣布開源 Godel-Rescheduler,號稱是“適用于云原生系統的全局最優重調度框架”。
據字節官方介紹,這是一個基于全局最優調度策略的重調度框架。它不僅能識別集群中的異常節點和任務,還能智能推薦任務到最合適的位置,并通過圖算法生成詳細的遷移步驟,確保集群的整體穩定性,真正實現全局最優調度。
Godel-Rescheduler 由兩個核心模塊組成:Policy Manager 和 Movement Manager。其中,Policy Manager 負責輸出重調度決策,而 Movement Manager 則負責拆解并執行這些決策。整個框架的目標是通過重調度,使集群朝向全局最優狀態發展。

目前字節跳動已經成功將 Godel-Rescheduler 應用到多個內部項目中,支持多種重調度策略的協同工作。例如:
合并部署重調度:優化上下游應用實例在相同節點上的調度。
負載均衡重調度:在負載、內存帶寬、網絡帶寬等方面進行優化。
碎片整理重調度:有效減少 CPU、GPU 等資源的碎片率等。
在實際應用中,Godel-Rescheduler 已幫助字節跳動的數萬卡 GPU 集群將碎片率控制在 5% 以下,同時在大規模混合部署集群中,熱點節點比例控制在 0.1% 以下。
IT之家附 Godel ReScheduler 項目地址:
https://github.com/kubewharf/godel-rescheduler
來源:IT之家