设计并开发了一套高吞吐序贯决策引擎,面向云计算决策平台,在极端、高频的运行时负载下提供资源供给与调度相关的实时序贯决策。该 Stealth Pilot 自 2023 年 6 月持续至今,在系统规模上落地深度强化学习——贯通算法设计、分布式 GPU 训练与性能约束下的策略对齐。

核心技术栈: PyTorch · 分支对决 Q 网络(BDQ)· HF Accelerate · DeepSpeed · Ray Train/Serve · DDP · 偏好对齐(Preference Alignment)


系统概览与序贯决策闭环

引擎将平台上的供给与调度问题建模为马尔可夫决策过程(MDP)Macro 信息编码器Micro 信息编码器并行处理多源平台观测(前者聚合平台级宏观信号,后者捕捉局部高频观测),融合后馈入 Actor-Critic 主策略;主头输出离散控制动作,并行的 Preference Alignment 辅助网络在共享策略表示上施加安全与偏好约束。决策在毫秒级间隔内完成,并平衡吞吐量、尾延迟与资源利用率。

[图 1: 高频 DRL 决策闭环]
平台观测ObservabilityMacro 编码并行Micro 编码并行BDQ 策略Actor-Critic共享表示控制动作主头偏好对齐辅助网络GPU ReplayBuffer

决策闭环: 平台观测并行经 Macro / Micro 信息编码器融合后输入 BDQ 主策略;主头输出控制动作,Preference Alignment 辅助网络并行挂载于共享表示;二者产生的转移写入 GPU 驻留 replay buffer,供分布式离策略更新使用。


核心技术贡献

1. 基于 BDQ 的 Actor-Critic 引擎

  • 并行状态编码Macro 信息编码器Micro 信息编码器并行处理多源平台观测,分别提取延时宏观与高频微观特征,融合为多时间尺度状态表示后馈入 BDQ 主策略。
  • 双头输出:Actor-Critic 主头产生离散控制动作;Preference Alignment 辅助网络并行挂载于共享策略表示,在训练期施加安全与偏好约束。
  • 架构:实现带 Dueling Advantage 分解的 Actor-Critic 结构,在动作空间沿并发控制维度分支时稳定 Q 值估计(如容量档位、优先级权重、策略层级等离散组合)。
  • 分支动作:采用 Branching Dueling Q-Network (BDQ),将多维控制信号因子化,避免展平为指数级离散空间——在平台序贯决策常见的稀疏、延迟奖励下保持样本效率。

2. 大规模分布式训练

  • 多节点 GPU 集群:通过 Hugging Face Accelerate分布式数据并行(DDP)DeepSpeed(ZeRO-2) 在多节点 GPU 上扩展训练,分区优化器状态以支撑大规模 replay batch。
  • Ray Train / Ray Serve:以 Ray TrainRay Serve 编排实验与服务原型,在 pilot 评估中将离线策略优化与低延迟在线推理路径分离。
[图 2: 分布式训练拓扑]
分布式训练任务(Ray Train)节点 1节点 2Ray HeadGPU WorkerGPU WorkerGPU WorkerGPU WorkerDDP 同步DDP 同步各 Worker:Accelerate · DDP · DeepSpeed ZeRO-2

训练栈(示意): Ray Train 调度跨节点的 GPU Worker;在同一训练任务内,各 Worker 通过 Accelerate 运行 PyTorch,以 DDP 同步梯度,并以 DeepSpeed ZeRO-2 分片优化器状态。Ray Serve(在线推理)为独立路径,此处未画出。

3. GPU 驻留 Replay Buffer

  • 零拷贝训练路径:设计 GPU 驻留 replay buffer,使 experience tuple 在采样与梯度步骤间保持 device-local——消除在短 horizon、高频 DRL 场景下常占主导的 CPU→GPU 拷贝开销。
  • 吞吐收益:在决策 cadence 与 batch 采样率接近 HPC 级占空比的 pilot benchmark 中,设备端驻留 transitions 提升了有效训练吞吐。

4. RLHF 风格偏好对齐网络

  • 安全正则:构建辅助 偏好对齐网络(RLHF 风格),在预定义偏好空间下正则化共享策略表示——在探索阶段惩罚违反偏好指标、过载阈值或公平性约束的动作轨迹。
  • Human-in-the-Loop:对齐模块接受用户反馈的轨迹排序对,支持在 Stealth Pilot 迭代中稳定 refine 策略,而不破坏核心 BDQ critic。
[图 3: 双头多目标策略网络(主输出 + 偏好辅助)]
主分支 →辅助分支偏好空间 · 安全边界Auxiliary · 偏好对齐(辅助头)共享策略表示 · BDQPrimary · 输出网络(主头)控制动作RL 目标偏好正则损失轨迹 A ≻ B人工反馈梯度回传 · 辅助头主 RL 优化探索期惩罚违规轨迹

双头多目标(示意): 主分支水平展开:共享 BDQ 表示 → Primary 输出网络 → 控制动作 → RL 目标。Auxiliary 偏好对齐网络自共享表示以 L 形折线向下接入(宽度对齐 Primary 左缘至控制动作右缘),经与 RL 目标垂直对齐的偏好正则损失回传梯度;人工排序对(A ≻ B)自下方注入辅助头,不破坏核心 critic。


工程总结

  • 系统 + RL:从 MDP 建模、分支动作设计到分布式 PyTorch 训练与服务原型,体现端到端 systems-AI 能力。