精选学术论文、开源工具,以及生产级 ML 与系统工程项目案例。
高吞吐深度强化学习(DRL)序贯决策引擎(Stealth Pilot)
设计并开发了一套高吞吐序贯决策引擎,面向云计算决策平台,在极端、高频的运行时负载下提供资源供给与调度相关的实时序贯决策。该 Stealth Pilot 自 2023 年 6 月持续至今,在系统规模上落地深度强化学习——贯通算法设计、分布式 GPU 训练与性能约束下的策略对齐。 核心技术栈: PyTorch · 分支对决 Q 网络(BDQ)· HF Accelerate · DeepSpeed · Ray Train/Serve · DDP · 偏好对齐(Preference Alignment) 系统概览与序贯决策闭环 引擎将平台上的供给与调度问题建模为马尔可夫决策过程(MDP):Macro 信息编码器与 Micro 信息编码器并行处理多源平台观测(前者聚合平台级宏观信号,后者捕捉局部高频观测),融合后馈入 Actor-Critic 主策略;主头输出离散控制动作,并行的 Preference Alignment 辅助网络在共享策略表示上施加安全与偏好约束。决策在毫秒级间隔内完成,并平衡吞吐量、尾延迟与资源利用率。 [图 1: 高频 DRL 决策闭环] 平台观测 Observability Macro 编码 并行 Micro 编码 并行 BDQ 策略 Actor-Critic 共享表示 控制动作 主头 偏好对齐 辅助网络 GPU Replay Buffer 决策闭环: 平台观测并行经 Macro / Micro 信息编码器融合后输入 BDQ 主策略;主头输出控制动作,Preference Alignment 辅助网络并行挂载于共享表示;二者产生的转移写入 GPU 驻留 replay buffer,供分布式离策略更新使用。 ...


