013、行动模块(一):动作空间定义与决策逻辑

张开发
2026/4/18 14:07:22 15 分钟阅读

分享文章

013、行动模块(一):动作空间定义与决策逻辑
上周调一个机械臂控制Agent,半夜被报警叫醒——机械臂在流水线上突然开始高速画圈,吓得我赶紧拍急停。查日志发现是动作空间里一个转角参数被设成了720度,而实际硬件限位只有±180度。代码里没做边界裁剪,决策逻辑直接输出了非法动作。这让我意识到,动作空间的定义看似基础,实则处处是坑。动作空间:不只是几个参数动作空间(Action Space)本质上就是你的Agent能做的所有动作的集合。在仿真环境里可能只是个数学概念,但到了真实硬件上,每个动作都对应物理世界的运动。我习惯把它分成三类:离散动作空间:就像打游戏按上下左右,动作是可枚举的。比如机械臂的“夹取/松开”、“前进/后退”这类开关型指令。代码上通常用整数表示:# 离散动作示例:0-待机,1-夹取,2-松开,3-急停action_space=[0,1,2,

更多文章