A. 模型预测控制
B. 成本函数
C. 逆最优控制
用于考虑各种驾驶场景的P条轨迹。对于人工演示,我们假设存在与人类驾驶任务相关的成本函数,因此通过为 MPC 控制器找到合适的权重,可以复制人类驾驶运动的某些特征。为了实现这一点,人类的驾驶任务使用 II-B 中讨论的特征来表达。对于一组未知的成本参数,人工演示的预期特征可以表示为
是所有演示的特征向量,fd是演示轨迹的特征向量,ζk是数据集D中第k个轨迹。这里的目标是找到一组成本参数,使得学习到的控制器的预期特征与人工演示的特征相匹配。演示特征和控制器特征之间的差异可以表示为以下梯度
可以通过求解基于梯度的优化方法找到优化值θ*。然而,计算学习系统的预期特征并不简单,尤其是对于像自动驾驶汽车这样的高维复杂系统。当我们为自动驾驶汽车设计路径跟踪控制器时,我们将最可能的轨迹近似为给定参数集的非线性MPC问题的解决方案,然后使用MPC生成的轨迹计算学习控制器的预期特征。然后,基于梯度
,改变权重值并重复相同的过程直到收敛。A. 人工演示数据
B.从人工演示中学习成本函数
C. 轨迹跟踪控制器
参考文献
