AL_ILQR

直观理解

1. Backward Pass

  • 从终端状态递推,得到每个时间步的最优控制量,从而得到整个时间步的控制序列。

2. Forward Pass

  • 已经知道每个时间步的控制量,可以从初始状态开始,利用动力学公式递推每个时间步的状态量。
  • 每次递推完,得到整个状态序列与控制序列,然后计算代价函数值,与上一步代价函数值做比较,如果满足线性搜索条件,则当前状态可以返回作为优化结果,不然就调整 $\alpha$ ,再次进行前向计算。

3. Augmented Lagrangian Update

  • 暂时理解,就是当前向过程完成以后,得到一个当前迭代的合适解,然后再调整拉格朗日参数,重新进行 Backward Pass - Forward Pass 两个过程,完成新一轮迭代。