6.2 异策略的确定性策略梯度