02 贝尔曼公式
State Value
记Gt为某个轨迹的discounted return,则State Value(状态值)就是Gt的期望值。
即
vπ(s)=E[Gt∣St=s]
状态值基于策略,是关于state的函数。
贝尔曼公式推导
vπ(s)=E[Gt∣St=s]=E[Rt+1+γGt+1∣St=s]=E[Rt+1∣St=s]+γE[Gt+1∣St=s]
E[Rt+1∣St=s]=aΣπ(a∣s)E[Rt+1∣St=s,At=a]=aΣπ(a∣s)rΣp(r∣s,a)r
E[Gt+1∣St=s]=s′ΣE[Gt+1∣St=s,St+1=s′]p(s′∣s)=s′ΣE[Gt+1∣St+1=s′]p(s′∣s)=s′Σvπ(s′)p(s′∣s)=s′Σvπ(s′)aΣp(s′∣s,a)π(a∣s)
(上式第二个等号源于马尔可夫性质)
由于 vπ(s′)与a无关
E[Gt+1∣St=s]=s′Σvπ(s′)aΣp(s′∣s,a)π(a∣s)=s′ΣaΣvπ(s′)p(s′∣s,a)π(a∣s)=aΣs′Σvπ(s′)p(s′∣s,a)π(a∣s)=aΣπ(a∣s)s′Σvπ(s′)p(s′∣s,a)
(上式也可以直接从定义推出)
vπ(s)=aΣπ(a∣s)rΣp(r∣s,a)r+aΣπ(a∣s)s′Σvπ(s′)p(s′∣s,a)=aΣπ(a∣s)[rΣp(r∣s,a)r+γs′Σvπ