1 | \section{Formulace � stochastick� �� |
---|
2 | �t�m pojmem v teorii ��e \emph{syst�. Syst�je �t sv�, kterou chceme poznat ��. Informace o stavu syt� z��me prost�ctv�jeho v�. �zen�tj. ovliv�n�tavu syst�, m� prov�t vstup�t� pr� budeme p�kl�t, �e v� charakterizuj�tav syst� �. To nemus��cn�ravda, postup p�zen� nedokonal�formacemi o stavu syst� je uveden nap�d v []. Obecn�e d�k�t, �e � s ��yst� s ne�mi informacemi o stavu se d�kvivalentn�ransformovat na � ��yst� s �mi informacemi o stavu. |
---|
3 | |
---|
4 | Budeme-li p�kl�t diskr��ovahu �u m� syst�v �ov� okam�iku $t$ popsat syst�m rovnic |
---|
5 | \begin{equation} |
---|
6 | \label{sys} |
---|
7 | x_{t+1}=f_k(x_t,u_t,w_t), \qquad t=0,1,\ldots,N-1, |
---|
8 | \end{equation} |
---|
9 | kde $x_t$ je v�v �e $t$, $u_t$ je vstup v �e t a $w_t$ je n�dn�eli�a. |
---|
10 | |
---|
11 | D� m� p�s�u ztr�vou funkci |
---|
12 | \begin{equation} |
---|
13 | g(x_0,\ldots,x_N,u_0,\ldots,u_{N-1},w_0,\ldots,w_{N-1}) |
---|
14 | \end{equation} |
---|
15 | |
---|
16 | Posloupnost��c� strategi�\pi=\{\mu_0,\ldots,\mu_{N-1}\}$ budeme rozum�posloupnost zobrazen�\begin{equation} |
---|
17 | \label{con} |
---|
18 | \mu_t(x_t)=u_t \, \qquad t=0,1,\ldots,N-1, |
---|
19 | \end{equation} |
---|
20 | |
---|
21 | Pro danou ��trategii ozna� o��nou ztr� jako |
---|
22 | \begin{multline} |
---|
23 | \label{los} |
---|
24 | J_\pi(x_0)=\\ |
---|
25 | \E_{w_0,\ldots,w_{N-1}}\left\{g(x_0\ldots,x_N,\mu_0(x_0),\ldots,\mu_{N-1}(x_{N-1}),w_0,\ldots,w_{N-1})\right\} |
---|
26 | \end{multline} |
---|
27 | |
---|
28 | �ohou je potom naj�takovou $\pi^*$, pro kterou plat�\begin{equation} |
---|
29 | J_{\pi^*}(x_0)=\min_{\pi \in \Pi}J_\pi(x_0) |
---|
30 | \end{equation} |
---|
31 | |
---|
32 | Celkov�e tedy jedn� optimaliza� � nal� takovou posloupnost funkc�eqref{con}, kter�inimalizuje o��nou ztr�vu \eqref{los} za podm�k \eqref{sys}. |
---|
33 | |
---|
34 | |
---|
35 | \section{Pou�it�ynamick� programov� p��en�lohy stochastick� �� aditivn�tr�u} |
---|
36 | �ohu stochastick� ��ak, jak byla definov� v p�oz��i, nelze obecn�e�it. Je tedy pot�� n�k bl� specifikovat. V tomto sm� je mo�n�mezit se na n�k�i��var ztr�v�unkce \eqref{los}. Jako vhodn�e�en�e ukazuje uva�ovat tzv. aditivn�var ztr�v�unkce, tedy �e existuj�unkce $g_t$ takov��e m� ps� |
---|
37 | \begin{equation} |
---|
38 | \label{adi} |
---|
39 | g(x_0,\ldots,x_N,u_0,\ldots,u_{N-1},w_0,\ldots,w_{N-1})=g_N(x_N)+\sum_{t=0}^{N-1}g_t(x_t,u_t,w_t) |
---|
40 | \end{equation} |
---|
41 | |
---|
42 | O��nou ztr� \eqref{los} tedy m� p�t do tvaru |
---|
43 | \begin{equation} |
---|
44 | J_\pi(x_0)=\E_{w_0,\ldots,w_{N-1}}\left\{g_N(x_N)+\sum_{t=0}^N(g_t(x_t,\mu_t(x_t),w_t))\right\} |
---|
45 | \end{equation} |
---|
46 | |
---|
47 | Takto specifikovan�loha se d�e�it pou�it�dynamick� programov� []. Dynamick�rogramov� je p�p k ��ptimaliza�ch � na kter�e m� d�t jako na posloupnost rozhodnut�pro kter�lat�zv. princip optimality. Ten � �e optim��osloupnost rozhodnut��u vlastnost, �e pro libovoln�te� stav a rozhudnut�us��chna n�eduj� rozhodnut�ptim��zhledem k v��zhodnut�rvn�. D� �e pro ztr� tvaru \eqref{adi} plat�rincip optimality je snadn�e ho nal� nap�d v []. |
---|
48 | |
---|
49 | P��en�lohy stochastick� �� aditivn�tr�u je tedy mo�n�ostupovat, jak je u ���moc�ynamick� programov� zvykem. Minim��odnotu st� ztr� od okam�iku $t$ do $N$ v z�slosti na $x_t$ ozna�e $J_t(x_t)$ a m� pro ni ps� |
---|
50 | |
---|
51 | \begin{equation} |
---|
52 | J_N(x_N)=g_N(x_N) |
---|
53 | \end{equation} |
---|
54 | \begin{equation} |
---|
55 | J_t(x_t)=\min_{u_t \in U(x_t)}\E_{w_t}\left\{g_k(x_t,u_t,w_t)+J_{t+1}(f_t(x_t,u_t,w_t))\right\} \qquad t=0,\ldots,N-1 |
---|
56 | \end{equation} |
---|
57 | |
---|
58 | P��en�udeme postupovat od konce �� horizontu a postupn�ledat $J_t(x_t)$. Potom libovoln�\pi=\{\mu_0,\ldots,\mu_{N-1}\}$, kter�pl� syst�rovnic |
---|
59 | \begin{equation} |
---|
60 | \label{impl} |
---|
61 | J_t(x_t)=\E_{w_t}\left\{g_k(x_t,\mu_t(x_t),w_t)+J_{t+1}(f_t(x_t,\mu_t(x_t),w_t))\right\} \qquad t=0,\ldots,N-1 |
---|
62 | \end{equation} |
---|
63 | je optim��osloupnost rozhodnut�Na syst�rovnic \eqref{impl} se tedy m� d�t jako na implicitn��s pro $\pi$. |
---|