[1103] | 1 | \section{Formulace z�adn�lohy stochastick� �� |
---|
| 2 | |
---|
| 3 | \subsection{Syst�a jeho popis} |
---|
| 4 | �t�m pojmem v teorii ��e syst� Syst�je �t sv�, kterou chceme poznat ��. Ovliv�n�yst�, a� u� za �m jeho lep�� pozn�, �za �m ��prov�me pomoc�stup�d�ch z�h� |
---|
| 5 | Ve v�in�����lohy stochastick� ��rov�no numericky, je proto ��racovat s diskr���em. Budeme-li proto uva�ovat diskr��ovahu �u, stav syst� v �ov�okam�iku $t$ pod�kone�ho horizontu d�y $N$ popisuje soustava rovnic |
---|
[872] | 6 | \begin{equation} |
---|
| 7 | \label{sys} |
---|
| 8 | x_{t+1}=f_k(x_t,u_t,w_t), \qquad t=0,1,\ldots,N-1, |
---|
| 9 | \end{equation} |
---|
[1103] | 10 | kde $x_t$ je stav syst� v �e $t$, $u_t$ je ���h v �e $t$ a $w_t$ n�dn�eli�a reprezentuj� p�nost �umu. Zde p�kl�me, �e tvar rovnic $f_t$ je n�zn� nap�d z fyzik�� rozboru �, �ze znalosti konstrukce stroje, kter�sujeme. D� p�kl�me, �e stav syst� m� p�pozorovat. P�em ne�ho pozorov� se zab�sleduj� kapitola. |
---|
[891] | 11 | |
---|
[1103] | 12 | \subsection{Ztr�v�unkce a optim���n� |
---|
| 13 | C�m je pro zadan��\eqref{sys} navrhnout ��kter�ude syst�udr�ovat co nejbl� po�adovaneho stavu. Pro tyto � m� v � �� dispozici p�sanou ztr�vou (resp. �vou) funkci |
---|
[872] | 14 | \begin{equation} |
---|
[1103] | 15 | g(x_{1:N},u_{0:N-1}), |
---|
[872] | 16 | \end{equation} |
---|
[1103] | 17 | kter�r�e nakolik jsme vyty��l��i. |
---|
[872] | 18 | |
---|
[1103] | 19 | Ozna� $U(x_t)$ nepr�nou mno�inu p�tn�d�ch z�h� syst�nachazej� se ve stavu $x_t$. P�tnou ��trategi�\pi=\mu_{0:N-1}$ budeme rozum�posloupnost zobrazen�\begin{equation} |
---|
[872] | 20 | \label{con} |
---|
| 21 | \mu_t(x_t)=u_t \, \qquad t=0,1,\ldots,N-1, |
---|
| 22 | \end{equation} |
---|
[891] | 23 | kde $\mu_t(x_t)=u_t \in U(x_t)$ je p�tn�c��h. Nepr�n�no�ina $\Pi$ pak bude zna� mno�inu v�ech p�tn�d�ch strategi� |
---|
[1103] | 24 | |
---|
[872] | 25 | Pro danou ��trategii ozna� o��nou ztr� jako |
---|
| 26 | \begin{equation} |
---|
[891] | 27 | \label{los} |
---|
[872] | 28 | J_\pi(x_0)=\E_{w_{0:N-1}}\left\{g(x_{1:N},\mu_{0:N-1}(x_{0:N-1}))\right\}. |
---|
[1090] | 29 | \end{equation} |
---|
[891] | 30 | |
---|
[872] | 31 | �ohou je potom naj�takovou $\pi^*$, pro kterou plat�\begin{equation} |
---|
| 32 | J_{\pi^*}(x_0)=\min_{\pi \in \Pi}J_\pi(x_0). |
---|
| 33 | \end{equation} |
---|
[1103] | 34 | |
---|
[872] | 35 | Celkov�e tedy jedn� optimaliza� � nal� takovou posloupnost funkc�eqref{con}, kter�inimalizuje o��nou ztr�vu \eqref{los} za podm�k \eqref{sys}. |
---|
| 36 | |
---|
| 37 | \section{�oha stochastick� �� aditivn�tr�u} |
---|
| 38 | �ohu stochastick� ��ak, jak byla definov� v p�oz��i, nelze obecn�e�it. Je tedy pot�� n�k bl� specifikovat. |
---|
[1103] | 39 | \subsection{Aditivn�tr�v�unkce} |
---|
| 40 | Jako vhodn�e ukazuje omezit se na n�k�i��var ztr�v�unkce \eqref{los}. Budeme proto d� uva�ovat tzv. aditivn�var ztr�v�unkce, tedy �e existuj�unkce $g_t$ takov��e m� ps� |
---|
| 41 | \begin{equation} |
---|
| 42 | \label{adi} |
---|
[872] | 43 | g(x_{1:N},u_{0:N-1})=\sum_{t=1}^{N-1}g_t(x_{t+1},u_t). |
---|
| 44 | \end{equation} |
---|
[1090] | 45 | |
---|
[872] | 46 | O��nou ztr� \eqref{los} potom m� p�t do tvaru |
---|
| 47 | \begin{equation} |
---|
[891] | 48 | \label{ex} |
---|
[872] | 49 | J_\pi(x_0)=\E_{w_{0:N-1}}\left\{\sum_{t=0}^{N-1}g_t(x_{t+1},\mu_t(x_t))\right\}. |
---|
[1103] | 50 | \end{equation} |
---|
[1090] | 51 | |
---|
[872] | 52 | \subsection{Dynamick�rogramov�} |
---|
| 53 | Takto specifikovan�loha stochastick� ��e d�e�it pou�it�dynamick� programov� \cite{bellman1957dynamic}. Dynamick�rogramov� je p�p k ��ptimaliza�ch � na kter�e m� d�t jako na posloupnost rozhodnut�pro kter�lat�zv. princip optimality. Ten � �e optim��osloupnost rozhodnut��u vlastnost, �e pro libovoln�te� stav a rozhudnut�us��chna n�eduj� rozhodnut�ptim��zhledem k v��zhodnut�rvn�. |
---|
[1103] | 54 | |
---|
| 55 | Platnost principu optimality pro o��nou ztr� tvaru \eqref{ex} je intuitivn�nadno pochopiteln�Pokud by toti� n�k� ��trategie nebyl optim��pak o��nou ztr� sn�me p�dem ke strategii, ve kter�nu neoptim��� nahrad� optim����podprobl� na dan��. P� d�platnosti principu optimality pro o��nou ztr� tvaru \eqref{ex} lze nal� nap�d v \cite{bertsekas1995dynamic}. |
---|
[872] | 56 | |
---|
[1103] | 57 | \subsection{Pou�it�ynamick� programov� p��en�lohy stochastick� �� aditivn�tr�u} |
---|
| 58 | P��en�lohy stochastick� �� aditivn�tr�u je mo�n�ostupovat, jak je u ���moc�ynamick� programov� zvykem. Ze t�o �m ozna� $J_t(x_t)$ minim��odnotu st� ztr� od okam�iku $t$ do $N$ v z�slosti na $x_t$. Dle \eqref{ex} pro ni m� ps� |
---|
| 59 | \begin{gather} |
---|
| 60 | J_N(x_N)=0\\ |
---|
[891] | 61 | J_t(x_t)=\min_{u_t \in U(x_t)}\E_{w_t}\left\{g_k(x_{t+1},u_t)+J_{t+1}(x_{t+1})\right\} \qquad t=0,\ldots,N-1. |
---|
[1090] | 62 | \end{gather} |
---|
| 63 | |
---|
[891] | 64 | P�nstrukci optim���c�trategie budeme postupovat od konce �� horizontu a postupn�ledat $J_t(x_t)$. Pro v� $x_{t+1}$ se pou�ije rovnice \eqref{sys}. |
---|
[872] | 65 | Libovoln��c�trategie $\pi=\{\mu_0,\ldots,\mu_{N-1}\}$, kter�pl� syst�rovnic |
---|
[1103] | 66 | \begin{equation} |
---|
| 67 | \label{impl} |
---|
[872] | 68 | J_t(x_t)=\E_{w_t}\left\{g_k(x_t,\mu_t(x_t),w_t)+J_{t+1}(f_t(x_t,\mu_t(x_t),w_t))\right\} \qquad t=0,\ldots,N-1 |
---|
| 69 | \end{equation} |
---|
| 70 | pak bude optim��osloupnost�ozhodnut� |
---|