DEFINICNI OBORY
\section{Formulace úlohy stochastického řízení}
Ústředním pojmem v teorii řízení je \emph{systém}. Systém je část světa, kterou chceme poznat či řídit. Budeme-li předpokládat diskrétní povahu času, stav systému v časovéme okamžiku $t$ podél řídícího horizontu délky $N$ popisuje systém rovnic
\begin{equation}
\label{sys}
x_{t+1}=f_k(x_t,u_t,w_t), \qquad t=0,1,\ldots,N-1,
\end{equation}
kde $x_t$ je stav systému v čase $t$, $u_t$ je vstup v čase $t$ a $w_t$ náhodná veličina reprezentující přítomnost šumu. V této kapitole budeme předpokládat, že můžeme stav systému pozorovat. Případem neúplného pozorování se zabývá následující kapitola. 

V úloze řízení máme vždy předepsanou ztrátovou (resp. účelovou) funkci
\begin{equation}
g(x_{0:N},u_{0:N-1},w_{0:N-1}).
\end{equation}

Označme $U(x_t)$ množinu přípustných řídících zásahů pro systém ve stavu $x_t$. Posloupností řídících strategií $\pi=\mu_{0:N-1}$ budeme rozumět posloupnost zobrazení
\begin{equation}
\label{con}
\mu_t(x_t)=u_t \, \qquad t=0,1,\ldots,N-1,
\end{equation}
kde $u_t \in U(x_t)$ je přípustný řídící zásah.

Pro danou řídící strategii označme očekávanou ztrátu jako
\begin{equation}
\label{los}
J_\pi(x_0)=\E_{w_{0:N-1}}\left\{g(x_{0:N},\mu_{0:N-1}(x_{0:N-1}),w_{0:N-1})\right\}.
\end{equation}

Úlohou je potom najít takovou $\pi^*$, pro kterou platí
\begin{equation}
J_{\pi^*}(x_0)=\min_{\pi \in \Pi}J_\pi(x_0).
\end{equation}

Celkově se tedy jedná o optimalizační úlohu nalézt takovou posloupnost funkcí \eqref{con}, která minimalizuje očekávanou ztrátovu \eqref{los} za podmínek \eqref{sys}.

\section{Použití dynamického programování při řešení úlohy stochastického řízení s aditivní ztrátou}
Úlohu stochastického řízení tak, jak byla definována v předchozí části, nelze obecně řešit. Je tedy potřeba úlohu nějak blíže specifikovat. V tomto směru je možné omezit se na nějaký speciální tvar ztrátové funkce \eqref{los}. Jako vhodné řešení se ukazuje uvažovat tzv. aditivní tvar ztrátové funkce, tedy že existují funkce $g_t$ takové, že můžeme psát
\begin{equation}
\label{adi}
g(x_{0:N},u_{0:N-1},w_{0:N-1})=g_N(x_N)+\sum_{t=0}^{N-1}g_t(x_t,u_t,w_t)
\end{equation}

Očekávanou ztrátu \eqref{los} potom můžeme přepsat do tvaru
\begin{equation}
J_\pi(x_0)=\E_{w_{0:N-1}}\left\{g_N(x_N)+\sum_{t=0}^{N-1}g_t(x_t,\mu_t(x_t),w_t)\right\}
\end{equation}

Takto specifikovaná úloha se dá řešit použitím dynamického programování []. Dynamické programování je přístup k řešení optimalizačních úloh, na které se můžeme dívat jako na posloupnost rozhodnutí, pro které platí tzv. princip optimality.  Ten říká, že optimální posloupnost rozhodnutí má tu vlastnost, že pro libovolný počáteční stav a rozhudnutí musí být všechna následující rozhodnutí optimální vzhledem k výsledkům rozhodnutí prvního. Důkaz, že pro ztrátu tvaru \eqref{adi} platí princip optimality je snadný a lze ho nalézt například v [ref].

Při řešení úlohy stochastického řízení s aditivní ztrátou je tedy možné postupovat, jak je u úloh řešených pomocí dynamického programování zvykem. Minimální hodnotu střední ztráty od okamžiku $t$ do $N$ v závislosti na $x_t$ označíme $J_t(x_t)$. Můžeme pro ni psát
\begin{gather}
J_N(x_N)=g_N(x_N)\\
J_t(x_t)=\min_{u_t \in U(x_t)}\E_{w_t}\left\{g_k(x_t,u_t,w_t)+J_{t+1}(f_t(x_t,u_t,w_t))\right\} \qquad t=0,\ldots,N-1
\end{gather}

Pří řešení budeme postupovat od konce řídícího horizontu a postupně hledat $J_t(x_t)$. Potom libovolná $\pi=\{\mu_0,\ldots,\mu_{N-1}\}$, která splňuje systém rovnic
\begin{equation}
\label{impl}
J_t(x_t)=\E_{w_t}\left\{g_k(x_t,\mu_t(x_t),w_t)+J_{t+1}(f_t(x_t,\mu_t(x_t),w_t))\right\} \qquad t=0,\ldots,N-1
\end{equation}
je optimální posloupnost rozhodnutí.