\section{Nutnost přejít k suboptimálním metodám} Ačkoliv dynamického programování přináší významný pokrok v řešení úlohy stochastického řízení, analytické řešení obvykle není možné získat. V každém časovém kroku se totiž potýkáme se dvěma obecně obtížnými problémemy: 1) výpočet střední hodnoty vzhledem k $w_k$ a 2) následná minimalizace vzhledem k $u_k$. Oba problémy obecně nemají analytické řešení a bez další specifikace úlohy je proto třeba přejít k aproximačním metodám. \section{Duální řízení} Častou situací v úloze stochastického řízení je, že systém popsaný systémem rovnic \eqref{sys} obvykle závisí na nějakém parametru $\theta$, o kterém máme k dispozici pouze nějakou apriorní informaci. K úspěšnému řízení je tedy vhodné nejen inimalizovat aktuální ztrátu, ale rovněž získat o systému co nejvíce informací pro minimalizaci budoucích ztrát. Tento postup se nazývá duální řízení [ref]. \subsection{Bayesovské učení} Přímočarý postup jak pro parametr $\theta$ získat aposteriorní hustotu pravděpodobnosti $f(\theta|X)$, je-li k dispozici apriorní hustota pravděpodobnosti $f(\theta)$ a soubor měření $X$, je aplikace Bayesova vzorce \begin{equation} \label{bay} f(\theta|X)=\frac{f(X|\theta)f(\theta)}{\int f(X|\theta)f(\theta)\mathrm{d}\theta} \end{equation} Rekurzivní použití vzorce \eqref{bay} pro odhad parametru $\theta$ je postup Bayesovského učení [ref]. Při konkrétním vypočtu má však tento přístup dvě nevýhody: 1) nikdy nemáme k dispozici $f(X|\theta)$, ale pouze její aproximaci z měření X a 2) aposteriorní hustota pravděpodobnosti nemusí mít analytické vyjádření, což její použití v dalším výpočtu komplikuje. \subsection{Kalmanův filtr} Pokud je předmětem řízení systém s gausovkým šumem, ve kterém neznámé parametry vystupují jako lineání členy situace se značně zjednoduší [ref]. Systém \eqref{sys} má v čase $t$ tedy tvar \begin{equation} \label{sys2} x_{t+1}=f_k(x_t,u_t)+A_t(x_t,u_t)\theta_t+w_t \end{equation} , kde $A_t(x_t,u_t)$ je známá matice závisící na předchozím stavu systému a vstupu. Dále předpokládejme gausovské rozložení šumu $w_t$ se známým rozptylem, gausovské rozložení neznáměho parametru $\theta$ a jejich nekorelovanost, tedy \begin{equation} \theta_t\sim N(\hat{\theta},P_t), \end{equation} \begin{equation} w_t\sim N(0,Q_t), \end{equation} \begin{equation} \cov(w_t,\theta_t)=0. \end{equation} Na základě odezvy systému $x_{t+1}$ a $\theta_t$ chceme získat nějaký nový odhad parametru $\theta_{t+1}$. Budeme předpokládat, že $\theta_{t+1}$ získáme lineární opravou $\theta_t$ úměrnou neurčitosti v systému. Tedy že \begin{equation} \label{opr} \hat{\theta}_{t+1}=\hat{\theta}_t+K_t(x_{t+1}-f_t(x_t,u_t)-A_t\hat{\theta}_t) \end{equation} , kde $K_t$ je neznámá matice, kterou určíme z požadavku minimalizace výsledné matice rozptylu $P_{t+1}$. Pro ni jako funkci $K_t$ můžeme psát \begin{equation} P_{t+1}(K_t)=\E[(\theta-\hat{\theta}_{t+1})(\theta-\hat{\theta}_{t+1})^T]. \end{equation} Dosazením za $\hat{\theta}_{t+1}$ ze \eqref{opr} a za $x_t$ ze \eqref{sys2} a úpravou dostaneme (pro libovolnou matici $B$ budeme pro lepší čitelnost namísto $BB^T$ psát zkráceně $B^2$) \begin{align} P_{t+1}(K_t)&=\E[(\theta-\theta_t-K_t(x_{t+1}-f_t(x_t,u_t)-A_t\hat{\theta}_t))^2] \nonumber \\ &=\E[((I-K_tA_t)(\theta-\theta_t)-K_tw_t)^2] \nonumber \\ &=(I-K_tA_t)\E[(\theta-\theta_t)^2](I-K_tA_t)^T-(I-K_tA_t)\cov(\theta,w_t)K_t^T-\nonumber \\ &-K_t\cov(\theta,w_t)(I-K_tA_t)^T+K_t\E[w_t^2]K_t^T. \end{align} Použitím definice $P_t$, $Q_t$ a předpokladu $\cov(\theta,w_t)=0$ máme \begin{equation} \label{Pt+1} P_{t+1}(K_t)=(I-K_tA_t)P_t(I-K_tA_t)^T+K_tQ_tK_t^T. \end{equation} Protože požadujeme minimální rozptyl odhadu $\hat{\theta}_{t+1}$, určíme $K_t$ z rovnice \begin{equation} \frac{\partial \tr( P_t)}{\partial K_t}. \end{equation} K provedením derivace použijeme vzorce*ODVOZENI BUDE ASI AZ V DODATKU* \begin{equation} \frac{\partial\tr(MXN)}{\partial X}=M^TN^T \end{equation} \begin{equation} \frac{\partial\tr(MXNX^TO)}{\partial X}=M^TO^TXN+OMXN. \end{equation} Tím získáme lineární rovnici pro $K_t$ tvaru \begin{equation} -P_t^TA_t-P_tA_t+K_tA_tP_tK_t+K_tA_t^TP_tK_t+2QK_t=0, \end{equation} která má řešení \begin{equation} \label{Kt} K_t=\frac{P_tA_t}{A_t^TP_tA_t+Q} \end{equation} Dosazením \eqref{Kt} do \eqref{Pt+1} po upravě dostaneme \begin{equation} \label{Pt+12} P_{t+1}=(I-K_tA_t)P_t \end{equation} Celkově tedy od původního odhadu parametru $N(\hat{\theta}_t,P_t)$ k novému $N(\hat{\theta}_{t+1},P_{t+1})$ přejdeme pomocí \begin{equation} K_t=\frac{P_tA_t}{A_t^TP_tA_t+Q} \end{equation} \begin{equation} \hat{\theta}_{t+1}=\hat{\theta}_t+K_t(x_{t+1}-f_t(x_t,u_t)-A_t\hat{\theta}_t) \end{equation} \begin{equation} P_{t+1}=(I-K_tA_t)P_t \end{equation} \section{Přístupy k duálnímu řízení} nektere mozne pristupy, jak odhaduji suboptimalni $u_t$ \subsection{Certainty equivalecnce control} \subsection{Metoda separace} \subsection{SIDP}