Changeset 917 for applications/dual

Show
Ignore:
Timestamp:
04/24/10 13:29:41 (15 years ago)
Author:
zimamiro
Message:
 
Location:
applications/dual/SIDP/text
Files:
6 modified

Legend:

Unmodified
Added
Removed
  • applications/dual/SIDP/text/baksimple.tex

    r891 r917  
    55 
    66\usepackage{amsmath} % bal�k pro pokro�ou matem. sazbu 
     7\usepackage{algorithm} 
     8\usepackage{algorithmic} 
     9 
    710\usepackage{epsfig} % bal�y pro vkl�n�rafick�ubor�u EPS 
    811 
  • applications/dual/SIDP/text/ch1.tex

    r891 r917  
    4343O��nou ztr� \eqref{los} potom m� p�t do tvaru 
    4444\begin{equation} 
    45 J_\pi(x_0)=\E_{w_{0:N-1}}\left\{g_N(x_N)+\sum_{t=0}^Ng_t(x_t,\mu_t(x_t),w_t)\right\} 
     45J_\pi(x_0)=\E_{w_{0:N-1}}\left\{g_N(x_N)+\sum_{t=0}^{N-1}g_t(x_t,\mu_t(x_t),w_t)\right\} 
    4646\end{equation} 
    4747 
  • applications/dual/SIDP/text/ch2.tex

    r891 r917  
    3232Proto�e v �e $t$ nem� k dispozici p�stav syst� $x_t$, ale pouze informa� vektor $I_t$, nem� pou��postup z p�oz�apitoly. P��je pot�� vhodn�ransformovat. Za t�o �m zap�me informa� vektor ve tvaru 
    3333\begin{equation} 
     34\label{nep} 
    3435I_0=y_0,\qquad I_{t+1}=(I_t,u_t,y_{t+1}), \qquad  t=1,\ldots,N-1. 
    3536\end{equation} 
     
    6061\begin{equation} 
    6162\label{poz2} 
    62 y_0=h_0(\theta,v_0),\qquad y_t=h_t(\theta, I_{t-1},u_{t-1},v_t), \qquad t=1,\ldots,N-1, 
     63y_0=h_0(\theta,v_0),\qquad y_t=h_t( I_{t-1},\theta,u_{t-1},v_t), \qquad t=1,\ldots,N-1, 
    6364\end{equation} 
    6465 
    6566Ztr�v�unkce je nyn�\begin{equation} 
    6667\label{los2} 
    67 g(y_{0:N},u_{0:N-1},w_{0:N-1})=g_N(y_N)+\sum_{t=0}^{N-1}g_t(y_t,u_t,w_t). 
     68g(y_{0:N},u_{0:N-1},v_{0:N-1})=g_N(y_N)+\sum_{t=0}^{N-1}g_t(y_t,u_t,v_t). 
    6869\end{equation} 
    6970 
     
    7172\begin{equation} 
    7273\label{the} 
    73 \theta_{t+1}=f_t(\theta_t,I_t,y_{t+1},u_t), \qquad  t=1,\ldots,N-1. 
     74\theta_{t+1}=f_t(I_t,\theta_t,u_t,y_{t+1}), \qquad  t=1,\ldots,N-1. 
    7475\end{equation}  
    75  
    76 Rovnici \eqref{the} m� pova�ovat za rovnici syst� \eqref{sys} pro stav $(\theta_t,I_t)$ a vstup $(y_{t+1},u_t)$ bez p�nosti �umu. Do rovnice \eqref{poz2} dosad� za $\theta$ jeho aktu��dhad, tedy 
     76Rovnici \eqref{the} m� podobn�ako \eqref{nep} pova�ovat za rovnici syst� \eqref{sys} pro stav $(I_t, \theta_t)$, vstup $u_t$ s �umem $y_{t+1}$. Do rovnice \eqref{poz2} dosad� za $\theta$ jeho aktu��dhad, tedy 
    7777\begin{equation} 
    7878\label{poz3} 
     
    152152kter��e�en�\begin{equation} 
    153153\label{Kt} 
    154 K_t=\frac{P_tA_t}{A_t^TP_tA_t+Q_t} 
     154K_t=P_tA_t(A_t^TP_tA_t+Q_t)^{-1} 
    155155\end{equation} 
    156156Dosazen�\eqref{Kt} do \eqref{Pt+1} po ��ostaneme 
     
    160160\end{equation} 
    161161Celkov�edy od p�� odhadu parametru $N(\hat{\theta}_t,P_t)$ k nov� $N(\hat{\theta}_{t+1},P_{t+1})$ p�me pomoc�\begin{equation} 
    162 K_t=\frac{P_tA_t}{A_t^TP_tA_t+Q} 
     162K_t=P_tA_t(A_t^TP_tA_t+Q_t)^{-1} 
    163163\end{equation} 
    164164\begin{equation} 
     
    169169\end{equation} 
    170170 
    171 Tato odhadovac�rocedura se naz�lman�ltr. 
     171Tato odhadovac�rocedura se naz�lman�ltr [ref]. 
  • applications/dual/SIDP/text/ch3.tex

    r891 r917  
    11A�liv pou�it�ynamick� programov� p����ok v ��lohy du�� ��analytick�e�en�bvykle nen�o�n��at. V ka�d��ov�kroku se toti� pot�se dv� obecn�bt��obl�my: 1) v� st� hodnoty a 2) minimalizace vzhledem k $u_t$. Oba probl� obecn�emaj�nalytick�e�en� bez dal��pecifikace � je proto t�p� k aproxima�m metod� 
    22 
    3 V t� kapitole p��me popis n�lika mo�n��up�proximativn� ��lohy du�� ��P�e� �e �u du�� ��je nalezen��c�trategie $\pi=\mu_{0:N-1}$, kter�y minimalizovala o��nou ztr� 
     3V t� kapitole se p�� popis n�lika mo�n��up�proximativn� ��lohy du�� ��P�e� �e �u du�� ��je nalezen��c�trategie $\pi=\mu_{0:N-1}$, kter�y minimalizovala o��nou ztr� 
    44\begin{equation} 
    5 \label{ilos} 
    6 J_\pi=\E_{y_0,w_{0:N-1}}\left\{g_N(y_N)+\sum_{t=0}^{N-1}g_t(y_t,\mu_t(I_t),w_t)\right\}, 
     5\label{ilos2} 
     6J_\pi=\E_{\theta_0,v_{0:N-1}}\left\{g_N(y_N)+\sum_{t=0}^{N-1}g_t(y_t,\mu_t(I_t,\theta_t),v_t)\right\}, 
    77\end{equation} 
    8 za podm�k 
     8za apriorn�nformace $\theta_0$ a podm�k 
    99\begin{gather} 
    1010\label{the2} 
    11 \theta_{t+1}=h_t(\theta_t,I_t,y_{t+1},u_t),\\ 
    12 \label{poz3} 
    13 y_0=h_0(\theta_0,v_0),\qquad y_{t+1}=h_t(\theta_t, I_t,u_t,v_{t+1}), \qquad t=0,\ldots,N-1, 
     11\theta_{t+1}=f_t(I_t,\theta_t,u_t,y_{t+1}),\\ 
     12\label{poz4} 
     13y_0=h_0(\theta_0,v_0),\qquad y_{t+1}=h_t(I_t,\theta_t,u_t,v_{t+1}), \qquad t=0,\ldots,N-1.\\ 
     14v_{t+1}\sim N(0,Q_{t+1})\\ 
     15\theta_t\sim N(\hat{\theta},P_t),\\ 
     16\cov(v_{t+1},\theta)=0. 
    1417\end{gather} 
    1518 
    16 \section{Certainty equivalecnce control} 
     19�ohu �e pomoc�ynamick� programov�, tedy postupnou minimalizac���n�tr� od konce �� horizontu 
     20\begin{gather} 
     21J_N(I_N,\theta_N)=\E_{\theta_N,v_N}\left\{g_N(y_N)\right\},\\ 
     22\label{los3} 
     23J_t(I_t,\theta_t)=\min_{u_t \in U_t}\E_{y_{t+1},v_t}\left\{g_t(y_t,u_t,v_t)+J_{t+1}((I_t, ,u_t,y_{t+1},\theta_{t+1}))|I_t,\theta_t,u_t\right\}, \\ \qquad t=0,\ldots,N-1, 
     24\end{gather} 
     25kde $\theta_{t+1}$ a $y_{t+1}$ se po��le \eqref{the2} a \eqref{poz4}. 
     26 
     27\section{Certainty equivalent control} 
     28P�u�it�etody Certainty equivalent control (CEC) [ref] se v rovnici pro o��nou ztr� nahrad��dn�eli�y sv��mi hodnotami. O��n�tr� tak p� v 
     29\begin{gather} 
     30J_N(I_N, \theta_N)=g_N(y_N),\\ 
     31J_t(I_t, \theta_t)=\min_{u_t \in U_t}\left\{g_t(y_t,u_t,\hat{v}_t) +J_{t+1}(I_t,\theta_{t+1},u_t,\hat{y}_{t+1}))|I_t,\theta_t,u_t\right\}, \\ \qquad t=0,\ldots,N-1, 
     32\end{gather} 
     33 
    1734\section{Metoda separace} 
    18 \section{SIDP}  
     35P�u�it�etody separace [ref] je proces ��ozd�n do dvou f�: 1) indentifikace nezn�ho parametru a 2) ��a pou�it�dhadu $\hat{\theta}$ z prvn��. 
     36 
     37Prvn�� slou�� nez�sl� sb� dat, kter�sou n�edn�ou�ita k odhadu nezn�ho parametru. K odhadu m� pou��nap�d rovnici \eqref{the2}. V druh�� pak po zbytek �� horizontu pou�ijeme  pro n�h ��trategie odhad $\hat{\theta}$ z prvn��. 
     38 
     39\section{SIDP} 
     40Metoda stochastick� iterativn� dynamick� programov� (SIDP) [ref] spo�� sou�n�pou�it�metody Monte Carlo k z�� aproximace pro o��nou ztr� a iterativn� dynamick� programov� k nalezen�ptim��trategie. 
     41 
     42\subsection{Metoda Monte Carlo} 
     43Metoda Monte Carlo je statistick�imula� metoda, kterou navrhl ... [ref]. Jej�rincip spo��e vzorkov� n�k��dn�eli�y za �m odhadu jej�ledan�harakteristiky, nap�� hodnoty. 
     44 
     45V t� pr� je metoda Monte Carlo pou�ita k v� o��n�tr� \eqref{ilos2}. P��n�pou�it�ynamick� programov� m� p�po� $J_t(I_t,\theta_t)$ k dispozici p�s pro n�eduj� o��nou ztr� $J_{t+1}(I_{t+1},\theta_{t+1})$. Metoda monte Carlo n�v�ak d� dispozici pouze odhad o��n�tr� a pou�it��to aproximac� dal��v� by chybu v�  navy�ovalo. Nam�o toho se pro dal��� uchov�j�\mu_t(I_t,\theta_t)$ a o��n�tr� v �e $t$ se pak po��ako pr�p�n$ realizac��dn�eli�y $(\theta_{t:N-1},v_{t:N})$, tedy 
     46\begin{equation} 
     47\label{mon} 
     48\frac{1}{n}\sum_{i=1}^n\left(g_N(y_N^i)+\sum_{j=t}^{N-1}g_j(y_j^i,\mu_j(I_j^i,\theta_j),v_j^i)\right), 
     49\end{equation} 
     50kde $y_{j+1}^i$ se po��odle \eqref{poz3} jako 
     51\begin{equation} 
     52y_{j+1}^i=h_j( I_j^i,\theta_j^i,\mu(I_j^i, \theta_j),v_{j+1}^i), \qquad j=t,\ldots,N-1, \qquad i=1\ldots,n, 
     53\end{equation} 
     54a index $i$ ozna�e $i$-tou realizaci dan�eli�y. Realizace $\theta_{t:N-1}$ se generuj�od�trajektorie \eqref{poz4}. To znamen��e dan�$\theta_{k+1}$ se generuje a� ve chv�, kdy je zn� $I_k$, $u_k$, rozd�n�\theta_k$ a $y_{k+1}$ a tedy p�eqref{the2} i rozd�n�\theta_{k+1}$. 
     55 
     56Tento jednoduch�up lze vylep�it v��ov�ovn�m. Jedn�z mo�n�lep�en� je dvou�ov�ritmus poposan�f]. V tomto algoritmu se nejprve pro ka�d� kandid� vygeneruje $n_0$ realizac�Na z�ad�ealizac�e vyberou ti kandid�, na kter�abyto minima s pravd�dobnost���e� je dan�ez $\alpha_0$. Pro tyto se v druh�� vygeneruje dostate� po� realizac�ak, aby bylo mo�n�ejlep��ozhodnut�volit s pravd�dobnost�lespo�vn�adan�ezi $\alpha_1$. Takto upraveny algoritmus metody Monte Carlo je robustn�� umo�� porovn� v�� mno�stv�andid�, nebo� po� realizac� prvn�� m������u��ouze k odfiltrov� zjevn�or�� kandid� na ��Pro � t� pr� nicm� posta�e z�adn�erze metody Monte Carlo a je proto v n�eduj� implementaci SIDP pou�ita.  
     57 
     58\subsection{Iterativn�ynamick�rogramov�} 
     59Iterativn�ynamick�rogramov� [ref] je jedn� p�p�alezen�ptim��trategie, kter�inimalizuje o��nou ztr� \eqref{ilos2}. Oproti dynamick� programov� se probl��iterativn�Na za�ku se zvol��k�priorn�trategie. V ka�d�teraci se potom vych� ze strategie spo�n� p�oz�kroku a prost�ctv�perturbac�ohoto (suboptim��) ��e hled�trategie, pro kterou bude o�van�tr� ni���Tato se pou�ije v n�eduj� iteraci. 
     60 
     61\subsection{Diskretizace prostoru} 
     62P�ed� optim��trategie $\mu_t(I_t,\theta_t)$ bychom pro p� vy�len���n�tr� \eqref{mon} na � �� horizontu $t:N$ pot�ali jej�nalytick�yj�en�To ale nen�bvykle mo�n�Je proto nutn�� k n�k�proximaci, nap�d 1) p�kl�t n�k� optim��trategie a p�po� ur� pouze konstanty, kter��ou strategii ur�jednozna�, nebo 2) diskretizovat prostor $(I_t,\theta_t)$ a po�at $\mu_t(I_t,\theta_t)$ jen v bodech diskretizace a jinde se uch� interpolaci (pop��xtrapolaci). V t� pr� vol� druhou zm�nou metodu. Poznamenejme, �e d� p�kladu gaussovsk� rozd�n�arametru ${\theta_t}$, diskretizace vyhledem k ${\theta_t}$ znamen�iskretizaci vzhledem k ${(\hat{\theta}_t,P_t)}$. 
     63 
     64Jak�sobem efektivn�iskretizovat prostor nez�sl�om��o aproximativn�� o��n�tr� \eqref{mon} je p�u�it�ynamick� programov� obt��t�a. Bude-li bod�iskretizaci p� m�, bude v� nespolehliv�pak pro p� jemnou diskretizaci bude �ov���st v� rychle stoupat (o �ov���sti SIDP viz d�). Zde se ukazuje v�st pou�it�terativn� dynamick� programov�, nebo� sta�diskretizovat jen tu �t prostoru kter�ude pot� v n�eduj� iteraci. Pomoc�trategie spo�n� p�oz�kroku a n�dn�alizac�umu $v_{0:N}$ a nezn�ho parametru $\theta_{0:N}$ vygenerujeme trajektorie v $(I,\theta)_{0:N}$. V ka�d�asov�rovni pak diskretizujeme jen tu �t prostoru, kter�yla zasa�ena.  
     65 
     66V t� pr� je volena jednoduch�etoda v kter�e spo� nejmen��yperkv� kolem zasa�en�ak, �e se vezme nejmen��yperkv� orientovan�m� sou�ch os, do kter� se vygenerovan�ody vejdou. Prostor se pot�iskretizuje pouze v t� oblasti. Metodu k ur��yperkv�u s obecnou orientac�ze naj�v [ref].  
     67 
     68\subsection{Algoritmus SIDP} 
     69V tomto od� je pops�algoritmus SIDP. Jeho parametry jsou 
     70 
     71\begin{itemize} 
     72\item $n_{pass}, \, n_{iter}$� po� opakov� a iterac�lgoritmu 
     73\item $N$ -- ��orizont 
     74\item $n_g$ -- po� bod�iskretizaci ka�d�imenzi $H_t$, tj. $|H_t|=n_g^{\dim H_t}$ 
     75\item $\pi^*=\mu_{0:N-1}(H_{0:N-1})$ -- apriorn��c�trategie 
     76\item $m$ -- po� kadnid� na zm�  �� z�hu v jedn�teraci IDP 
     77\item $\beta^{in}$ -- po�e� rozsah pro hled� optim�� �� z�hu 
     78\item $\gamma,\, \lambda$ -- parametry pro redukci $\beta^{in}$ 
     79\item $n$ -- po� realizac�ro odhad metodou Monte Carlo 
     80\end{itemize} 
     81 
     82Jak plyne z n�eduj�ho popisu, �ov�lo�itost SIDP vzhledem k jeho parametr� $O(n_{pass}n_{iter}N^2mn_g^{\dim H_N})$ (�ov���st metody Monte Carlo je ��zd�nosti od konce horizontu). 
     83 
     84\begin{algorithm} 
     85\begin{algorithmic} 
     86\FOR{$i = 1$ to $n_{pass}$}  
     87\FOR{$j = 1$ to $n_{iter}$}  
     88\STATE $\beta_{i,j} := \gamma^{j-1}\lambda^{i-1}\beta^{in}$ 
     89\FOR{$k = 1 $ to $|H_t|$}   
     90\STATE spo� trajektorii $H_{0,k}$, pou�ij aktu��\pi^*$, jej�nterpolace a extrapolace a realizace nezn�ho parametru $\theta_0,\ldots,\theta_{N-1}$ pod�t� trajektorie 
     91\ENDFOR 
     92\FOR{$t = N-1 $ to $0$}  
     93\STATE vytvo�ilde{H}_t$ jako�to rovnom�ou s�v oblasti bod�t$ 
     94\STATE interpoluj (extrapoluj) $\mu_t^*(H_t)$ na $\mu_t^*(\tilde{H}_t)$ 
     95\FOR{$k = 1 $ to $|H_t|$}   
     96\FOR{$m=-\left[\frac{m-1}{2}\right]$ to $\left[\frac{m}{2}\right]$} 
     97\STATE pro $\tilde{H}_{t,k}$ vygeneruj kandid� na ��\mu_t(\tilde{H}_{t,k}) =  \mu_t^*(\tilde{H}_{t,k})+m\beta_{i,j}$  
     98\STATE pomoc�etody Monte Carlo spo� o��nou ztr� 
     99\ENDFOR 
     100\STATE rozhodnut� nejni���o��nou ztr�u uchovej jako nov�ptim��ozhodnut�ro $\tilde{H}_{t,k}$. 
     101\ENDFOR 
     102\ENDFOR 
     103\ENDFOR 
     104\ENDFOR 
     105\end{algorithmic} 
     106\end{algorithm} 
  • applications/dual/SIDP/text/znaceni.tex

    r891 r917  
    66&t\!:\!s&&\text{posloupnost ��t, t+1, \ldots, s)\\ 
    77&a_{t:s}&&\text{posloupnost veli� } (a_t,a_{t+1}, \ldots, a_s)\\ 
    8 &g_{t:s}(a_{t:s})&&\text{posloupnost funk�ch hodnot } (g_t(a_t),g_{t+1}(a_{t+1}), \ldots, g_s(a_s)) 
     8&g_{t:s}(a_{t:s})&&\text{posloupnost funk�ch hodnot } (g_t(a_t),g_{t+1}(a_{t+1}), \ldots, g_s(a_s))\\ 
     9&|H|&&\text{po� prvk�no�in�} 
    910\end{align*}