Context Navigation

← Previous Change
Next Change →

Changeset 917 for applications/dual

Timestamp:

04/24/10 13:29:41 (16 years ago)

Author:

zimamiro

Message:

Location:

applications/dual/SIDP/text

Files:

: 6 modified

baksimple.pdf (modified) (previous)
baksimple.tex (modified) (1 diff)
ch1.tex (modified) (1 diff)
ch2.tex (modified) (6 diffs)
ch3.tex (modified) (1 diff)
znaceni.tex (modified) (1 diff)

Legend:

: Unmodified
: Added
: Removed

applications/dual/SIDP/text/baksimple.tex

r891	r917
5	5
6	6	\usepackage{amsmath} % bal�k pro pokro�ou matem. sazbu
	7	\usepackage{algorithm}
	8	\usepackage{algorithmic}
	9
7	10	\usepackage{epsfig} % bal�y pro vkl�n�rafick�ubor�u EPS
8	11

applications/dual/SIDP/text/ch1.tex

r891	r917
43	43	O��nou ztr� \eqref{los} potom m� p�t do tvaru
44	44	\begin{equation}
45		J_\pi(x_0)=\E_{w_{0:N-1}}\left\{g_N(x_N)+\sum_{t=0}^Ng_t(x_t,\mu_t(x_t),w_t)\right\}
	45	J_\pi(x_0)=\E_{w_{0:N-1}}\left\{g_N(x_N)+\sum_{t=0}^{N-1}g_t(x_t,\mu_t(x_t),w_t)\right\}
46	46	\end{equation}
47	47

applications/dual/SIDP/text/ch2.tex

r891	r917
32	32	Proto�e v �e $t$ nem� k dispozici p�stav syst� $x_t$, ale pouze informa� vektor $I_t$, nem� pou��postup z p�oz�apitoly. P��je pot�� vhodn�ransformovat. Za t�o �m zap�me informa� vektor ve tvaru
33	33	\begin{equation}
	34	\label{nep}
34	35	I_0=y_0,\qquad I_{t+1}=(I_t,u_t,y_{t+1}), \qquad t=1,\ldots,N-1.
35	36	\end{equation}
…	…
60	61	\begin{equation}
61	62	\label{poz2}
62		y_0=h_0(\theta,v_0),\qquad y_t=h_t(~~\theta, I_{t-1}~~,u_{t-1},v_t), \qquad t=1,\ldots,N-1,
	63	y_0=h_0(\theta,v_0),\qquad y_t=h_t( I_{t-1},\theta,u_{t-1},v_t), \qquad t=1,\ldots,N-1,
63	64	\end{equation}
64	65
65	66	Ztr�v�unkce je nyn�\begin{equation}
66	67	\label{los2}
67		g(y_{0:N},u_{0:N-1},~~w_{0:N-1})=g_N(y_N)+\sum_{t=0}^{N-1}g_t(y_t,u_t,w~~_t).
	68	g(y_{0:N},u_{0:N-1},v_{0:N-1})=g_N(y_N)+\sum_{t=0}^{N-1}g_t(y_t,u_t,v_t).
68	69	\end{equation}
69	70
…	…
71	72	\begin{equation}
72	73	\label{the}
73		\theta_{t+1}=f_t(~~\theta_t,I_t,y_{t+1},u_t~~), \qquad t=1,\ldots,N-1.
	74	\theta_{t+1}=f_t(I_t,\theta_t,u_t,y_{t+1}), \qquad t=1,\ldots,N-1.
74	75	\end{equation}
75
76		Rovnici \eqref{the} m� pova�ovat za rovnici syst� \eqref{sys} pro stav $(\theta_t,I_t)$ a vstup $(y_{t+1},u_t)$ bez p�nosti �umu. Do rovnice \eqref{poz2} dosad� za $\theta$ jeho aktu��dhad, tedy
	76	Rovnici \eqref{the} m� podobn�ako \eqref{nep} pova�ovat za rovnici syst� \eqref{sys} pro stav $(I_t, \theta_t)$, vstup $u_t$ s �umem $y_{t+1}$. Do rovnice \eqref{poz2} dosad� za $\theta$ jeho aktu��dhad, tedy
77	77	\begin{equation}
78	78	\label{poz3}
…	…
152	152	kter��e�en�\begin{equation}
153	153	\label{Kt}
154		K_t=~~\frac{P_tA_t}{A_t^TP_tA_t+Q_t~~}
	154	K_t=P_tA_t(A_t^TP_tA_t+Q_t)^{-1}
155	155	\end{equation}
156	156	Dosazen�\eqref{Kt} do \eqref{Pt+1} po ��ostaneme
…	…
160	160	\end{equation}
161	161	Celkov�edy od p�� odhadu parametru $N(\hat{\theta}_t,P_t)$ k nov� $N(\hat{\theta}_{t+1},P_{t+1})$ p�me pomoc�\begin{equation}
162		K_t=~~\frac{P_tA_t}{A_t^TP_tA_t+Q~~}
	162	K_t=P_tA_t(A_t^TP_tA_t+Q_t)^{-1}
163	163	\end{equation}
164	164	\begin{equation}
…	…
169	169	\end{equation}
170	170
171		Tato odhadovac�rocedura se naz�lman�ltr.
	171	Tato odhadovac�rocedura se naz�lman�ltr [ref].

applications/dual/SIDP/text/ch3.tex

r891	r917
1	1	A�liv pou�it�ynamick� programov� p��ok v ��lohy du�� analytick�e�en�bvykle nen�o�n��at. V ka�d��ov�kroku se toti� pot�se dv� obecn�bt��obl�my: 1) v� st� hodnoty a 2) minimalizace vzhledem k $u_t$. Oba probl� obecn�emaj�nalytick�e�en� bez dal��pecifikace � je proto t�p� k aproxima�m metod�
2	2
3		V t� kapitole ~~p��me~~ popis n�lika mo�n��up�proximativn� ��lohy du�� P�e� �e �u du�� je nalezen��c�trategie $\pi=\mu_{0:N-1}$, kter�y minimalizovala o��nou ztr�
	3	V t� kapitole se p�� popis n�lika mo�n��up�proximativn� ��lohy du�� P�e� �e �u du�� je nalezen��c�trategie $\pi=\mu_{0:N-1}$, kter�y minimalizovala o��nou ztr�
4	4	\begin{equation}
5		\label{ilos}
6		J_\pi=\E_{~~y_0,w_{0:N-1}}\left\{g_N(y_N)+\sum_{t=0}^{N-1}g_t(y_t,\mu_t(I_t),w~~_t)\right\},
	5	\label{ilos2}
	6	J_\pi=\E_{\theta_0,v_{0:N-1}}\left\{g_N(y_N)+\sum_{t=0}^{N-1}g_t(y_t,\mu_t(I_t,\theta_t),v_t)\right\},
7	7	\end{equation}
8		za podm�k
	8	za apriorn�nformace $\theta_0$ a podm�k
9	9	\begin{gather}
10	10	\label{the2}
11		\theta_{t+1}=h_t(\theta_t,I_t,y_{t+1},u_t),\\
12		\label{poz3}
13		y_0=h_0(\theta_0,v_0),\qquad y_{t+1}=h_t(\theta_t, I_t,u_t,v_{t+1}), \qquad t=0,\ldots,N-1,
	11	\theta_{t+1}=f_t(I_t,\theta_t,u_t,y_{t+1}),\\
	12	\label{poz4}
	13	y_0=h_0(\theta_0,v_0),\qquad y_{t+1}=h_t(I_t,\theta_t,u_t,v_{t+1}), \qquad t=0,\ldots,N-1.\\
	14	v_{t+1}\sim N(0,Q_{t+1})\\
	15	\theta_t\sim N(\hat{\theta},P_t),\\
	16	\cov(v_{t+1},\theta)=0.
14	17	\end{gather}
15	18
16		\section{Certainty equivalecnce control}
	19	�ohu �e pomoc�ynamick� programov�, tedy postupnou minimalizac��n�tr� od konce �� horizontu
	20	\begin{gather}
	21	J_N(I_N,\theta_N)=\E_{\theta_N,v_N}\left\{g_N(y_N)\right\},\\
	22	\label{los3}
	23	J_t(I_t,\theta_t)=\min_{u_t \in U_t}\E_{y_{t+1},v_t}\left\{g_t(y_t,u_t,v_t)+J_{t+1}((I_t, ,u_t,y_{t+1},\theta_{t+1}))\|I_t,\theta_t,u_t\right\}, \\ \qquad t=0,\ldots,N-1,
	24	\end{gather}
	25	kde $\theta_{t+1}$ a $y_{t+1}$ se po��le \eqref{the2} a \eqref{poz4}.
	26
	27	\section{Certainty equivalent control}
	28	P�u�it�etody Certainty equivalent control (CEC) [ref] se v rovnici pro o��nou ztr� nahrad��dn�eli�y sv��mi hodnotami. O��n�tr� tak p� v
	29	\begin{gather}
	30	J_N(I_N, \theta_N)=g_N(y_N),\\
	31	J_t(I_t, \theta_t)=\min_{u_t \in U_t}\left\{g_t(y_t,u_t,\hat{v}_t) +J_{t+1}(I_t,\theta_{t+1},u_t,\hat{y}_{t+1}))\|I_t,\theta_t,u_t\right\}, \\ \qquad t=0,\ldots,N-1,
	32	\end{gather}
	33
17	34	\section{Metoda separace}
18		\section{SIDP}
	35	P�u�it�etody separace [ref] je proces ��ozd�n do dvou f�: 1) indentifikace nezn�ho parametru a 2) ��a pou�it�dhadu $\hat{\theta}$ z prvn��.
	36
	37	Prvn�� slou�� nez�sl� sb� dat, kter�sou n�edn�ou�ita k odhadu nezn�ho parametru. K odhadu m� pou��nap�d rovnici \eqref{the2}. V druh�� pak po zbytek �� horizontu pou�ijeme pro n�h ��trategie odhad $\hat{\theta}$ z prvn��.
	38
	39	\section{SIDP}
	40	Metoda stochastick� iterativn� dynamick� programov� (SIDP) [ref] spo�� sou�n�pou�it�metody Monte Carlo k z�� aproximace pro o��nou ztr� a iterativn� dynamick� programov� k nalezen�ptim��trategie.
	41
	42	\subsection{Metoda Monte Carlo}
	43	Metoda Monte Carlo je statistick�imula� metoda, kterou navrhl ... [ref]. Jej�rincip spo��e vzorkov� n�k��dn�eli�y za �m odhadu jej�ledan�harakteristiky, nap�� hodnoty.
	44
	45	V t� pr� je metoda Monte Carlo pou�ita k v� o��n�tr� \eqref{ilos2}. P��n�pou�it�ynamick� programov� m� p�po� $J_t(I_t,\theta_t)$ k dispozici p�s pro n�eduj� o��nou ztr� $J_{t+1}(I_{t+1},\theta_{t+1})$. Metoda monte Carlo n�v�ak d� dispozici pouze odhad o��n�tr� a pou�it��to aproximac� dal��v� by chybu v� navy�ovalo. Nam�o toho se pro dal�� uchov�j�\mu_t(I_t,\theta_t)$ a o��n�tr� v �e $t$ se pak po��ako pr�p�n$ realizac��dn�eli�y $(\theta_{t:N-1},v_{t:N})$, tedy
	46	\begin{equation}
	47	\label{mon}
	48	\frac{1}{n}\sum_{i=1}^n\left(g_N(y_N^i)+\sum_{j=t}^{N-1}g_j(y_j^i,\mu_j(I_j^i,\theta_j),v_j^i)\right),
	49	\end{equation}
	50	kde $y_{j+1}^i$ se po��odle \eqref{poz3} jako
	51	\begin{equation}
	52	y_{j+1}^i=h_j( I_j^i,\theta_j^i,\mu(I_j^i, \theta_j),v_{j+1}^i), \qquad j=t,\ldots,N-1, \qquad i=1\ldots,n,
	53	\end{equation}
	54	a index $i$ ozna�e $i$-tou realizaci dan�eli�y. Realizace $\theta_{t:N-1}$ se generuj�od�trajektorie \eqref{poz4}. To znamen��e dan�$\theta_{k+1}$ se generuje a� ve chv�, kdy je zn� $I_k$, $u_k$, rozd�n�\theta_k$ a $y_{k+1}$ a tedy p�eqref{the2} i rozd�n�\theta_{k+1}$.
	55
	56	Tento jednoduch�up lze vylep�it v��ov�ovn�m. Jedn�z mo�n�lep�en� je dvou�ov�ritmus poposan�f]. V tomto algoritmu se nejprve pro ka�d� kandid� vygeneruje $n_0$ realizac�Na z�ad�ealizac�e vyberou ti kandid�, na kter�abyto minima s pravd�dobnost��e� je dan�ez $\alpha_0$. Pro tyto se v druh�� vygeneruje dostate� po� realizac�ak, aby bylo mo�n�ejlep��ozhodnut�volit s pravd�dobnost�lespo�vn�adan�ezi $\alpha_1$. Takto upraveny algoritmus metody Monte Carlo je robustn�� umo�� porovn� v�� mno�stv�andid�, nebo� po� realizac� prvn�� m��u��ouze k odfiltrov� zjevn�or�� kandid� na ��Pro � t� pr� nicm� posta�e z�adn�erze metody Monte Carlo a je proto v n�eduj� implementaci SIDP pou�ita.
	57
	58	\subsection{Iterativn�ynamick�rogramov�}
	59	Iterativn�ynamick�rogramov� [ref] je jedn� p�p�alezen�ptim��trategie, kter�inimalizuje o��nou ztr� \eqref{ilos2}. Oproti dynamick� programov� se probl��iterativn�Na za�ku se zvol��k�priorn�trategie. V ka�d�teraci se potom vych� ze strategie spo�n� p�oz�kroku a prost�ctv�perturbac�ohoto (suboptim��) ��e hled�trategie, pro kterou bude o�van�tr� ni��Tato se pou�ije v n�eduj� iteraci.
	60
	61	\subsection{Diskretizace prostoru}
	62	P�ed� optim��trategie $\mu_t(I_t,\theta_t)$ bychom pro p� vy�len��n�tr� \eqref{mon} na � �� horizontu $t:N$ pot�ali jej�nalytick�yj�en�To ale nen�bvykle mo�n�Je proto nutn�� k n�k�proximaci, nap�d 1) p�kl�t n�k� optim��trategie a p�po� ur� pouze konstanty, kter��ou strategii ur�jednozna�, nebo 2) diskretizovat prostor $(I_t,\theta_t)$ a po�at $\mu_t(I_t,\theta_t)$ jen v bodech diskretizace a jinde se uch� interpolaci (pop��xtrapolaci). V t� pr� vol� druhou zm�nou metodu. Poznamenejme, �e d� p�kladu gaussovsk� rozd�n�arametru ${\theta_t}$, diskretizace vyhledem k ${\theta_t}$ znamen�iskretizaci vzhledem k ${(\hat{\theta}_t,P_t)}$.
	63
	64	Jak�sobem efektivn�iskretizovat prostor nez�sl�om��o aproximativn�� o��n�tr� \eqref{mon} je p�u�it�ynamick� programov� obt��t�a. Bude-li bod�iskretizaci p� m�, bude v� nespolehliv�pak pro p� jemnou diskretizaci bude �ov��st v� rychle stoupat (o �ov��sti SIDP viz d�). Zde se ukazuje v�st pou�it�terativn� dynamick� programov�, nebo� sta�diskretizovat jen tu �t prostoru kter�ude pot� v n�eduj� iteraci. Pomoc�trategie spo�n� p�oz�kroku a n�dn�alizac�umu $v_{0:N}$ a nezn�ho parametru $\theta_{0:N}$ vygenerujeme trajektorie v $(I,\theta)_{0:N}$. V ka�d�asov�rovni pak diskretizujeme jen tu �t prostoru, kter�yla zasa�ena.
	65
	66	V t� pr� je volena jednoduch�etoda v kter�e spo� nejmen��yperkv� kolem zasa�en�ak, �e se vezme nejmen��yperkv� orientovan�m� sou�ch os, do kter� se vygenerovan�ody vejdou. Prostor se pot�iskretizuje pouze v t� oblasti. Metodu k ur��yperkv�u s obecnou orientac�ze naj�v [ref].
	67
	68	\subsection{Algoritmus SIDP}
	69	V tomto od� je pops�algoritmus SIDP. Jeho parametry jsou
	70
	71	\begin{itemize}
	72	\item $n_{pass}, \, n_{iter}$� po� opakov� a iterac�lgoritmu
	73	\item $N$ -- ��orizont
	74	\item $n_g$ -- po� bod�iskretizaci ka�d�imenzi $H_t$, tj. $\|H_t\|=n_g^{\dim H_t}$
	75	\item $\pi^*=\mu_{0:N-1}(H_{0:N-1})$ -- apriorn��c�trategie
	76	\item $m$ -- po� kadnid� na zm� �� z�hu v jedn�teraci IDP
	77	\item $\beta^{in}$ -- po�e� rozsah pro hled� optim�� z�hu
	78	\item $\gamma,\, \lambda$ -- parametry pro redukci $\beta^{in}$
	79	\item $n$ -- po� realizac�ro odhad metodou Monte Carlo
	80	\end{itemize}
	81
	82	Jak plyne z n�eduj�ho popisu, �ov�lo�itost SIDP vzhledem k jeho parametr� $O(n_{pass}n_{iter}N^2mn_g^{\dim H_N})$ (�ov��st metody Monte Carlo je ��zd�nosti od konce horizontu).
	83
	84	\begin{algorithm}
	85	\begin{algorithmic}
	86	\FOR{$i = 1$ to $n_{pass}$}
	87	\FOR{$j = 1$ to $n_{iter}$}
	88	\STATE $\beta_{i,j} := \gamma^{j-1}\lambda^{i-1}\beta^{in}$
	89	\FOR{$k = 1 $ to $\|H_t\|$}
	90	\STATE spo� trajektorii $H_{0,k}$, pou�ij aktu��\pi^*$, jej�nterpolace a extrapolace a realizace nezn�ho parametru $\theta_0,\ldots,\theta_{N-1}$ pod�t� trajektorie
	91	\ENDFOR
	92	\FOR{$t = N-1 $ to $0$}
	93	\STATE vytvo�ilde{H}_t$ jako�to rovnom�ou s�v oblasti bod�t$
	94	\STATE interpoluj (extrapoluj) $\mu_t^(H_t)$ na $\mu_t^(\tilde{H}_t)$
	95	\FOR{$k = 1 $ to $\|H_t\|$}
	96	\FOR{$m=-\left[\frac{m-1}{2}\right]$ to $\left[\frac{m}{2}\right]$}
	97	\STATE pro $\tilde{H}_{t,k}$ vygeneruj kandid� na ��\mu_t(\tilde{H}_{t,k}) = \mu_t^*(\tilde{H}_{t,k})+m\beta_{i,j}$
	98	\STATE pomoc�etody Monte Carlo spo� o��nou ztr�
	99	\ENDFOR
	100	\STATE rozhodnut� nejni��o��nou ztr�u uchovej jako nov�ptim��ozhodnut�ro $\tilde{H}_{t,k}$.
	101	\ENDFOR
	102	\ENDFOR
	103	\ENDFOR
	104	\ENDFOR
	105	\end{algorithmic}
	106	\end{algorithm}

applications/dual/SIDP/text/znaceni.tex

r891	r917
6	6	&t\!:\!s&&\text{posloupnost ��t, t+1, \ldots, s)\\
7	7	&a_{t:s}&&\text{posloupnost veli� } (a_t,a_{t+1}, \ldots, a_s)\\
8		&g_{t:s}(a_{t:s})&&\text{posloupnost funk�ch hodnot } (g_t(a_t),g_{t+1}(a_{t+1}), \ldots, g_s(a_s))
	8	&g_{t:s}(a_{t:s})&&\text{posloupnost funk�ch hodnot } (g_t(a_t),g_{t+1}(a_{t+1}), \ldots, g_s(a_s))\\
	9	&\|H\|&&\text{po� prvk�no�in�}
9	10	\end{align*}

Context Navigation

Changeset 917 for applications/dual

Legend:

applications/dual/SIDP/text/baksimple.tex

applications/dual/SIDP/text/ch1.tex

applications/dual/SIDP/text/ch2.tex

applications/dual/SIDP/text/ch3.tex

applications/dual/SIDP/text/znaceni.tex

Download in other formats: