Context Navigation

Pouziti.tex @ 1434

Revision 1434, 7.0 kB (checked in by jabu, 12 years ago)
finalni verze

Line
1	\chapter{Použití rozhodovacích metod v řízení dopravy}
2
3	\input{Reinforcement_learning_pouziti/Reinforcement_learning_pouziti.tex}
4
5	\input{06_Bayes_rmm_pouziti/Bayes_rmm_pouziti.tex}
6
7
8	\subsection{Použití LQ řízení ve strategii TUC} \label{sec:lq_tuc}
9	LQ řízení bylo použito v \cite{6_tuc_lq} k nalezení optimální délky zelených v systému
10	13-ti křižovatek. Proměnné $x_i(t)$ zde představují obsazenost ramene $i$
11	spojující křižovatky $M$ a $N$. Účelem strategie je nalezení optimální délky zelených
12	$g$, $g_{N,i}$ značí délku zelené na signální skupiny křižovatky $N$ zprůjezdňující
13	směr do ramene $i$. Předpokládaný vztah pro přechod systému z času $t$ do času $t+1$ je
14	\begin{equation}\label{eq_tuc_1}
15	x_i(t+1) = x_i(t) + T [ q_i(t) + s_i(t) + d_i(t) + u_i(t) ] \;,
16	\end{equation} kde proměnné značí:
17
18	\begin{itemize}
19	\item $T$ - časový krok
20	\item $q_i(t)$ - přírůstek vozidel z křižovatek
21	\item $u_i(t)$ - úbytek vozidel do ostatních křižovatek
22	\item $s_i(t)$ - přírůstek vozidel z okolí sítě
23	\item $d_i(t)$ - úbytek vozidel mimo síť
24	\end{itemize}
25
26	Přírůstek vozidel z křižovatek je dán vztahem
27	\begin{equation}
28	q_i(t) = \sum_{k\in I_m} t_{k,i} u_k(t) \;,
29	\end{equation}
30	je to tedy součet úbytků vozidel z ramen ústících do křižovatky $N$ vynásobených
31	koeficinety $t_{k,i}$, což jsou odbočovací poměry z ramene $k$ do ramene $i$.
32	V podobném tvaru se předpokládá $s_i(t)$
33	\begin{equation}
34	s_i(t) = t_{i,0} q_i(t) \;,
35	\end{equation}
36	kde $t_{i,0}$ je odbočovací koeficient ramene $i$ mimo sledovanou síť.
37	Při délce cyklu $C$, saturovaném toku $S_i$ a délce zelených $g_{N,i}(t)$ ramene $i$ platí
38	\begin{equation} \label{eq:tuc_u}
39	u_i(t) = \frac{S_i \sum g_{N,i}(t)}{C} \;.
40	\end{equation}
41	Rovnice \ref{eq_tuc_1} tedy přechází do tvaru
42	\begin{equation}\label{eq_tuc_2}
43	x_i(t+1) = x_i(t) + T \left[
44	(1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum g_{M,k}(t)}{C}
45	- \frac{S_i \sum g_{N,i}(t)}{C}
46	+ d_i(t) \right] \;.
47	\end{equation}Uvažujeme-li nominální hodnoty $d^n$ a $g^n$ vedoucí
48	vždy na stav $x^n$, platí podle rovnice \ref{eq_tuc_2}
49	\begin{equation}\label{eq_tuc_nom}
50	0 = T \left[
51	(1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum g_{M,k}^n}{C}
52	- \frac{S_i \sum g_{N,i}^n}{C}
53	+ d_i^n \right] \;.
54	\end{equation}Označíme-li
55	\begin{equation}\label{eq_delta_g}
56	\Delta g(t) = g(t) - g^n \;,
57	\end{equation}můžeme psát rovnici \ref{eq_tuc_2} jako
58	\begin{equation}\label{eq_tuc_3}
59	x_i(t+1) = x_i(t) + T \left[
60	(1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum \Delta g_{M,k}(t)}{C}
61	- \frac{S_i \sum \Delta g_{N,i}(t)}{C}
62	\right] \;,
63	\end{equation}
64	což dovoluje tuto rovnici zapsat pomocí matic v požadovaném tvaru
65	\begin{equation}\label{eq_tuc_4}
66	x(t+1) = A x(t) + B \Delta g(t) \;,
67	\end{equation}
68	kde $A$ je jednotková matice.
69
70	\subsubsection{Kvadratické kritérium}
71	Účelem algoritmu je minimalizovat obsazenost ramen, tedy vektor $x(t)$
72	a penalizovat změnu délky trvání zelené oproti nominálním hodnotám.
73	Kvadratické kritérium optimálního řízení \ref{eq_quadratic_criterion} jetedy v \cite{6_tuc_lq}
74	definováno vztahem
75	\begin{equation}\label{eq_tuc_crit}
76	J = \sum_{t=0}^{\infty} x(t)^T Q x(t) + \Delta g(t)^T R \Delta g(t) \;.
77	\end{equation}Diagonální matice $Q$ je zde zodpovědná za vyvažování
78	počtu vozidel jednotlivých úseků. V \cite{6_tuc_lq} je každý diagonální
79	prvek $Q_{i,i}$ matice $Q$ položen převrácené hodnotě maximálního
80	povoleného počtu vozidel daného úseku $i$. $R = rI$ penalizuje změnu
81	časů zelených. Parametr $r$ ovlivňuje míru reakce systému a ja volen metodou pokus-oprava.
82	Minimalizací tohoto kritéria pomcí \ref{eq_riccati} získáme zpětnovazebnou matici $L$,
83	která určuje $g(t)$. Z rovnic \ref{eq_lq_feedback} a \ref{eq_delta_g} dostaneme výsledný vztah
84	\begin{equation}\label{eq_tuc_feedback}
85	g(t) = g^n - L x(t) \;.
86	\end{equation}Toto řešení předpokládá, že známe hodnotu $g^n$, při které systém
87	zůstává ve stavu $x^n$. Tak tomu ale většinou není. Při absenci znalosti $g^n$
88	podle \cite{6_tuc_lq} odečteme $g(t) - g(t-1)$ a rovnice \ref{eq_tuc_feedback} nabývá tvaru
89	\begin{equation}\label{eq_tuc_feedback_2}
90	g(t) = g(t-1) - L( x(t) - x(t-1) ) \;.
91	\end{equation}
92
93	\section{Zhodnocení}
94
95	\subsection{Zpětnovazebného učení}
96
97	Metode popsaná v článku \cite{3_i_traff_light_c} používá ohodnocovací funkci
98	založenou na parametrech jednotlivých vozidel. Výhodou oproti pojetí, kdy agent
99	představuje pouze ovládací prvek křižovatky, jsou například v tom, že není potřeba
100	odhadovat délku fronty a úloha se celá zjednoduší. Například v publikaci
101	\cite{tlc_using_sarsa} se musí používat k odhadu funkcí $V$ a $Q$ neuronová síť.
102	Navíc tento systém umožňuje i výběr optimální cesty vozidla pro průjezd dopravní sítí.\\
103
104	Nevýhodou tohoto pojetí je ovšem značná neuniverzálnost. Už pro počítačové testování
105	tento způsob znesnadňuje či úplně znemožňuje použít celou řadu dopravních simulátorů.
106	Navíc pokud je použit řadič, který obstarává logiku přepínání průjezdnosti a
107	lze nastavovat pouze vnější parametry, jako jsou délka cyklu a offset, je
108	metoda, která potřebuje okamžitou změnu signalizace, naprosto nevhodná.
109	Proto je toto řešení pro reálné nasazení v dnešní době jen obtížně použitelné.\\
110
111	Pro použití zpětnovazebného učení obecně bychom museli problematiku
112	řízení délky cyklu diskretizovat. Zpětnovazebné učení je metoda pracující
113	s malým konečným počtem stavů a akcí. Zde jsou to akce nastavit jako průjezdný a
114	nastavit jako neprůjezdný. V případě nastavování hodnot délky cyklu by neúnosně
115	vzrostla dimenzionalita problému.
116
117	\subsection{RMM a Bayesova učení}
118
119	V článku \cite{4_rmm_formalization} nenjsou podrobně popsány akce agentů ani
120	způsob, jak hodnotit jejich užitečnost. Proto je tato metoda jen obtížně reprodukovatelná,
121	modifikovatelná či dále rozvinutelná. V naší situaci popsanné v dalších kapitolách také není nutné
122	modelovat chování agentů, neboť ho můžeme zjistit pomocí posílaných zpráv. V případě
123	reálného nasazení by však bylo možné vylepšení zapojením RMM pro odhad chování agenta
124	pokud by nastal výpadek spojení nebo podobná situace.\\
125
126	Bayesovske učení je velice účinná metoda ke stanovování pravděpodobností jistých situací
127	a dala by se do budoucna zřejmě použít na stanovování odhadu dílčích parametrů,
128	jako jsou poměry odbočení.
129
130	\subsection{LQ řízení}
131	LQ řízení je ověřená a díky své numerické stabilitě
132	a výpočetní nenáročnosti široce používaná metoda.
133	Její nasazení ve strategii TUC v článku \cite{6_tuc_lq}
134	se jeví efektivně a dobře zohledňuje vazby mezi sousedními křižovatkami.
135	Použití LQ řízení na ovládání délky cyklu v oblasti Praha-Zličín
136	by nemělo být problematické a zdá se, že je to metoda adekvátní našemu záměru.
137

Note: See TracBrowser for help on using the browser.

Context Navigation

root/applications/doprava/texty/novotny_vyzk_LQ/Pouziti/Pouziti.tex @ 1434

Download in other formats: