root/applications/doprava/texty/novotny_vyzk_LQ/Pouziti/Pouziti.tex @ 1469

Revision 1434, 7.0 kB (checked in by jabu, 13 years ago)

finalni verze

Line 
1\chapter{Použití rozhodovacích metod v řízení dopravy}
2
3\input{Reinforcement_learning_pouziti/Reinforcement_learning_pouziti.tex}
4
5\input{06_Bayes_rmm_pouziti/Bayes_rmm_pouziti.tex}
6
7
8\subsection{Použití LQ řízení ve strategii TUC} \label{sec:lq_tuc}
9LQ řízení bylo použito v \cite{6_tuc_lq} k nalezení optimální délky zelených v systému
1013-ti křižovatek. Proměnné $x_i(t)$ zde představují obsazenost ramene $i$ 
11spojující křižovatky $M$ a $N$. Účelem strategie je nalezení optimální délky zelených
12$g$, $g_{N,i}$ značí délku zelené na signální skupiny křižovatky $N$ zprůjezdňující
13směr do ramene $i$. Předpokládaný vztah pro přechod systému z času $t$ do času $t+1$ je
14\begin{equation}\label{eq_tuc_1}
15 x_i(t+1) = x_i(t) + T [ q_i(t) + s_i(t) + d_i(t) + u_i(t) ] \;,
16\end{equation} kde proměnné značí:
17
18\begin{itemize}
19 \item $T$ - časový krok
20 \item $q_i(t)$ - přírůstek vozidel z křižovatek
21 \item $u_i(t)$ - úbytek vozidel do ostatních křižovatek
22 \item $s_i(t)$ - přírůstek vozidel z okolí sítě
23 \item $d_i(t)$ - úbytek vozidel mimo síť
24\end{itemize}
25
26Přírůstek vozidel z křižovatek je dán vztahem
27\begin{equation}
28 q_i(t) = \sum_{k\in I_m} t_{k,i} u_k(t) \;,
29\end{equation}
30je to tedy součet úbytků vozidel z ramen ústících do křižovatky $N$ vynásobených
31koeficinety $t_{k,i}$, což jsou odbočovací poměry z ramene $k$ do ramene $i$.
32V podobném tvaru se předpokládá $s_i(t)$
33\begin{equation}
34s_i(t) = t_{i,0} q_i(t) \;,
35\end{equation}
36kde $t_{i,0}$ je odbočovací koeficient ramene $i$ mimo sledovanou síť.
37Při délce cyklu $C$, saturovaném toku $S_i$ a délce zelených $g_{N,i}(t)$ ramene $i$ platí
38\begin{equation} \label{eq:tuc_u}
39 u_i(t) = \frac{S_i \sum g_{N,i}(t)}{C} \;.
40\end{equation}
41Rovnice \ref{eq_tuc_1} tedy přechází do tvaru
42\begin{equation}\label{eq_tuc_2}
43 x_i(t+1) = x_i(t) + T \left[
44    (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum g_{M,k}(t)}{C} 
45    - \frac{S_i \sum g_{N,i}(t)}{C}
46    + d_i(t) \right] \;.
47\end{equation}Uvažujeme-li nominální hodnoty $d^n$ a $g^n$ vedoucí
48vždy na stav $x^n$, platí podle rovnice \ref{eq_tuc_2} 
49\begin{equation}\label{eq_tuc_nom}
50 0 = T \left[
51    (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum g_{M,k}^n}{C} 
52    - \frac{S_i \sum g_{N,i}^n}{C}
53    + d_i^n \right] \;.
54\end{equation}Označíme-li
55\begin{equation}\label{eq_delta_g}
56 \Delta g(t) = g(t) - g^n \;,
57\end{equation}můžeme psát rovnici \ref{eq_tuc_2} jako
58\begin{equation}\label{eq_tuc_3}
59 x_i(t+1) = x_i(t) + T \left[
60    (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum \Delta g_{M,k}(t)}{C} 
61    - \frac{S_i \sum \Delta g_{N,i}(t)}{C}
62     \right] \;,
63\end{equation}
64což dovoluje tuto rovnici zapsat pomocí matic v požadovaném tvaru
65\begin{equation}\label{eq_tuc_4}
66 x(t+1) = A x(t) + B \Delta g(t) \;,
67\end{equation}
68kde $A$ je jednotková matice.
69
70\subsubsection{Kvadratické kritérium}
71Účelem algoritmu je minimalizovat obsazenost ramen, tedy vektor $x(t)$
72a penalizovat změnu délky trvání zelené oproti nominálním hodnotám.
73Kvadratické kritérium optimálního řízení \ref{eq_quadratic_criterion} jetedy v \cite{6_tuc_lq}
74definováno vztahem
75\begin{equation}\label{eq_tuc_crit}
76 J = \sum_{t=0}^{\infty} x(t)^T Q x(t) + \Delta g(t)^T R \Delta g(t) \;.
77\end{equation}Diagonální matice $Q$ je zde zodpovědná za vyvažování
78počtu vozidel jednotlivých úseků. V \cite{6_tuc_lq} je každý diagonální
79prvek $Q_{i,i}$ matice $Q$ položen převrácené hodnotě maximálního
80povoleného počtu vozidel daného úseku $i$. $R = rI$ penalizuje změnu
81časů zelených. Parametr $r$ ovlivňuje míru reakce systému a ja volen metodou pokus-oprava.
82Minimalizací tohoto kritéria pomcí \ref{eq_riccati} získáme zpětnovazebnou matici $L$,
83která určuje $g(t)$. Z rovnic \ref{eq_lq_feedback} a \ref{eq_delta_g} dostaneme výsledný vztah
84\begin{equation}\label{eq_tuc_feedback}
85 g(t) = g^n - L x(t) \;.
86\end{equation}Toto řešení předpokládá, že známe hodnotu $g^n$, při které systém
87zůstává ve stavu $x^n$. Tak tomu ale většinou není. Při absenci znalosti $g^n$
88podle \cite{6_tuc_lq} odečteme $g(t) - g(t-1)$ a rovnice \ref{eq_tuc_feedback} nabývá tvaru
89\begin{equation}\label{eq_tuc_feedback_2}
90 g(t) = g(t-1) - L( x(t) - x(t-1) ) \;.
91\end{equation}
92
93\section{Zhodnocení}
94
95\subsection{Zpětnovazebného učení}
96
97Metode popsaná v článku \cite{3_i_traff_light_c} používá ohodnocovací funkci
98založenou na parametrech jednotlivých vozidel. Výhodou oproti pojetí, kdy agent
99představuje pouze ovládací prvek křižovatky, jsou například v tom, že není potřeba
100odhadovat délku fronty a úloha se celá zjednoduší. Například v publikaci
101\cite{tlc_using_sarsa} se musí používat k odhadu funkcí $V$ a $Q$ neuronová síť.
102Navíc tento systém umožňuje i výběr optimální cesty vozidla pro průjezd dopravní sítí.\\
103
104Nevýhodou tohoto pojetí je ovšem značná neuniverzálnost. Už pro počítačové testování
105tento způsob znesnadňuje či úplně znemožňuje použít celou řadu dopravních simulátorů.
106Navíc pokud je použit řadič, který obstarává logiku přepínání průjezdnosti a
107lze nastavovat pouze vnější parametry, jako jsou délka cyklu a offset, je
108metoda, která potřebuje okamžitou změnu signalizace, naprosto nevhodná.
109Proto je toto řešení pro reálné nasazení v dnešní době jen obtížně použitelné.\\
110
111Pro použití zpětnovazebného učení obecně bychom museli problematiku
112řízení délky cyklu diskretizovat. Zpětnovazebné učení je metoda pracující
113s malým konečným počtem stavů a akcí. Zde jsou to akce nastavit jako průjezdný a
114nastavit jako neprůjezdný. V případě nastavování hodnot délky cyklu by neúnosně
115vzrostla dimenzionalita problému.
116
117\subsection{RMM a Bayesova učení}
118
119V článku \cite{4_rmm_formalization} nenjsou podrobně popsány akce agentů ani
120způsob, jak hodnotit jejich užitečnost. Proto je tato metoda jen obtížně reprodukovatelná,
121modifikovatelná či dále rozvinutelná. V naší situaci popsanné v dalších kapitolách také není nutné
122modelovat chování agentů, neboť ho můžeme zjistit pomocí posílaných zpráv. V případě
123reálného nasazení by však bylo možné vylepšení zapojením RMM pro odhad chování agenta
124pokud by nastal výpadek spojení nebo podobná situace.\\
125
126Bayesovske učení je velice účinná metoda ke stanovování pravděpodobností jistých situací
127a dala by se do budoucna zřejmě použít na stanovování odhadu dílčích parametrů,
128jako jsou poměry odbočení.
129
130\subsection{LQ řízení}
131LQ řízení je ověřená a díky své numerické stabilitě
132a výpočetní nenáročnosti široce používaná metoda.
133Její nasazení ve strategii TUC v článku \cite{6_tuc_lq}
134se jeví efektivně a dobře zohledňuje vazby mezi sousedními křižovatkami.
135Použití LQ řízení na ovládání délky cyklu v oblasti Praha-Zličín
136by nemělo být problematické a zdá se, že je to metoda adekvátní našemu záměru.
137
Note: See TracBrowser for help on using the browser.