root/applications/doprava/texty/novotny_vyzk_LQ/Pouziti/Pouziti.tex @ 1429

Revision 1429, 6.3 kB (checked in by jabu, 12 years ago)

presunuti minimalizace do kapitoly o LQ rizeni

Line 
1\chapter{Použití rozhodovacích metod v řízení dopravy}
2
3\input{Reinforcement_learning_pouziti/Reinforcement_learning_pouziti.tex}
4
5\input{06_Bayes_rmm_pouziti/Bayes_rmm_pouziti.tex}
6
7
8\subsection{Použití LQ řízení ve strategii TUC}
9LQ řízení bylo použito v \cite{6_tuc_lq} k nalezení optimální délky zelených v systému
1013-ti signálních skupin. Proměnné $x_i(t)$ zde představují obsazenost ramene $i$ 
11spojující křižovatky $M$ a $N$. Účelem strategie je nalezení optimální délky zelených
12$g$, $g_{N,i}$ značí délku zelené na signální skupiny křižovatky $N$ zprůjezdňující
13směr do ramene $i$. Předpokládaný vztah pro přechod systému z času $t$ do času $t+1$ je
14\begin{equation}\label{eq_tuc_1}
15 x_i(t+1) = x_i(t) + T [ q_i(t) + s_i(t) + d_i(t) + u_i(t) ] \;,
16\end{equation} kde proměnné značí:
17
18\begin{itemize}
19 \item $T$ - časový krok
20 \item $q_i(t)$ - přírůstek vozidel z křižovatek
21 \item $u_i(t)$ - úbytek vozidel do ostatních křižovatek
22 \item $s_i(t)$ - přírůstek vozidel z okolí sítě
23 \item $d_i(t)$ - úbytek vozidel mimo síť
24\end{itemize}
25
26Přírůstek vozidel z křižovatek je dán vztahem
27\begin{equation}
28 q_i(t) = \sum_{k\in I_m} t_{k,i} u_k(t) \;,
29\end{equation}
30je to tedy součet úbytků vozidel z ramen ústících do křižovatky $N$ vynásobených
31koeficinety $t_{k,i}$, což jsou odbočovací poměry z ramene $k$ do ramene $i$.
32V podovném tvaru se předpokládá $s_i(t)$
33\begin{equation}
34s_i(t) = t_{i,0} q_i(t) \;,
35\end{equation}
36kde $t_{i,0}$ je odbočovací koeficient ramene $i$ mimo sledovanou síť.
37Při délce cyklu $C$, saturovaném toku $S_i$ a délce zelených $g_{N,i}(t)$ ramene $i$ platí
38\begin{equation} \label{eq:tuc_u}
39 u_i(t) = \frac{S_i \sum g_{N,i}(t)}{C} \;.
40\end{equation}
41Rovnice \ref{eq_tuc_1} tedy přechází do tvaru
42\begin{equation}\label{eq_tuc_2}
43 x_i(t+1) = x_i(t) + T \left[
44    (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum g_{M,k}(t)}{C} 
45    - \frac{S_i \sum g_{N,i}(t)}{C}
46    + d_i(t) \right] \;.
47\end{equation}Uvažujeme-li nominální hodnoty $d^n$ a $g^n$ vedoucí
48vždy na stav $x^n$, platí podle rovnice \ref{eq_tuc_2} 
49\begin{equation}\label{eq_tuc_nom}
50 0 = T \left[
51    (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum g_{M,k}^n}{C} 
52    - \frac{S_i \sum g_{N,i}^n}{C}
53    + d_i^n \right] \;.
54\end{equation}Označíme-li
55\begin{equation}\label{eq_delta_g}
56 \Delta g(t) = g(t) - g^n \;,
57\end{equation}můžeme psát rovnici \ref{eq_tuc_2} jako
58\begin{equation}\label{eq_tuc_3}
59 x_i(t+1) = x_i(t) + T \left[
60    (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum \Delta g_{M,k}(t)}{C} 
61    - \frac{S_i \sum \Delta g_{N,i}(t)}{C}
62     \right] \;,
63\end{equation}
64což dovoluje tuto rovnici zapsat pomocí matic v požadovaném tvaru
65\begin{equation}\label{eq_tuc_4}
66 x(t+1) = A x(t) + B \Delta g(t) \;,
67\end{equation}
68kde $A$ je jednotková matice.
69
70\subsubsection{Kvadratické kritérium}
71Účelem lagoritmu je minimalizovat obsazenost ramen, tedy vektor $x(t)$
72a penalizovat změnu délky trvání zelené oproti nominálním hodnotám.
73Kvadratické kritérium optimálního řízení \ref{eq_quadratic_criterion} jetedy v \cite{6_tuc_lq}
74definováno vztahem
75\begin{equation}\label{eq_tuc_crit}
76 J = \sum_{t=0}^{\infty} x(t)^T Q x(t) + \Delta g(t)^T R \Delta g(t) \;.
77\end{equation}Diagonální matice $Q$ je zde zodpovědná za vyvažování
78počtu vozidel jednotlivých úseků. V \cite{6_tuc_lq} je každý diagonální
79prvek $Q_{i,i}$ matice $Q$ položen převrácené hodnotě maximálního
80povoleného počtu vozidel daného úseku $i$. $R = rI$ penalizuje změnu
81časů zelených. Parametr $r$ ovlivňuje míru reakce systému a ja volen metodou pokus-oprava.
82Minimalizací tohoto kritéria pomcí \ref{eq_riccati} získáme zpětnovazebnou matici $L$,
83která určuje $g(t)$. Z rovnic \ref{eq_lq_feedback} a \ref{eq_delta_g} dostaneme výsledný vztah
84\begin{equation}\label{eq_tuc_feedback}
85 g(t) = g^n - L x(t) \;.
86\end{equation}Toto řešení předpokládá, že známe hodnotu $g^n$, při které systém
87zůstává ve stavu $x^n$. Tak tomu ale většinou není. Při absenci znalosti $g^n$
88podle \cite{6_tuc_lq} odečteme $g(t) - g(t-1)$ a rovnice \ref{eq_tuc_feedback} nabývá tvaru
89\begin{equation}\label{eq_tuc_feedback_2}
90 g(t) = g(t-1) - L( x(t) - x(t-1) ) \;.
91\end{equation}
92
93\section{Zhodnocení}
94
95\subsection{Zpětnovazebného učení}
96
97Metode popsaná v článku \cite{3_i_traff_light_c} používá ohodnocovací funkci
98založenou na parametrech jednotlivých vozidel. Výhodou oproti pojetí, kdy agent
99představuje pouze signální skupinu, jsou například v tom, že není potřeba
100odhadovat délku fronty a úloha se celá zjednoduší. Například v publikaci
101\cite{tlc_using_sarsa} se musí používat k odhadu funkcí $V$ a $Q$ neuronová síť.
102Navíc tento systém umožňuje i výběr optimální cesty vozidla pro průjezd dopravní sítí.
103Nevýhodou tohoto pojetí je ovšem značná neuniverzálnost. Už pro počítačové testování
104tato metode znesnadnuje či úplně znemožňuje použít celou řadu dopravních simulátorů,
105které jsou pro simulaci po dlouhou dobu optimalizovány a
106jejichž nasazení značně zjednodušuje práci a urychluje vývoj.
107Navíc pokud je použit řadič, který obstarává logiku přepínání průjezdnosti a
108lze nastavovat pouze vnější parametry jako jsou délka cyklu a offset, je
109metoda, která potřebuje okamžitou změnu signalizace naprosto nevhodná,
110proto je toto řešení pro reálné nasazení v dnešní době obtížně použitelné.
111Zapojení některých myšlenek z článku \cite{3_i_traff_light_c} nebo použití
112zpětnovazevného učení k řešení dílčích problémů by však mohlo přinést zlepšení
113i do způsobu žešení popsaných v dalších kapitolách.
114
115\subsection{RMM a Bayesova učení}
116
117V článku \cite{4_rmm_formalization} nenjsou podrobně popsány akce agentů ani
118způsob, jak hodnotit jejich užitečnost. Proto je tato metoda jen obtížně reprodukovatelná,
119modifikovatelná či dále rozvinutelná. V naší situaci popsanné v dalších kapitolách také není nutné
120modelovat chování agentů, neboť je možné ho vykomunikovat pomocí posílaných zpráv. V případě
121reálného nasazení by však bylo možné vylepšení zapojením RMM pro odhad chování agenta
122pokud by nastal výpadek spojení nebo podobná situace.
123
124\subsection{LQ řízení}
Note: See TracBrowser for help on using the browser.