1 | \chapter{Použití rozhodovacích metod v řízení dopravy} |
---|
2 | |
---|
3 | \input{Reinforcement_learning_pouziti/Reinforcement_learning_pouziti.tex} |
---|
4 | |
---|
5 | \input{06_Bayes_rmm_pouziti/Bayes_rmm_pouziti.tex} |
---|
6 | |
---|
7 | |
---|
8 | \subsection{Použití LQ řízení ve strategii TUC} \label{sec:lq_tuc} |
---|
9 | LQ řízení bylo použito v \cite{6_tuc_lq} k nalezení optimální délky zelených v systému |
---|
10 | 13-ti křižovatek. Proměnné $x_i(t)$ zde představují obsazenost ramene $i$ |
---|
11 | spojující křižovatky $M$ a $N$. Účelem strategie je nalezení optimální délky zelených |
---|
12 | $g$, $g_{N,i}$ značí délku zelené na signální skupiny křižovatky $N$ zprůjezdňující |
---|
13 | směr do ramene $i$. Předpokládaný vztah pro přechod systému z času $t$ do času $t+1$ je |
---|
14 | \begin{equation}\label{eq_tuc_1} |
---|
15 | x_i(t+1) = x_i(t) + T [ q_i(t) + s_i(t) + d_i(t) + u_i(t) ] \;, |
---|
16 | \end{equation} kde proměnné značí: |
---|
17 | |
---|
18 | \begin{itemize} |
---|
19 | \item $T$ - časový krok |
---|
20 | \item $q_i(t)$ - přírůstek vozidel z křižovatek |
---|
21 | \item $u_i(t)$ - úbytek vozidel do ostatních křižovatek |
---|
22 | \item $s_i(t)$ - přírůstek vozidel z okolí sítě |
---|
23 | \item $d_i(t)$ - úbytek vozidel mimo síť |
---|
24 | \end{itemize} |
---|
25 | |
---|
26 | Přírůstek vozidel z křižovatek je dán vztahem |
---|
27 | \begin{equation} |
---|
28 | q_i(t) = \sum_{k\in I_m} t_{k,i} u_k(t) \;, |
---|
29 | \end{equation} |
---|
30 | je to tedy součet úbytků vozidel z ramen ústících do křižovatky $N$ vynásobených |
---|
31 | koeficinety $t_{k,i}$, což jsou odbočovací poměry z ramene $k$ do ramene $i$. |
---|
32 | V podobném tvaru se předpokládá $s_i(t)$ |
---|
33 | \begin{equation} |
---|
34 | s_i(t) = t_{i,0} q_i(t) \;, |
---|
35 | \end{equation} |
---|
36 | kde $t_{i,0}$ je odbočovací koeficient ramene $i$ mimo sledovanou síť. |
---|
37 | Při délce cyklu $C$, saturovaném toku $S_i$ a délce zelených $g_{N,i}(t)$ ramene $i$ platí |
---|
38 | \begin{equation} \label{eq:tuc_u} |
---|
39 | u_i(t) = \frac{S_i \sum g_{N,i}(t)}{C} \;. |
---|
40 | \end{equation} |
---|
41 | Rovnice \ref{eq_tuc_1} tedy přechází do tvaru |
---|
42 | \begin{equation}\label{eq_tuc_2} |
---|
43 | x_i(t+1) = x_i(t) + T \left[ |
---|
44 | (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum g_{M,k}(t)}{C} |
---|
45 | - \frac{S_i \sum g_{N,i}(t)}{C} |
---|
46 | + d_i(t) \right] \;. |
---|
47 | \end{equation}Uvažujeme-li nominální hodnoty $d^n$ a $g^n$ vedoucí |
---|
48 | vždy na stav $x^n$, platí podle rovnice \ref{eq_tuc_2} |
---|
49 | \begin{equation}\label{eq_tuc_nom} |
---|
50 | 0 = T \left[ |
---|
51 | (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum g_{M,k}^n}{C} |
---|
52 | - \frac{S_i \sum g_{N,i}^n}{C} |
---|
53 | + d_i^n \right] \;. |
---|
54 | \end{equation}Označíme-li |
---|
55 | \begin{equation}\label{eq_delta_g} |
---|
56 | \Delta g(t) = g(t) - g^n \;, |
---|
57 | \end{equation}můžeme psát rovnici \ref{eq_tuc_2} jako |
---|
58 | \begin{equation}\label{eq_tuc_3} |
---|
59 | x_i(t+1) = x_i(t) + T \left[ |
---|
60 | (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum \Delta g_{M,k}(t)}{C} |
---|
61 | - \frac{S_i \sum \Delta g_{N,i}(t)}{C} |
---|
62 | \right] \;, |
---|
63 | \end{equation} |
---|
64 | což dovoluje tuto rovnici zapsat pomocí matic v požadovaném tvaru |
---|
65 | \begin{equation}\label{eq_tuc_4} |
---|
66 | x(t+1) = A x(t) + B \Delta g(t) \;, |
---|
67 | \end{equation} |
---|
68 | kde $A$ je jednotková matice. |
---|
69 | |
---|
70 | \subsubsection{Kvadratické kritérium} |
---|
71 | Účelem algoritmu je minimalizovat obsazenost ramen, tedy vektor $x(t)$ |
---|
72 | a penalizovat změnu délky trvání zelené oproti nominálním hodnotám. |
---|
73 | Kvadratické kritérium optimálního řízení \ref{eq_quadratic_criterion} jetedy v \cite{6_tuc_lq} |
---|
74 | definováno vztahem |
---|
75 | \begin{equation}\label{eq_tuc_crit} |
---|
76 | J = \sum_{t=0}^{\infty} x(t)^T Q x(t) + \Delta g(t)^T R \Delta g(t) \;. |
---|
77 | \end{equation}Diagonální matice $Q$ je zde zodpovědná za vyvažování |
---|
78 | počtu vozidel jednotlivých úseků. V \cite{6_tuc_lq} je každý diagonální |
---|
79 | prvek $Q_{i,i}$ matice $Q$ položen převrácené hodnotě maximálního |
---|
80 | povoleného počtu vozidel daného úseku $i$. $R = rI$ penalizuje změnu |
---|
81 | časů zelených. Parametr $r$ ovlivňuje míru reakce systému a ja volen metodou pokus-oprava. |
---|
82 | Minimalizací tohoto kritéria pomcí \ref{eq_riccati} získáme zpětnovazebnou matici $L$, |
---|
83 | která určuje $g(t)$. Z rovnic \ref{eq_lq_feedback} a \ref{eq_delta_g} dostaneme výsledný vztah |
---|
84 | \begin{equation}\label{eq_tuc_feedback} |
---|
85 | g(t) = g^n - L x(t) \;. |
---|
86 | \end{equation}Toto řešení předpokládá, že známe hodnotu $g^n$, při které systém |
---|
87 | zůstává ve stavu $x^n$. Tak tomu ale většinou není. Při absenci znalosti $g^n$ |
---|
88 | podle \cite{6_tuc_lq} odečteme $g(t) - g(t-1)$ a rovnice \ref{eq_tuc_feedback} nabývá tvaru |
---|
89 | \begin{equation}\label{eq_tuc_feedback_2} |
---|
90 | g(t) = g(t-1) - L( x(t) - x(t-1) ) \;. |
---|
91 | \end{equation} |
---|
92 | |
---|
93 | \section{Zhodnocení} |
---|
94 | |
---|
95 | \subsection{Zpětnovazebného učení} |
---|
96 | |
---|
97 | Metode popsaná v článku \cite{3_i_traff_light_c} používá ohodnocovací funkci |
---|
98 | založenou na parametrech jednotlivých vozidel. Výhodou oproti pojetí, kdy agent |
---|
99 | představuje pouze ovládací prvek křižovatky, jsou například v tom, že není potřeba |
---|
100 | odhadovat délku fronty a úloha se celá zjednoduší. Například v publikaci |
---|
101 | \cite{tlc_using_sarsa} se musí používat k odhadu funkcí $V$ a $Q$ neuronová síť. |
---|
102 | Navíc tento systém umožňuje i výběr optimální cesty vozidla pro průjezd dopravní sítí.\\ |
---|
103 | |
---|
104 | Nevýhodou tohoto pojetí je ovšem značná neuniverzálnost. Už pro počítačové testování |
---|
105 | tento způsob znesnadňuje či úplně znemožňuje použít celou řadu dopravních simulátorů. |
---|
106 | Navíc pokud je použit řadič, který obstarává logiku přepínání průjezdnosti a |
---|
107 | lze nastavovat pouze vnější parametry, jako jsou délka cyklu a offset, je |
---|
108 | metoda, která potřebuje okamžitou změnu signalizace, naprosto nevhodná. |
---|
109 | Proto je toto řešení pro reálné nasazení v dnešní době jen obtížně použitelné.\\ |
---|
110 | |
---|
111 | Pro použití zpětnovazebného učení obecně bychom museli problematiku |
---|
112 | řízení délky cyklu diskretizovat. Zpětnovazebné učení je metoda pracující |
---|
113 | s malým konečným počtem stavů a akcí. Zde jsou to akce nastavit jako průjezdný a |
---|
114 | nastavit jako neprůjezdný. V případě nastavování hodnot délky cyklu by neúnosně |
---|
115 | vzrostla dimenzionalita problému. |
---|
116 | |
---|
117 | \subsection{RMM a Bayesova učení} |
---|
118 | |
---|
119 | V článku \cite{4_rmm_formalization} nenjsou podrobně popsány akce agentů ani |
---|
120 | způsob, jak hodnotit jejich užitečnost. Proto je tato metoda jen obtížně reprodukovatelná, |
---|
121 | modifikovatelná či dále rozvinutelná. V naší situaci popsanné v dalších kapitolách také není nutné |
---|
122 | modelovat chování agentů, neboť ho můžeme zjistit pomocí posílaných zpráv. V případě |
---|
123 | reálného nasazení by však bylo možné vylepšení zapojením RMM pro odhad chování agenta |
---|
124 | pokud by nastal výpadek spojení nebo podobná situace.\\ |
---|
125 | |
---|
126 | Bayesovske učení je velice účinná metoda ke stanovování pravděpodobností jistých situací |
---|
127 | a dala by se do budoucna zřejmě použít na stanovování odhadu dílčích parametrů, |
---|
128 | jako jsou poměry odbočení. |
---|
129 | |
---|
130 | \subsection{LQ řízení} |
---|
131 | LQ řízení je ověřená a díky své numerické stabilitě |
---|
132 | a výpočetní nenáročnosti široce používaná metoda. |
---|
133 | Její nasazení ve strategii TUC v článku \cite{6_tuc_lq} |
---|
134 | se jeví efektivně a dobře zohledňuje vazby mezi sousedními křižovatkami. |
---|
135 | Použití LQ řízení na ovládání délky cyklu v oblasti Praha-Zličín |
---|
136 | by nemělo být problematické a zdá se, že je to metoda adekvátní našemu záměru. |
---|
137 | |
---|