| 1 | \chapter{Použití rozhodovacích metod v řízení dopravy} |
|---|
| 2 | |
|---|
| 3 | \input{Reinforcement_learning_pouziti/Reinforcement_learning_pouziti.tex} |
|---|
| 4 | |
|---|
| 5 | \input{06_Bayes_rmm_pouziti/Bayes_rmm_pouziti.tex} |
|---|
| 6 | |
|---|
| 7 | |
|---|
| 8 | \subsection{Použití LQ řízení ve strategii TUC} \label{sec:lq_tuc} |
|---|
| 9 | LQ řízení bylo použito v \cite{6_tuc_lq} k nalezení optimální délky zelených v systému |
|---|
| 10 | 13-ti signálních skupin. Proměnné $x_i(t)$ zde představují obsazenost ramene $i$ |
|---|
| 11 | spojující křižovatky $M$ a $N$. Účelem strategie je nalezení optimální délky zelených |
|---|
| 12 | $g$, $g_{N,i}$ značí délku zelené na signální skupiny křižovatky $N$ zprůjezdňující |
|---|
| 13 | směr do ramene $i$. Předpokládaný vztah pro přechod systému z času $t$ do času $t+1$ je |
|---|
| 14 | \begin{equation}\label{eq_tuc_1} |
|---|
| 15 | x_i(t+1) = x_i(t) + T [ q_i(t) + s_i(t) + d_i(t) + u_i(t) ] \;, |
|---|
| 16 | \end{equation} kde proměnné značí: |
|---|
| 17 | |
|---|
| 18 | \begin{itemize} |
|---|
| 19 | \item $T$ - časový krok |
|---|
| 20 | \item $q_i(t)$ - přírůstek vozidel z křižovatek |
|---|
| 21 | \item $u_i(t)$ - úbytek vozidel do ostatních křižovatek |
|---|
| 22 | \item $s_i(t)$ - přírůstek vozidel z okolí sítě |
|---|
| 23 | \item $d_i(t)$ - úbytek vozidel mimo síť |
|---|
| 24 | \end{itemize} |
|---|
| 25 | |
|---|
| 26 | Přírůstek vozidel z křižovatek je dán vztahem |
|---|
| 27 | \begin{equation} |
|---|
| 28 | q_i(t) = \sum_{k\in I_m} t_{k,i} u_k(t) \;, |
|---|
| 29 | \end{equation} |
|---|
| 30 | je to tedy součet úbytků vozidel z ramen ústících do křižovatky $N$ vynásobených |
|---|
| 31 | koeficinety $t_{k,i}$, což jsou odbočovací poměry z ramene $k$ do ramene $i$. |
|---|
| 32 | V podovném tvaru se předpokládá $s_i(t)$ |
|---|
| 33 | \begin{equation} |
|---|
| 34 | s_i(t) = t_{i,0} q_i(t) \;, |
|---|
| 35 | \end{equation} |
|---|
| 36 | kde $t_{i,0}$ je odbočovací koeficient ramene $i$ mimo sledovanou síť. |
|---|
| 37 | Při délce cyklu $C$, saturovaném toku $S_i$ a délce zelených $g_{N,i}(t)$ ramene $i$ platí |
|---|
| 38 | \begin{equation} \label{eq:tuc_u} |
|---|
| 39 | u_i(t) = \frac{S_i \sum g_{N,i}(t)}{C} \;. |
|---|
| 40 | \end{equation} |
|---|
| 41 | Rovnice \ref{eq_tuc_1} tedy přechází do tvaru |
|---|
| 42 | \begin{equation}\label{eq_tuc_2} |
|---|
| 43 | x_i(t+1) = x_i(t) + T \left[ |
|---|
| 44 | (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum g_{M,k}(t)}{C} |
|---|
| 45 | - \frac{S_i \sum g_{N,i}(t)}{C} |
|---|
| 46 | + d_i(t) \right] \;. |
|---|
| 47 | \end{equation}Uvažujeme-li nominální hodnoty $d^n$ a $g^n$ vedoucí |
|---|
| 48 | vždy na stav $x^n$, platí podle rovnice \ref{eq_tuc_2} |
|---|
| 49 | \begin{equation}\label{eq_tuc_nom} |
|---|
| 50 | 0 = T \left[ |
|---|
| 51 | (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum g_{M,k}^n}{C} |
|---|
| 52 | - \frac{S_i \sum g_{N,i}^n}{C} |
|---|
| 53 | + d_i^n \right] \;. |
|---|
| 54 | \end{equation}Označíme-li |
|---|
| 55 | \begin{equation}\label{eq_delta_g} |
|---|
| 56 | \Delta g(t) = g(t) - g^n \;, |
|---|
| 57 | \end{equation}můžeme psát rovnici \ref{eq_tuc_2} jako |
|---|
| 58 | \begin{equation}\label{eq_tuc_3} |
|---|
| 59 | x_i(t+1) = x_i(t) + T \left[ |
|---|
| 60 | (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum \Delta g_{M,k}(t)}{C} |
|---|
| 61 | - \frac{S_i \sum \Delta g_{N,i}(t)}{C} |
|---|
| 62 | \right] \;, |
|---|
| 63 | \end{equation} |
|---|
| 64 | což dovoluje tuto rovnici zapsat pomocí matic v požadovaném tvaru |
|---|
| 65 | \begin{equation}\label{eq_tuc_4} |
|---|
| 66 | x(t+1) = A x(t) + B \Delta g(t) \;, |
|---|
| 67 | \end{equation} |
|---|
| 68 | kde $A$ je jednotková matice. |
|---|
| 69 | |
|---|
| 70 | \subsubsection{Kvadratické kritérium} |
|---|
| 71 | Účelem lagoritmu je minimalizovat obsazenost ramen, tedy vektor $x(t)$ |
|---|
| 72 | a penalizovat změnu délky trvání zelené oproti nominálním hodnotám. |
|---|
| 73 | Kvadratické kritérium optimálního řízení \ref{eq_quadratic_criterion} jetedy v \cite{6_tuc_lq} |
|---|
| 74 | definováno vztahem |
|---|
| 75 | \begin{equation}\label{eq_tuc_crit} |
|---|
| 76 | J = \sum_{t=0}^{\infty} x(t)^T Q x(t) + \Delta g(t)^T R \Delta g(t) \;. |
|---|
| 77 | \end{equation}Diagonální matice $Q$ je zde zodpovědná za vyvažování |
|---|
| 78 | počtu vozidel jednotlivých úseků. V \cite{6_tuc_lq} je každý diagonální |
|---|
| 79 | prvek $Q_{i,i}$ matice $Q$ položen převrácené hodnotě maximálního |
|---|
| 80 | povoleného počtu vozidel daného úseku $i$. $R = rI$ penalizuje změnu |
|---|
| 81 | časů zelených. Parametr $r$ ovlivňuje míru reakce systému a ja volen metodou pokus-oprava. |
|---|
| 82 | Minimalizací tohoto kritéria pomcí \ref{eq_riccati} získáme zpětnovazebnou matici $L$, |
|---|
| 83 | která určuje $g(t)$. Z rovnic \ref{eq_lq_feedback} a \ref{eq_delta_g} dostaneme výsledný vztah |
|---|
| 84 | \begin{equation}\label{eq_tuc_feedback} |
|---|
| 85 | g(t) = g^n - L x(t) \;. |
|---|
| 86 | \end{equation}Toto řešení předpokládá, že známe hodnotu $g^n$, při které systém |
|---|
| 87 | zůstává ve stavu $x^n$. Tak tomu ale většinou není. Při absenci znalosti $g^n$ |
|---|
| 88 | podle \cite{6_tuc_lq} odečteme $g(t) - g(t-1)$ a rovnice \ref{eq_tuc_feedback} nabývá tvaru |
|---|
| 89 | \begin{equation}\label{eq_tuc_feedback_2} |
|---|
| 90 | g(t) = g(t-1) - L( x(t) - x(t-1) ) \;. |
|---|
| 91 | \end{equation} |
|---|
| 92 | |
|---|
| 93 | \section{Zhodnocení} |
|---|
| 94 | |
|---|
| 95 | \subsection{Zpětnovazebného učení} |
|---|
| 96 | |
|---|
| 97 | Metode popsaná v článku \cite{3_i_traff_light_c} používá ohodnocovací funkci |
|---|
| 98 | založenou na parametrech jednotlivých vozidel. Výhodou oproti pojetí, kdy agent |
|---|
| 99 | představuje pouze signální skupinu, jsou například v tom, že není potřeba |
|---|
| 100 | odhadovat délku fronty a úloha se celá zjednoduší. Například v publikaci |
|---|
| 101 | \cite{tlc_using_sarsa} se musí používat k odhadu funkcí $V$ a $Q$ neuronová síť. |
|---|
| 102 | Navíc tento systém umožňuje i výběr optimální cesty vozidla pro průjezd dopravní sítí. |
|---|
| 103 | Nevýhodou tohoto pojetí je ovšem značná neuniverzálnost. Už pro počítačové testování |
|---|
| 104 | tato metode znesnadnuje či úplně znemožňuje použít celou řadu dopravních simulátorů, |
|---|
| 105 | které jsou pro simulaci po dlouhou dobu optimalizovány a |
|---|
| 106 | jejichž nasazení značně zjednodušuje práci a urychluje vývoj. |
|---|
| 107 | Navíc pokud je použit řadič, který obstarává logiku přepínání průjezdnosti a |
|---|
| 108 | lze nastavovat pouze vnější parametry jako jsou délka cyklu a offset, je |
|---|
| 109 | metoda, která potřebuje okamžitou změnu signalizace naprosto nevhodná, |
|---|
| 110 | proto je toto řešení pro reálné nasazení v dnešní době obtížně použitelné. |
|---|
| 111 | Pro použití zpětnovazebného učení obecně bychom museli problematiku |
|---|
| 112 | řízen délky cyklu diskretizovat a rozumně volit dimenzionalitu problému. |
|---|
| 113 | |
|---|
| 114 | \subsection{RMM a Bayesova učení} |
|---|
| 115 | |
|---|
| 116 | V článku \cite{4_rmm_formalization} nenjsou podrobně popsány akce agentů ani |
|---|
| 117 | způsob, jak hodnotit jejich užitečnost. Proto je tato metoda jen obtížně reprodukovatelná, |
|---|
| 118 | modifikovatelná či dále rozvinutelná. V naší situaci popsanné v dalších kapitolách také není nutné |
|---|
| 119 | modelovat chování agentů, neboť je možné ho vykomunikovat pomocí posílaných zpráv. V případě |
|---|
| 120 | reálného nasazení by však bylo možné vylepšení zapojením RMM pro odhad chování agenta |
|---|
| 121 | pokud by nastal výpadek spojení nebo podobná situace. |
|---|
| 122 | |
|---|
| 123 | \subsection{LQ řízení} |
|---|
| 124 | LQ řízení je ověřená a díky své numerické stabilitě |
|---|
| 125 | a výpočetní nenáročnosti široce používaná metoda. |
|---|
| 126 | Její nasazení ve strategii TUC v článku \cite{6_tuc_lq} |
|---|
| 127 | se jeví efektivně a dobře zohledňuje vazby mezi sousedními křižovatkami. |
|---|
| 128 | Použití LQ řízení na ovládání délky cyklu v oblasti Praha-Zličín |
|---|
| 129 | by nemělo být problematické a zdá se, že je to metoda adekvátní našemu záměru. |
|---|
| 130 | |
|---|