\chapter{Použití rozhodovacích metod v řízení dopravy} \input{Reinforcement_learning_pouziti/Reinforcement_learning_pouziti.tex} \input{06_Bayes_rmm_pouziti/Bayes_rmm_pouziti.tex} \subsection{Použití LQ řízení ve strategii TUC} \label{sec:lq_tuc} LQ řízení bylo použito v \cite{6_tuc_lq} k nalezení optimální délky zelených v systému 13-ti křižovatek. Proměnné $x_i(t)$ zde představují obsazenost ramene $i$ spojující křižovatky $M$ a $N$. Účelem strategie je nalezení optimální délky zelených $g$, $g_{N,i}$ značí délku zelené na signální skupiny křižovatky $N$ zprůjezdňující směr do ramene $i$. Předpokládaný vztah pro přechod systému z času $t$ do času $t+1$ je \begin{equation}\label{eq_tuc_1} x_i(t+1) = x_i(t) + T [ q_i(t) + s_i(t) + d_i(t) + u_i(t) ] \;, \end{equation} kde proměnné značí: \begin{itemize} \item $T$ - časový krok \item $q_i(t)$ - přírůstek vozidel z křižovatek \item $u_i(t)$ - úbytek vozidel do ostatních křižovatek \item $s_i(t)$ - přírůstek vozidel z okolí sítě \item $d_i(t)$ - úbytek vozidel mimo síť \end{itemize} Přírůstek vozidel z křižovatek je dán vztahem \begin{equation} q_i(t) = \sum_{k\in I_m} t_{k,i} u_k(t) \;, \end{equation} je to tedy součet úbytků vozidel z ramen ústících do křižovatky $N$ vynásobených koeficinety $t_{k,i}$, což jsou odbočovací poměry z ramene $k$ do ramene $i$. V podobném tvaru se předpokládá $s_i(t)$ \begin{equation} s_i(t) = t_{i,0} q_i(t) \;, \end{equation} kde $t_{i,0}$ je odbočovací koeficient ramene $i$ mimo sledovanou síť. Při délce cyklu $C$, saturovaném toku $S_i$ a délce zelených $g_{N,i}(t)$ ramene $i$ platí \begin{equation} \label{eq:tuc_u} u_i(t) = \frac{S_i \sum g_{N,i}(t)}{C} \;. \end{equation} Rovnice \ref{eq_tuc_1} tedy přechází do tvaru \begin{equation}\label{eq_tuc_2} x_i(t+1) = x_i(t) + T \left[ (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum g_{M,k}(t)}{C} - \frac{S_i \sum g_{N,i}(t)}{C} + d_i(t) \right] \;. \end{equation}Uvažujeme-li nominální hodnoty $d^n$ a $g^n$ vedoucí vždy na stav $x^n$, platí podle rovnice \ref{eq_tuc_2} \begin{equation}\label{eq_tuc_nom} 0 = T \left[ (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum g_{M,k}^n}{C} - \frac{S_i \sum g_{N,i}^n}{C} + d_i^n \right] \;. \end{equation}Označíme-li \begin{equation}\label{eq_delta_g} \Delta g(t) = g(t) - g^n \;, \end{equation}můžeme psát rovnici \ref{eq_tuc_2} jako \begin{equation}\label{eq_tuc_3} x_i(t+1) = x_i(t) + T \left[ (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum \Delta g_{M,k}(t)}{C} - \frac{S_i \sum \Delta g_{N,i}(t)}{C} \right] \;, \end{equation} což dovoluje tuto rovnici zapsat pomocí matic v požadovaném tvaru \begin{equation}\label{eq_tuc_4} x(t+1) = A x(t) + B \Delta g(t) \;, \end{equation} kde $A$ je jednotková matice. \subsubsection{Kvadratické kritérium} Účelem algoritmu je minimalizovat obsazenost ramen, tedy vektor $x(t)$ a penalizovat změnu délky trvání zelené oproti nominálním hodnotám. Kvadratické kritérium optimálního řízení \ref{eq_quadratic_criterion} jetedy v \cite{6_tuc_lq} definováno vztahem \begin{equation}\label{eq_tuc_crit} J = \sum_{t=0}^{\infty} x(t)^T Q x(t) + \Delta g(t)^T R \Delta g(t) \;. \end{equation}Diagonální matice $Q$ je zde zodpovědná za vyvažování počtu vozidel jednotlivých úseků. V \cite{6_tuc_lq} je každý diagonální prvek $Q_{i,i}$ matice $Q$ položen převrácené hodnotě maximálního povoleného počtu vozidel daného úseku $i$. $R = rI$ penalizuje změnu časů zelených. Parametr $r$ ovlivňuje míru reakce systému a ja volen metodou pokus-oprava. Minimalizací tohoto kritéria pomcí \ref{eq_riccati} získáme zpětnovazebnou matici $L$, která určuje $g(t)$. Z rovnic \ref{eq_lq_feedback} a \ref{eq_delta_g} dostaneme výsledný vztah \begin{equation}\label{eq_tuc_feedback} g(t) = g^n - L x(t) \;. \end{equation}Toto řešení předpokládá, že známe hodnotu $g^n$, při které systém zůstává ve stavu $x^n$. Tak tomu ale většinou není. Při absenci znalosti $g^n$ podle \cite{6_tuc_lq} odečteme $g(t) - g(t-1)$ a rovnice \ref{eq_tuc_feedback} nabývá tvaru \begin{equation}\label{eq_tuc_feedback_2} g(t) = g(t-1) - L( x(t) - x(t-1) ) \;. \end{equation} \section{Zhodnocení} \subsection{Zpětnovazebného učení} Metode popsaná v článku \cite{3_i_traff_light_c} používá ohodnocovací funkci založenou na parametrech jednotlivých vozidel. Výhodou oproti pojetí, kdy agent představuje pouze ovládací prvek křižovatky, jsou například v tom, že není potřeba odhadovat délku fronty a úloha se celá zjednoduší. Například v publikaci \cite{tlc_using_sarsa} se musí používat k odhadu funkcí $V$ a $Q$ neuronová síť. Navíc tento systém umožňuje i výběr optimální cesty vozidla pro průjezd dopravní sítí.\\ Nevýhodou tohoto pojetí je ovšem značná neuniverzálnost. Už pro počítačové testování tento způsob znesnadňuje či úplně znemožňuje použít celou řadu dopravních simulátorů. Navíc pokud je použit řadič, který obstarává logiku přepínání průjezdnosti a lze nastavovat pouze vnější parametry, jako jsou délka cyklu a offset, je metoda, která potřebuje okamžitou změnu signalizace, naprosto nevhodná. Proto je toto řešení pro reálné nasazení v dnešní době jen obtížně použitelné.\\ Pro použití zpětnovazebného učení obecně bychom museli problematiku řízení délky cyklu diskretizovat. Zpětnovazebné učení je metoda pracující s malým konečným počtem stavů a akcí. Zde jsou to akce nastavit jako průjezdný a nastavit jako neprůjezdný. V případě nastavování hodnot délky cyklu by neúnosně vzrostla dimenzionalita problému. \subsection{RMM a Bayesova učení} V článku \cite{4_rmm_formalization} nenjsou podrobně popsány akce agentů ani způsob, jak hodnotit jejich užitečnost. Proto je tato metoda jen obtížně reprodukovatelná, modifikovatelná či dále rozvinutelná. V naší situaci popsanné v dalších kapitolách také není nutné modelovat chování agentů, neboť ho můžeme zjistit pomocí posílaných zpráv. V případě reálného nasazení by však bylo možné vylepšení zapojením RMM pro odhad chování agenta pokud by nastal výpadek spojení nebo podobná situace.\\ Bayesovske učení je velice účinná metoda ke stanovování pravděpodobností jistých situací a dala by se do budoucna zřejmě použít na stanovování odhadu dílčích parametrů, jako jsou poměry odbočení. \subsection{LQ řízení} LQ řízení je ověřená a díky své numerické stabilitě a výpočetní nenáročnosti široce používaná metoda. Její nasazení ve strategii TUC v článku \cite{6_tuc_lq} se jeví efektivně a dobře zohledňuje vazby mezi sousedními křižovatkami. Použití LQ řízení na ovládání délky cyklu v oblasti Praha-Zličín by nemělo být problematické a zdá se, že je to metoda adekvátní našemu záměru.