\chapter{Použití rozhodovacích metod v řízení dopravy} \input{Reinforcement_learning_pouziti/Reinforcement_learning_pouziti.tex} \input{06_Bayes_rmm_pouziti/Bayes_rmm_pouziti.tex} \subsection{Použití LQ řízení ve strategii TUC} \label{sec:lq_tuc} LQ řízení bylo použito v \cite{6_tuc_lq} k nalezení optimální délky zelených v systému 13-ti signálních skupin. Proměnné $x_i(t)$ zde představují obsazenost ramene $i$ spojující křižovatky $M$ a $N$. Účelem strategie je nalezení optimální délky zelených $g$, $g_{N,i}$ značí délku zelené na signální skupiny křižovatky $N$ zprůjezdňující směr do ramene $i$. Předpokládaný vztah pro přechod systému z času $t$ do času $t+1$ je \begin{equation}\label{eq_tuc_1} x_i(t+1) = x_i(t) + T [ q_i(t) + s_i(t) + d_i(t) + u_i(t) ] \;, \end{equation} kde proměnné značí: \begin{itemize} \item $T$ - časový krok \item $q_i(t)$ - přírůstek vozidel z křižovatek \item $u_i(t)$ - úbytek vozidel do ostatních křižovatek \item $s_i(t)$ - přírůstek vozidel z okolí sítě \item $d_i(t)$ - úbytek vozidel mimo síť \end{itemize} Přírůstek vozidel z křižovatek je dán vztahem \begin{equation} q_i(t) = \sum_{k\in I_m} t_{k,i} u_k(t) \;, \end{equation} je to tedy součet úbytků vozidel z ramen ústících do křižovatky $N$ vynásobených koeficinety $t_{k,i}$, což jsou odbočovací poměry z ramene $k$ do ramene $i$. V podovném tvaru se předpokládá $s_i(t)$ \begin{equation} s_i(t) = t_{i,0} q_i(t) \;, \end{equation} kde $t_{i,0}$ je odbočovací koeficient ramene $i$ mimo sledovanou síť. Při délce cyklu $C$, saturovaném toku $S_i$ a délce zelených $g_{N,i}(t)$ ramene $i$ platí \begin{equation} \label{eq:tuc_u} u_i(t) = \frac{S_i \sum g_{N,i}(t)}{C} \;. \end{equation} Rovnice \ref{eq_tuc_1} tedy přechází do tvaru \begin{equation}\label{eq_tuc_2} x_i(t+1) = x_i(t) + T \left[ (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum g_{M,k}(t)}{C} - \frac{S_i \sum g_{N,i}(t)}{C} + d_i(t) \right] \;. \end{equation}Uvažujeme-li nominální hodnoty $d^n$ a $g^n$ vedoucí vždy na stav $x^n$, platí podle rovnice \ref{eq_tuc_2} \begin{equation}\label{eq_tuc_nom} 0 = T \left[ (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum g_{M,k}^n}{C} - \frac{S_i \sum g_{N,i}^n}{C} + d_i^n \right] \;. \end{equation}Označíme-li \begin{equation}\label{eq_delta_g} \Delta g(t) = g(t) - g^n \;, \end{equation}můžeme psát rovnici \ref{eq_tuc_2} jako \begin{equation}\label{eq_tuc_3} x_i(t+1) = x_i(t) + T \left[ (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum \Delta g_{M,k}(t)}{C} - \frac{S_i \sum \Delta g_{N,i}(t)}{C} \right] \;, \end{equation} což dovoluje tuto rovnici zapsat pomocí matic v požadovaném tvaru \begin{equation}\label{eq_tuc_4} x(t+1) = A x(t) + B \Delta g(t) \;, \end{equation} kde $A$ je jednotková matice. \subsubsection{Kvadratické kritérium} Účelem lagoritmu je minimalizovat obsazenost ramen, tedy vektor $x(t)$ a penalizovat změnu délky trvání zelené oproti nominálním hodnotám. Kvadratické kritérium optimálního řízení \ref{eq_quadratic_criterion} jetedy v \cite{6_tuc_lq} definováno vztahem \begin{equation}\label{eq_tuc_crit} J = \sum_{t=0}^{\infty} x(t)^T Q x(t) + \Delta g(t)^T R \Delta g(t) \;. \end{equation}Diagonální matice $Q$ je zde zodpovědná za vyvažování počtu vozidel jednotlivých úseků. V \cite{6_tuc_lq} je každý diagonální prvek $Q_{i,i}$ matice $Q$ položen převrácené hodnotě maximálního povoleného počtu vozidel daného úseku $i$. $R = rI$ penalizuje změnu časů zelených. Parametr $r$ ovlivňuje míru reakce systému a ja volen metodou pokus-oprava. Minimalizací tohoto kritéria pomcí \ref{eq_riccati} získáme zpětnovazebnou matici $L$, která určuje $g(t)$. Z rovnic \ref{eq_lq_feedback} a \ref{eq_delta_g} dostaneme výsledný vztah \begin{equation}\label{eq_tuc_feedback} g(t) = g^n - L x(t) \;. \end{equation}Toto řešení předpokládá, že známe hodnotu $g^n$, při které systém zůstává ve stavu $x^n$. Tak tomu ale většinou není. Při absenci znalosti $g^n$ podle \cite{6_tuc_lq} odečteme $g(t) - g(t-1)$ a rovnice \ref{eq_tuc_feedback} nabývá tvaru \begin{equation}\label{eq_tuc_feedback_2} g(t) = g(t-1) - L( x(t) - x(t-1) ) \;. \end{equation} \section{Zhodnocení} \subsection{Zpětnovazebného učení} Metode popsaná v článku \cite{3_i_traff_light_c} používá ohodnocovací funkci založenou na parametrech jednotlivých vozidel. Výhodou oproti pojetí, kdy agent představuje pouze signální skupinu, jsou například v tom, že není potřeba odhadovat délku fronty a úloha se celá zjednoduší. Například v publikaci \cite{tlc_using_sarsa} se musí používat k odhadu funkcí $V$ a $Q$ neuronová síť. Navíc tento systém umožňuje i výběr optimální cesty vozidla pro průjezd dopravní sítí. Nevýhodou tohoto pojetí je ovšem značná neuniverzálnost. Už pro počítačové testování tato metode znesnadnuje či úplně znemožňuje použít celou řadu dopravních simulátorů, které jsou pro simulaci po dlouhou dobu optimalizovány a jejichž nasazení značně zjednodušuje práci a urychluje vývoj. Navíc pokud je použit řadič, který obstarává logiku přepínání průjezdnosti a lze nastavovat pouze vnější parametry jako jsou délka cyklu a offset, je metoda, která potřebuje okamžitou změnu signalizace naprosto nevhodná, proto je toto řešení pro reálné nasazení v dnešní době obtížně použitelné. Pro použití zpětnovazebného učení obecně bychom museli problematiku řízen délky cyklu diskretizovat a rozumně volit dimenzionalitu problému. \subsection{RMM a Bayesova učení} V článku \cite{4_rmm_formalization} nenjsou podrobně popsány akce agentů ani způsob, jak hodnotit jejich užitečnost. Proto je tato metoda jen obtížně reprodukovatelná, modifikovatelná či dále rozvinutelná. V naší situaci popsanné v dalších kapitolách také není nutné modelovat chování agentů, neboť je možné ho vykomunikovat pomocí posílaných zpráv. V případě reálného nasazení by však bylo možné vylepšení zapojením RMM pro odhad chování agenta pokud by nastal výpadek spojení nebo podobná situace. \subsection{LQ řízení} LQ řízení je ověřená a díky své numerické stabilitě a výpočetní nenáročnosti široce používaná metoda. Její nasazení ve strategii TUC v článku \cite{6_tuc_lq} se jeví efektivně a dobře zohledňuje vazby mezi sousedními křižovatkami. Použití LQ řízení na ovládání délky cyklu v oblasti Praha-Zličín by nemělo být problematické a zdá se, že je to metoda adekvátní našemu záměru.