root/applications/doprava/texty/novotny_vyzk_LQ/Pouziti/Pouziti.tex @ 1427

Revision 1427, 6.3 kB (checked in by jabu, 12 years ago)

restrukturalizace

Line 
1\chapter{Použití rozhodovacích metod v řízení dopravy}
2
3\input{Reinforcement_learning_pouziti/Reinforcement_learning_pouziti.tex}
4
5\input{06_Bayes_rmm_pouziti/Bayes_rmm_pouziti.tex}
6
7
8\section{Zhodnocení}
9
10\subsection{Použití zpětnovazebného učení}
11
12Metode popsaná v článku \cite{3_i_traff_light_c} používá ohodnocovací funkci
13založenou na parametrech jednotlivých vozidel. Výhodou oproti pojetí, kdy agent
14představuje pouze signální skupinu, jsou například v tom, že není potřeba
15odhadovat délku fronty a úloha se celá zjednoduší. Například v publikaci
16\cite{tlc_using_sarsa} se musí používat k odhadu funkcí $V$ a $Q$ neuronová síť.
17Navíc tento systém umožňuje i výběr optimální cesty vozidla pro průjezd dopravní sítí.
18Nevýhodou tohoto pojetí je ovšem značná neuniverzálnost. Už pro počítačové testování
19tato metode znesnadnuje či úplně znemožňuje použít celou řadu dopravních simulátorů,
20které jsou pro simulaci po dlouhou dobu optimalizovány a
21jejichž nasazení značně zjednodušuje práci a urychluje vývoj.
22Navíc pokud je použit řadič, který obstarává logiku přepínání průjezdnosti a
23lze nastavovat pouze vnější parametry jako jsou délka cyklu a offset, je
24metoda, která potřebuje okamžitou změnu signalizace naprosto nevhodná,
25proto je toto řešení pro reálné nasazení v dnešní době obtížně použitelné.
26Zapojení některých myšlenek z článku \cite{3_i_traff_light_c} nebo použití
27zpětnovazevného učení k řešení dílčích problémů by však mohlo přinést zlepšení
28i do způsobu žešení popsaných v dalších kapitolách.
29
30\subsection{Použití RMM a Bayesova učení}
31V článku \cite{4_rmm_formalization} nenjsou podrobně popsány akce agentů ani
32způsob, jak hodnotit jejich užitečnost. Proto je tato metoda jen obtížně reprodukovatelná,
33modifikovatelná či dále rozvinutelná. V naší situaci popsanné v dalších kapitolách také není nutné
34modelovat chování agentů, neboť je možné ho vykomunikovat pomocí posílaných zpráv. V případě
35reálného nasazení by však bylo možné vylepšení zapojení RMM pro odhad chování agenta
36pokud by nastal výpadek spojení nebo podobná situace.
37
38\subsection{Použití LQ řízení ve strategii TUC}
39LQ řízení bylo použito v \cite{6_tuc_lq} k nalezení optimální délky zelených v systému
4013-ti signálních skupin. Proměnné $x_i(t)$ zde představují obsazenost ramene $i$ 
41spojující křižovatky $M$ a $N$. Účelem strategie je nalezení optimální délky zelených
42$g$, $g_{N,i}$ značí délku zelené na signální skupiny křižovatky $N$ zprůjezdňující
43směr do ramene $i$. Předpokládaný vztah pro přechod systému z času $t$ do času $t+1$ je
44\begin{equation}\label{eq_tuc_1}
45 x_i(t+1) = x_i(t) + T [ q_i(t) + s_i(t) + d_i(t) + u_i(t) ] \;,
46\end{equation} kde proměnné značí:
47
48\begin{itemize}
49 \item $T$ - časový krok
50 \item $q_i(t)$ - přírůstek vozidel z křižovatek
51 \item $u_i(t)$ - úbytek vozidel do ostatních křižovatek
52 \item $s_i(t)$ - přírůstek vozidel z okolí sítě
53 \item $d_i(t)$ - úbytek vozidel mimo síť
54\end{itemize}
55
56Přírůstek vozidel z křižovatek je dán vztahem
57\begin{equation}
58 q_i(t) = \sum_{k\in I_m} t_{k,i} u_k(t) \;,
59\end{equation}
60je to tedy součet úbytků vozidel z ramen ústících do křižovatky $N$ vynásobených
61koeficinety $t_{k,i}$, což jsou odbočovací poměry z ramene $k$ do ramene $i$.
62V podovném tvaru se předpokládá $s_i(t)$
63\begin{equation}
64s_i(t) = t_{i,0} q_i(t) \;,
65\end{equation}
66kde $t_{i,0}$ je odbočovací koeficient ramene $i$ mimo sledovanou síť.
67Při délce cyklu $C$, saturovaném toku $S_i$ a délce zelených $g_{N,i}(t)$ ramene $i$ platí
68\begin{equation} \label{eq:tuc_u}
69 u_i(t) = \frac{S_i \sum g_{N,i}(t)}{C} \;.
70\end{equation}
71Rovnice \ref{eq_tuc_1} tedy přechází do tvaru
72\begin{equation}\label{eq_tuc_2}
73 x_i(t+1) = x_i(t) + T \left[
74    (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum g_{M,k}(t)}{C} 
75    - \frac{S_i \sum g_{N,i}(t)}{C}
76    + d_i(t) \right] \;.
77\end{equation}Uvažujeme-li nominální hodnoty $d^n$ a $g^n$ vedoucí
78vždy na stav $x^n$, platí podle rovnice \ref{eq_tuc_2} 
79\begin{equation}\label{eq_tuc_nom}
80 0 = T \left[
81    (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum g_{M,k}^n}{C} 
82    - \frac{S_i \sum g_{N,i}^n}{C}
83    + d_i^n \right] \;.
84\end{equation}Označíme-li
85\begin{equation}\label{eq_delta_g}
86 \Delta g(t) = g(t) - g^n \;,
87\end{equation}můžeme psát rovnici \ref{eq_tuc_2} jako
88\begin{equation}\label{eq_tuc_3}
89 x_i(t+1) = x_i(t) + T \left[
90    (1-t_{i,0}) \sum_{k\in I_m} t_{k,i} \frac{S_k \sum \Delta g_{M,k}(t)}{C} 
91    - \frac{S_i \sum \Delta g_{N,i}(t)}{C}
92     \right] \;,
93\end{equation}
94což dovoluje tuto rovnici zapsat pomocí matic v požadovaném tvaru
95\begin{equation}\label{eq_tuc_4}
96 x(t+1) = A x(t) + B \Delta g(t) \;,
97\end{equation}
98kde $A$ je jednotková matice.
99
100\subsubsection{Kvadratické kritérium}
101Účelem lagoritmu je minimalizovat obsazenost ramen, tedy vektor $x(t)$
102a penalizovat změnu délky trvání zelené oproti nominálním hodnotám.
103Kvadratické kritérium optimálního řízení \ref{eq_quadratic_criterion} jetedy v \cite{6_tuc_lq}
104definováno vztahem
105\begin{equation}\label{eq_tuc_crit}
106 J = \sum_{t=0}^{\infty} x(t)^T Q x(t) + \Delta g(t)^T R \Delta g(t) \;.
107\end{equation}Diagonální matice $Q$ je zde zodpovědná za vyvažování
108počtu vozidel jednotlivých úseků. V \cite{6_tuc_lq} je každý diagonální
109prvek $Q_{i,i}$ matice $Q$ položen převrácené hodnotě maximálního
110povoleného počtu vozidel daného úseku $i$. $R = rI$ penalizuje změnu
111časů zelených. Parametr $r$ ovlivňuje míru reakce systému a ja volen metodou pokus-oprava.
112Minimalizací tohoto kritéria pomcí \ref{eq_riccati} získáme zpětnovazebnou matici $L$,
113která určuje $g(t)$. Z rovnic \ref{eq_lq_feedback} a \ref{eq_delta_g} dostaneme výsledný vztah
114\begin{equation}\label{eq_tuc_feedback}
115 g(t) = g^n - L x(t) \;.
116\end{equation}Toto řešení předpokládá, že známe hodnotu $g^n$, při které systém
117zůstává ve stavu $x^n$. Tak tomu ale většinou není. Při absenci znalosti $g^n$
118podle \cite{6_tuc_lq} odečteme $g(t) - g(t-1)$ a rovnice \ref{eq_tuc_feedback} nabývá tvaru
119\begin{equation}\label{eq_tuc_feedback_2}
120 g(t) = g(t-1) - L( x(t) - x(t-1) ) \;.
121\end{equation}
Note: See TracBrowser for help on using the browser.