root/applications/doprava/texty/novotny_vyzk_LQ/Reinforcement_learning_pouziti/Reinforcement_learning_pouziti.tex @ 1424

Revision 1424, 3.0 kB (checked in by jabu, 12 years ago)

Prvni verze bez vysledku

Line 
1\subsection{Použití zpětnovazebného učení}
2
3\subsubsection{Zpětnovazebné učení na základě modelu}
4
5V \cite{3_i_traff_light_c} je popsána simulace používající
6zpětnovazebné učení na základě modelu popsané v \ref{sec:model_based_learning}.
7Na rozdíl od ezperimentu popsaného v předchozí kapitole zde autoři zvolili
8variantu, kde existují 2 druhy agentů: agent-vozidlo a agent-křižovatka.
9Agent-vozidlo má v každý časový krok následující parametry definující jeho stav,
10které se ukládají v průběhu celé simulace:
11
12\begin{itemize}
13 \item $node$ - dopravní uzel, kde se právě nachází
14 \item $dir$ - směr vůči tomuto uzlu
15 \item $place$ - pozice ve frontě vozidel
16 \item $des$ - místo, kam chce v systému dojet
17\end{itemize}
18
19Algoritmus se snaží minimalizovat celkový čas od vyjetí až po dosažení cíle.
20Každý agent má ve vyjednávání právo hlasovat o nastavení dopravního uzlu,
21tedy jestli bude v průjezdném nebo uzavřeném stavu. Pro každý uzel $node$ a směr $dir$ je to
22tedy akce $g$ - na uzlu $node$, kde se vozidlo nachází ve směru $dir$, svítí červená - uzel je v tomto směru neprůjezdný,
23a akce $g$ - uzel je v tomto směru průjezdný.
24Funkce definované v \ref{sec:dynamic_programming} se tedy zapisují ve tvarech
25$$ Q([node, dir, place, des], a) $$ $$ V([node, dir, place, des]) $$
26kde $a \in \{r,g\}$. Optimální akce se v \cite{3_i_traff_light_c} volí
27podle maxima sumy z
28$$ Q([node, dir, place, des], r) - Q([node, dir, place, des], g) $$ 
29přes všechny vozidla ovlivněná frontou u daného uzlu. Komunikace je zde tedy omezena pouze na výměnu
30hodnot $Q$.\\
31
32\subsection{Zhodnocení}
33
34Metode popsaná v článku \cite{3_i_traff_light_c} používá ohodnocovací funkci
35založenou na parametrech jednotlivých vozidel. Výhodou oproti pojetí, kdy agent
36představuje pouze signální skupinu, jsou například v tom, že není potřeba
37odhadovat délku fronty a úloha se celá zjednoduší. Například v publikaci
38\cite{tlc_using_sarsa} se musí používat k odhadu funkcí $V$ a $Q$ neuronová síť.
39Navíc tento systém umožňuje i výběr optimální cesty vozidla pro průjezd dopravní sítí.
40Nevýhodou tohoto pojetí je ovšem značná neuniverzálnost. Už pro počítačové testování
41tato metode znesnadnuje či úplně znemožňuje použít celou řadu dopravních simulátorů,
42které jsou pro simulaci po dlouhou dobu optimalizovány a
43jejichž nasazení značně zjednodušuje práci a urychluje vývoj.
44Navíc pokud je použit řadič, který obstarává logiku přepínání průjezdnosti a
45lze nastavovat pouze vnější parametry jako jsou délka cyklu a offset, je
46metoda, která potřebuje okamžitou změnu signalizace naprosto nevhodná,
47proto je toto řešení pro reálné nasazení v dnešní době obtížně použitelné.
48Zapojení některých myšlenek z článku \cite{3_i_traff_light_c} nebo použití
49zpětnovazevného učení k řešení dílčích problémů by však mohlo přinést zlepšení
50i do způsobu žešení popsaných v dalších kapitolách.
51 
Note: See TracBrowser for help on using the browser.