root/applications/doprava/texty/novotny_vyzk_LQ/Reinforcement_learning_pouziti/Reinforcement_learning_pouziti.tex @ 1419

Revision 1419, 2.8 kB (checked in by jabu, 12 years ago)

novotny: vyzkumny ukol

Line 
1\section{Použití zpětnovazebného učení}
2
3\subsection{Zpětnovazebné učení na základě modelu}
4
5V \cite{3_i_traff_light_c} je popsána simulace používající
6zpětnovazebné učení na základě modelu popsané v \ref{sec:model_based_learning}.
7Na rozdíl od ezperimentu popsaného v předchozí kapitole zde autoři zvolili
8variantu, kde existují 2 druhy agentů: agent-vozidlo a agent-křižovatka.
9Agent-vozidlo má v každý časový krok následující parametry definující jeho stav,
10které se ukládají v průběhu celé simulace:
11
12\begin{itemize}
13 \item $node$ - dopravní uzel, kde se právě nachází
14 \item $dir$ - směr vůči tomuto uzlu
15 \item $place$ - pozice ve frontě vozidel
16 \item $des$ - místo, kam chce v systému dojet
17\end{itemize}
18
19Algoritmus se snaží minimalizovat celkový čas od vyjetí až po dosažení cíle.
20Každý agent má ve vyjednávání právo hlasovat o nastavení dopravního uzlu,
21tedy jestli bude v průjezdném nebo uzavřeném stavu. Pro každý uzel $node$ a směr $dir$ je to
22tedy akce $g$ - na uzlu $node$, kde se vozidlo nachází ve směru $dir$, svítí červená - uzel je v tomto směru neprůjezdný,
23a akce $g$ - uzel je v tomto směru průjezdný.
24Funkce definované v \ref{sec:dynamic_programming} se tedy zapisují ve tvarech
25$$ Q([node, dir, place, des], a) $$ $$ V([node, dir, place, des]) $$
26kde $a \in \{r,g\}$. Optimální akce se v \cite{3_i_traff_light_c} volí
27podle maxima sumy z
28$$ Q([node, dir, place, des], r) - Q([node, dir, place, des], g) $$ 
29přes všechny vozidla ovlivněná frontou u daného uzlu. Komunikace je zde tedy omezena pouze na výměnu
30hodnot $Q$.\\
31
32Metode popsaná v článku \cite{3_i_traff_light_c} používá ohodnocovací funkci
33založenou na parametrech jednotlivých vozidel. Výhodou oproti pojetí, kdy agent
34představuje pouze signální skupinu, jsou například v tom, že není potřeba
35odhadovat délku fronty a úloha se celá zjednoduší. Například v publikaci
36\cite{tlc_using_sarsa} se musí používat k odhadu funkcí $V$ a $Q$ neuronová síť.
37Navíc tento systém umožňuje i výběr optimální cesty vozidla pro průjezd dopravní sítí.
38Nevýhodou tohoto pojetí je ovšem značná neuniverzálnost. Už pro počítačové testování
39tato metode znesnadnuje či úplně znemožňuje použít celou řadu dopravních simulátorů,
40které jsou pro simulaci po dlouhou dobu optimalizovány a
41jejichž nasazení značně zjednodušuje práci a urychluje vývoj.
42Navíc pokud je použit řadič, který obstarává logiku přepínání průjezdnosti a
43lze nastavovat pouze vnější parametry jako jsou délka cyklu a offset, je
44metoda, která potřebuje okamžitou změnu signalizace naprosto nevhodná,
45proto je toto řešení pro reálné nasazení v dnešní době nepoužitelné.
46
47
48 
Note: See TracBrowser for help on using the browser.