root/applications/doprava/texty/novotny_vyzk_LQ/Reinforcement_learning_pouziti/Reinforcement_learning_pouziti.tex @ 1434

Revision 1434, 1.6 kB (checked in by jabu, 12 years ago)

finalni verze

Line 
1\section{Použití zpětnovazebného učení}\label{sec:reinforcement_learning_usage}
2
3V \cite{3_i_traff_light_c} je popsána simulace používající
4zpětnovazebné učení na základě modelu popsané v \ref{sec:model_based_learning}.
5Autoři zde zvolili poměrně netradiční
6variantu, kde existují 2 druhy agentů: agent-vozidlo a agent-křižovatka.
7Agent-vozidlo má v každý časový krok následující parametry definující jeho stav,
8které se ukládají v průběhu celé simulace:
9
10\begin{itemize}
11 \item $node$ - dopravní uzel, kde se právě nachází
12 \item $dir$ - směr vůči tomuto uzlu
13 \item $place$ - pozice ve frontě vozidel
14 \item $des$ - místo, kam chce v systému dojet
15\end{itemize}
16
17Algoritmus se snaží minimalizovat celkový čas od vyjetí až po dosažení cíle.
18Každý agent má ve vyjednávání právo hlasovat o nastavení dopravního uzlu,
19tedy jestli bude v průjezdném nebo uzavřeném stavu. Pro každý uzel $node$ a směr $dir$ je to
20tedy akce $g$ - na uzlu $node$, kde se vozidlo nachází ve směru $dir$, svítí červená - uzel je v tomto směru neprůjezdný,
21a akce $g$ - uzel je v tomto směru průjezdný.
22Funkce definované v \ref{sec:dynamic_programming} se tedy zapisují ve tvarech
23$$ Q([node, dir, place, des], a) $$ $$ V([node, dir, place, des]) $$
24kde $a \in \{r,g\}$. Optimální akce se v \cite{3_i_traff_light_c} volí
25podle maxima sumy z
26$$ Q([node, dir, place, des], r) - Q([node, dir, place, des], g) $$ 
27přes všechny vozidla ovlivněná frontou u daného uzlu. Komunikace je zde tedy omezena pouze na výměnu
28hodnot $Q$.\\
29
30
31 
Note: See TracBrowser for help on using the browser.