Context Navigation

Reinforcement_learning_pouziti.tex @ 1434

Revision 1434, 1.6 kB (checked in by jabu, 13 years ago)
finalni verze

Line
1	\section{Použití zpětnovazebného učení}\label{sec:reinforcement_learning_usage}
2
3	V \cite{3_i_traff_light_c} je popsána simulace používající
4	zpětnovazebné učení na základě modelu popsané v \ref{sec:model_based_learning}.
5	Autoři zde zvolili poměrně netradiční
6	variantu, kde existují 2 druhy agentů: agent-vozidlo a agent-křižovatka.
7	Agent-vozidlo má v každý časový krok následující parametry definující jeho stav,
8	které se ukládají v průběhu celé simulace:
9
10	\begin{itemize}
11	\item $node$ - dopravní uzel, kde se právě nachází
12	\item $dir$ - směr vůči tomuto uzlu
13	\item $place$ - pozice ve frontě vozidel
14	\item $des$ - místo, kam chce v systému dojet
15	\end{itemize}
16
17	Algoritmus se snaží minimalizovat celkový čas od vyjetí až po dosažení cíle.
18	Každý agent má ve vyjednávání právo hlasovat o nastavení dopravního uzlu,
19	tedy jestli bude v průjezdném nebo uzavřeném stavu. Pro každý uzel $node$ a směr $dir$ je to
20	tedy akce $g$ - na uzlu $node$, kde se vozidlo nachází ve směru $dir$, svítí červená - uzel je v tomto směru neprůjezdný,
21	a akce $g$ - uzel je v tomto směru průjezdný.
22	Funkce definované v \ref{sec:dynamic_programming} se tedy zapisují ve tvarech
23	$$ Q([node, dir, place, des], a) $$ $$ V([node, dir, place, des]) $$
24	kde $a \in \{r,g\}$. Optimální akce se v \cite{3_i_traff_light_c} volí
25	podle maxima sumy z
26	$$ Q([node, dir, place, des], r) - Q([node, dir, place, des], g) $$
27	přes všechny vozidla ovlivněná frontou u daného uzlu. Komunikace je zde tedy omezena pouze na výměnu
28	hodnot $Q$.\\
29
30
31

Note: See TracBrowser for help on using the browser.

Context Navigation

root/applications/doprava/texty/novotny_vyzk_LQ/Reinforcement_learning_pouziti/Reinforcement_learning_pouziti.tex @ 1434

Download in other formats: