Context Navigation

Reinforcement_learning_pouziti.tex.backup @ 1429

Revision 1429, 1.6 kB (checked in by jabu, 12 years ago)
presunuti minimalizace do kapitoly o LQ rizeni

Rev	Line
[1429]	1	\section{Použití zpětnovazebného učení}
[1419]	2
	3	V \cite{3_i_traff_light_c} je popsána simulace používající
	4	zpětnovazebné učení na základě modelu popsané v \ref{sec:model_based_learning}.
	5	Na rozdíl od ezperimentu popsaného v předchozí kapitole zde autoři zvolili
	6	variantu, kde existují 2 druhy agentů: agent-vozidlo a agent-křižovatka.
	7	Agent-vozidlo má v každý časový krok následující parametry definující jeho stav,
	8	které se ukládají v průběhu celé simulace:
	9
	10	\begin{itemize}
	11	\item $node$ - dopravní uzel, kde se právě nachází
	12	\item $dir$ - směr vůči tomuto uzlu
	13	\item $place$ - pozice ve frontě vozidel
	14	\item $des$ - místo, kam chce v systému dojet
	15	\end{itemize}
	16
	17	Algoritmus se snaží minimalizovat celkový čas od vyjetí až po dosažení cíle.
	18	Každý agent má ve vyjednávání právo hlasovat o nastavení dopravního uzlu,
	19	tedy jestli bude v průjezdném nebo uzavřeném stavu. Pro každý uzel $node$ a směr $dir$ je to
	20	tedy akce $g$ - na uzlu $node$, kde se vozidlo nachází ve směru $dir$, svítí červená - uzel je v tomto směru neprůjezdný,
	21	a akce $g$ - uzel je v tomto směru průjezdný.
	22	Funkce definované v \ref{sec:dynamic_programming} se tedy zapisují ve tvarech
	23	$$ Q([node, dir, place, des], a) $$ $$ V([node, dir, place, des]) $$
	24	kde $a \in \{r,g\}$. Optimální akce se v \cite{3_i_traff_light_c} volí
	25	podle maxima sumy z
	26	$$ Q([node, dir, place, des], r) - Q([node, dir, place, des], g) $$
	27	přes všechny vozidla ovlivněná frontou u daného uzlu. Komunikace je zde tedy omezena pouze na výměnu
	28	hodnot $Q$.\\
	29
[1424]	30
[1419]	31

Note: See TracBrowser for help on using the browser.

Download in other formats:

Original Format