root/applications/doprava/texty/novotny_vyzk_LQ/Reinforcement_learning_pouziti/Reinforcement_learning_pouziti.tex.backup @ 1419

Revision 1419, 2.4 kB (checked in by jabu, 12 years ago)

novotny: vyzkumny ukol

Line 
1\section{Použití zpětnovazebného učení}
2
3V \cite{3_i_traff_light_c} je popsána simulace používající
4zpětnovazebné učení na základě modelu popsané v \ref{sec:model_based_learning}.
5Na rozdíl od ezperimentu popsaného v předchozí kapitole zde autoři zvolili
6variantu, kde existují 2 druhy agentů: agent-vozidlo a agent-křižovatka.
7Agent-vozidlo má v každý časový krok následující parametry definující jeho stav,
8které se ukládají v průběhu celé simulace:
9
10\begin{itemize}
11 \item $node$ - dopravní uzel, kde se právě nachází
12 \item $dir$ - směr vůči tomuto uzlu
13 \item $place$ - pozice ve frontě vozidel
14 \item $des$ - místo, kam chce v systému dojet
15\end{itemize}
16
17Algoritmus se snaží minimalizovat celkový čas od vyjetí až po dosažení cíle.
18Každý agent má ve vyjednávání právo hlasovat o nastavení dopravního uzlu,
19tedy jestli bude v průjezdném nebo uzavřeném stavu. Pro každý uzel $node$ a směr $dir$ je to
20tedy akce $g$ - na uzlu $node$, kde se vozidlo nachází ve směru $dir$, svítí červená - uzel je v tomto směru neprůjezdný,
21a akce $g$ - uzel je v tomto směru průjezdný.
22Funkce definované v \ref{sec:dynamic_programming} se tedy zapisují ve tvarech
23$$ Q([node, dir, place, des], a) $$ $$ V([node, dir, place, des]) $$
24kde $a \in \{r,g\}$. Optimální akce se v \cite{3_i_traff_light_c} volí
25podle maxima sumy z
26$$ Q([node, dir, place, des], r) - Q([node, dir, place, des], g) $$
27přes všechny vozidla ovlivněná frontou u daného uzlu. Komunikace je zde tedy omezena pouze na výměnu
28hodnot $Q$.\\
29
30Metode popsaná v článku \cite{3_i_traff_light_c} používá ohodnocovací funkci
31založenou na parametrech jednotlivých vozidel. Výhodou oproti pojetí, kdy agent
32představuje pouze signální skupinu, jsou například v tom, že není potřeba
33odhadovat délku fronty a úloha se celá zjednoduší. Například v publikaci
34\cite{tlc_using_sarsa} se musí používat k odhadu funkcí $V$ a $Q$ neuronová síť.
35Navíc tento systém umožňuje i výběr optimální cesty vozidla pro průjezd dopravní sítí.
36Nevýhodou tohoto pojetí je ovšem značná neuniverzálnost. Už pro počítačové testování
37tato metode znesnadnuje či úplně znemožňuje použít celou řadu dopravních simulátorů,
38které jsou pro simulaci po dlouhou dobu optimalizovány a
39jejichž nasazení značně zjednodušuje práci a urychluje vývoj.
40 
41 
Note: See TracBrowser for help on using the browser.