1 | \section{Použití zpětnovazebného učení} |
---|
2 | |
---|
3 | V \cite{3_i_traff_light_c} je popsána simulace používající |
---|
4 | zpětnovazebné učení na základě modelu popsané v \ref{sec:model_based_learning}. |
---|
5 | Na rozdíl od ezperimentu popsaného v předchozí kapitole zde autoři zvolili |
---|
6 | variantu, kde existují 2 druhy agentů: agent-vozidlo a agent-křižovatka. |
---|
7 | Agent-vozidlo má v každý časový krok následující parametry definující jeho stav, |
---|
8 | které se ukládají v průběhu celé simulace: |
---|
9 | |
---|
10 | \begin{itemize} |
---|
11 | \item $node$ - dopravní uzel, kde se právě nachází |
---|
12 | \item $dir$ - směr vůči tomuto uzlu |
---|
13 | \item $place$ - pozice ve frontě vozidel |
---|
14 | \item $des$ - místo, kam chce v systému dojet |
---|
15 | \end{itemize} |
---|
16 | |
---|
17 | Algoritmus se snaží minimalizovat celkový čas od vyjetí až po dosažení cíle. |
---|
18 | Každý agent má ve vyjednávání právo hlasovat o nastavení dopravního uzlu, |
---|
19 | tedy jestli bude v průjezdném nebo uzavřeném stavu. Pro každý uzel $node$ a směr $dir$ je to |
---|
20 | tedy akce $g$ - na uzlu $node$, kde se vozidlo nachází ve směru $dir$, svítí červená - uzel je v tomto směru neprůjezdný, |
---|
21 | a akce $g$ - uzel je v tomto směru průjezdný. |
---|
22 | Funkce definované v \ref{sec:dynamic_programming} se tedy zapisují ve tvarech |
---|
23 | $$ Q([node, dir, place, des], a) $$ $$ V([node, dir, place, des]) $$ |
---|
24 | kde $a \in \{r,g\}$. Optimální akce se v \cite{3_i_traff_light_c} volí |
---|
25 | podle maxima sumy z |
---|
26 | $$ Q([node, dir, place, des], r) - Q([node, dir, place, des], g) $$ |
---|
27 | přes všechny vozidla ovlivněná frontou u daného uzlu. Komunikace je zde tedy omezena pouze na výměnu |
---|
28 | hodnot $Q$.\\ |
---|
29 | |
---|
30 | Metode popsaná v článku \cite{3_i_traff_light_c} používá ohodnocovací funkci |
---|
31 | založenou na parametrech jednotlivých vozidel. Výhodou oproti pojetí, kdy agent |
---|
32 | představuje pouze signální skupinu, jsou například v tom, že není potřeba |
---|
33 | odhadovat délku fronty a úloha se celá zjednoduší. Například v publikaci |
---|
34 | \cite{tlc_using_sarsa} se musí používat k odhadu funkcí $V$ a $Q$ neuronová síť. |
---|
35 | Navíc tento systém umožňuje i výběr optimální cesty vozidla pro průjezd dopravní sítí. |
---|
36 | Nevýhodou tohoto pojetí je ovšem značná neuniverzálnost. Už pro počítačové testování |
---|
37 | tato metode znesnadnuje či úplně znemožňuje použít celou řadu dopravních simulátorů, |
---|
38 | které jsou pro simulaci po dlouhou dobu optimalizovány a |
---|
39 | jejichž nasazení značně zjednodušuje práci a urychluje vývoj. |
---|
40 | |
---|
41 | |
---|