[1429] | 1 | \section{Použití zpětnovazebného učení} |
---|
[1419] | 2 | |
---|
| 3 | V \cite{3_i_traff_light_c} je popsána simulace používající |
---|
| 4 | zpětnovazebné učení na základě modelu popsané v \ref{sec:model_based_learning}. |
---|
| 5 | Na rozdíl od ezperimentu popsaného v předchozí kapitole zde autoři zvolili |
---|
| 6 | variantu, kde existují 2 druhy agentů: agent-vozidlo a agent-křižovatka. |
---|
| 7 | Agent-vozidlo má v každý časový krok následující parametry definující jeho stav, |
---|
| 8 | které se ukládají v průběhu celé simulace: |
---|
| 9 | |
---|
| 10 | \begin{itemize} |
---|
| 11 | \item $node$ - dopravní uzel, kde se právě nachází |
---|
| 12 | \item $dir$ - směr vůči tomuto uzlu |
---|
| 13 | \item $place$ - pozice ve frontě vozidel |
---|
| 14 | \item $des$ - místo, kam chce v systému dojet |
---|
| 15 | \end{itemize} |
---|
| 16 | |
---|
| 17 | Algoritmus se snaží minimalizovat celkový čas od vyjetí až po dosažení cíle. |
---|
| 18 | Každý agent má ve vyjednávání právo hlasovat o nastavení dopravního uzlu, |
---|
| 19 | tedy jestli bude v průjezdném nebo uzavřeném stavu. Pro každý uzel $node$ a směr $dir$ je to |
---|
| 20 | tedy akce $g$ - na uzlu $node$, kde se vozidlo nachází ve směru $dir$, svítí červená - uzel je v tomto směru neprůjezdný, |
---|
| 21 | a akce $g$ - uzel je v tomto směru průjezdný. |
---|
| 22 | Funkce definované v \ref{sec:dynamic_programming} se tedy zapisují ve tvarech |
---|
| 23 | $$ Q([node, dir, place, des], a) $$ $$ V([node, dir, place, des]) $$ |
---|
| 24 | kde $a \in \{r,g\}$. Optimální akce se v \cite{3_i_traff_light_c} volí |
---|
| 25 | podle maxima sumy z |
---|
| 26 | $$ Q([node, dir, place, des], r) - Q([node, dir, place, des], g) $$ |
---|
| 27 | přes všechny vozidla ovlivněná frontou u daného uzlu. Komunikace je zde tedy omezena pouze na výměnu |
---|
| 28 | hodnot $Q$.\\ |
---|
| 29 | |
---|
[1424] | 30 | |
---|
[1419] | 31 | |
---|