[1419] | 1 | \section{Použití zpětnovazebného učení} |
---|
| 2 | |
---|
| 3 | \subsection{Zpětnovazebné učení na základě modelu} |
---|
| 4 | |
---|
| 5 | V \cite{3_i_traff_light_c} je popsána simulace používající |
---|
| 6 | zpětnovazebné učení na základě modelu popsané v \ref{sec:model_based_learning}. |
---|
| 7 | Na rozdíl od ezperimentu popsaného v předchozí kapitole zde autoři zvolili |
---|
| 8 | variantu, kde existují 2 druhy agentů: agent-vozidlo a agent-křižovatka. |
---|
| 9 | Agent-vozidlo má v každý časový krok následující parametry definující jeho stav, |
---|
| 10 | které se ukládají v průběhu celé simulace: |
---|
| 11 | |
---|
| 12 | \begin{itemize} |
---|
| 13 | \item $node$ - dopravní uzel, kde se právě nachází |
---|
| 14 | \item $dir$ - směr vůči tomuto uzlu |
---|
| 15 | \item $place$ - pozice ve frontě vozidel |
---|
| 16 | \item $des$ - místo, kam chce v systému dojet |
---|
| 17 | \end{itemize} |
---|
| 18 | |
---|
| 19 | Algoritmus se snaží minimalizovat celkový čas od vyjetí až po dosažení cíle. |
---|
| 20 | Každý agent má ve vyjednávání právo hlasovat o nastavení dopravního uzlu, |
---|
| 21 | tedy jestli bude v průjezdném nebo uzavřeném stavu. Pro každý uzel $node$ a směr $dir$ je to |
---|
| 22 | tedy akce $g$ - na uzlu $node$, kde se vozidlo nachází ve směru $dir$, svítí červená - uzel je v tomto směru neprůjezdný, |
---|
| 23 | a akce $g$ - uzel je v tomto směru průjezdný. |
---|
| 24 | Funkce definované v \ref{sec:dynamic_programming} se tedy zapisují ve tvarech |
---|
| 25 | $$ Q([node, dir, place, des], a) $$ $$ V([node, dir, place, des]) $$ |
---|
| 26 | kde $a \in \{r,g\}$. Optimální akce se v \cite{3_i_traff_light_c} volí |
---|
| 27 | podle maxima sumy z |
---|
| 28 | $$ Q([node, dir, place, des], r) - Q([node, dir, place, des], g) $$ |
---|
| 29 | přes všechny vozidla ovlivněná frontou u daného uzlu. Komunikace je zde tedy omezena pouze na výměnu |
---|
| 30 | hodnot $Q$.\\ |
---|
| 31 | |
---|
| 32 | Metode popsaná v článku \cite{3_i_traff_light_c} používá ohodnocovací funkci |
---|
| 33 | založenou na parametrech jednotlivých vozidel. Výhodou oproti pojetí, kdy agent |
---|
| 34 | představuje pouze signální skupinu, jsou například v tom, že není potřeba |
---|
| 35 | odhadovat délku fronty a úloha se celá zjednoduší. Například v publikaci |
---|
| 36 | \cite{tlc_using_sarsa} se musí používat k odhadu funkcí $V$ a $Q$ neuronová síť. |
---|
| 37 | Navíc tento systém umožňuje i výběr optimální cesty vozidla pro průjezd dopravní sítí. |
---|
| 38 | Nevýhodou tohoto pojetí je ovšem značná neuniverzálnost. Už pro počítačové testování |
---|
| 39 | tato metode znesnadnuje či úplně znemožňuje použít celou řadu dopravních simulátorů, |
---|
| 40 | které jsou pro simulaci po dlouhou dobu optimalizovány a |
---|
| 41 | jejichž nasazení značně zjednodušuje práci a urychluje vývoj. |
---|
| 42 | Navíc pokud je použit řadič, který obstarává logiku přepínání průjezdnosti a |
---|
| 43 | lze nastavovat pouze vnější parametry jako jsou délka cyklu a offset, je |
---|
| 44 | metoda, která potřebuje okamžitou změnu signalizace naprosto nevhodná, |
---|
| 45 | proto je toto řešení pro reálné nasazení v dnešní době nepoužitelné. |
---|
| 46 | |
---|
| 47 | |
---|
| 48 | |
---|