1 | \subsection{Použití zpětnovazebného učení} |
---|
2 | |
---|
3 | \subsubsection{Zpětnovazebné učení na základě modelu} |
---|
4 | |
---|
5 | V \cite{3_i_traff_light_c} je popsána simulace používající |
---|
6 | zpětnovazebné učení na základě modelu popsané v \ref{sec:model_based_learning}. |
---|
7 | Na rozdíl od ezperimentu popsaného v předchozí kapitole zde autoři zvolili |
---|
8 | variantu, kde existují 2 druhy agentů: agent-vozidlo a agent-křižovatka. |
---|
9 | Agent-vozidlo má v každý časový krok následující parametry definující jeho stav, |
---|
10 | které se ukládají v průběhu celé simulace: |
---|
11 | |
---|
12 | \begin{itemize} |
---|
13 | \item $node$ - dopravní uzel, kde se právě nachází |
---|
14 | \item $dir$ - směr vůči tomuto uzlu |
---|
15 | \item $place$ - pozice ve frontě vozidel |
---|
16 | \item $des$ - místo, kam chce v systému dojet |
---|
17 | \end{itemize} |
---|
18 | |
---|
19 | Algoritmus se snaží minimalizovat celkový čas od vyjetí až po dosažení cíle. |
---|
20 | Každý agent má ve vyjednávání právo hlasovat o nastavení dopravního uzlu, |
---|
21 | tedy jestli bude v průjezdném nebo uzavřeném stavu. Pro každý uzel $node$ a směr $dir$ je to |
---|
22 | tedy akce $g$ - na uzlu $node$, kde se vozidlo nachází ve směru $dir$, svítí červená - uzel je v tomto směru neprůjezdný, |
---|
23 | a akce $g$ - uzel je v tomto směru průjezdný. |
---|
24 | Funkce definované v \ref{sec:dynamic_programming} se tedy zapisují ve tvarech |
---|
25 | $$ Q([node, dir, place, des], a) $$ $$ V([node, dir, place, des]) $$ |
---|
26 | kde $a \in \{r,g\}$. Optimální akce se v \cite{3_i_traff_light_c} volí |
---|
27 | podle maxima sumy z |
---|
28 | $$ Q([node, dir, place, des], r) - Q([node, dir, place, des], g) $$ |
---|
29 | přes všechny vozidla ovlivněná frontou u daného uzlu. Komunikace je zde tedy omezena pouze na výměnu |
---|
30 | hodnot $Q$.\\ |
---|
31 | |
---|
32 | \subsection{Zhodnocení} |
---|
33 | |
---|
34 | Metode popsaná v článku \cite{3_i_traff_light_c} používá ohodnocovací funkci |
---|
35 | založenou na parametrech jednotlivých vozidel. Výhodou oproti pojetí, kdy agent |
---|
36 | představuje pouze signální skupinu, jsou například v tom, že není potřeba |
---|
37 | odhadovat délku fronty a úloha se celá zjednoduší. Například v publikaci |
---|
38 | \cite{tlc_using_sarsa} se musí používat k odhadu funkcí $V$ a $Q$ neuronová síť. |
---|
39 | Navíc tento systém umožňuje i výběr optimální cesty vozidla pro průjezd dopravní sítí. |
---|
40 | Nevýhodou tohoto pojetí je ovšem značná neuniverzálnost. Už pro počítačové testování |
---|
41 | tato metode znesnadnuje či úplně znemožňuje použít celou řadu dopravních simulátorů, |
---|
42 | které jsou pro simulaci po dlouhou dobu optimalizovány a |
---|
43 | jejichž nasazení značně zjednodušuje práci a urychluje vývoj. |
---|
44 | Navíc pokud je použit řadič, který obstarává logiku přepínání průjezdnosti a |
---|
45 | lze nastavovat pouze vnější parametry jako jsou délka cyklu a offset, je |
---|
46 | metoda, která potřebuje okamžitou změnu signalizace naprosto nevhodná, |
---|
47 | proto je toto řešení pro reálné nasazení v dnešní době obtížně použitelné. |
---|
48 | Zapojení některých myšlenek z článku \cite{3_i_traff_light_c} nebo použití |
---|
49 | zpětnovazevného učení k řešení dílčích problémů by však mohlo přinést zlepšení |
---|
50 | i do způsobu žešení popsaných v dalších kapitolách. |
---|
51 | |
---|