Context Navigation

Reinforcement_learning_pouziti.tex @ 1424

Revision 1424, 3.0 kB (checked in by jabu, 12 years ago)
Prvni verze bez vysledku

Line
1	\subsection{Použití zpětnovazebného učení}
2
3	\subsubsection{Zpětnovazebné učení na základě modelu}
4
5	V \cite{3_i_traff_light_c} je popsána simulace používající
6	zpětnovazebné učení na základě modelu popsané v \ref{sec:model_based_learning}.
7	Na rozdíl od ezperimentu popsaného v předchozí kapitole zde autoři zvolili
8	variantu, kde existují 2 druhy agentů: agent-vozidlo a agent-křižovatka.
9	Agent-vozidlo má v každý časový krok následující parametry definující jeho stav,
10	které se ukládají v průběhu celé simulace:
11
12	\begin{itemize}
13	\item $node$ - dopravní uzel, kde se právě nachází
14	\item $dir$ - směr vůči tomuto uzlu
15	\item $place$ - pozice ve frontě vozidel
16	\item $des$ - místo, kam chce v systému dojet
17	\end{itemize}
18
19	Algoritmus se snaží minimalizovat celkový čas od vyjetí až po dosažení cíle.
20	Každý agent má ve vyjednávání právo hlasovat o nastavení dopravního uzlu,
21	tedy jestli bude v průjezdném nebo uzavřeném stavu. Pro každý uzel $node$ a směr $dir$ je to
22	tedy akce $g$ - na uzlu $node$, kde se vozidlo nachází ve směru $dir$, svítí červená - uzel je v tomto směru neprůjezdný,
23	a akce $g$ - uzel je v tomto směru průjezdný.
24	Funkce definované v \ref{sec:dynamic_programming} se tedy zapisují ve tvarech
25	$$ Q([node, dir, place, des], a) $$ $$ V([node, dir, place, des]) $$
26	kde $a \in \{r,g\}$. Optimální akce se v \cite{3_i_traff_light_c} volí
27	podle maxima sumy z
28	$$ Q([node, dir, place, des], r) - Q([node, dir, place, des], g) $$
29	přes všechny vozidla ovlivněná frontou u daného uzlu. Komunikace je zde tedy omezena pouze na výměnu
30	hodnot $Q$.\\
31
32	\subsection{Zhodnocení}
33
34	Metode popsaná v článku \cite{3_i_traff_light_c} používá ohodnocovací funkci
35	založenou na parametrech jednotlivých vozidel. Výhodou oproti pojetí, kdy agent
36	představuje pouze signální skupinu, jsou například v tom, že není potřeba
37	odhadovat délku fronty a úloha se celá zjednoduší. Například v publikaci
38	\cite{tlc_using_sarsa} se musí používat k odhadu funkcí $V$ a $Q$ neuronová síť.
39	Navíc tento systém umožňuje i výběr optimální cesty vozidla pro průjezd dopravní sítí.
40	Nevýhodou tohoto pojetí je ovšem značná neuniverzálnost. Už pro počítačové testování
41	tato metode znesnadnuje či úplně znemožňuje použít celou řadu dopravních simulátorů,
42	které jsou pro simulaci po dlouhou dobu optimalizovány a
43	jejichž nasazení značně zjednodušuje práci a urychluje vývoj.
44	Navíc pokud je použit řadič, který obstarává logiku přepínání průjezdnosti a
45	lze nastavovat pouze vnější parametry jako jsou délka cyklu a offset, je
46	metoda, která potřebuje okamžitou změnu signalizace naprosto nevhodná,
47	proto je toto řešení pro reálné nasazení v dnešní době obtížně použitelné.
48	Zapojení některých myšlenek z článku \cite{3_i_traff_light_c} nebo použití
49	zpětnovazevného učení k řešení dílčích problémů by však mohlo přinést zlepšení
50	i do způsobu žešení popsaných v dalších kapitolách.
51

Note: See TracBrowser for help on using the browser.

Context Navigation

root/applications/doprava/texty/novotny_vyzk_LQ/Reinforcement_learning_pouziti/Reinforcement_learning_pouziti.tex @ 1424

Download in other formats: