- Timestamp:
- 02/03/12 14:43:10 (12 years ago)
- Files:
-
- 1 modified
Legend:
- Unmodified
- Added
- Removed
-
applications/doprava/texty/novotny_vyzk_LQ/Reinforcement_learning.tex
r1424 r1427 1 \section{Zpětnovazebné učení} 1 2 2 3 \section{Markovův rozhodvací proces} 3 \subsection{Markovův rozhodvací proces} 4 4 Markovův rozhodvací proces je alternativní metoda sloužící 5 5 k volbě strategií odhadem zisků z nich plynoucích do budoucna. … … 29 29 30 30 31 \subs ubsection{Dynamické programování}\label{sec:dynamic_programming}31 \subsection{Dynamické programování}\label{sec:dynamic_programming} 32 32 33 33 %asi trochu poupravit podle \cite{tlc_using_sarsa} … … 123 123 124 124 125 \subs ection{Učení na základě modelu (Model-based learning)}\label{sec:model_based_learning}125 \subsubsection{Učení na základě modelu (Model-based learning)}\label{sec:model_based_learning} 126 126 V této metodě, popsané v \cite{3_i_traff_light_c}, se modeluje 127 127 prostředí funkcemi $P(i,a,j)$ a $R(i,a,j)$, které jsou definované v