- Timestamp:
- 02/02/12 12:40:37 (12 years ago)
- Files:
-
- 1 modified
Legend:
- Unmodified
- Added
- Removed
-
applications/doprava/texty/novotny_vyzk_LQ/Reinforcement_learning.tex
r1419 r1424 29 29 30 30 31 \subs ection{Dynamické programování}\label{sec:dynamic_programming}31 \subsubsection{Dynamické programování}\label{sec:dynamic_programming} 32 32 33 33 %asi trochu poupravit podle \cite{tlc_using_sarsa} … … 94 94 \end{enumerate} 95 95 96 \s ection{Zpětnovazebné učení (Reinforcement learning)}96 \subsection{Zpětnovazebné učení (Reinforcement learning)} 97 97 V praxi jsou z počátku hodnoty funkcí $P$ a $R$ popsané v \ref{de:markov_decision_process} 98 98 neznámé a je potřeba je určit pozorováním. Prakticky se tedy agent musí naučit jak prostředí … … 102 102 $R(i, a, j)$. K určení těchto hodnot se používají různé algoritmy. 103 103 104 \subs ection{Q-učení (Q-learning)}104 \subsubsection{Q-učení (Q-learning)} 105 105 Q-učení je bezmodelová metoda popsaná v \cite{q_learning} a \cite{learning_to_predict}. 106 106 K určení požadovaných hodnot, jak název napovídá, používá … … 153 153 154 154 155 156