Context Navigation

Reinforcement_learning.tex

Timestamp:

02/02/12 12:40:37 (12 years ago)

Author:

jabu

Message:

Prvni verze bez vysledku

Files:

r1419	r1424
29	29
30	30
31		\subsection{Dynamické programování}\label{sec:dynamic_programming}
	31	\subsubsection{Dynamické programování}\label{sec:dynamic_programming}
32	32
33	33	%asi trochu poupravit podle \cite{tlc_using_sarsa}
…	…
94	94	\end{enumerate}
95	95
96		\section{Zpětnovazebné učení (Reinforcement learning)}
	96	\subsection{Zpětnovazebné učení (Reinforcement learning)}
97	97	V praxi jsou z počátku hodnoty funkcí $P$ a $R$ popsané v \ref{de:markov_decision_process}
98	98	neznámé a je potřeba je určit pozorováním. Prakticky se tedy agent musí naučit jak prostředí
…	…
102	102	$R(i, a, j)$. K určení těchto hodnot se používají různé algoritmy.
103	103
104		\subsection{Q-učení (Q-learning)}
	104	\subsubsection{Q-učení (Q-learning)}
105	105	Q-učení je bezmodelová metoda popsaná v \cite{q_learning} a \cite{learning_to_predict}.
106	106	K určení požadovaných hodnot, jak název napovídá, používá
…	…
153	153
154	154
	155
	156