Context Navigation

← Previous Change
Next Change →

Reinforcement_learning.tex.backup

Timestamp:

02/03/12 16:39:52 (12 years ago)

Author:

jabu

Message:

presunuti minimalizace do kapitoly o LQ rizeni

Files:

: 1 modified

applications/doprava/texty/novotny_vyzk_LQ/Reinforcement_learning.tex.backup (modified) (6 diffs)

Legend:

: Unmodified
: Added
: Removed

applications/doprava/texty/novotny_vyzk_LQ/Reinforcement_learning.tex.backup

r1419	r1429
	1	\section{Zpětnovazebné učení}
1	2
2	3
3		\section{Markovův rozhodvací proces}
	4
	5	\subsection{Markovův rozhodvací proces}
4	6	Markovův rozhodvací proces je alternativní metoda sloužící
5	7	k volbě strategií odhadem zisků z nich plynoucích do budoucna.
…	…
29	31
30	32
31		\subs~~ubsection{Dynamické programování~~}
	33	\subsection{Dynamické programování}\label{sec:dynamic_programming}
32	34
33	35	%asi trochu poupravit podle \cite{tlc_using_sarsa}
…	…
94	96	\end{enumerate}
95	97
96		\section{Zpětnovazebné učení (Reinforcement learning)}
	98	\subsection{Zpětnovazebné učení (Reinforcement learning)}
97	99	V praxi jsou z počátku hodnoty funkcí $P$ a $R$ popsané v \ref{de:markov_decision_process}
98	100	neznámé a je potřeba je určit pozorováním. Prakticky se tedy agent musí naučit jak prostředí
…	…
102	104	$R(i, a, j)$. K určení těchto hodnot se používají různé algoritmy.
103	105
104		\subsection{Q-učení (Q-learning)}
	106	\subsubsection{Q-učení (Q-learning)}
105	107	Q-učení je bezmodelová metoda popsaná v \cite{q_learning} a \cite{learning_to_predict}.
106	108	K určení požadovaných hodnot, jak název napovídá, používá
…	…
123	125
124	126
125		\subs~~ection{Učení na základě modelu (Model-based learning)~~}
	127	\subsubsection{Učení na základě modelu (Model-based learning)}\label{sec:model_based_learning}
126	128	V této metodě, popsané v \cite{3_i_traff_light_c}, se modeluje
127	129	prostředí funkcemi $P(i,a,j)$ a $R(i,a,j)$, které jsou definované v
…	…
132	134
133	135	\begin{itemize}
134		\item $C_{i}(a)$
135		\item $C_{i,j}(a)$
136		\item $~~C_{i,j}(a)~~$
	136	\item $C_{i}(a)$ - počet, kolikrát agent zvolil akci $a$ ve stavu $i$
	137	\item $C_{i,j}(a)$ - počet, kolikrát prostředí přešlo ze stavu $i$ do stavu $j$ při aplikace akce $a$
	138	\item $R_{i,j}(a)$ - součet okamžitých zisků při použití akce $a$ ve stavu $i$ a následném přechodu do stavu $j$
137	139	\end{itemize}
	140
	141	Model maximální věrohodnosti (MLM) je v \cite{3_i_traff_light_c} definován jako:
	142
	143	\begin{definition}[MLM]\label{de:mlm}
	144	$$ \hat{P} (i,a,j) = \frac{C_{i,j}(a)}{C_i(a)} $$
	145	$$ \hat{R} (i,a,j) = \frac{R_{i,j}(a)}{C_{i,j}(a)} $$
	146	\end{definition}
	147
	148	V každém časovém kroce je po aplikaci akce $a$ model přepočítán. Poté
	149	je znovu použito dynamické programování popsané v sekci \ref{sec:dynamic_programming}.
138	150
139	151
140	152
141	153
	154
	155
	156
	157
	158

Context Navigation

Changeset 1429 for applications/doprava/texty/novotny_vyzk_LQ/Reinforcement_learning.tex.backup

Legend:

applications/doprava/texty/novotny_vyzk_LQ/Reinforcement_learning.tex.backup

Download in other formats: