- Timestamp:
- 02/03/12 16:39:52 (12 years ago)
- Files:
-
- 1 modified
Legend:
- Unmodified
- Added
- Removed
-
applications/doprava/texty/novotny_vyzk_LQ/Reinforcement_learning.tex.backup
r1419 r1429 1 \section{Zpětnovazebné učení} 1 2 2 3 3 \section{Markovův rozhodvací proces} 4 5 \subsection{Markovův rozhodvací proces} 4 6 Markovův rozhodvací proces je alternativní metoda sloužící 5 7 k volbě strategií odhadem zisků z nich plynoucích do budoucna. … … 29 31 30 32 31 \subs ubsection{Dynamické programování}33 \subsection{Dynamické programování}\label{sec:dynamic_programming} 32 34 33 35 %asi trochu poupravit podle \cite{tlc_using_sarsa} … … 94 96 \end{enumerate} 95 97 96 \s ection{Zpětnovazebné učení (Reinforcement learning)}98 \subsection{Zpětnovazebné učení (Reinforcement learning)} 97 99 V praxi jsou z počátku hodnoty funkcí $P$ a $R$ popsané v \ref{de:markov_decision_process} 98 100 neznámé a je potřeba je určit pozorováním. Prakticky se tedy agent musí naučit jak prostředí … … 102 104 $R(i, a, j)$. K určení těchto hodnot se používají různé algoritmy. 103 105 104 \subs ection{Q-učení (Q-learning)}106 \subsubsection{Q-učení (Q-learning)} 105 107 Q-učení je bezmodelová metoda popsaná v \cite{q_learning} a \cite{learning_to_predict}. 106 108 K určení požadovaných hodnot, jak název napovídá, používá … … 123 125 124 126 125 \subs ection{Učení na základě modelu (Model-based learning)}127 \subsubsection{Učení na základě modelu (Model-based learning)}\label{sec:model_based_learning} 126 128 V této metodě, popsané v \cite{3_i_traff_light_c}, se modeluje 127 129 prostředí funkcemi $P(i,a,j)$ a $R(i,a,j)$, které jsou definované v … … 132 134 133 135 \begin{itemize} 134 \item $C_{i}(a)$ 135 \item $C_{i,j}(a)$ 136 \item $ C_{i,j}(a)$136 \item $C_{i}(a)$ - počet, kolikrát agent zvolil akci $a$ ve stavu $i$ 137 \item $C_{i,j}(a)$ - počet, kolikrát prostředí přešlo ze stavu $i$ do stavu $j$ při aplikace akce $a$ 138 \item $R_{i,j}(a)$ - součet okamžitých zisků při použití akce $a$ ve stavu $i$ a následném přechodu do stavu $j$ 137 139 \end{itemize} 140 141 Model maximální věrohodnosti (MLM) je v \cite{3_i_traff_light_c} definován jako: 142 143 \begin{definition}[MLM]\label{de:mlm} 144 $$ \hat{P} (i,a,j) = \frac{C_{i,j}(a)}{C_i(a)} $$ 145 $$ \hat{R} (i,a,j) = \frac{R_{i,j}(a)}{C_{i,j}(a)} $$ 146 \end{definition} 147 148 V každém časovém kroce je po aplikaci akce $a$ model přepočítán. Poté 149 je znovu použito dynamické programování popsané v sekci \ref{sec:dynamic_programming}. 138 150 139 151 140 152 141 153 154 155 156 157 158