Show
Ignore:
Timestamp:
02/03/12 16:39:52 (12 years ago)
Author:
jabu
Message:

presunuti minimalizace do kapitoly o LQ rizeni

Files:
1 modified

Legend:

Unmodified
Added
Removed
  • applications/doprava/texty/novotny_vyzk_LQ/Reinforcement_learning.tex.backup

    r1419 r1429  
     1\section{Zpětnovazebné učení} 
    12 
    23 
    3 \section{Markovův rozhodvací proces} 
     4 
     5\subsection{Markovův rozhodvací proces} 
    46Markovův rozhodvací proces je alternativní metoda sloužící 
    57k volbě strategií odhadem zisků z nich plynoucích do budoucna. 
     
    2931 
    3032 
    31 \subsubsection{Dynamické programování} 
     33\subsection{Dynamické programování}\label{sec:dynamic_programming} 
    3234 
    3335%asi trochu poupravit podle \cite{tlc_using_sarsa} 
     
    9496\end{enumerate} 
    9597 
    96 \section{Zpětnovazebné učení (Reinforcement learning)} 
     98\subsection{Zpětnovazebné učení (Reinforcement learning)} 
    9799V praxi jsou z počátku hodnoty funkcí $P$ a $R$ popsané v \ref{de:markov_decision_process} 
    98100neznámé a je potřeba je určit pozorováním. Prakticky se tedy agent musí naučit jak prostředí 
     
    102104$R(i, a, j)$. K určení těchto hodnot se používají různé algoritmy. 
    103105  
    104 \subsection{Q-učení (Q-learning)} 
     106\subsubsection{Q-učení (Q-learning)} 
    105107Q-učení je bezmodelová metoda popsaná v \cite{q_learning} a \cite{learning_to_predict}.  
    106108K určení požadovaných hodnot, jak název napovídá, používá 
     
    123125 
    124126 
    125 \subsection{Učení na základě modelu (Model-based learning)} 
     127\subsubsection{Učení na základě modelu (Model-based learning)}\label{sec:model_based_learning} 
    126128V této metodě, popsané v \cite{3_i_traff_light_c}, se modeluje 
    127129prostředí funkcemi $P(i,a,j)$ a $R(i,a,j)$, které jsou definované v 
     
    132134 
    133135\begin{itemize} 
    134  \item $C_{i}(a)$ 
    135  \item $C_{i,j}(a)$ 
    136  \item $C_{i,j}(a)$ 
     136 \item $C_{i}(a)$ - počet, kolikrát agent zvolil akci $a$ ve stavu $i$ 
     137 \item $C_{i,j}(a)$ - počet, kolikrát prostředí přešlo ze stavu $i$ do stavu $j$ při aplikace akce $a$ 
     138 \item $R_{i,j}(a)$ - součet okamžitých zisků při použití akce $a$ ve stavu $i$ a následném přechodu do stavu $j$ 
    137139\end{itemize} 
     140 
     141Model maximální věrohodnosti (MLM) je v \cite{3_i_traff_light_c} definován jako: 
     142 
     143\begin{definition}[MLM]\label{de:mlm}  
     144 $$ \hat{P} (i,a,j) = \frac{C_{i,j}(a)}{C_i(a)} $$ 
     145 $$ \hat{R} (i,a,j) = \frac{R_{i,j}(a)}{C_{i,j}(a)} $$ 
     146\end{definition} 
     147 
     148V každém časovém kroce je po aplikaci akce $a$ model přepočítán. Poté 
     149je znovu použito dynamické programování popsané v sekci \ref{sec:dynamic_programming}. 
    138150 
    139151 
    140152 
    141153 
     154 
     155 
     156 
     157 
     158