Show
Ignore:
Timestamp:
02/02/12 12:40:37 (12 years ago)
Author:
jabu
Message:

Prvni verze bez vysledku

Files:
1 modified

Legend:

Unmodified
Added
Removed
  • applications/doprava/texty/novotny_vyzk_LQ/Reinforcement_learning.tex

    r1419 r1424  
    2929 
    3030 
    31 \subsection{Dynamické programování}\label{sec:dynamic_programming} 
     31\subsubsection{Dynamické programování}\label{sec:dynamic_programming} 
    3232 
    3333%asi trochu poupravit podle \cite{tlc_using_sarsa} 
     
    9494\end{enumerate} 
    9595 
    96 \section{Zpětnovazebné učení (Reinforcement learning)} 
     96\subsection{Zpětnovazebné učení (Reinforcement learning)} 
    9797V praxi jsou z počátku hodnoty funkcí $P$ a $R$ popsané v \ref{de:markov_decision_process} 
    9898neznámé a je potřeba je určit pozorováním. Prakticky se tedy agent musí naučit jak prostředí 
     
    102102$R(i, a, j)$. K určení těchto hodnot se používají různé algoritmy. 
    103103  
    104 \subsection{Q-učení (Q-learning)} 
     104\subsubsection{Q-učení (Q-learning)} 
    105105Q-učení je bezmodelová metoda popsaná v \cite{q_learning} a \cite{learning_to_predict}.  
    106106K určení požadovaných hodnot, jak název napovídá, používá 
     
    153153 
    154154 
     155 
     156