Show
Ignore:
Timestamp:
02/04/12 00:54:24 (12 years ago)
Author:
jabu
Message:

finalni verze

Files:
1 modified

Legend:

Unmodified
Added
Removed
  • applications/doprava/texty/novotny_vyzk_LQ/Reinforcement_learning.tex

    r1429 r1434  
    3737Dynamické programování je proces sloužící k nalezení optimální 
    3838strategie dané $\pi(s)$. K tomu slouží funkce očekávaných kumulativních diskontních zisků 
    39 $V^{\pi}(i) : \rightarrow \mathbb{R}$  
    40 reprezentující předpokládané dlouhodobé zisky při určité $\pi(s)$. Agent se tedy snaží  
     39$V^{\pi}(i) : S \rightarrow \mathbb{R}$  
     40reprezentující předpokládané dlouhodobé zisky při určité funkci $\pi(s)$. Agent se tedy snaží  
    4141zvolit strategii tak, aby funkci $V^{\pi}$ při daném počátečním stavu $s_0 = i$ maximalizoval. 
    42 V \cite{3_i_traff_light_c} je tato funkce definována násedovně: 
     42V publikaci \cite{3_i_traff_light_c} je tato funkce definována násedovně: 
    4343 
    4444\begin{definition}[V-funkce]\label{de:v_function} 
     
    4949\begin{itemize} 
    5050 \item $\gamma \in <0,1> $ diskontní faktor určující snižování významnosti odhadu s narůstajícím časem 
    51  \item $E$ operator odhadu %střední hodnota přes všechny možnosti cesty stav/akce 
     51 \item $E$ operátor odhadu %střední hodnota přes všechny možnosti cesty stav/akce 
    5252\end{itemize} 
    5353\end{definition} 
     
    5858\begin{definition}[Q-function]\label{de:q_function} 
    5959 $$ 
    60     Q(i, a)^{\pi} = \sum_{j \in S} P(i,a,j) ( R(i,a,j) + \gamma V^{\pi}(j) ) 
     60    Q^{\pi}(i, a) = \sum_{j \in S} P(i,a,j) ( R(i,a,j) + \gamma V^{\pi}(j) ) 
    6161 $$ 
    6262 
    6363kde jsou 
    64  $$ V^{\pi}(i) = \max_a Q^{\pi}(i,a) $$, 
     64 $$ V^{\pi}(i) = \max_a Q^{\pi}(i,a) \;,$$ 
    6565 $$ \pi(i) = \arg \max_a Q^{\pi}(i,a) $$ 
    6666\end{definition} 
     
    7979nemění se s dalšími kroky iterace. V praxi se stanoví nějaká dostatečně malá konstanta $\epsilon$, a  
    8080pokud se v dalším kroku $Q$ a $V$ nezmění o vícejak $\epsilon$, považujeme je za optimální. 
    81 Navíc bylo dokázáno, že vždy existuje právě jedna dvojice dvojice těchto funkcí, která je optimální 
     81Navíc bylo dokázáno, že vždy existuje právě jedna dvojice těchto funkcí, která je optimální 
    8282a vždy ji lze tedy iterací určit.\\ 
    8383 
    8484Algoritmus pro určení funkce $\pi$ tedy iterativně přes všechny stavy, akce a časové 
    85 kroky upravuje funkce $V$, $Q$ a $\pi$ podle rovnic \ref{de:q_function}, a v \cite{3_i_traff_light_c} 
     85kroky upravuje funkce $V$, $Q$ a $\pi$ podle rovnic \ref{de:q_function}, a v publikaci \cite{3_i_traff_light_c} 
    8686je v krocích popsán takto: 
    8787 
     
    9393 \item dopočítat hodnotu funkce $V$ jako 
    9494  $$ V(i) = \max_a Q(i,a) $$ 
    95  \item nastavit hodnotu funkce $pi$ na akci maximálního zisku jako 
     95 \item nastavit hodnotu funkce $\pi$ na akci maximálního zisku jako 
    9696  $$ \pi(i) = \arg \max_a Q(i,a) $$  
    9797\end{enumerate} 
     
    106106  
    107107\subsubsection{Q-učení (Q-learning)} 
    108 Q-učení je bezmodelová metoda popsaná v \cite{q_learning} a \cite{learning_to_predict}.  
     108Q-učení je bezmodelová metoda popsaná v publikacích \cite{q_learning} a \cite{learning_to_predict}.  
    109109K určení požadovaných hodnot, jak název napovídá, používá 
    110110úpravu funkce $Q$ definované v \ref{de:q_function}  
     
    117117       Q_{t-1}(i,a) & : jinak 
    118118     \end{array} 
    119    \right. 
     119   \right. \;, 
    120120$$ 
    121121