10 лет назад · 45e56d0320
--- a/source-code/Pseudocode/Policy-Iteration/Policy-Iteration.png
+++ b/source-code/Pseudocode/Policy-Iteration/Policy-Iteration.png
--- a/source-code/Pseudocode/Policy-Iteration/Policy-Iteration.tex
+++ b/source-code/Pseudocode/Policy-Iteration/Policy-Iteration.tex
@@ -26,7 +26,7 @@
 
				         \Procedure{PolicyIteration}{$\mathcal{X}$, $A$, $g$, $f$}
			
 
				             \State Initialize $\pi$ arbitrarily
			
 
				             \While{$\pi$ is not converged}
			
 
				-                \State $J \gets$ solve system of linear equations $I - \alpha \cdot F(\pi) \cdot J = g(\pi)$
			
 
				+                \State $J \gets$ solve system of linear equations $(I - \alpha \cdot F(\pi)) \cdot J = g(\pi)$
			
 
				 
			
 
				                 \For{$x \in \mathcal{X}$}
			
 
				                     \For{$a \in A(x)$}
			
--- a/source-code/Pseudocode/Value-Iteration/Value-Iteration.png
+++ b/source-code/Pseudocode/Value-Iteration/Value-Iteration.png
--- a/source-code/Pseudocode/q-learning/q-learning.png
+++ b/source-code/Pseudocode/q-learning/q-learning.png
--- a/source-code/Pseudocode/q-learning/q-learning.tex
+++ b/source-code/Pseudocode/q-learning/q-learning.tex
@@ -13,6 +13,7 @@
 
				 
			
 
				 \DeclareCaptionFormat{myformat}{#3}
			
 
				 \captionsetup[algorithm]{format=myformat}
			
 
				+\DeclareMathOperator*{\argmax}{arg\,max}
			
 
				 
			
 
				 \begin{document}
			
 
				 \begin{preview}
			
@@ -30,7 +31,8 @@
 
				             \While{$Q$ is not converged}
			
 
				                 \State Start in state $s \in \mathcal{X}$
			
 
				                 \While{$s$ is not terminal}
			
 
				-                    \State Select $a \in \mathcal{A}$ by $Q$ and an exploration policy (e.g. $\varepsilon$ greedy)
			
 
				+                    \State Calculate $\pi$ according to Q and exploration strategy (e.g. $\pi(x) \gets \argmax_{a} Q(x, a)$)
			
 
				+                    \State $a \gets \pi(s)$
			
 
				                     \State $r \gets R(s, a)$
			
 
				                     \State $s' \gets T(s, a)$ \Comment{Receive the new state}
			
 
				                     \State $Q(s', a) \gets (1 - \alpha) \cdot Q(s, a) + \alpha \cdot (r + \gamma \cdot \max_{a'} Q(s', a'))$