Martin Thoma
|
ddd08a2a45
Improve pseudocode
|
9 năm trước cách đây |
Martin Thoma
|
ea63ce4d57
Not learning rate but discount factor
|
9 năm trước cách đây |
Martin Thoma
|
001350bae4
Add q-learning and improve value iteration pseudocode
|
9 năm trước cách đây |
Martin Thoma
|
807b9268d0
Improve quality of description
|
9 năm trước cách đây |
Martin Thoma
|
940436c883
Update pseudocode to include cost function as parameter
|
9 năm trước cách đây |
Martin Thoma
|
d65f5d2933
Add pseudocode for policy- and value-iteration
|
9 năm trước cách đây |