kit-muendlich-proplan.tex 17 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348
  1. \documentclass[a4paper]{article}
  2. \usepackage{myStyle}
  3. \usepackage{amsmath}
  4. \usepackage{csquotes}
  5. \usepackage[inline]{enumitem}
  6. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  7. % Hier eigene Daten einfügen %
  8. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  9. \newcommand{\Studiengang}{Informatik (MA)}
  10. \newcommand{\Fach}{Probabilistische Planung}
  11. \newcommand{\Pruefungsdatum}{04.08.2016} % DD.MM.YYYY
  12. \newcommand{\Pruefer}{Dr. Marco Huber}
  13. \newcommand{\Beisitzer}{mir unbekannt}
  14. % Nicht zwingend, aber es waere nett, wenn du zumindest die Zahl vor
  15. % dem Komma angeben koenntest:
  16. \newcommand{\Note}{1,0}
  17. \newcommand{\Dauer}{45} % in Minuten
  18. %%% WEITER SCROLLEN %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  19. \DeclareMathOperator*{\argmin}{arg\,min}
  20. \begin{document}
  21. \begin{tabular}{p{2cm}p{15cm}}
  22. \ifpdf\vspace{-0.8cm}\fi
  23. \multirow{2}{2cm}{ \includegraphics[width=20mm]{FS-Eule}} &
  24. \Large Fragebogen der Fachschaft zu \\
  25. & \Large {\bfseries mündlichen Prüfungen} \\
  26. & \Large{im Informatikstudium}
  27. \\
  28. \end{tabular}
  29. \begin{tabular}{p{8cm}p{8cm}}
  30. \begin{flushleft}Dieser Fragebogen gibt den Studierenden,
  31. die nach Dir die Prüfung ablegen wollen, einen Einblick in Ablauf
  32. und Inhalt der Prüfung. Das erleichtert die Vorbereitung.
  33. Bitte verwende zum Ausfüllen einen schwarzen Stift.
  34. Das erleichtert das Einscannen. \\[0.5cm]
  35. %%% HIER GEHTS LOS! %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  36. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  37. % Das Dokument %
  38. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  39. Dein Studiengang: \Studiengang \\[0.5cm]
  40. \textbf{Prüfungsart:}\\
  41. %% entsprechende \boxempty bitte durch \boxtimes ersetzen.
  42. $\boxempty$ Wahlpflichtfach \\
  43. $\boxtimes$ Vertiefungsfach \\
  44. $\boxempty$ Ergänzungsfach \\[0.5cm]
  45. %% Namen des Wahl/Vertiefungs/Ergaenzungsfachs hier bitte eintragen.
  46. Welches? \Fach
  47. %% Jetzt kommt ein Barcode von uns. Einfach weitergehen. ;-)
  48. \end{flushleft}
  49. &
  50. \begin{center}
  51. Barcode:
  52. \begin{tabular}{p{0.2cm}p{6.8cm}p{0.2cm}}
  53. $\ulcorner$
  54. \vskip 2cm
  55. $\llcorner$ & & $\urcorner$
  56. \vskip 2cm
  57. $\lrcorner$ \\
  58. \end{tabular}
  59. \end{center}
  60. \vskip 0.5cm
  61. %% Hier gehts weiter:
  62. \begin{flushright}
  63. %% Pruefungsdatum, PrueferIn und BeisitzerIn bitte hier eintragen. Wichtig: Im Allgemeinen kann nur ein Professor der Pruefer gewesen sein.
  64. \begin{tabular}{ll}
  65. Prüfungsdatum: & \Pruefungsdatum \\[0.5cm]
  66. Prüfer/-in: & \Pruefer \\[0.5cm]
  67. Beisitzer/-in: & \Beisitzer \\
  68. \end{tabular}
  69. \end{flushright} \\
  70. \end{tabular}
  71. \begin{tabular}{|p{8.2cm}|p{3cm}|p{1cm}|p{3.5cm}|}
  72. \multicolumn{4}{l}{\bfseries Prüfungsfächer und Vorbereitung: } \\[0.2cm]
  73. \hline
  74. Veranstaltung & Dozent/-in & Jahr & regelmäßig besucht? \\
  75. \hline
  76. \hline
  77. %% Beispiel:
  78. %% Interessante Vorlesung & Toller Prof & 2007 & Ich war immer 5 Minuten vorher da \\
  79. Probabilistische Planung & Dr. Huber & SS 2016 & Ja \\[0.2cm]
  80. \hline
  81. \end{tabular} \\[0.5cm]
  82. \begin{multicols}{2}
  83. Note: \Note\\[0.5cm]
  84. War diese Note angemessen?
  85. %% Hier ist Platz fuer deinen Kommentar
  86. Ja
  87. \columnbreak
  88. %% Bitte Pruefungsdauer eintragen
  89. Prüfungsdauer: \Dauer{} Minuten \\[0.5cm]
  90. \end{multicols}
  91. \textbf{\ding{46}} Wie war der \textbf{Prüfungsstil des Prüfers / der Prüferin?} \\
  92. \begin{footnotesize} (Prüfungsatmosphäre, (un)klare Fragestellungen, Frage nach Einzelheiten oder eher größeren Zusammenhängen, kamen häufiger Zwischenfragen oder ließ er/sie dich erzählen, wurde Dir weitergeholfen, wurde in Wissenslücken gebohrt?)\end{footnotesize} \\
  93. \begin{minipage}[t][10cm]{\linewidth}
  94. %% Hier ist Platz fuer deinen Kommentar
  95. Die Fragen waren klar gestellt. Die Atmosphäre war
  96. angenehm; er hat einen viel erzählen lassen. Ich konnte das meiste in Ruhe
  97. aufschreiben (einmal hat er gesagt, dass ich die Formel nicht aufschreiben
  98. muss) und er hat auch immer Feedback gegeben, dass ich das erzähle was er
  99. hören will. Die Fragen waren eigentlich immer klar; bei einer unklaren
  100. Frage habe ich direkt nachgehakt ob er XY meint und er hat es auch direkt
  101. bejaht. Super angenehm!
  102. \end{minipage}
  103. \begin{flushright}$\hookrightarrow$\textbf{Rückseite bitte nicht vergessen!}\end{flushright}
  104. \newpage
  105. \columnseprule=.4pt
  106. \begin{multicols}{2}
  107. \ding{46} Hat sich der \textbf{Besuch / Nichtbesuch} der Veranstaltung für dich gelohnt? \\
  108. \begin{minipage}[t][6.8cm]{\linewidth}
  109. %% Hier ist Platz fuer deinen Kommentar
  110. Ja. Teilweise ist die Schrift schwer zu lesen, aber die Zusammenhänge werden
  111. klarer und Dr. Huber geht auch wunderbar auf Fragen ein.
  112. \end{minipage}
  113. \ding{46} Wie lange und wie hast du dich \textbf{alleine bzw. mit anderen vorbereitet}? \\
  114. \begin{minipage}[t][7cm]{\linewidth}
  115. %% Hier ist Platz fuer deinen Kommentar
  116. Ich habe die Vorlesung 2 mal gehört, mich ca. 2 Monate immer wieder ein
  117. bisschen (ca. 2h/Tag) und ca. 2 Wochen intensiv (5h/Tag) vorbereitet.
  118. 3 Treffen à ca. 4h mit einem Lernpartner.
  119. \end{minipage}
  120. \ding{46} Welche \textbf{Tips zur Vorbereitung} kannst du geben?
  121. \begin{footnotesize}(Wichtige / Unwichtige Teile des Stoffes, gute Bücher / Skripten, Lernstil)\end{footnotesize} \\
  122. \begin{minipage}[t][7cm]{\linewidth}
  123. %% Hier ist Platz fuer deinen Kommentar
  124. Folien lesen und verstehen, Protokolle durchgehen und
  125. meinen Blog lesen:\\
  126. \href{https://martin-thoma.com/probabilistische-planung/}{martin-thoma.com/probabilistische-planung/}
  127. Insbesondere die Tabelle am Ende, wo MDP / POMDP / RL verglichen werden
  128. sollte man auswendig können und aus dem FF beherrschen.
  129. \end{minipage}
  130. \columnbreak
  131. \ding{46} Kannst du ihn/sie \textbf{weiterempfehlen}?
  132. %% entsprechende \boxempty bitte durch \boxtimes ersetzen.
  133. $\boxtimes$ Ja / $\boxempty$ Nein\newline Warum? \\
  134. \begin{minipage}[t][6.8cm]{\linewidth}
  135. %% Hier ist Platz fuer deinen Kommentar
  136. Sehr nett, angenehme Athmosphäre.
  137. \end{minipage}
  138. \ding{46} Fanden vor der Prüfung \textbf{Absprachen} zu Form oder Inhalt statt? Wurden sie \textbf{eingehalten}? \\
  139. \begin{minipage}[t][7cm]{\linewidth}
  140. %% Hier ist Platz fuer deinen Kommentar
  141. Ja. Es wurde gesagt, dass keine Beweise dran kommen. War auch so.
  142. \end{minipage}
  143. \ding{46} Kannst du Ratschläge für das \textbf{Verhalten in der Prüfung} geben? \\
  144. \begin{minipage}[t][6.8cm]{\linewidth}
  145. %% Hier ist Platz fuer deinen Kommentar
  146. Mit den Antworten kann man etwas lenken, was als nächstes gefragt wird.
  147. Wenn man kurz Nachdenken muss, kann man das auch einfach sagen.
  148. \end{minipage}
  149. %
  150. \end{multicols}
  151. \clearpage
  152. \section*{Inhalte der Prüfung:}
  153. Gedächtnisprotokoll; ich habe sicherlich ein paar Fragen / Details vergessen.
  154. \begin{itemize}
  155. \item Welche 3 Themen hatten wir in der Vorlesung
  156. \item[$\Rightarrow$] MDP (Markov Decision Processes), POMDP (Partially observable MDPs),
  157. RL (Reinforcement Learning). Ich habe
  158. auch gleich die Agent-Umwelt-Diagramme gezeichnet
  159. und daran die Unterschiede erklärt und habe das
  160. Explorationsproblem erwähnt.
  161. \item Gut. Zuvor hatten wir die Grundlagen mit Wahrscheinlichkeitstheorie,
  162. Optimierungs- und Nutzentheorie. Schreiben sie mir doch mal ein
  163. allgemeines Optimierungsproblem auf.
  164. \item[$\Rightarrow$]
  165. \begin{align}
  166. \argmin_{x \in \mathbb{R}^n}& f(x)\\
  167. \text{s.t. } & g_i(x) \leq 0 \quad \text{mit } i = 1, \dots, m\\
  168. & h_j(x) = 0 \quad \text{mit } j = 1, \dots, p
  169. \end{align}
  170. Siehe auch: \href{https://martin-thoma.com/optimization-basics/}{https://martin-thoma.com/optimization-basics/}.\\
  171. Ich habe auch gleich erklärt warum $=0$ genügt und warum man o.B.d.A.
  172. von einem Minimierungsproblem ausgehen kann.
  173. \item Ok, und was macht man wenn man Gleichungs-Nebenbedingungen hat?
  174. \item[$\Rightarrow$] Lagrange-Ansatz:
  175. $$\mathcal{L}(x, \lambda_1, \dots, \lambda_p) = f(x) + \sum_{j=1}^p \lambda_j \cdot h_j(x)$$
  176. wobei das nun die notwendigen Nebenbedingungen für ein Optimum liefert,
  177. wenn man den Gradienten nach $x$ und den Gradienten nach $\lambda$
  178. bildet und gleich 0 setzt.
  179. \item Was passiert bei den Gradienten nach $\lambda$?
  180. \item[$\Rightarrow$] Die Gleichungsnebenbedingungen kommen raus.
  181. \item Nun kam noch die Sache mit den Höhenlinien / den Gradienten und
  182. dem Winkel.
  183. \item Ok, verlassen wir die Optimierungstheorie. Was können sie zum
  184. Optimalitätsprinzip sagen?
  185. \item[$\Rightarrow$] Wenn man ein Problem mit optimaler Substruktur hat,
  186. dann gilt für jede optimale Lösung, dass die Lösungen der
  187. enthaltenen Teilprobleme optimal sein müssen. Sehr schön kann
  188. man das bei der kürzesten Wegesuche sehen.
  189. \item Zeigen sie das mal an einem Beispiel.
  190. \item[$\Rightarrow$] Wenn der kürzeste Weg von $A$ nach $E$ über
  191. $B, C, D$ führt, dann muss der kürzeste Weg von $B$ nach $D$ auch
  192. über $C$ führen. Falls das nicht so wäre --- es also einen
  193. kürzesten Weg z.B. direkt von $B$ nach $D$ geben würde, dann wäre
  194. auch der Weg von $A$ nach $E$ kürzer wernn man direkt von $B$ nach
  195. $D$ gehen würde.
  196. \item Was hat das mit MDPs zu tun?
  197. \item[$\Rightarrow$] Anwendung findet es im Dynamic Programming
  198. (Endliche MDPs mit endlichem Horizont). Dabei geht man Rückwärtsrekursiv
  199. vor um die Wertefunktion $J$ aus der Kostenfunktion $g$ zu berechnen:
  200. \begin{align}
  201. J(x_N) &= g_N(x_N)\\
  202. J(x_k) &= \min_{a_k} \left [ g_k(a_k, x_k) + \mathbb{E}\{J_{k+1}(x_k+1) | x_k, a_k\} \right]
  203. \end{align}
  204. \item Sehr schön, da haben wir auch gleich die Bellman-Gleichungen.
  205. Nun hatten wir noch geschlossen lösbare Spezialfälle. Welche
  206. sind das?
  207. \item[$\Rightarrow$] \begin{enumerate*}[label=(\roman*)]
  208. \item Lineare Probleme (LQR)
  209. \item Endliche, deterministische Probleme (Label-Korrektur)
  210. \item Endliche Probleme mit unendlichem Horizont (Fixpunktsatz, Werteiteration, Bellman-Operator)
  211. \end{enumerate*}
  212. \item Dann erklären Sie doch mal den LQR.
  213. \item[$\Rightarrow$]
  214. Zustandsraummodell ist linear und rauschen ist $r \sim \mathcal{N}(0, \Sigma)$:
  215. $$x_{k+1} = A_k x_k + B_k a_k + r$$
  216. Objective function ist:
  217. $$\mathbb{E} \left ( \underbrace{x_N^T \cdot Q_N \cdot x_N + \sum_{k=0}^{N-1} x_k^T \cdot Q_k \cdot x_k}_{\text{Zustandsabhängige Kosten}} + \underbrace{\sum_{k=0}^{N-1} a_k^T \cdot R_k \cdot a_k}_{\text{aktionsabhängige Kosten}} \right )$$
  218. Der LQR ist dann einfach
  219. $$a_k^* = \underbrace{-{(R_k + B_k^T P_{k+1} B_k)}^{-1} \cdot B_k^T \cdot P_{k+1} \cdot A_k}_{\text{Verstärkungsmatrix } L_k} x_k$$
  220. wobei $P_k$ Rückwärtsrekursiv durch die iterativen Riccati-Gleichungen
  221. bestimmt werden kann. (Hier wollte ich die aufschreiben, aber bei $P_N = Q_N$
  222. hat er mich gestoppt.)
  223. \item Ok, das ist schon gut so. Nur Qualitativ, was machen die
  224. Riccati-Gleichungen?
  225. \item[$\Rightarrow$] Strukturell sind sie identisch zum Update der
  226. Fehlermatrix im Kalman-Filter duch den Update und
  227. Prädiktionsschritt.
  228. \item Ok, gut. Kommen wir zu POMDPs. Wie löst man die?
  229. \item[$\Rightarrow$] Belief-State MDP und Informationsvektor-MDP erklärt,
  230. Approximative Lösungen (Abbildung auf geschlossen lösbare Spezialfälle, Funktionsapproximatoren, Änderung der Optimierung)
  231. \item Ok. Warum verwendet man in der Praxis eher nicht das Informationsvektor-MDP?
  232. \item[$\Rightarrow$] Weil der Zustand in jedem Zeitschritt wächst.
  233. In jedem Zeitschritt $k$ kommt eine weitere
  234. Aktion $a_k$ hinzu; ggf. auch noch Beobachtungen
  235. $z_k$. Will man alles nutzen wird das Programm
  236. immer langsamer.
  237. \item Sie haben hinreichende Statistiken erwähnt. Was ist das?
  238. \item[$\Rightarrow$] (Definition; vgl. mein Blog-Artikel)
  239. \item Welche geschlossenen Spezialfälle gibt es bei POMDPs?
  240. \item[$\Rightarrow$] Linear (Kalman-Filter + LQR) und endlich ($\alpha$-Vektoren)
  241. \item Was ändert sich beim LQR im POMDP-Fall?
  242. \item[$\Rightarrow$] $a_k = L_k \cdot \mathbb{E}(x)$
  243. \item Warum ist der Kalman-Filter toll?
  244. \item[$\Rightarrow$] Er erfüllt die BLUE-Eigenschaft (Best linear unbiased estimator).
  245. Das bedeutet, unter den erwartungstreuen linearen Schätzern ist
  246. er derjenige, welcher die geringste Varianz aufweist.
  247. \item Welche Annahmen machen wir beim Kalman-Filter?
  248. \item[$\Rightarrow$] Additives, mittelwertfreies normalverteiltes Rauschen und
  249. ein linearer Zustandsübergang.
  250. \item Was passiert, wenn das Rauschen nicht mehr normalverteilt ist?
  251. \item[$\Rightarrow$] Man muss die Kovarianz-Matrix berechnen können.
  252. Wenn das geht, dann ist der Kalman-filter immer noch
  253. der beste lineare Filter (aber es gibt nicht-lineare
  254. Filter die besser sind).
  255. \item Welche Bedingung muss der Zustandsschätzer für den LQR erfüllen?
  256. \item[$\Rightarrow$] Er muss erwartungstreu sein, was der Kalman-filter ja ist.
  257. \item Was bedeutet PWLC?
  258. \item[$\Rightarrow$] Piece-wise linear and concave. Da wir in der Vorlesung
  259. Minimierungsprobleme hatten, war es concave und
  260. nicht konvex. PWLC sind bei endlichen POMDPs
  261. die Wertefunktionen $J_k$ (Zeichnung des Belief-State / der Aktionen; vgl. Links in meinem Blog). Ich habe noch Pruning erwähnt.
  262. \item Wie kann man einfach Pruning durchführen?
  263. \item[$\Rightarrow$] Es handelt sich um einen Simplex. (Beispiel mit nur
  264. 2 Zuständen aufgezeichnet.) Ein paarweiser
  265. Vergleich ist möglich, indem man nur die Endpunkte
  266. betrachtet. Wird eine Aktion echt von einer anderen
  267. dominiert, so kann diese Entfernt werden.
  268. Wird eine Aktion durch Kombinationen von
  269. Aktionen dominiert, so könnte man z.B. Algorithmen
  270. zur berechnun der Konvexen Hülle nutzen.
  271. \item Wie steigt die komplexität des $\alpha$-Algorithmus in jedem
  272. Zeitschritt?
  273. \item[$\Rightarrow$] Exponentiell (in jedem Zeitschritt sind alle
  274. Aktionen prinzipiell wieder möglich)
  275. \item Ok, nun zu RL. Welche 3 Gruppen von Lösungsalgorithmen hatten wir?
  276. \item[$\Rightarrow$] Modellbasiert, Wertefunktionsbasiert, Strategiesuche.
  277. Modellbasiert kann mittels DP zu Wertefunktionsbasiert
  278. reduziert werden. Mit argmax kann man dann eine Strategie
  279. berechnen. Modellbasiert gibt es Dyna-Q,
  280. Adaptive DP und PILCO. Wertefunktionsbasiert
  281. hatten wir die Monte Carlo-Verfahren,
  282. Temporal Difference und die Kombination mit
  283. Eligibility traces.
  284. \item Was ist das Exploitation vs. Exploration-Problem?
  285. \item[$\Rightarrow$] Im RL kennen wir das Modell nicht. Wir befinden
  286. uns sozusagen im Dunkeln und müssen erst finden wo es Rewards gibt.
  287. Am Anfang muss man also Explorieren. (Habe eine Grid-World gezeichet
  288. und eine Pfad, wo ein Roboter einen Reward von 100 gefunden hat). Nun
  289. könnte man die Strategie so aufbauen, dass immer dieser Pfad
  290. (versucht wird) zu nehmen. Allerdings kann man auch darauf hoffen, dass
  291. an anderer Stelle (eingezeichnet) ein Reward von z.B. 150 ist. Um
  292. das herauszufinden muss man von der aktuell \enquote{optimalen} Strategie
  293. abweichen und explorieren.
  294. \item Wie macht man das?
  295. \item[$\Rightarrow$] Durch probabilistische Strategien. Das einfachste
  296. ist, dass man am Anfang $\varepsilon \in \mathbb{N}$ Schritte exploriert
  297. und dann deterministisch die Strategie benutzt. Besser sind GLIE-Strategien,
  298. die theoretisch unendlich oft alle Zustände besuchen. Nennenswert sind
  299. $\varepsilon$-Greedy und Softmax.
  300. \item Zeichnen sie die Verteilung mal auf, wenn sie 3 Aktionen haben
  301. und Aktion 1 optimal ist, Aktion 2 die zweitbeste und Aktion 3
  302. die schlechteste.
  303. \item[$\Rightarrow$] Es ergibt sich, dass bei $\varepsilon$-Greedy
  304. die nicht-optimalen Aktionen gleichverteilt sind und bei
  305. softmax ist die Verteilung vom aktuell geschätzten Wert der Aktion
  306. abhängig. Da gibt es noch eine Temperatur $\tau$, welche mit der
  307. Zeit sinkt. Am Anfang ist der $Q$-Wert der Aktionen also nicht so
  308. wichtig, aber später mehr. Es gibt noch ausgefeiltere Explorations-Strategien
  309. welche berücksichtigen wie viel sich in der Q-Funktion noch ändert.
  310. \item Ok, dass hatten wir nicht in der Vorlesung. Damit ist die
  311. Zeit auch schon rum.
  312. \end{itemize}
  313. \end{document}