| 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348 |
- \documentclass[a4paper]{article}
- \usepackage{myStyle}
- \usepackage{amsmath}
- \usepackage{csquotes}
- \usepackage[inline]{enumitem}
- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
- % Hier eigene Daten einfügen %
- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
- \newcommand{\Studiengang}{Informatik (MA)}
- \newcommand{\Fach}{Probabilistische Planung}
- \newcommand{\Pruefungsdatum}{04.08.2016} % DD.MM.YYYY
- \newcommand{\Pruefer}{Dr. Marco Huber}
- \newcommand{\Beisitzer}{mir unbekannt}
- % Nicht zwingend, aber es waere nett, wenn du zumindest die Zahl vor
- % dem Komma angeben koenntest:
- \newcommand{\Note}{1,0}
- \newcommand{\Dauer}{45} % in Minuten
- %%% WEITER SCROLLEN %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
- \DeclareMathOperator*{\argmin}{arg\,min}
- \begin{document}
- \begin{tabular}{p{2cm}p{15cm}}
- \ifpdf\vspace{-0.8cm}\fi
- \multirow{2}{2cm}{ \includegraphics[width=20mm]{FS-Eule}} &
- \Large Fragebogen der Fachschaft zu \\
- & \Large {\bfseries mündlichen Prüfungen} \\
- & \Large{im Informatikstudium}
- \\
- \end{tabular}
- \begin{tabular}{p{8cm}p{8cm}}
- \begin{flushleft}Dieser Fragebogen gibt den Studierenden,
- die nach Dir die Prüfung ablegen wollen, einen Einblick in Ablauf
- und Inhalt der Prüfung. Das erleichtert die Vorbereitung.
- Bitte verwende zum Ausfüllen einen schwarzen Stift.
- Das erleichtert das Einscannen. \\[0.5cm]
- %%% HIER GEHTS LOS! %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
- % Das Dokument %
- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
- Dein Studiengang: \Studiengang \\[0.5cm]
- \textbf{Prüfungsart:}\\
- %% entsprechende \boxempty bitte durch \boxtimes ersetzen.
- $\boxempty$ Wahlpflichtfach \\
- $\boxtimes$ Vertiefungsfach \\
- $\boxempty$ Ergänzungsfach \\[0.5cm]
- %% Namen des Wahl/Vertiefungs/Ergaenzungsfachs hier bitte eintragen.
- Welches? \Fach
- %% Jetzt kommt ein Barcode von uns. Einfach weitergehen. ;-)
- \end{flushleft}
- &
- \begin{center}
- Barcode:
- \begin{tabular}{p{0.2cm}p{6.8cm}p{0.2cm}}
- $\ulcorner$
- \vskip 2cm
- $\llcorner$ & & $\urcorner$
- \vskip 2cm
- $\lrcorner$ \\
- \end{tabular}
- \end{center}
- \vskip 0.5cm
- %% Hier gehts weiter:
- \begin{flushright}
- %% Pruefungsdatum, PrueferIn und BeisitzerIn bitte hier eintragen. Wichtig: Im Allgemeinen kann nur ein Professor der Pruefer gewesen sein.
- \begin{tabular}{ll}
- Prüfungsdatum: & \Pruefungsdatum \\[0.5cm]
- Prüfer/-in: & \Pruefer \\[0.5cm]
- Beisitzer/-in: & \Beisitzer \\
- \end{tabular}
- \end{flushright} \\
- \end{tabular}
- \begin{tabular}{|p{8.2cm}|p{3cm}|p{1cm}|p{3.5cm}|}
- \multicolumn{4}{l}{\bfseries Prüfungsfächer und Vorbereitung: } \\[0.2cm]
- \hline
- Veranstaltung & Dozent/-in & Jahr & regelmäßig besucht? \\
- \hline
- \hline
- %% Beispiel:
- %% Interessante Vorlesung & Toller Prof & 2007 & Ich war immer 5 Minuten vorher da \\
- Probabilistische Planung & Dr. Huber & SS 2016 & Ja \\[0.2cm]
- \hline
- \end{tabular} \\[0.5cm]
- \begin{multicols}{2}
- Note: \Note\\[0.5cm]
- War diese Note angemessen?
- %% Hier ist Platz fuer deinen Kommentar
- Ja
- \columnbreak
- %% Bitte Pruefungsdauer eintragen
- Prüfungsdauer: \Dauer{} Minuten \\[0.5cm]
- \end{multicols}
- \textbf{\ding{46}} Wie war der \textbf{Prüfungsstil des Prüfers / der Prüferin?} \\
- \begin{footnotesize} (Prüfungsatmosphäre, (un)klare Fragestellungen, Frage nach Einzelheiten oder eher größeren Zusammenhängen, kamen häufiger Zwischenfragen oder ließ er/sie dich erzählen, wurde Dir weitergeholfen, wurde in Wissenslücken gebohrt?)\end{footnotesize} \\
- \begin{minipage}[t][10cm]{\linewidth}
- %% Hier ist Platz fuer deinen Kommentar
- Die Fragen waren klar gestellt. Die Atmosphäre war
- angenehm; er hat einen viel erzählen lassen. Ich konnte das meiste in Ruhe
- aufschreiben (einmal hat er gesagt, dass ich die Formel nicht aufschreiben
- muss) und er hat auch immer Feedback gegeben, dass ich das erzähle was er
- hören will. Die Fragen waren eigentlich immer klar; bei einer unklaren
- Frage habe ich direkt nachgehakt ob er XY meint und er hat es auch direkt
- bejaht. Super angenehm!
- \end{minipage}
- \begin{flushright}$\hookrightarrow$\textbf{Rückseite bitte nicht vergessen!}\end{flushright}
- \newpage
- \columnseprule=.4pt
- \begin{multicols}{2}
- \ding{46} Hat sich der \textbf{Besuch / Nichtbesuch} der Veranstaltung für dich gelohnt? \\
- \begin{minipage}[t][6.8cm]{\linewidth}
- %% Hier ist Platz fuer deinen Kommentar
- Ja. Teilweise ist die Schrift schwer zu lesen, aber die Zusammenhänge werden
- klarer und Dr. Huber geht auch wunderbar auf Fragen ein.
- \end{minipage}
- \ding{46} Wie lange und wie hast du dich \textbf{alleine bzw. mit anderen vorbereitet}? \\
- \begin{minipage}[t][7cm]{\linewidth}
- %% Hier ist Platz fuer deinen Kommentar
- Ich habe die Vorlesung 2 mal gehört, mich ca. 2 Monate immer wieder ein
- bisschen (ca. 2h/Tag) und ca. 2 Wochen intensiv (5h/Tag) vorbereitet.
- 3 Treffen à ca. 4h mit einem Lernpartner.
- \end{minipage}
- \ding{46} Welche \textbf{Tips zur Vorbereitung} kannst du geben?
- \begin{footnotesize}(Wichtige / Unwichtige Teile des Stoffes, gute Bücher / Skripten, Lernstil)\end{footnotesize} \\
- \begin{minipage}[t][7cm]{\linewidth}
- %% Hier ist Platz fuer deinen Kommentar
- Folien lesen und verstehen, Protokolle durchgehen und
- meinen Blog lesen:\\
- \href{https://martin-thoma.com/probabilistische-planung/}{martin-thoma.com/probabilistische-planung/}
- Insbesondere die Tabelle am Ende, wo MDP / POMDP / RL verglichen werden
- sollte man auswendig können und aus dem FF beherrschen.
- \end{minipage}
- \columnbreak
- \ding{46} Kannst du ihn/sie \textbf{weiterempfehlen}?
- %% entsprechende \boxempty bitte durch \boxtimes ersetzen.
- $\boxtimes$ Ja / $\boxempty$ Nein\newline Warum? \\
- \begin{minipage}[t][6.8cm]{\linewidth}
- %% Hier ist Platz fuer deinen Kommentar
- Sehr nett, angenehme Athmosphäre.
- \end{minipage}
- \ding{46} Fanden vor der Prüfung \textbf{Absprachen} zu Form oder Inhalt statt? Wurden sie \textbf{eingehalten}? \\
- \begin{minipage}[t][7cm]{\linewidth}
- %% Hier ist Platz fuer deinen Kommentar
- Ja. Es wurde gesagt, dass keine Beweise dran kommen. War auch so.
- \end{minipage}
- \ding{46} Kannst du Ratschläge für das \textbf{Verhalten in der Prüfung} geben? \\
- \begin{minipage}[t][6.8cm]{\linewidth}
- %% Hier ist Platz fuer deinen Kommentar
- Mit den Antworten kann man etwas lenken, was als nächstes gefragt wird.
- Wenn man kurz Nachdenken muss, kann man das auch einfach sagen.
- \end{minipage}
- %
- \end{multicols}
- \clearpage
- \section*{Inhalte der Prüfung:}
- Gedächtnisprotokoll; ich habe sicherlich ein paar Fragen / Details vergessen.
- \begin{itemize}
- \item Welche 3 Themen hatten wir in der Vorlesung
- \item[$\Rightarrow$] MDP (Markov Decision Processes), POMDP (Partially observable MDPs),
- RL (Reinforcement Learning). Ich habe
- auch gleich die Agent-Umwelt-Diagramme gezeichnet
- und daran die Unterschiede erklärt und habe das
- Explorationsproblem erwähnt.
- \item Gut. Zuvor hatten wir die Grundlagen mit Wahrscheinlichkeitstheorie,
- Optimierungs- und Nutzentheorie. Schreiben sie mir doch mal ein
- allgemeines Optimierungsproblem auf.
- \item[$\Rightarrow$]
- \begin{align}
- \argmin_{x \in \mathbb{R}^n}& f(x)\\
- \text{s.t. } & g_i(x) \leq 0 \quad \text{mit } i = 1, \dots, m\\
- & h_j(x) = 0 \quad \text{mit } j = 1, \dots, p
- \end{align}
- Siehe auch: \href{https://martin-thoma.com/optimization-basics/}{https://martin-thoma.com/optimization-basics/}.\\
- Ich habe auch gleich erklärt warum $=0$ genügt und warum man o.B.d.A.
- von einem Minimierungsproblem ausgehen kann.
- \item Ok, und was macht man wenn man Gleichungs-Nebenbedingungen hat?
- \item[$\Rightarrow$] Lagrange-Ansatz:
- $$\mathcal{L}(x, \lambda_1, \dots, \lambda_p) = f(x) + \sum_{j=1}^p \lambda_j \cdot h_j(x)$$
- wobei das nun die notwendigen Nebenbedingungen für ein Optimum liefert,
- wenn man den Gradienten nach $x$ und den Gradienten nach $\lambda$
- bildet und gleich 0 setzt.
- \item Was passiert bei den Gradienten nach $\lambda$?
- \item[$\Rightarrow$] Die Gleichungsnebenbedingungen kommen raus.
- \item Nun kam noch die Sache mit den Höhenlinien / den Gradienten und
- dem Winkel.
- \item Ok, verlassen wir die Optimierungstheorie. Was können sie zum
- Optimalitätsprinzip sagen?
- \item[$\Rightarrow$] Wenn man ein Problem mit optimaler Substruktur hat,
- dann gilt für jede optimale Lösung, dass die Lösungen der
- enthaltenen Teilprobleme optimal sein müssen. Sehr schön kann
- man das bei der kürzesten Wegesuche sehen.
- \item Zeigen sie das mal an einem Beispiel.
- \item[$\Rightarrow$] Wenn der kürzeste Weg von $A$ nach $E$ über
- $B, C, D$ führt, dann muss der kürzeste Weg von $B$ nach $D$ auch
- über $C$ führen. Falls das nicht so wäre --- es also einen
- kürzesten Weg z.B. direkt von $B$ nach $D$ geben würde, dann wäre
- auch der Weg von $A$ nach $E$ kürzer wernn man direkt von $B$ nach
- $D$ gehen würde.
- \item Was hat das mit MDPs zu tun?
- \item[$\Rightarrow$] Anwendung findet es im Dynamic Programming
- (Endliche MDPs mit endlichem Horizont). Dabei geht man Rückwärtsrekursiv
- vor um die Wertefunktion $J$ aus der Kostenfunktion $g$ zu berechnen:
- \begin{align}
- J(x_N) &= g_N(x_N)\\
- J(x_k) &= \min_{a_k} \left [ g_k(a_k, x_k) + \mathbb{E}\{J_{k+1}(x_k+1) | x_k, a_k\} \right]
- \end{align}
- \item Sehr schön, da haben wir auch gleich die Bellman-Gleichungen.
- Nun hatten wir noch geschlossen lösbare Spezialfälle. Welche
- sind das?
- \item[$\Rightarrow$] \begin{enumerate*}[label=(\roman*)]
- \item Lineare Probleme (LQR)
- \item Endliche, deterministische Probleme (Label-Korrektur)
- \item Endliche Probleme mit unendlichem Horizont (Fixpunktsatz, Werteiteration, Bellman-Operator)
- \end{enumerate*}
- \item Dann erklären Sie doch mal den LQR.
- \item[$\Rightarrow$]
- Zustandsraummodell ist linear und rauschen ist $r \sim \mathcal{N}(0, \Sigma)$:
- $$x_{k+1} = A_k x_k + B_k a_k + r$$
- Objective function ist:
- $$\mathbb{E} \left ( \underbrace{x_N^T \cdot Q_N \cdot x_N + \sum_{k=0}^{N-1} x_k^T \cdot Q_k \cdot x_k}_{\text{Zustandsabhängige Kosten}} + \underbrace{\sum_{k=0}^{N-1} a_k^T \cdot R_k \cdot a_k}_{\text{aktionsabhängige Kosten}} \right )$$
- Der LQR ist dann einfach
- $$a_k^* = \underbrace{-{(R_k + B_k^T P_{k+1} B_k)}^{-1} \cdot B_k^T \cdot P_{k+1} \cdot A_k}_{\text{Verstärkungsmatrix } L_k} x_k$$
- wobei $P_k$ Rückwärtsrekursiv durch die iterativen Riccati-Gleichungen
- bestimmt werden kann. (Hier wollte ich die aufschreiben, aber bei $P_N = Q_N$
- hat er mich gestoppt.)
- \item Ok, das ist schon gut so. Nur Qualitativ, was machen die
- Riccati-Gleichungen?
- \item[$\Rightarrow$] Strukturell sind sie identisch zum Update der
- Fehlermatrix im Kalman-Filter duch den Update und
- Prädiktionsschritt.
- \item Ok, gut. Kommen wir zu POMDPs. Wie löst man die?
- \item[$\Rightarrow$] Belief-State MDP und Informationsvektor-MDP erklärt,
- Approximative Lösungen (Abbildung auf geschlossen lösbare Spezialfälle, Funktionsapproximatoren, Änderung der Optimierung)
- \item Ok. Warum verwendet man in der Praxis eher nicht das Informationsvektor-MDP?
- \item[$\Rightarrow$] Weil der Zustand in jedem Zeitschritt wächst.
- In jedem Zeitschritt $k$ kommt eine weitere
- Aktion $a_k$ hinzu; ggf. auch noch Beobachtungen
- $z_k$. Will man alles nutzen wird das Programm
- immer langsamer.
- \item Sie haben hinreichende Statistiken erwähnt. Was ist das?
- \item[$\Rightarrow$] (Definition; vgl. mein Blog-Artikel)
- \item Welche geschlossenen Spezialfälle gibt es bei POMDPs?
- \item[$\Rightarrow$] Linear (Kalman-Filter + LQR) und endlich ($\alpha$-Vektoren)
- \item Was ändert sich beim LQR im POMDP-Fall?
- \item[$\Rightarrow$] $a_k = L_k \cdot \mathbb{E}(x)$
- \item Warum ist der Kalman-Filter toll?
- \item[$\Rightarrow$] Er erfüllt die BLUE-Eigenschaft (Best linear unbiased estimator).
- Das bedeutet, unter den erwartungstreuen linearen Schätzern ist
- er derjenige, welcher die geringste Varianz aufweist.
- \item Welche Annahmen machen wir beim Kalman-Filter?
- \item[$\Rightarrow$] Additives, mittelwertfreies normalverteiltes Rauschen und
- ein linearer Zustandsübergang.
- \item Was passiert, wenn das Rauschen nicht mehr normalverteilt ist?
- \item[$\Rightarrow$] Man muss die Kovarianz-Matrix berechnen können.
- Wenn das geht, dann ist der Kalman-filter immer noch
- der beste lineare Filter (aber es gibt nicht-lineare
- Filter die besser sind).
- \item Welche Bedingung muss der Zustandsschätzer für den LQR erfüllen?
- \item[$\Rightarrow$] Er muss erwartungstreu sein, was der Kalman-filter ja ist.
- \item Was bedeutet PWLC?
- \item[$\Rightarrow$] Piece-wise linear and concave. Da wir in der Vorlesung
- Minimierungsprobleme hatten, war es concave und
- nicht konvex. PWLC sind bei endlichen POMDPs
- die Wertefunktionen $J_k$ (Zeichnung des Belief-State / der Aktionen; vgl. Links in meinem Blog). Ich habe noch Pruning erwähnt.
- \item Wie kann man einfach Pruning durchführen?
- \item[$\Rightarrow$] Es handelt sich um einen Simplex. (Beispiel mit nur
- 2 Zuständen aufgezeichnet.) Ein paarweiser
- Vergleich ist möglich, indem man nur die Endpunkte
- betrachtet. Wird eine Aktion echt von einer anderen
- dominiert, so kann diese Entfernt werden.
- Wird eine Aktion durch Kombinationen von
- Aktionen dominiert, so könnte man z.B. Algorithmen
- zur berechnun der Konvexen Hülle nutzen.
- \item Wie steigt die komplexität des $\alpha$-Algorithmus in jedem
- Zeitschritt?
- \item[$\Rightarrow$] Exponentiell (in jedem Zeitschritt sind alle
- Aktionen prinzipiell wieder möglich)
- \item Ok, nun zu RL. Welche 3 Gruppen von Lösungsalgorithmen hatten wir?
- \item[$\Rightarrow$] Modellbasiert, Wertefunktionsbasiert, Strategiesuche.
- Modellbasiert kann mittels DP zu Wertefunktionsbasiert
- reduziert werden. Mit argmax kann man dann eine Strategie
- berechnen. Modellbasiert gibt es Dyna-Q,
- Adaptive DP und PILCO. Wertefunktionsbasiert
- hatten wir die Monte Carlo-Verfahren,
- Temporal Difference und die Kombination mit
- Eligibility traces.
- \item Was ist das Exploitation vs. Exploration-Problem?
- \item[$\Rightarrow$] Im RL kennen wir das Modell nicht. Wir befinden
- uns sozusagen im Dunkeln und müssen erst finden wo es Rewards gibt.
- Am Anfang muss man also Explorieren. (Habe eine Grid-World gezeichet
- und eine Pfad, wo ein Roboter einen Reward von 100 gefunden hat). Nun
- könnte man die Strategie so aufbauen, dass immer dieser Pfad
- (versucht wird) zu nehmen. Allerdings kann man auch darauf hoffen, dass
- an anderer Stelle (eingezeichnet) ein Reward von z.B. 150 ist. Um
- das herauszufinden muss man von der aktuell \enquote{optimalen} Strategie
- abweichen und explorieren.
- \item Wie macht man das?
- \item[$\Rightarrow$] Durch probabilistische Strategien. Das einfachste
- ist, dass man am Anfang $\varepsilon \in \mathbb{N}$ Schritte exploriert
- und dann deterministisch die Strategie benutzt. Besser sind GLIE-Strategien,
- die theoretisch unendlich oft alle Zustände besuchen. Nennenswert sind
- $\varepsilon$-Greedy und Softmax.
- \item Zeichnen sie die Verteilung mal auf, wenn sie 3 Aktionen haben
- und Aktion 1 optimal ist, Aktion 2 die zweitbeste und Aktion 3
- die schlechteste.
- \item[$\Rightarrow$] Es ergibt sich, dass bei $\varepsilon$-Greedy
- die nicht-optimalen Aktionen gleichverteilt sind und bei
- softmax ist die Verteilung vom aktuell geschätzten Wert der Aktion
- abhängig. Da gibt es noch eine Temperatur $\tau$, welche mit der
- Zeit sinkt. Am Anfang ist der $Q$-Wert der Aktionen also nicht so
- wichtig, aber später mehr. Es gibt noch ausgefeiltere Explorations-Strategien
- welche berücksichtigen wie viel sich in der Q-Funktion noch ändert.
- \item Ok, dass hatten wir nicht in der Vorlesung. Damit ist die
- Zeit auch schon rum.
- \end{itemize}
- \end{document}
|