Vokabular.tex 1.6 KB

123456789101112131415161718192021222324252627282930313233343536373839404142
  1. \subsection{Vokabular}
  2. \begin{frame}{Vokabular}
  3. \begin{itemize}
  4. \item<1-> Füllwörter: und, oder, im, in, \dots
  5. \item[$\Rightarrow$]<2-> Beschränkung des Vokabulars sinnvoll
  6. \end{itemize}
  7. \uncover<3->{
  8. \textbf{Idee}:
  9. \begin{itemize}
  10. \item<4-> Zufällige Beispielmenge von Texten für Vokabularbildung betrachten
  11. \item<5-> Gini-Koeffizient nutzen
  12. \end{itemize}
  13. }
  14. \end{frame}
  15. \begin{frame}{Gini-Koeffizient}
  16. \begin{itemize}
  17. \item<1-> statistisches Maß für Ungleichverteilung
  18. \item<2-> $g = \sum_i p_i^2$ mit $p_i$ als relative Häufigkeit
  19. \item<3-> Hier: $g \in (0, 1]$
  20. \item<4-> $g$ nahe bei $1$ $\Rightarrow$ Wort ist stark ungleich verteilt
  21. \item[$\Rightarrow$]<5-> Nehme Top-$m$ Wörter mit höchstem
  22. Gini-Koeffizient
  23. \end{itemize}
  24. \end{frame}
  25. \begin{frame}{Gini-Koeffizient}
  26. \begin{center}
  27. \includegraphics[width=\textwidth,height=0.4\textheight,keepaspectratio]{../images/gini-example.pdf}
  28. \end{center}
  29. \uncover<2->{Beispiel: \enquote{in}}
  30. \begin{itemize}
  31. \item<3-> Vorkommen insgesamt: $5 \times$
  32. \item<4-> Vorkommen in \enquote{Informatik} $2\times \Rightarrow p_1 = \frac{2}{5}$
  33. \item<5-> Vorkommen in \enquote{Mathematik} $1\times \Rightarrow p_2 = \frac{1}{5}$
  34. \item<6-> Vorkommen in \enquote{Geschichte} $2\times \Rightarrow p_3 = \frac{2}{5}$
  35. \item<7-> Gini-Koeffizient: $\left (\frac{2}{5} \right )^2 + \left (\frac{1}{5} \right )^2 + \left (\frac{2}{5} \right )^2 = \frac{9}{25}$
  36. \end{itemize}
  37. \end{frame}