entropie-distanz.tex 5.9 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148
  1. \documentclass[a5paper,9pt]{scrartcl}
  2. \usepackage{amssymb, amsmath} % needed for math
  3. \usepackage[utf8]{inputenc} % this is needed for umlauts
  4. \usepackage[ngerman]{babel} % this is needed for umlauts
  5. \usepackage[T1]{fontenc} % this is needed for correct output of umlauts in pdf
  6. % \usepackage[margin=2.5cm]{geometry} %layout
  7. \usepackage{hyperref} % links im text
  8. \usepackage{color}
  9. \usepackage{framed}
  10. \usepackage{parskip}
  11. \usepackage{braket} % needed for \Set
  12. \usepackage{enumerate} % for advanced numbering of lists
  13. \usepackage{minted} % needed for the inclusion of source code
  14. \clubpenalty = 10000 % Schusterjungen verhindern
  15. \widowpenalty = 10000 % Hurenkinder verhindern
  16. \hypersetup{
  17. pdfauthor = {Martin Thoma},
  18. pdfkeywords = {ASR},
  19. pdftitle = {Entropie-Distanz von Martin Thoma}
  20. }
  21. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  22. % Custom definition style, by %
  23. % http://mathoverflow.net/questions/46583/what-is-a-satisfactory-way-to-format-definitions-in-latex/58164#58164
  24. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  25. \makeatletter
  26. \newdimen\errorsize \errorsize=0.2pt
  27. % Frame with a label at top
  28. \newcommand\LabFrame[2]{%
  29. \fboxrule=\FrameRule
  30. \fboxsep=-\errorsize
  31. \textcolor{FrameColor}{%
  32. \fbox{%
  33. \vbox{\nobreak
  34. \advance\FrameSep\errorsize
  35. \begingroup
  36. \advance\baselineskip\FrameSep
  37. \hrule height \baselineskip
  38. \nobreak
  39. \vskip-\baselineskip
  40. \endgroup
  41. \vskip 0.5\FrameSep
  42. \hbox{\hskip\FrameSep \strut
  43. \textcolor{TitleColor}{\textbf{#1}}}%
  44. \nobreak \nointerlineskip
  45. \vskip 1.3\FrameSep
  46. \hbox{\hskip\FrameSep
  47. {\normalcolor#2}%
  48. \hskip\FrameSep}%
  49. \vskip\FrameSep
  50. }}%
  51. }}
  52. \definecolor{FrameColor}{rgb}{0.25,0.25,1.0}
  53. \definecolor{TitleColor}{rgb}{1.0,1.0,1.0}
  54. \newenvironment{contlabelframe}[2][\Frame@Lab\ (cont.)]{%
  55. % Optional continuation label defaults to the first label plus
  56. \def\Frame@Lab{#2}%
  57. \def\FrameCommand{\LabFrame{#2}}%
  58. \def\FirstFrameCommand{\LabFrame{#2}}%
  59. \def\MidFrameCommand{\LabFrame{#1}}%
  60. \def\LastFrameCommand{\LabFrame{#1}}%
  61. \MakeFramed{\advance\hsize-\width \FrameRestore}
  62. }{\endMakeFramed}
  63. \newcounter{definition}
  64. \newenvironment{definition}[1]{%
  65. \par
  66. \refstepcounter{definition}%
  67. \begin{contlabelframe}{Definition \thedefinition:\quad #1}
  68. \noindent\ignorespaces}
  69. {\end{contlabelframe}}
  70. \makeatother
  71. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  72. % Begin document %
  73. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  74. \begin{document}
  75. \section{Entropie-Distanz}
  76. \begin{definition}{Entropie}
  77. Sei $\Omega := \Set{z_1, z_2, \dots, z_n}$ eine endliche Zeichenmenge und
  78. $X: Z \rightarrow \mathbb{R}$ eine Zufallsvariable über dem Wahrscheinlichkeitsraum
  79. $(\Omega, \mathbb{P})$. Dann heißt
  80. \[H_1 = - \sum_{z \in \Omega} \mathbb{P}(z) \log_2 (\mathbb{P}(z))\]
  81. \textbf{Entropie}.
  82. \end{definition}
  83. Die Entropie wird maximal bei Gleichverteilung, also bei $P(z_i) = \frac{1}{|\Omega|}$.
  84. Dann gilt: $H = \log_2 |\Omega|$. Entsprechend wird die Entropie normiert,
  85. indem durch $\log_2 |\Omega|$ geteilt wird:
  86. \[H_{Norm} = \frac{H}{\log_2 |\Omega|}\]
  87. Der Wertebereich der normierten Entropie $H_{Norm}$ ist $[0, 1]$.
  88. \begin{definition}{Gewichtete Entropiedistanz}
  89. Seien $d_1, d_2$ disktrete Wahrscheinlichkeitsverteilung über $(\Omega, P)$,
  90. die mit $n_1, n_2 \in \mathbb{N}_0$ Daten geschätzt wurden.
  91. Dann ist die \textbf{gewichtete Entropiedistanz} von $d_1$ und $d_2$ definiert durch
  92. \[H_{dist}(d_1, d_2) := \left |\frac{n_1}{n_1+n_2} H(d_1) - \frac{n_2}{n_1+n_2} H(d_2) \right|\]
  93. \end{definition}
  94. Die folgenden Zeilen erstellen folgende Objekte:
  95. \begin{itemize}
  96. \item \verb+FeatureSet+: Das FeatureSet macht die Signalverarbeitung im
  97. Janus Spracherkenner. Das FeatureSet beinhaltet Objekte vom Typ
  98. \verb+SVector+ oder \verb+FMatrix+.
  99. \item \verb+CodebookSet+: Eine Menge von Codebooks. Jedes Codebook stellt
  100. eine Gauß-Verteilung dar. Ein Codebook wird vollständig durch seine
  101. Kovarianzmatrix und den Mittelwertsvektor beschrieben.
  102. \item \verb+DistribSet+: Eine Menge von Gauß-Mixturen. Jede Mixtur verweist
  103. auf eine Menge von $n$ Codebooks (Gauß-Verteilungen) und gewichtet diese
  104. mit reelen Zahlen $c_i \in \mathbb{R}$. Damit dies wiederum eine
  105. Gauß-Verteilung ergibt, muss jedes Gewicht nicht-negativ sein und die
  106. Summe $\sum_{i=1}^n c_i = 1$ ergeben.
  107. \end{itemize}
  108. \inputminted[linenos, numbersep=5pt, tabsize=4]{tcl}{step1.tcl}
  109. Der Befehl in Zeile~1 erzeugt das \verb+CodebookSet+ und fügt ein Codebook mit
  110. dem Namen \verb+cb+, dem Feature-Space namen \verb+dummy+, 2~Referenzvektoren
  111. in einem 1-dimensionalen Feature-Raum hinzu.
  112. Die Gauß-Mixtur \verb+ds1+ gewichtet den ersten Referenzvektor mit $c_1 = 0.3$
  113. und den zweiten mit $c_2 = 0.7$. Für diese Gauß-Mixtur gibt es 2~Trainingsdaten
  114. Die Entropie der Verteilungen ist:\nobreak
  115. \begin{align*}
  116. H_1(ds1) &= -(0.3 \cdot \log_2 0.3 + 0.7 \cdot \log_2 0.7) \approx 0.88\\
  117. H_1(ds2) &= -(0.4 \cdot \log_2 0.4 + 0.6 \cdot \log_2 0.6) \approx 0.97\\
  118. H_1(ds3) &= -(0.8 \cdot \log_2 0.8 + 0.2 \cdot \log_2 0.2) \approx 0.72
  119. \end{align*}
  120. Nun gilt:
  121. \begin{align*}
  122. H_{dist}(ds1, ds2) &\approx |\frac{2}{5} \cdot 0.88 - \frac{3}{5} \cdot 0.97| = 0.23\\
  123. H_{dist}(ds1, ds3) &\approx |\frac{2}{5} \cdot 0.88 - \frac{3}{5} \cdot 0.72| = 0.08\\
  124. H_{dist}(ds2, ds3) &\approx |\frac{1}{2} \cdot 0.97 - \frac{1}{2} \cdot 0.72| = 0.125\\
  125. \end{align*}
  126. Da \verb+ds1+ und \verb+ds3+ die geringste Distanz haben, sind sie sich nach
  127. dem Entropiedistanzmaß am Ähnlichsten. Die Zusammenlegung dieser beiden
  128. Verteilungen richtet also den geringsten Schaden an.
  129. \textbf{Antwort für Teilaufgabe c}: Das Modell \verb+E(S|Y)-b+ ist sich selbst
  130. am ähnlichsten.
  131. \end{document}