DYCOS-Algorithmus.tex 8.3 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182
  1. \subsection{Überblick}
  2. DYCOS (\underline{DY}namic \underline{C}lassification
  3. algorithm with c\underline{O}ntent and \underline{S}tructure) ist ein
  4. Knotenklassifizierungsalgorithmus, der Ursprünglich in \cite{aggarwal2011} vorgestellt
  5. wurde.
  6. Ein zentrales Element des DYCOS-Algorithmus ist der sog.
  7. {\it Random Walk}:
  8. \begin{definition}[Random Walk, Sprung]
  9. Sei $G = (V, E)$ mit $E \subseteq V \times V$ ein Graph und
  10. $v_0 \in V$ ein Knoten des Graphen.
  11. %Sei außerdem $f: V \rightarrow \mathcal{P}(V)$ eine Abbildung
  12. %mit der Eigenschaft:
  13. %\[ \forall v \in V \forall v' \in f(v): \exists \text{Weg von } v \text{ nach } v'\]
  14. Ein Random Walk der Länge $l$ auf $G$, startend bei $v_0$ ist
  15. nun der zeitdiskrete stochastische Prozess, der $v_i$
  16. auf einen zufällig gewählten Nachbarn $v_{i+1}$ abbildet
  17. (für $i \in 0, \dots, l-1$).
  18. Die Abbildung $v_i \mapsto v_{i+1}$ heißt ein Sprung.
  19. \end{definition}
  20. Der DYCOS-Algorithmus klassifiziert einzelne Knoten, indem $r$ Random Walks der Länge $l$,
  21. startend bei dem zu klassifizierenden Knoten $v$ gemacht werden. Dabei
  22. werden die Beschriftungen der besuchten Knoten gezählt. Die Beschriftung, die am häufigsten
  23. vorgekommen ist, wird als Beschriftung für $v$ gewählt.
  24. DYCOS nutzt also die sog. Homophilie, d.~h. die Eigenschaft, dass
  25. Knoten, die nur wenige Hops von einander entfernt sind, häufig auch
  26. ähnlich sind \cite{bhagat}. Der DYCOS-Algorithmus arbeitet jedoch nicht
  27. direkt auf dem Graphen, sondern erweitert ihn mit
  28. Hilfe der zur Verfügung stehenden Texte. Wie diese Erweiterung
  29. erstellt wird, wird im Folgenden erklärt.\\
  30. Für diese Erweiterung wird zuerst wird Vokabular $W_t$ bestimmt, das
  31. charakteristisch für eine Knotengruppe ist. Wie das gemacht werden kann
  32. und warum nicht einfach jedes Wort in das Vokabular aufgenommen wird,
  33. wird in \cref{sec:vokabularbestimmung} erläutert.\\
  34. Nach der Bestimmung des Vokabulars wird für
  35. jedes Wort im Vokabular ein Wortknoten zum Graphen hinzugefügt. Alle
  36. Knoten, die der Graph zuvor hatte, werden nun \enquote{Strukturknoten}
  37. genannt.
  38. Ein Strukturknoten $v$ wird genau dann mit einem Wortknoten $w \in W_t$
  39. verbunden, wenn $w$ in einem Text von $v$ vorkommt. \Cref{fig:erweiterter-graph}
  40. zeigt beispielhaft den so entstehenden, semi-bipartiten Graphen.
  41. Der DYCOS-Algorithmus betrachtet also die Texte, die einem Knoten
  42. zugeordnet sind, als eine Multimenge von Wörtern. Das heißt, zum einen
  43. wird nicht auf die Reihenfolge der Wörter geachtet, zum anderen wird
  44. bei Texten eines Knotens nicht zwischen verschiedenen
  45. Texten unterschieden. Jedoch wird die Anzahl der Vorkommen
  46. jedes Wortes berücksichtigt.
  47. \begin{figure}[htp]
  48. \centering
  49. \input{figures/graph-content-and-structure.tex}
  50. \caption{Erweiterter Graph}
  51. \label{fig:erweiterter-graph}
  52. \end{figure}
  53. Entsprechend werden zwei unterschiedliche Sprungtypen unterschieden,
  54. die strukturellen Sprünge und inhaltliche Zweifachsprünge:
  55. \begin{definition}[struktureller Sprung]
  56. Sei $G_{E,t} = (V_t, E_{S,t} \cup E_{W,t}, V_{L,t}, W_{t})$ der
  57. um die Wortknoten $W_{t}$ erweiterte Graph.
  58. Dann heißt das zufällige wechseln des aktuell betrachteten
  59. Knoten $v \in V_t$ zu einem benachbartem Knoten $w \in V_t$
  60. ein \textit{struktureller Sprung}.
  61. \end{definition}
  62. \goodbreak
  63. Im Gegensatz dazu benutzten inhaltliche Zweifachsprünge
  64. tatsächlich die Grapherweiterung:
  65. \begin{definition}[inhaltlicher Zweifachsprung]
  66. Sei $G_t = (V_t, E_{S,t} \cup E_{W,t}, V_{L,t}, W_{t})$ der
  67. um die Wortknoten $W_{t}$ erweiterte Graph.
  68. Dann heißt das zufällige wechseln des aktuell betrachteten
  69. Knoten $v \in V_t$ zu einem benachbartem Knoten $w \in W_t$
  70. und weiter zu einem zufälligem Nachbar $v' \in V_t$ von $w$
  71. ein inhaltlicher Zweifachsprung.
  72. \end{definition}
  73. Jeder inhaltliche Zweifachsprung beginnt und endet also in einem Strukturknoten,
  74. springt über einen Wortknoten und ist ein Pfad der Länge~2.
  75. Ob in einem Sprung der Random Walks ein struktureller Sprung oder
  76. ein inhaltlicher Zweifachsprung gemacht wird, wird jedes mal zufällig
  77. neu entschieden. Dafür wird der Parameter $0 \leq p_S \leq 1$ für den Algorithmus
  78. gewählt. Mit einer Wahrscheinlichkeit von $p_S$ wird ein struktureller
  79. Sprung durchgeführt und mit einer Wahrscheinlichkeit
  80. von $(1-p_S)$ ein modifizierter inhaltlicher Zweifachsprung, wie er in
  81. \cref{sec:sprungtypen} erklärt wird, gemacht. Der
  82. Parameter $p_S$ gibt an, wie wichtig die Struktur des Graphen im Verhältnis
  83. zu den textuellen Inhalten ist. Bei $p_S = 0$ werden ausschließlich
  84. die Texte betrachtet, bei $p_S = 1$ ausschließlich die Struktur des
  85. Graphen.
  86. Die Vokabularbestimmung kann zu jedem Zeitpunkt $t$ durchgeführt
  87. werden, muss es aber nicht.
  88. In \cref{alg:DYCOS} steht der DYCOS-Algorithmus in Form von Pseudocode:
  89. In \cref{alg1:l8} wird für jeden unbeschrifteten Knoten
  90. durch die folgenden Zeilen eine Beschriftung gewählt.
  91. \Cref{alg1:l10} führt $r$ Random Walks durch.
  92. In \cref{alg1:l11} wird eine temporäre Variable für den aktuell
  93. betrachteten Knoten angelegt.
  94. In \cref{alg1:l12} bis \cref{alg1:l21} werden einzelne Random Walks
  95. der Länge $l$ durchgeführt, wobei die beobachteten Beschriftungen
  96. gezählt werden und mit einer Wahrscheinlichkeit von $p_S$ ein
  97. struktureller Sprung durchgeführt wird.
  98. \begin{algorithm}[ht]
  99. \begin{algorithmic}[1]
  100. \Require \\$G_{E,t} = (V_t, E_{S,t} \cup E_{W,t}, V_{L,t}, W_t)$ (Erweiterter Graph),\\
  101. $r$ (Anzahl der Random Walks),\\
  102. $l$ (Länge eines Random Walks),\\
  103. $p_s$ (Wahrscheinlichkeit eines strukturellen Sprungs),\\
  104. $q$ (Anzahl der betrachteten Knoten in der Clusteranalyse)
  105. \Ensure Klassifikation von $V_t \setminus V_{L,t}$\\
  106. \\
  107. \ForAll{Knoten $v \in V_t \setminus V_{L,t}$}\label{alg1:l8}
  108. \State $d \gets $ leeres assoziatives Array
  109. \For{$i = 1, \dots,r$}\label{alg1:l10}
  110. \State $w \gets v$\label{alg1:l11}
  111. \For{$j= 1, \dots, l$}\label{alg1:l12}
  112. \State $sprungTyp \gets \Call{random}{0, 1}$
  113. \If{$sprungTyp \leq p_S$}
  114. \State $w \gets$ \Call{SturkturellerSprung}{$w$}
  115. \Else
  116. \State $w \gets$ \Call{InhaltlicherZweifachsprung}{$w$}
  117. \EndIf
  118. \State $beschriftung \gets w.\Call{GetLabel}{ }$
  119. \If{$!d.\Call{hasKey}{beschriftung}$}
  120. \State $d[beschriftung] \gets 0$
  121. \EndIf
  122. \State $d[beschriftung] \gets d[beschriftung] + 1$
  123. \EndFor\label{alg1:l21}
  124. \EndFor
  125. \If{$d$.\Call{isEmpty}{ }} \Comment{Es wurde kein beschrifteter Knoten gesehen}
  126. \State $M_H \gets \Call{HäufigsteLabelImGraph}{ }$
  127. \Else
  128. \State $M_H \gets \Call{max}{d}$
  129. \EndIf
  130. \\
  131. \State \textit{//Wähle aus der Menge der häufigsten Beschriftungen $M_H$ zufällig eine aus}
  132. \State $label \gets \Call{Random}{M_H}$
  133. \State $v.\Call{AddLabel}{label}$ \Comment{und weise dieses $v$ zu}
  134. \EndFor
  135. \State \Return Beschriftungen für $V_t \setminus V_{L,t}$
  136. \end{algorithmic}
  137. \caption{DYCOS-Algorithmus}
  138. \label{alg:DYCOS}
  139. \end{algorithm}
  140. \subsection{Datenstrukturen}
  141. Zusätzlich zu dem gerichteten Graphen $G_t = (V_t, E_t, V_{L,t})$
  142. verwaltet der DYCOS-Algorithmus zwei weitere Datenstrukturen:
  143. \begin{itemize}
  144. \item Für jeden Knoten $v \in V_t$ werden die vorkommenden Wörter,
  145. die auch im Vokabular $W_t$ sind,
  146. und deren Anzahl gespeichert. Das könnte z.~B. über ein
  147. assoziatives Array (auch \enquote{dictionary} oder
  148. \enquote{map} genannt) geschehen. Wörter, die nicht in
  149. Texten von $v$ vorkommen, sind nicht im Array. Für
  150. alle vorkommenden Wörter ist der gespeicherte Wert zum
  151. Schlüssel $w \in W_t$ die Anzahl der Vorkommen von
  152. $w$ in den Texten von $v$.
  153. \item Für jedes Wort des Vokabulars $W_t$ wird eine Liste von
  154. Knoten verwaltet, in deren Texten das Wort vorkommt.
  155. Diese Liste wird bei den inhaltlichen Zweifachsprung,
  156. der in \cref{sec:sprungtypen} erklärt wird,
  157. verwendet.
  158. \end{itemize}
  159. \input{Sprungtypen}
  160. \input{Vokabularbestimmung}