DYCOS-Algorithmus.tex 6.5 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148
  1. \subsection{Überblick}
  2. DYCOS (\underline{DY}namic \underline{C}lassification
  3. algorithm with c\underline{O}ntent and \underline{S}tructure) ist ein
  4. Knotenklassifizierungsalgorithmus, der Ursprünglich in \cite{aggarwal2011} vorgestellt
  5. wurde. Er klassifiziert Knoten, indem mehrfach Random Walks startend
  6. bei dem zu klassifizierenden Knoten gemacht werden und die Labels
  7. der besuchten Knoten gezählt werden. Das Label, das am häufigsten
  8. vorgekommen ist, wird als Label gewählt.
  9. DYCOS nutzt also die sog. Homophilie, d.~h. die Eigenschaft, dass
  10. Knoten, die nur wenige Hops von einander entfernt sind, häufig auch
  11. ähnlich sind \cite{bhagat}.
  12. Der DYCOS-Algorithmus nimmt jedoch nicht einfach den Graphen für
  13. dieses Verfahren, sondern erweitert ihn mit Hilfe der zur Verfügung
  14. stehenden Texte.
  15. Für diese Erweiterung wird zuerst wird Vokabular $W_t$ bestimmt, das
  16. charakteristisch für eine Knotengruppe ist. Wie das gemacht werden kann
  17. und warum nicht einfach jedes Wort in das Vokabular aufgenommen wird,
  18. wird in Abschnitt~\ref{sec:vokabularbestimmung} erläutert.\\
  19. Nach der Bestimmung des Vokabulars wird für
  20. jedes Wort im Vokabular ein Wortknoten zum Graphen hinzugefügt. Alle
  21. Knoten, die der Graph zuvor hatte, werden nun \enquote{Strukturknoten}
  22. genannt.
  23. Ein Strukturknoten $v$ wird genau dann mit einem Wortknoten $w \in W_t$
  24. verbunden, wenn $w$ in einem Text von $v$ vorkommt.
  25. \begin{figure}[htp]
  26. \centering
  27. \input{figures/graph-content-and-structure.tex}
  28. \caption{Erweiterter Graph}
  29. \label{fig:erweiterter-graph}
  30. \end{figure}
  31. Entsprechend werden zwei unterschiedliche Sprungtypen unterschieden,
  32. die strukturellen Sprünge und inhaltliche Mehrfachsprünge:
  33. \begin{definition}
  34. Sei $G_{E,t} = (V_t, E_{S,t} \cup E_{W,t}, V_{L,t}, W_{t})$ der
  35. um die Wortknoten $W_{t}$ erweiterte Graph.
  36. Dann heißt das zufällige wechseln des aktuell betrachteten
  37. Knoten $v \in V_t$ zu einem benachbartem Knoten $w \in V_t$
  38. ein \textbf{struktureller Sprung}.
  39. \end{definition}
  40. Im Gegensatz dazu benutzten inhaltliche Mehrfachsprünge
  41. tatsächlich die Grapherweiterung:
  42. \begin{definition}
  43. Sei $G_t = (V_t, E_{S,t} \cup E_{W,t}, V_{L,t}, W_{t})$ der
  44. um die Wortknoten $W_{t}$ erweiterte Graph.
  45. Dann heißt das zufällige wechseln des aktuell betrachteten
  46. Knoten $v \in V_t$ zu einem benachbartem Knoten $w \in W_t$
  47. und weiter zu Nachbar von $v' \in V_t$ von $w$
  48. ein \textbf{inhaltlicher Mehrfachsprung}. $v'$ ist also genau
  49. einen Sprung über einen Wortknoten $w$ von $v$ entfernt.
  50. \end{definition}
  51. Der DYCOS-Algorithmus betrachtet die Texte, die einem Knoten
  52. zugeornet sind, als eine
  53. Multimenge von Wörtern. Das heißt, zum einen wird nicht auf die
  54. Reihenfolge der Wörter geachtet, zum anderen wird bei Texten
  55. eines Knotens nicht zwischen verschiedenen Texten unterschieden.
  56. Jedoch wird die Anzahl der Vorkommen jedes Wortes berücksichtigt.
  57. \subsection{Datenstrukturen}
  58. Zusätzlich zu dem gerichteten Graphen $G_t = (V_t, E_t, V_{L,t})$
  59. verwaltet der DYCOS-Algorithmus zwei weitere Datenstrukturen:
  60. \begin{itemize}
  61. \item Für jeden Knoten $v \in V_t$ werden die vorkommenden Wörter,
  62. die auch im Vokabular $W_t$ sind,
  63. und deren Anzahl gespeichert. Das könnte z.~B. über ein
  64. assoziatives Array geschehen. Wörter, die nicht in
  65. Texten von $v$ vorkommen, sind nicht im Array. Für
  66. alle vorkommenden Wörter ist der gespeicherte Wert zum
  67. Schlüssel \enquote{Wort} die Anzahl der Vorkommen von
  68. \enquote{Wort} in den Texten von $v$.
  69. \item Für jedes Wort des Vokabulars $W_t$ wird eine Liste von
  70. Knoten verwaltet, in deren Texten das Wort vorkommt.
  71. \item An einigen Stellen macht ein assoziatives Array, auch
  72. \enquote{dictionary} oder \enquote{map} genannt, sinn.
  73. Zustätzlich ist es nützlich, wenn diese Datenstruktur für
  74. unbekannte Schlüssel keinen Fehler ausgibt, sondern für diese
  75. Schlüssel den Wert 0 annimmt. Eine solche Datenstruktur
  76. wird in Python \texttt{defaultdict} genannt und ich werde
  77. im Folgenden diese Benennung beibehalten.
  78. \end{itemize}
  79. \input{Sprungtypen}
  80. \input{Vokabularbestimmung}
  81. \subsection{Der Algorithmus}
  82. Der DYCOS-Algorithmus verwendet nun für jeden Knoten der gelabelt wird
  83. $r$ Random Walks der Länge $l$, wobei mit einer Wahrscheinlichkeit
  84. $p_S$ ein struktureller $l$-Sprung und mit einer Wahrscheinlichkeit
  85. von $(1-p_S)$ ein inhaltlicher $l$-Mehrfachsprung gemacht wird.
  86. Die Vokabularbestimmung kann zu jedem Zeitpunkt $t$ durchgeführt
  87. werden, muss es aber nicht.
  88. Im Folgenden werde ich den DYCOS-Algorithmus als Pseudocode vorstellen.
  89. Dafür benötigt man die beiden Hilfsfunktionen für den strukturellen
  90. Sprung sowie den inhaltlichen Mehrfachsprung:
  91. \begin{algorithm}[H]
  92. \begin{algorithmic}[1]
  93. \Require \\$\G_t = (\N_t, \A_t, \T_t)$ (Netzwerk),\\
  94. $r$ (Anzahl der Random Walks),\\
  95. $l$ (Länge eines Random Walks),\\
  96. $p_s$ (Wahrscheinlichkeit eines strukturellen Sprungs),\\
  97. $q$ (Anzahl der betrachteten Knoten nach der Aggregatanalyse)
  98. \Ensure Klassifikation von $\N_t \setminus \T_t$\\
  99. \\
  100. \ForAll{Knoten $v$ in $\N_t \setminus \T_t$}
  101. \State $d \gets $ defaultdict
  102. \For{$i$ von $1$ bis $r$}
  103. \State $w \gets v$
  104. \For{$j$ von $1$ bis $l$}
  105. \State $sprungTyp \gets \Call{random}{0, 1}$
  106. \If{$sprungTyp \leq p_S$}
  107. \State $w \gets$ \Call{SturkturellerSprung}{$w$}
  108. \Else
  109. \State $w \gets$ \Call{InhaltlicherMehrfachsprung}{$w$}
  110. \EndIf
  111. \State $w \gets v.\Call{GetLabel}{ }$ \Comment{Zähle das Label}
  112. \State $d[w] \gets d[w] + 1$
  113. \EndFor
  114. \EndFor
  115. \If{$d$ ist leer} \Comment{Es wurde kein gelabelter Knoten gesehen}
  116. \State $M_H \gets \Call{HäufigsteLabelImGraph}{ }$
  117. \Else
  118. \State $M_H \gets \Call{max}{d}$
  119. \EndIf
  120. \\
  121. \State \Comment{Wähle aus der Menge der häufigsten Label $M_H$ zufällig eines aus}
  122. \State $label \gets \Call{Random}{M_H}$
  123. \State $v.\Call{AddLabel}{label}$ \Comment{und weise dieses $v$ zu}
  124. \EndFor
  125. \State \Return Labels für $\N_t \setminus \T_t$
  126. \end{algorithmic}
  127. \caption{DYCOS-Algorithmus}
  128. \label{alg:DYCOS}
  129. \end{algorithm}