SchwaechenVerbesserungen.tex 5.3 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109
  1. Der in \cite{aggarwal2011} vorgestellte Algorithmus hat einige Probleme,
  2. die im Folgenden erläutert werden. Außerdem werden Verbesserungen
  3. vorgeschlagen, die es allerdings noch zu untersuchen gilt.
  4. \subsection{Schwächen von DYCOS}
  5. \subsubsection{Anzahl der Labels}
  6. So, wie er vorgestellt wurde, können nur Graphen bearbeitet werden,
  7. deren Knoten höchstens ein Label haben. In vielen Fällen, wie z.~B.
  8. Wikipedia mit Kategorien als Labels haben Knoten jedoch viele Labels.
  9. Auf einen ersten Blick ist diese Schwäche einfach zu beheben, indem
  10. man beim zählen der Labels für jeden Knoten jedes Label zählt. Dann
  11. wäre noch die Frage zu klären, mit wie vielen Labels der betrachtete
  12. Knoten gelabelt werden soll.
  13. Jedoch ist z.~B. bei Wikipedia-Artikeln auf den Knoten eine
  14. Hirarchie definiert. So ist die Kategorie \enquote{Klassifikationsverfahren}
  15. eine Unterkategorie von \enquote{Klassifikation}. Bei dem Kategorisieren
  16. von Artikeln sind möglichst spezifische Kategorien vorzuziehen, also
  17. kann man nicht einfach bei dem Auftreten der Kategorie \enquote{Klassifikationsverfahren}
  18. sowohl für diese Kategorie als auch für die Kategorie \enquote{Klassifikation}
  19. zählen.
  20. \subsubsection{Überanpassung und Reklassifizierung}
  21. Aggarwal und Li beschreiben in \cite{aggarwal2011} nicht, auf welche
  22. Knoten der Klassifizierungsalgorithmus angewand werden soll. Jedoch
  23. ist die Reihenfolge der Klassifizierung relevant. Dazu folgendes
  24. minimale Beispiel:
  25. Gegeben sei ein dynamischer Graph ohne textuelle Inhalte. Zum Zeitpunkt
  26. $t=1$ habe dieser Graph genau einen Knoten $v_1$ und $v_1$ sei
  27. mit dem Label $A$ beschriftet. Zum Zeitpunkt $t=2$ komme ein nicht-gelabelter
  28. Knoten $v_2$ sowie die Kante $(v_1, v_2)$ hinzu.\\
  29. Nun wird der DYCOS-Algorithmus auf diesen Knoten angewendet und
  30. $v_2$ mit $A$ gelabelt.\\
  31. Zum Zeitpunkt $t=3$ komme ein Knoten $v_3$, der mit $B$ gelabelt ist,
  32. und die Kante $(v_3, v_2)$ hinzu.
  33. \begin{figure}[ht]
  34. \centering
  35. \subfloat[$t=1$]{
  36. \input{figures/graph-t1.tex}
  37. \label{fig:graph-t1}
  38. }%
  39. \subfloat[$t=2$]{
  40. \input{figures/graph-t2.tex}
  41. \label{fig:graph-t2}
  42. }
  43. \subfloat[$t=3$]{
  44. \input{figures/graph-t3.tex}
  45. \label{fig:graph-t3}
  46. }%
  47. \label{Formen}
  48. \caption{Minimalbeispiel für den Einfluss früherer DYCOS-Anwendungen}
  49. \end{figure}
  50. Würde man nun den DYCOS-Algorithmus erst jetzt, also anstelle von
  51. Zeitpunkt $t=2$ zum Zeitpunkt $t=3$ auf den Knoten $v_2$ anwenden, so
  52. würde eine $50\%$-Wahrscheinlichkeit bestehen, dass dieser mit $B$
  53. gelabelt wird. Aber in diesem Beispiel wurde der Knoten schon
  54. zum Zeitpunkt $t=2$ gelabelt. Obwohl es in diesem kleinem Beispiel
  55. noch keine Rolle spielt, wird das Problem klar, wennn man weitere
  56. Knoten einfügt:
  57. Wird zum Zeitpunkt $t=4$ ein ungelabelter Knoten $v_4$ und die Kanten
  58. $(v_1, v_4)$, $(v_2, v_4)$, $(v_3, v_4)$ hinzugefügt, so ist die
  59. Wahrscheinlichkeit, dass $v_4$ mit $A$ gelabelt wird bei $75\%$.
  60. Werden die als ungelabelten Knoten jedoch erst jetzt und alle gemeinsam
  61. gelabelt, so ist die Wahrscheinlichkeit für $A$ als Label bei nur $50\%$.
  62. Bei dem DYCOS-Algorithmus findet also eine Überanpassung and vergangene
  63. Labels statt.
  64. Das Reklassifizieren von Knoten könnte eine mögliche Lösung für dieses
  65. Problem sein. Knoten, die durch den DYCOS-Algorithmus gelabelt wurden
  66. könnten eine Lebenszeit bekommen (TTL, Time to Live). Ist diese
  67. abgelaufen, wird der DYCOS-Algorithmus erneut auf den Knoten angewendet.
  68. \subsection{Schwächen des Papers}
  69. Die Ergebnise der experimentelle Analyse können aus folgenden Gründen
  70. nicht überprüft werden:
  71. \begin{itemize}
  72. \item DYCOS verwendet als Vokabular die Top-$m$-Wörter mit dem
  73. höchsten Gini-Index aus einer Sample-Menge von Texten, die
  74. wie in \cite{Vitter} beschrieben
  75. erzeugt wird. Allerdings wird niemals erklärt, wie $m \in \mathbb{N}$
  76. bestimmt wird. Es ist nicht einmal klar, ob $m$ für den
  77. Algorithmus als konstant anzusehen ist oder ob $m$ sich
  78. bei der Vokabularbestimmung ändern könnte.
  79. \item DYCOS beschränkt sich bei inhaltlichen Mehrfachsprüngen
  80. auf die Top-$q$-Wortknoten, also die $q$ ähnlichsten Knoten
  81. gemessen mit der Aggregatanalyse. Auch hier wird nicht erklärt wie
  82. $q \in \mathbb{N}$ bestimmt oder nach welchen Überlegungen $q$ gesetzt
  83. wurde. Allerings ist hier wenigstens klar, dass $q$ für
  84. den DYCOS-Algorithmus konstant ist. Für die Experimentelle
  85. Analyse wurde zwar erwähnt, dass $q$ ein Parameter des
  86. Algorithmus ist\cite[S. 362]{aggarwal2011}, aber nicht welcher
  87. Wert in der Analyse des DBLP-Datensatzes genutzt wurde.
  88. Für den CORA-Datensatz wurde $q=10$ gewählt\cite[S. 364]{aggarwal2011}.
  89. \item Für die Analyse der CORA-Datensatzes\footnote{inzwischen unter \href{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}} analysiert.
  90. Dieser beinhaltet Forschungsarbeiten, wobei die
  91. Forschungsgebiete die in einen Baum mit 73 Blättern
  92. eingeordnet wurden. Aus diesen 73 Blättern wurden 5 Klassen
  93. extrahiert und der Graph, der keine Zeitpunkte beinhaltet,
  94. künstlich in 10 Graphen mit Zeitpunkten unterteilt. Wie
  95. jedoch die TODO
  96. \end{itemize}