SchwaechenVerbesserungen.tex 3.7 KB

12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182
  1. Bei der Anwendung des in \cite{aggarwal2011} vorgestellten Algorithmus auf
  2. reale Datensätze könnten zwei Probleme auftreten, die im Folgenden erläutert
  3. werden. Außerdem werden Verbesserungen vorgeschlagen, die es allerdings noch zu
  4. untersuchen gilt.
  5. \subsection{Anzahl der Knotenbeschriftungen}
  6. So, wie der DYCOS-Algorithmus vorgestellt wurde, können nur Graphen bearbeitet
  7. werden, deren Knoten jeweils höchstens eine Beschriftung haben. In vielen
  8. Fällen, wie z.~B. Wikipedia mit Kategorien als Knotenbeschriftungen haben
  9. Knoten jedoch viele Beschriftungen.
  10. Auf einen ersten Blick ist diese Schwäche einfach zu beheben, indem man beim
  11. zählen der Knotenbeschriftungen für jeden Knoten jedes Beschriftung zählt. Dann
  12. wäre noch die Frage zu klären, mit wie vielen Beschriftungen der betrachtete
  13. Knoten beschriftet werden soll.
  14. Jedoch ist z.~B. bei Wikipedia-Artikeln auf den Knoten eine Hierarchie
  15. definiert. So ist die Kategorie \enquote{Klassifikationsverfahren} eine
  16. Unterkategorie von \enquote{Klassifikation}. Bei dem Kategorisieren von
  17. Artikeln sind möglichst spezifische Kategorien vorzuziehen, also kann man nicht
  18. einfach bei dem Auftreten der Kategorie \enquote{Klassifikationsverfahren}
  19. sowohl für diese Kategorie als auch für die Kategorie \enquote{Klassifikation}
  20. zählen.
  21. \subsection{Überanpassung und Reklassifizierung}
  22. Aggarwal und Li beschreiben in \cite{aggarwal2011} nicht, auf welche Knoten der
  23. Klassifizierungsalgorithmus angewendet werden soll. Jedoch ist die Reihenfolge
  24. der Klassifizierung relevant. Dazu folgendes Minimalbeispiel:
  25. Gegeben sei ein dynamischer Graph ohne textuelle Inhalte. Zum Zeitpunkt $t=1$
  26. habe dieser Graph genau einen Knoten $v_1$ und $v_1$ sei mit dem $A$
  27. beschriftet. Zum Zeitpunkt $t=2$ komme ein nicht beschrifteter Knoten $v_2$
  28. sowie die Kante $(v_2, v_1)$ hinzu.\\
  29. Nun wird der DYCOS-Algorithmus auf diesen Knoten angewendet und $v_2$ mit $A$
  30. beschriftet.\\
  31. Zum Zeitpunkt $t=3$ komme ein Knoten $v_3$, der mit $B$ beschriftet ist, und
  32. die Kante $(v_2, v_3)$ hinzu. \Cref{fig:Formen} visualisiert diesen Vorgang.
  33. \begin{figure}[ht]
  34. \centering
  35. \subfloat[$t=1$]{
  36. \input{figures/graph-t1.tex}
  37. \label{fig:graph-t1}
  38. }%
  39. \subfloat[$t=2$]{
  40. \input{figures/graph-t2.tex}
  41. \label{fig:graph-t2}
  42. }
  43. \subfloat[$t=3$]{
  44. \input{figures/graph-t3.tex}
  45. \label{fig:graph-t3}
  46. }%
  47. \subfloat[$t=4$]{
  48. \input{figures/graph-t4.tex}
  49. \label{fig:graph-t4}
  50. }%
  51. \caption{Minimalbeispiel für den Einfluss früherer DYCOS-Anwendungen}
  52. \label{fig:Formen}
  53. \end{figure}
  54. Würde man nun den DYCOS-Algorithmus erst jetzt, also anstelle von Zeitpunkt
  55. $t=2$ zum Zeitpunkt $t=3$ auf den Knoten $v_2$ anwenden, so würde eine
  56. \SI{50}{\percent}-Wahrscheinlichkeit bestehen, dass dieser mit $B$ beschriftet
  57. wird. Aber in diesem Beispiel wurde der Knoten schon zum Zeitpunkt $t=2$
  58. beschriftet. Obwohl es in diesem kleinem Beispiel noch keine Rolle spielt, wird
  59. das Problem klar, wenn man weitere Knoten einfügt:
  60. Wird zum Zeitpunkt $t=4$ ein unbeschrifteter Knoten $v_4$ und die Kanten
  61. $(v_1, v_4)$, $(v_2, v_4)$, $(v_3, v_4)$ hinzugefügt, so ist die
  62. Wahrscheinlichkeit, dass $v_4$ mit $A$ beschriftet wird bei $\frac{2}{3}$.
  63. Werden die unbeschrifteten Knoten jedoch erst jetzt und alle gemeinsam
  64. beschriftet, so ist die Wahrscheinlichkeit für $A$ als Beschriftung bei nur $50\%$.
  65. Bei dem DYCOS-Algorithmus findet also eine Überanpassung an vergangene
  66. Beschriftungen statt.
  67. Das Reklassifizieren von Knoten könnte eine mögliche Lösung für dieses
  68. Problem sein. Knoten, die durch den DYCOS-Algorithmus beschriftet wurden
  69. könnten eine Lebenszeit bekommen (TTL, Time to Live). Ist diese
  70. abgelaufen, wird der DYCOS-Algorithmus erneut auf den Knoten angewendet.