SchwaechenVerbesserungen.tex 3.7 KB

12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485
  1. Bei der Anwendung des in \cite{aggarwal2011} vorgestellten Algorithmus
  2. auf reale Datensätze könnten zwei Probleme auftreten,
  3. die im Folgenden erläutert werden. Außerdem werden Verbesserungen
  4. vorgeschlagen, die es allerdings noch zu untersuchen gilt.
  5. \subsection{Anzahl der Knotenbeschriftungen}
  6. So, wie der DYCOS-Algorithmus vorgestellt wurde, können nur Graphen bearbeitet werden,
  7. deren Knoten jeweils höchstens eine Beschriftung haben. In vielen Fällen, wie z.~B.
  8. Wikipedia mit Kategorien als Knotenbeschriftungen haben Knoten jedoch viele Beschriftungen.
  9. Auf einen ersten Blick ist diese Schwäche einfach zu beheben, indem
  10. man beim zählen der Knotenbeschriftungen für jeden Knoten jedes Beschriftung zählt. Dann
  11. wäre noch die Frage zu klären, mit wie vielen Beschriftungen der betrachtete
  12. Knoten beschriftet werden soll.
  13. Jedoch ist z.~B. bei Wikipedia-Artikeln auf den Knoten eine
  14. Hierarchie definiert. So ist die Kategorie \enquote{Klassifikationsverfahren}
  15. eine Unterkategorie von \enquote{Klassifikation}. Bei dem Kategorisieren
  16. von Artikeln sind möglichst spezifische Kategorien vorzuziehen, also
  17. kann man nicht einfach bei dem Auftreten der Kategorie \enquote{Klassifikationsverfahren}
  18. sowohl für diese Kategorie als auch für die Kategorie \enquote{Klassifikation}
  19. zählen.
  20. \subsection{Überanpassung und Reklassifizierung}
  21. Aggarwal und Li beschreiben in \cite{aggarwal2011} nicht, auf welche
  22. Knoten der Klassifizierungsalgorithmus angewendet werden soll. Jedoch
  23. ist die Reihenfolge der Klassifizierung relevant. Dazu folgendes
  24. Minimalbeispiel:
  25. Gegeben sei ein dynamischer Graph ohne textuelle Inhalte. Zum Zeitpunkt
  26. $t=1$ habe dieser Graph genau einen Knoten $v_1$ und $v_1$ sei
  27. mit dem $A$ beschriftet. Zum Zeitpunkt $t=2$ komme ein nicht beschrifteter
  28. Knoten $v_2$ sowie die Kante $(v_2, v_1)$ hinzu.\\
  29. Nun wird der DYCOS-Algorithmus auf diesen Knoten angewendet und
  30. $v_2$ mit $A$ beschriftet.\\
  31. Zum Zeitpunkt $t=3$ komme ein Knoten $v_3$, der mit $B$ beschriftet ist,
  32. und die Kante $(v_2, v_3)$ hinzu.
  33. \begin{figure}[ht]
  34. \centering
  35. \subfloat[$t=1$]{
  36. \input{figures/graph-t1.tex}
  37. \label{fig:graph-t1}
  38. }%
  39. \subfloat[$t=2$]{
  40. \input{figures/graph-t2.tex}
  41. \label{fig:graph-t2}
  42. }
  43. \subfloat[$t=3$]{
  44. \input{figures/graph-t3.tex}
  45. \label{fig:graph-t3}
  46. }%
  47. \subfloat[$t=4$]{
  48. \input{figures/graph-t4.tex}
  49. \label{fig:graph-t4}
  50. }%
  51. \label{Formen}
  52. \caption{Minimalbeispiel für den Einfluss früherer DYCOS-Anwendungen}
  53. \end{figure}
  54. Würde man nun den DYCOS-Algorithmus erst jetzt, also anstelle von
  55. Zeitpunkt $t=2$ zum Zeitpunkt $t=3$ auf den Knoten $v_2$ anwenden, so
  56. würde eine $50\%$-Wahrscheinlichkeit bestehen, dass dieser mit $B$
  57. beschriftet wird. Aber in diesem Beispiel wurde der Knoten schon
  58. zum Zeitpunkt $t=2$ beschriftet. Obwohl es in diesem kleinem Beispiel
  59. noch keine Rolle spielt, wird das Problem klar, wenn man weitere
  60. Knoten einfügt:
  61. Wird zum Zeitpunkt $t=4$ ein unbeschrifteter Knoten $v_4$ und die Kanten
  62. $(v_1, v_4)$, $(v_2, v_4)$, $(v_3, v_4)$ hinzugefügt, so ist die
  63. Wahrscheinlichkeit, dass $v_4$ mit $A$ beschriftet wird bei $\frac{2}{3}$.
  64. Werden die unbeschrifteten Knoten jedoch erst jetzt und alle gemeinsam
  65. beschriftet, so ist die Wahrscheinlichkeit für $A$ als Beschriftung bei nur $50\%$.
  66. Bei dem DYCOS-Algorithmus findet also eine Überanpassung an vergangene
  67. Beschriftungen statt.
  68. Das Reklassifizieren von Knoten könnte eine mögliche Lösung für dieses
  69. Problem sein. Knoten, die durch den DYCOS-Algorithmus beschriftet wurden
  70. könnten eine Lebenszeit bekommen (TTL, Time to Live). Ist diese
  71. abgelaufen, wird der DYCOS-Algorithmus erneut auf den Knoten angewendet.