SchwaechenVerbesserungen.tex 3.5 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384
  1. Der in \cite{aggarwal2011} vorgestellte Algorithmus hat einige Probleme,
  2. die im Folgenden erläutert werden. Außerdem werden Verbesserungen
  3. vorgeschlagen, die es allerdings noch zu untersuchen gilt.
  4. \subsection{Anzahl der Labels}
  5. So, wie der DYCOS-Algorithmus vorgestellt wurde, können nur Graphen bearbeitet werden,
  6. deren Knoten jeweils höchstens ein Label haben. In vielen Fällen, wie z.~B.
  7. Wikipedia mit Kategorien als Labels haben Knoten jedoch viele Labels.
  8. Auf einen ersten Blick ist diese Schwäche einfach zu beheben, indem
  9. man beim zählen der Labels für jeden Knoten jedes Label zählt. Dann
  10. wäre noch die Frage zu klären, mit wie vielen Labels der betrachtete
  11. Knoten gelabelt werden soll.
  12. Jedoch ist z.~B. bei Wikipedia-Artikeln auf den Knoten eine
  13. Hierarchie definiert. So ist die Kategorie \enquote{Klassifikationsverfahren}
  14. eine Unterkategorie von \enquote{Klassifikation}. Bei dem Kategorisieren
  15. von Artikeln sind möglichst spezifische Kategorien vorzuziehen, also
  16. kann man nicht einfach bei dem Auftreten der Kategorie \enquote{Klassifikationsverfahren}
  17. sowohl für diese Kategorie als auch für die Kategorie \enquote{Klassifikation}
  18. zählen.
  19. \subsection{Überanpassung und Reklassifizierung}
  20. Aggarwal und Li beschreiben in \cite{aggarwal2011} nicht, auf welche
  21. Knoten der Klassifizierungsalgorithmus angewendet werden soll. Jedoch
  22. ist die Reihenfolge der Klassifizierung relevant. Dazu folgendes
  23. Minimalbeispiel:
  24. Gegeben sei ein dynamischer Graph ohne textuelle Inhalte. Zum Zeitpunkt
  25. $t=1$ habe dieser Graph genau einen Knoten $v_1$ und $v_1$ sei
  26. mit dem Label $A$ beschriftet. Zum Zeitpunkt $t=2$ komme ein nicht-gelabelter
  27. Knoten $v_2$ sowie die Kante $(v_2, v_1)$ hinzu.\\
  28. Nun wird der DYCOS-Algorithmus auf diesen Knoten angewendet und
  29. $v_2$ mit $A$ gelabelt.\\
  30. Zum Zeitpunkt $t=3$ komme ein Knoten $v_3$, der mit $B$ gelabelt ist,
  31. und die Kante $(v_2, v_3)$ hinzu.
  32. \begin{figure}[ht]
  33. \centering
  34. \subfloat[$t=1$]{
  35. \input{figures/graph-t1.tex}
  36. \label{fig:graph-t1}
  37. }%
  38. \subfloat[$t=2$]{
  39. \input{figures/graph-t2.tex}
  40. \label{fig:graph-t2}
  41. }
  42. \subfloat[$t=3$]{
  43. \input{figures/graph-t3.tex}
  44. \label{fig:graph-t3}
  45. }%
  46. \subfloat[$t=4$]{
  47. \input{figures/graph-t4.tex}
  48. \label{fig:graph-t4}
  49. }%
  50. \label{Formen}
  51. \caption{Minimalbeispiel für den Einfluss früherer DYCOS-Anwendungen}
  52. \end{figure}
  53. Würde man nun den DYCOS-Algorithmus erst jetzt, also anstelle von
  54. Zeitpunkt $t=2$ zum Zeitpunkt $t=3$ auf den Knoten $v_2$ anwenden, so
  55. würde eine $50\%$-Wahrscheinlichkeit bestehen, dass dieser mit $B$
  56. gelabelt wird. Aber in diesem Beispiel wurde der Knoten schon
  57. zum Zeitpunkt $t=2$ gelabelt. Obwohl es in diesem kleinem Beispiel
  58. noch keine Rolle spielt, wird das Problem klar, wenn man weitere
  59. Knoten einfügt:
  60. Wird zum Zeitpunkt $t=4$ ein ungelabelter Knoten $v_4$ und die Kanten
  61. $(v_1, v_4)$, $(v_2, v_4)$, $(v_3, v_4)$ hinzugefügt, so ist die
  62. Wahrscheinlichkeit, dass $v_4$ mit $A$ gelabelt wird bei $\frac{2}{3}$.
  63. Werden die ungelabelten Knoten jedoch erst jetzt und alle gemeinsam
  64. gelabelt, so ist die Wahrscheinlichkeit für $A$ als Label bei nur $50\%$.
  65. Bei dem DYCOS-Algorithmus findet also eine Überanpassung an vergangene
  66. Labels statt.
  67. Das Reklassifizieren von Knoten könnte eine mögliche Lösung für dieses
  68. Problem sein. Knoten, die durch den DYCOS-Algorithmus gelabelt wurden
  69. könnten eine Lebenszeit bekommen (TTL, Time to Live). Ist diese
  70. abgelaufen, wird der DYCOS-Algorithmus erneut auf den Knoten angewendet.