SchwaechenVerbesserungen.tex 3.6 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384
  1. Der in \cite{aggarwal2011} vorgestellte Algorithmus hat einige Probleme,
  2. die im Folgenden erläutert werden. Außerdem werden Verbesserungen
  3. vorgeschlagen, die es allerdings noch zu untersuchen gilt.
  4. \subsection{Anzahl der Knotenbeschriftungen}
  5. So, wie der DYCOS-Algorithmus vorgestellt wurde, können nur Graphen bearbeitet werden,
  6. deren Knoten jeweils höchstens eine Beschriftung haben. In vielen Fällen, wie z.~B.
  7. Wikipedia mit Kategorien als Knotenbeschriftungen haben Knoten jedoch viele Beschriftungen.
  8. Auf einen ersten Blick ist diese Schwäche einfach zu beheben, indem
  9. man beim zählen der Knotenbeschriftungen für jeden Knoten jedes Beschriftung zählt. Dann
  10. wäre noch die Frage zu klären, mit wie vielen Beschriftungen der betrachtete
  11. Knoten beschriftet werden soll.
  12. Jedoch ist z.~B. bei Wikipedia-Artikeln auf den Knoten eine
  13. Hierarchie definiert. So ist die Kategorie \enquote{Klassifikationsverfahren}
  14. eine Unterkategorie von \enquote{Klassifikation}. Bei dem Kategorisieren
  15. von Artikeln sind möglichst spezifische Kategorien vorzuziehen, also
  16. kann man nicht einfach bei dem Auftreten der Kategorie \enquote{Klassifikationsverfahren}
  17. sowohl für diese Kategorie als auch für die Kategorie \enquote{Klassifikation}
  18. zählen.
  19. \subsection{Überanpassung und Reklassifizierung}
  20. Aggarwal und Li beschreiben in \cite{aggarwal2011} nicht, auf welche
  21. Knoten der Klassifizierungsalgorithmus angewendet werden soll. Jedoch
  22. ist die Reihenfolge der Klassifizierung relevant. Dazu folgendes
  23. Minimalbeispiel:
  24. Gegeben sei ein dynamischer Graph ohne textuelle Inhalte. Zum Zeitpunkt
  25. $t=1$ habe dieser Graph genau einen Knoten $v_1$ und $v_1$ sei
  26. mit dem $A$ beschriftet. Zum Zeitpunkt $t=2$ komme ein nicht beschrifteter
  27. Knoten $v_2$ sowie die Kante $(v_2, v_1)$ hinzu.\\
  28. Nun wird der DYCOS-Algorithmus auf diesen Knoten angewendet und
  29. $v_2$ mit $A$ beschriftet.\\
  30. Zum Zeitpunkt $t=3$ komme ein Knoten $v_3$, der mit $B$ beschriftet ist,
  31. und die Kante $(v_2, v_3)$ hinzu.
  32. \begin{figure}[ht]
  33. \centering
  34. \subfloat[$t=1$]{
  35. \input{figures/graph-t1.tex}
  36. \label{fig:graph-t1}
  37. }%
  38. \subfloat[$t=2$]{
  39. \input{figures/graph-t2.tex}
  40. \label{fig:graph-t2}
  41. }
  42. \subfloat[$t=3$]{
  43. \input{figures/graph-t3.tex}
  44. \label{fig:graph-t3}
  45. }%
  46. \subfloat[$t=4$]{
  47. \input{figures/graph-t4.tex}
  48. \label{fig:graph-t4}
  49. }%
  50. \label{Formen}
  51. \caption{Minimalbeispiel für den Einfluss früherer DYCOS-Anwendungen}
  52. \end{figure}
  53. Würde man nun den DYCOS-Algorithmus erst jetzt, also anstelle von
  54. Zeitpunkt $t=2$ zum Zeitpunkt $t=3$ auf den Knoten $v_2$ anwenden, so
  55. würde eine $50\%$-Wahrscheinlichkeit bestehen, dass dieser mit $B$
  56. beschriftet wird. Aber in diesem Beispiel wurde der Knoten schon
  57. zum Zeitpunkt $t=2$ beschriftet. Obwohl es in diesem kleinem Beispiel
  58. noch keine Rolle spielt, wird das Problem klar, wenn man weitere
  59. Knoten einfügt:
  60. Wird zum Zeitpunkt $t=4$ ein unbeschrifteter Knoten $v_4$ und die Kanten
  61. $(v_1, v_4)$, $(v_2, v_4)$, $(v_3, v_4)$ hinzugefügt, so ist die
  62. Wahrscheinlichkeit, dass $v_4$ mit $A$ beschriftet wird bei $\frac{2}{3}$.
  63. Werden die unbeschrifteten Knoten jedoch erst jetzt und alle gemeinsam
  64. beschriftet, so ist die Wahrscheinlichkeit für $A$ als Beschriftung bei nur $50\%$.
  65. Bei dem DYCOS-Algorithmus findet also eine Überanpassung an vergangene
  66. Beschriftungen statt.
  67. Das Reklassifizieren von Knoten könnte eine mögliche Lösung für dieses
  68. Problem sein. Knoten, die durch den DYCOS-Algorithmus beschriftet wurden
  69. könnten eine Lebenszeit bekommen (TTL, Time to Live). Ist diese
  70. abgelaufen, wird der DYCOS-Algorithmus erneut auf den Knoten angewendet.