Analyse.tex 1.4 KB

12345678910111213141516171819202122232425262728
  1. Für den DYCOS-Algorithmus wurde in \cite{aggarwal2011} bewiesen,
  2. dass sich nach Ausführung von DYCOS für einen unbeschrifteten
  3. Knoten mit einer Wahrscheinlichkeit von höchstens
  4. $(1-k)\cdot e^{-l \cdot b^2 / 2}$ eine Knotenbeschriftung ergibt, deren
  5. relative Häufigkeit weniger als $b$ der häufigsten Beschriftung ist.
  6. Dabei ist $k$ die Anzahl der Klassen und $l$ die Länge der
  7. Random-Walks.
  8. Außerdem wurde experimentell anhand des DBLP-Datensatzes\footnote{http://dblp.uni-trier.de/}
  9. und des CORA-Datensatzes\footnote{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}
  10. gezeigt, dass die Klassifikationsgüte nicht wesentlich von der
  11. maximalen Listenlänge $a$ und der Anzahl der Wörter mit
  12. höchstem Gini-Koeffizient $m$ abhängt. Obwohl es sich nicht sagen lässt,
  13. wie genau die Ergebnisse aus \cite{aggarwal2011} zustande gekommen sind,
  14. eignet sich das Kreuzvalidierungsverfahren zur Bestimmung der Klassifikationsgüte
  15. wie es in \cite{Lavesson,Stone1974} vorgestellt wird:
  16. \begin{enumerate}
  17. \item Betrachte nur $V_{L,T}$.
  18. \item Unterteile $V_{L,T}$ zufällig in $k$ disjunkte Mengen $M_1, \dots, M_k$.
  19. \item \label{schritt3} Teste die Klassifikationsgüte, wenn die Knotenbeschriftungen
  20. aller Knoten in $M_i$ für DYCOS verborgen werden für $i=1,\dots, k$.
  21. \item Bilde den Durchschnitt der Klassifikationsgüten aus \cref{schritt3}.
  22. \end{enumerate}
  23. Es wird $k=10$ vorgeschlagen.