Analyse.tex 2.3 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445
  1. Für den DYCOS-Algorithmus wurde in \cite{aggarwal2011} bewiesen,
  2. dass sich nach Ausführung von DYCOS für einen unbeschrifteten
  3. Knoten mit einer Wahrscheinlichkeit von höchstens
  4. $(|\L_t|-1)\cdot e^{-l \cdot b^2 / 2}$ eine Knotenbeschriftung ergibt, deren
  5. relative Häufigkeit weniger als $b$ der häufigsten Beschriftung ist.
  6. Dabei ist $|\L_t|$ die Anzahl der Beschriftungen und $l$ die Länge der
  7. Random-Walks.
  8. Außerdem wurde experimentell anhand des DBLP-Datensatzes\footnote{http://dblp.uni-trier.de/}
  9. und des CORA-Datensatzes\footnote{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}
  10. gezeigt (vgl. \cref{tab:datasets}), dass die Klassifikationsgüte nicht wesentlich von der Anzahl der Wörter mit
  11. höchstem Gini-Koeffizient $m$ abhängt. Des Weiteren betrug die Ausführungszeit
  12. auf einem Kern eines Intel Xeon $\SI{2.5}{\GHz}$ Servers mit
  13. $\SI{32}{\giga\byte}$ RAM für den DBLP-Datensatz unter $\SI{25}{\second}$,
  14. für den CORA-Datensatz sogar unter $\SI{5}{\second}$. Dabei wurde eine
  15. für CORA eine Klassifikationsgüte von 82\% - 84\% und auf den DBLP-Daten
  16. von 61\% - 66\% erreicht.
  17. \begin{table}[htp]
  18. \centering
  19. \begin{tabular}{|l||r|r|r|r|}\hline
  20. \textbf{Name} & \textbf{Knoten} & \textbf{davon beschriftet} & \textbf{Kanten} & \textbf{Beschriftungen} \\ \hline\hline
  21. \textbf{CORA} & \num{19396} & \num{14814} & \num{75021} & 5 \\
  22. \textbf{DBLP} & \num{806635} & \num{18999 } & \num{4414135} & 5 \\\hline
  23. \end{tabular}
  24. \caption{Datensätze, die für die experimentelle analyse benutzt wurden}
  25. \label{tab:datasets}
  26. \end{table}
  27. Obwohl es sich nicht sagen lässt,
  28. wie genau die Ergebnisse aus \cite{aggarwal2011} zustande gekommen sind,
  29. eignet sich das Kreuzvalidierungsverfahren zur Bestimmung der Klassifikationsgüte
  30. wie es in \cite{Lavesson,Stone1974} vorgestellt wird:
  31. \begin{enumerate}
  32. \item Betrachte nur $V_{L,T}$.
  33. \item Unterteile $V_{L,T}$ zufällig in $k$ disjunkte Mengen $M_1, \dots, M_k$.
  34. \item \label{schritt3} Teste die Klassifikationsgüte, wenn die Knotenbeschriftungen
  35. aller Knoten in $M_i$ für DYCOS verborgen werden für $i=1,\dots, k$.
  36. \item Bilde den Durchschnitt der Klassifikationsgüten aus \cref{schritt3}.
  37. \end{enumerate}
  38. Es wird $k=10$ vorgeschlagen.