浏览代码

Analyse hinzugefügt

Martin Thoma 11 年之前
父节点
当前提交
500fedad57

+ 22 - 4
documents/DYCOS/Analyse.tex

@@ -1,15 +1,33 @@
 Für den DYCOS-Algorithmus wurde in \cite{aggarwal2011} bewiesen,
 dass sich nach Ausführung von DYCOS für einen unbeschrifteten
 Knoten mit einer Wahrscheinlichkeit von höchstens
-$(1-k)\cdot e^{-l \cdot b^2 / 2}$ eine Knotenbeschriftung ergibt, deren
+$(|\L_t|-1)\cdot e^{-l \cdot b^2 / 2}$ eine Knotenbeschriftung ergibt, deren
 relative Häufigkeit weniger als $b$ der häufigsten Beschriftung ist.
-Dabei ist $k$ die Anzahl der Klassen und $l$ die Länge der 
+Dabei ist $|\L_t|$ die Anzahl der Beschriftungen und $l$ die Länge der 
 Random-Walks.
 
 Außerdem wurde experimentell anhand des DBLP-Datensatzes\footnote{http://dblp.uni-trier.de/}
 und des CORA-Datensatzes\footnote{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}
-gezeigt, dass die Klassifikationsgüte nicht wesentlich von der Anzahl der Wörter mit
-höchstem Gini-Koeffizient $m$ abhängt.  Obwohl es sich nicht sagen lässt,
+gezeigt (vgl. \cref{tab:datasets}), dass die Klassifikationsgüte nicht wesentlich von der Anzahl der Wörter mit
+höchstem Gini-Koeffizient $m$ abhängt. Des Weiteren betrug die Ausführungszeit
+auf einem Kern eines Intel Xeon $\SI{2.5}{\GHz}$ Servers mit 
+$\SI{32}{\giga\byte}$ RAM für den DBLP-Datensatz unter $\SI{25}{\second}$,
+für den CORA-Datensatz sogar unter $\SI{5}{\second}$. Dabei wurde eine
+für CORA eine Klassifikationsgüte von 82\% - 84\% und auf den DBLP-Daten
+von 61\% - 66\% erreicht.
+
+\begin{table}[htp]
+    \centering
+    \begin{tabular}{|l||r|r|r|r|}\hline
+    \textbf{Name} & \textbf{Knoten} & \textbf{davon beschriftet} & \textbf{Kanten}  & \textbf{Beschriftungen} \\ \hline\hline
+    \textbf{CORA} & \num{19396}  & \num{14814}             & \num{75021}   & 5              \\
+    \textbf{DBLP} & \num{806635} & \num{18999 }            & \num{4414135} & 5              \\\hline
+    \end{tabular}
+    \caption{Datensätze, die für die experimentelle analyse benutzt wurden}
+    \label{tab:datasets}
+\end{table}
+
+Obwohl es sich nicht sagen lässt,
 wie genau die Ergebnisse aus \cite{aggarwal2011} zustande gekommen sind,
 eignet sich das Kreuzvalidierungsverfahren zur Bestimmung der Klassifikationsgüte
 wie es in \cite{Lavesson,Stone1974} vorgestellt wird:

二进制
documents/DYCOS/DYCOS.pdf


+ 1 - 0
documents/DYCOS/DYCOS.tex

@@ -31,6 +31,7 @@
 \usepackage{braket}
 \allowdisplaybreaks
 \usetikzlibrary{backgrounds}
+\usepackage[binary-units=true]{siunitx}
 \usepackage{mystyle}
 
 \setcounter{tocdepth}{3}

+ 30 - 0
presentations/Datamining-Proseminar/Hauptpresentation/LaTeX/Analyse.tex

@@ -0,0 +1,30 @@
+\subsection{Experimentelle Analyse}
+\begin{frame}{Datensätze}
+    Alle folgenden Daten sind der Analyse von Aggarwall und Li
+    entnommen.
+
+    \begin{table}
+        \begin{tabular}{|l||r|r|r|r|}\hline
+        \textbf{Name} & \textbf{Knoten} & \textbf{davon beschriftet} & \textbf{Kanten}  & \textbf{Beschriftungen} \\ \hline\hline
+        \textbf{CORA} & \num{19396}  & \num{14814}             & \num{75021}   & 5              \\
+        \textbf{DBLP} & \num{806635} & \num{18999 }            & \num{4414135} & 5              \\\hline
+        \end{tabular}
+    \end{table}
+\end{frame}
+
+\begin{frame}{Ergebnisse}
+    \begin{itemize}
+        \item<1-> Performance:
+            \begin{itemize}
+                \item<2-> Klassifizierung aller Knoten
+                \item<3-> Intel Xeon $\SI{2.5}{\GHz}$ mit $\SI{32}{\giga\byte}$ RAM, $1$ Kern
+                \item<4-> DBLP: $< \SI{25}{\second}$
+                \item<5-> CORA: $< \SI{5}{\second}$
+            \end{itemize}
+        \item<6-> Klassifikationsgüte:
+            \begin{itemize}
+                \item<7-> CORA: 82\% - 84\%
+                \item<8-> DBLP: 61\% - 66\%
+            \end{itemize}
+    \end{itemize}
+\end{frame}

二进制
presentations/Datamining-Proseminar/Hauptpresentation/LaTeX/Datamining-Proseminar-Hauptpresentation.pdf


+ 3 - 0
presentations/Datamining-Proseminar/Hauptpresentation/LaTeX/Datamining-Proseminar-Hauptpresentation.tex

@@ -33,6 +33,9 @@
 \section{Zusammenfassung}
 \input{Zusammenfassung}
 
+\section{Analyse}
+\input{Analyse}
+
 \section{Ende}
 \input{Ende}
 

+ 3 - 3
presentations/Datamining-Proseminar/Hauptpresentation/LaTeX/Ende.tex

@@ -16,9 +16,9 @@
 \subsection{Literatur}
 \begin{frame}{Literatur}
 \begin{itemize}
-    \item Charu C. Aggarwal, Nan Li: \textit{On Node Classification in Dynamic Content-based Networks}
-    \item Smriti Bhagat, Graham Cormode und S. Muthukrishnan. \textit{Node Classification in Social Networks}
-    \item M. F. Porter. Readings in Information Retrieval. Kapitel \textit{An Algorithm for Suffix Stripping}
+    \item Charu C. Aggarwal, Nan Li: \textit{On Node Classification in Dynamic Content-based Networks}.
+    \item Smriti Bhagat, Graham Cormode und S. Muthukrishnan. \textit{Node Classification in Social Networks}.
+    \item M. F. Porter. Readings in Information Retrieval. Kapitel \textit{An Algorithm for Suffix Stripping}.
     \item Jeffrey S. Vitter. \textit{Random Sampling with a Reservoir}.
 \end{itemize}
 \end{frame}

+ 1 - 1
presentations/Datamining-Proseminar/Hauptpresentation/templates/myStyle.sty

@@ -24,7 +24,7 @@
 \usepackage{pifont}% http://ctan.org/pkg/pifont
 \usepackage{soul}
 \usepackage{braket}
-\usepackage{siunitx}
+\usepackage[binary-units=true]{siunitx}
 
 % Define some styles for graphs
 \tikzstyle{vertex}=[circle,fill=black!25,minimum size=20pt,inner sep=0pt]