12 年之前 · e0421134c2
--- a/documents/DYCOS/Ausblick.tex
+++ b/documents/DYCOS/Ausblick.tex
@@ -1,8 +1,8 @@
 
				 Den sehr einfach aufgebauten DYCOS-Algorithmus kann man noch an
			
 
				 vielen Punkten verbessern. So könnte man vor der Auswahl des
			
 
				 Vokabulars jedes Wort auf den Wortstamm zurückführen.
			
 
				-Dafür könnte zum Beispiel der Porter-Stemming-Algorithmus verwendet 
			
 
				-werden \cite{porter}. Durch diese Maßnahme wird das
			
 
				+Dafür könnte zum Beispiel der in \cite{porter} vorgestellte 
			
 
				+Porter-Stemming-Algorithmus verwendet werden. Durch diese Maßnahme wird das
			
 
				 Vokabular kleiner gehalten, mehr Artikel können mit einander
			
 
				 durch Vokabular verbunden werden und der Gini-Koeffizient wird ein
			
 
				 besseres Maß für die Gleichheit von Texten.
			
@@ -18,3 +18,9 @@ In diesem Fall macht es jedoch einen wichtigen Unterschied, ob jemand
 
				 
			
 
				 Eine einfache Erweiterung des DYCOS-Algorithmus wäre der Umgang mit 
			
 
				 mehreren Labels.
			
 
				+
			
 
				+DYCOS beschränkt sich bei inhaltlichen Mehrfachsprüngen
			
 
				+auf die Top-$q$-Wortknoten, also die $q$ ähnlichsten Knoten
			
 
				+gemessen mit der Aggregatanalyse, allerdings wurde bisher noch nicht
			
 
				+untersucht, wie der Einfluss von $q \in \mathbb{N}$ auf die 
			
 
				+Klassifkationsgüte ist.
			
--- a/documents/DYCOS/DYCOS.pdf
+++ b/documents/DYCOS/DYCOS.pdf
--- a/documents/DYCOS/SchwaechenVerbesserungen.tex
+++ b/documents/DYCOS/SchwaechenVerbesserungen.tex
@@ -93,21 +93,16 @@ nicht überprüft werden:
 
				           Analyse auf S.~362 eingeführt.
			
 
				           Es ist nicht klar, wie entschieden wird welche Kanten
			
 
				           gespeichert werden und welche nicht.
			
 
				-    \item DYCOS beschränkt sich bei inhaltlichen Mehrfachsprüngen
			
 
				-          auf die Top-$q$-Wortknoten, also die $q$ ähnlichsten Knoten
			
 
				-          gemessen mit der Aggregatanalyse. Auch hier wird nicht erklärt wie
			
 
				-          $q \in \mathbb{N}$ bestimmt oder nach welchen Überlegungen $q$ gesetzt 
			
 
				-          wurde. Allerings ist hier wenigstens klar, dass $q$ für
			
 
				-          den DYCOS-Algorithmus konstant ist. Für die Experimentelle
			
 
				-          Analyse wurde zwar erwähnt, dass $q$ ein Parameter des
			
 
				-          Algorithmus ist \cite[S. 362]{aggarwal2011}, aber nicht welcher
			
 
				-          Wert in der Analyse des DBLP-Datensatzes genutzt wurde.
			
 
				-          Für den CORA-Datensatz wurde $q=10$ gewählt\cite[S. 364]{aggarwal2011}.
			
 
				     \item Für die Analyse der CORA-Datensatzes analysiert.
			
 
				           Dieser beinhaltet Forschungsarbeiten, wobei die 
			
 
				           Forschungsgebiete die in einen Baum mit 73 Blättern 
			
 
				           eingeordnet wurden. Aus diesen 73 Blättern wurden 5 Klassen
			
 
				           extrahiert und der Graph, der keine Zeitpunkte beinhaltet,
			
 
				           künstlich in 10 Graphen mit Zeitpunkten unterteilt. Wie
			
 
				-          jedoch die TODO
			
 
				+          jedoch diese Unterteilung genau durchgeführt wurde kann nicht
			
 
				+          nachvollzogen werden.
			
 
				+    \item Der auf S. 360 in \enquote{Algorithm 1} vorgestellte
			
 
				+          Pseudocode soll den DYCOS-Algorithmus darstellen. Allerdings
			
 
				+          werden die bereits klassifizierten Knoten $\T_t$ neu klassifiziert
			
 
				+          und mit $\theta$ die Klassifkationsgüte gemessen.
			
 
				 \end{itemize}
			
--- a/documents/DYCOS/Sprungtypen.tex
+++ b/documents/DYCOS/Sprungtypen.tex
@@ -36,7 +36,8 @@ Mehrfachsprung machen will folgendes Clusteranalyse durchgeführt:
 
				           und erstelle eine Liste $L$, der erreichbaren Knoten $v'$. Speichere
			
 
				           außerdem, durch wie viele Pfade diese Knoten $v'$ jeweils erreichbar sind.
			
 
				     \item[C2] Betrachte im folgenden nur die Top-$q$ Knoten, wobei $q \in \mathbb{N}$
			
 
				-          eine zu wählende Konstante des Algorithmus ist. \label{list:aggregate.2}
			
 
				+          eine zu wählende Konstante des Algorithmus ist.\footnote{Sowohl für den DBLP, als auch für den 
			
 
				+CORA-Datensatz wurde in \cite[S. 364]{aggarwal2011} $q=10$ gewählt.} \label{list:aggregate.2}
			
 
				     \item[C3] Wähle mit Wahrscheinlichkeit $\frac{\Call{Anzahl}{v'}}{\sum_{w \in L} \Call{Anzahl}{v'}}$
			
 
				           den Knoten $v'$ als Ziel des Mehrfachsprungs.
			
 
				 \end{enumerate}
			
--- a/documents/DYCOS/Vokabularbestimmung.tex
+++ b/documents/DYCOS/Vokabularbestimmung.tex
@@ -7,9 +7,11 @@ die in fast allen Texten vorkommen, wie im Deutschen z.~B.
 
				 Wörter zu wählen, die die Texte möglichst start voneinander Unterscheiden.
			
 
				 Der DYCOS-Algorithmus wählt die Top-$m$ dieser Wörter als Vokabular,
			
 
				 wobei $m \in \mathbb{N}$ eine Festzulegende Konstante ist. In \cite[S. 365]{aggarwal2011}
			
 
				-wird der Einfluss von $m \in \Set{5,10, 20}$ auf die Klassifikationsgüte
			
 
				-untersucht und festegestellt, dass für $m \in \Set{5,10}$ die Klassifikationsgüte 
			
 
				-sehr ähnlich ist.
			
 
				+wird der Einfluss von $m \in \Set{5,10, 15,20}$ auf die Klassifikationsgüte
			
 
				+untersucht und festegestellt, dass die Klassifikationsgüte mit größerem
			
 
				+$m$ sinkt, sie also für $m=5$ für den DBLP-Datensatz am höchsten ist.
			
 
				+Für den CORA-Datensatz wurde mit $m \in \set{3,4,5,6}$ getestet und 
			
 
				+kein signifikanter Unterschied festgestellt.
			
 
				 
			
 
				 Nun kann man manuell eine Liste von zu beachtenden Wörtern erstellen
			
 
				 oder mit Hilfe des Gini-Koeffizienten automatisch ein Vokabular erstellen.
			
--- a/documents/DYCOS/mystyle.sty
+++ b/documents/DYCOS/mystyle.sty
@@ -15,6 +15,7 @@
 
				 \renewtheorem{definition}{Definition}
			
 
				 
			
 
				 \def\L{\ensuremath{\mathcal{L}}}
			
 
				+\def\T{\ensuremath{\mathcal{T}}}
			
 
				 \def\M{\ensuremath{\mathcal{M}}}
			
 
				 
			
 
				 \renewcommand{\algorithmicrequire}{\textbf{Input:}}