瀏覽代碼

kleine Verbesserungen

Martin Thoma 12 年之前
父節點
當前提交
e0421134c2

+ 8 - 2
documents/DYCOS/Ausblick.tex

@@ -1,8 +1,8 @@
 Den sehr einfach aufgebauten DYCOS-Algorithmus kann man noch an
 vielen Punkten verbessern. So könnte man vor der Auswahl des
 Vokabulars jedes Wort auf den Wortstamm zurückführen.
-Dafür könnte zum Beispiel der Porter-Stemming-Algorithmus verwendet 
-werden \cite{porter}. Durch diese Maßnahme wird das
+Dafür könnte zum Beispiel der in \cite{porter} vorgestellte 
+Porter-Stemming-Algorithmus verwendet werden. Durch diese Maßnahme wird das
 Vokabular kleiner gehalten, mehr Artikel können mit einander
 durch Vokabular verbunden werden und der Gini-Koeffizient wird ein
 besseres Maß für die Gleichheit von Texten.
@@ -18,3 +18,9 @@ In diesem Fall macht es jedoch einen wichtigen Unterschied, ob jemand
 
 Eine einfache Erweiterung des DYCOS-Algorithmus wäre der Umgang mit 
 mehreren Labels.
+
+DYCOS beschränkt sich bei inhaltlichen Mehrfachsprüngen
+auf die Top-$q$-Wortknoten, also die $q$ ähnlichsten Knoten
+gemessen mit der Aggregatanalyse, allerdings wurde bisher noch nicht
+untersucht, wie der Einfluss von $q \in \mathbb{N}$ auf die 
+Klassifkationsgüte ist.

二進制
documents/DYCOS/DYCOS.pdf


+ 6 - 11
documents/DYCOS/SchwaechenVerbesserungen.tex

@@ -93,21 +93,16 @@ nicht überprüft werden:
           Analyse auf S.~362 eingeführt.
           Es ist nicht klar, wie entschieden wird welche Kanten
           gespeichert werden und welche nicht.
-    \item DYCOS beschränkt sich bei inhaltlichen Mehrfachsprüngen
-          auf die Top-$q$-Wortknoten, also die $q$ ähnlichsten Knoten
-          gemessen mit der Aggregatanalyse. Auch hier wird nicht erklärt wie
-          $q \in \mathbb{N}$ bestimmt oder nach welchen Überlegungen $q$ gesetzt 
-          wurde. Allerings ist hier wenigstens klar, dass $q$ für
-          den DYCOS-Algorithmus konstant ist. Für die Experimentelle
-          Analyse wurde zwar erwähnt, dass $q$ ein Parameter des
-          Algorithmus ist \cite[S. 362]{aggarwal2011}, aber nicht welcher
-          Wert in der Analyse des DBLP-Datensatzes genutzt wurde.
-          Für den CORA-Datensatz wurde $q=10$ gewählt\cite[S. 364]{aggarwal2011}.
     \item Für die Analyse der CORA-Datensatzes analysiert.
           Dieser beinhaltet Forschungsarbeiten, wobei die 
           Forschungsgebiete die in einen Baum mit 73 Blättern 
           eingeordnet wurden. Aus diesen 73 Blättern wurden 5 Klassen
           extrahiert und der Graph, der keine Zeitpunkte beinhaltet,
           künstlich in 10 Graphen mit Zeitpunkten unterteilt. Wie
-          jedoch die TODO
+          jedoch diese Unterteilung genau durchgeführt wurde kann nicht
+          nachvollzogen werden.
+    \item Der auf S. 360 in \enquote{Algorithm 1} vorgestellte
+          Pseudocode soll den DYCOS-Algorithmus darstellen. Allerdings
+          werden die bereits klassifizierten Knoten $\T_t$ neu klassifiziert
+          und mit $\theta$ die Klassifkationsgüte gemessen.
 \end{itemize}

+ 2 - 1
documents/DYCOS/Sprungtypen.tex

@@ -36,7 +36,8 @@ Mehrfachsprung machen will folgendes Clusteranalyse durchgeführt:
           und erstelle eine Liste $L$, der erreichbaren Knoten $v'$. Speichere
           außerdem, durch wie viele Pfade diese Knoten $v'$ jeweils erreichbar sind.
     \item[C2] Betrachte im folgenden nur die Top-$q$ Knoten, wobei $q \in \mathbb{N}$
-          eine zu wählende Konstante des Algorithmus ist. \label{list:aggregate.2}
+          eine zu wählende Konstante des Algorithmus ist.\footnote{Sowohl für den DBLP, als auch für den 
+CORA-Datensatz wurde in \cite[S. 364]{aggarwal2011} $q=10$ gewählt.} \label{list:aggregate.2}
     \item[C3] Wähle mit Wahrscheinlichkeit $\frac{\Call{Anzahl}{v'}}{\sum_{w \in L} \Call{Anzahl}{v'}}$
           den Knoten $v'$ als Ziel des Mehrfachsprungs.
 \end{enumerate}

+ 5 - 3
documents/DYCOS/Vokabularbestimmung.tex

@@ -7,9 +7,11 @@ die in fast allen Texten vorkommen, wie im Deutschen z.~B.
 Wörter zu wählen, die die Texte möglichst start voneinander Unterscheiden.
 Der DYCOS-Algorithmus wählt die Top-$m$ dieser Wörter als Vokabular,
 wobei $m \in \mathbb{N}$ eine Festzulegende Konstante ist. In \cite[S. 365]{aggarwal2011}
-wird der Einfluss von $m \in \Set{5,10, 20}$ auf die Klassifikationsgüte
-untersucht und festegestellt, dass für $m \in \Set{5,10}$ die Klassifikationsgüte 
-sehr ähnlich ist.
+wird der Einfluss von $m \in \Set{5,10, 15,20}$ auf die Klassifikationsgüte
+untersucht und festegestellt, dass die Klassifikationsgüte mit größerem
+$m$ sinkt, sie also für $m=5$ für den DBLP-Datensatz am höchsten ist.
+Für den CORA-Datensatz wurde mit $m \in \set{3,4,5,6}$ getestet und 
+kein signifikanter Unterschied festgestellt.
 
 Nun kann man manuell eine Liste von zu beachtenden Wörtern erstellen
 oder mit Hilfe des Gini-Koeffizienten automatisch ein Vokabular erstellen.

+ 1 - 0
documents/DYCOS/mystyle.sty

@@ -15,6 +15,7 @@
 \renewtheorem{definition}{Definition}
 
 \def\L{\ensuremath{\mathcal{L}}}
+\def\T{\ensuremath{\mathcal{T}}}
 \def\M{\ensuremath{\mathcal{M}}}
 
 \renewcommand{\algorithmicrequire}{\textbf{Input:}}