Jelajahi Sumber

kleine Verbesserungen

Martin Thoma 12 tahun lalu
induk
melakukan
e0421134c2

+ 8 - 2
documents/DYCOS/Ausblick.tex

@@ -1,8 +1,8 @@
 Den sehr einfach aufgebauten DYCOS-Algorithmus kann man noch an
 Den sehr einfach aufgebauten DYCOS-Algorithmus kann man noch an
 vielen Punkten verbessern. So könnte man vor der Auswahl des
 vielen Punkten verbessern. So könnte man vor der Auswahl des
 Vokabulars jedes Wort auf den Wortstamm zurückführen.
 Vokabulars jedes Wort auf den Wortstamm zurückführen.
-Dafür könnte zum Beispiel der Porter-Stemming-Algorithmus verwendet 
-werden \cite{porter}. Durch diese Maßnahme wird das
+Dafür könnte zum Beispiel der in \cite{porter} vorgestellte 
+Porter-Stemming-Algorithmus verwendet werden. Durch diese Maßnahme wird das
 Vokabular kleiner gehalten, mehr Artikel können mit einander
 Vokabular kleiner gehalten, mehr Artikel können mit einander
 durch Vokabular verbunden werden und der Gini-Koeffizient wird ein
 durch Vokabular verbunden werden und der Gini-Koeffizient wird ein
 besseres Maß für die Gleichheit von Texten.
 besseres Maß für die Gleichheit von Texten.
@@ -18,3 +18,9 @@ In diesem Fall macht es jedoch einen wichtigen Unterschied, ob jemand
 
 
 Eine einfache Erweiterung des DYCOS-Algorithmus wäre der Umgang mit 
 Eine einfache Erweiterung des DYCOS-Algorithmus wäre der Umgang mit 
 mehreren Labels.
 mehreren Labels.
+
+DYCOS beschränkt sich bei inhaltlichen Mehrfachsprüngen
+auf die Top-$q$-Wortknoten, also die $q$ ähnlichsten Knoten
+gemessen mit der Aggregatanalyse, allerdings wurde bisher noch nicht
+untersucht, wie der Einfluss von $q \in \mathbb{N}$ auf die 
+Klassifkationsgüte ist.

TEMPAT SAMPAH
documents/DYCOS/DYCOS.pdf


+ 6 - 11
documents/DYCOS/SchwaechenVerbesserungen.tex

@@ -93,21 +93,16 @@ nicht überprüft werden:
           Analyse auf S.~362 eingeführt.
           Analyse auf S.~362 eingeführt.
           Es ist nicht klar, wie entschieden wird welche Kanten
           Es ist nicht klar, wie entschieden wird welche Kanten
           gespeichert werden und welche nicht.
           gespeichert werden und welche nicht.
-    \item DYCOS beschränkt sich bei inhaltlichen Mehrfachsprüngen
-          auf die Top-$q$-Wortknoten, also die $q$ ähnlichsten Knoten
-          gemessen mit der Aggregatanalyse. Auch hier wird nicht erklärt wie
-          $q \in \mathbb{N}$ bestimmt oder nach welchen Überlegungen $q$ gesetzt 
-          wurde. Allerings ist hier wenigstens klar, dass $q$ für
-          den DYCOS-Algorithmus konstant ist. Für die Experimentelle
-          Analyse wurde zwar erwähnt, dass $q$ ein Parameter des
-          Algorithmus ist \cite[S. 362]{aggarwal2011}, aber nicht welcher
-          Wert in der Analyse des DBLP-Datensatzes genutzt wurde.
-          Für den CORA-Datensatz wurde $q=10$ gewählt\cite[S. 364]{aggarwal2011}.
     \item Für die Analyse der CORA-Datensatzes analysiert.
     \item Für die Analyse der CORA-Datensatzes analysiert.
           Dieser beinhaltet Forschungsarbeiten, wobei die 
           Dieser beinhaltet Forschungsarbeiten, wobei die 
           Forschungsgebiete die in einen Baum mit 73 Blättern 
           Forschungsgebiete die in einen Baum mit 73 Blättern 
           eingeordnet wurden. Aus diesen 73 Blättern wurden 5 Klassen
           eingeordnet wurden. Aus diesen 73 Blättern wurden 5 Klassen
           extrahiert und der Graph, der keine Zeitpunkte beinhaltet,
           extrahiert und der Graph, der keine Zeitpunkte beinhaltet,
           künstlich in 10 Graphen mit Zeitpunkten unterteilt. Wie
           künstlich in 10 Graphen mit Zeitpunkten unterteilt. Wie
-          jedoch die TODO
+          jedoch diese Unterteilung genau durchgeführt wurde kann nicht
+          nachvollzogen werden.
+    \item Der auf S. 360 in \enquote{Algorithm 1} vorgestellte
+          Pseudocode soll den DYCOS-Algorithmus darstellen. Allerdings
+          werden die bereits klassifizierten Knoten $\T_t$ neu klassifiziert
+          und mit $\theta$ die Klassifkationsgüte gemessen.
 \end{itemize}
 \end{itemize}

+ 2 - 1
documents/DYCOS/Sprungtypen.tex

@@ -36,7 +36,8 @@ Mehrfachsprung machen will folgendes Clusteranalyse durchgeführt:
           und erstelle eine Liste $L$, der erreichbaren Knoten $v'$. Speichere
           und erstelle eine Liste $L$, der erreichbaren Knoten $v'$. Speichere
           außerdem, durch wie viele Pfade diese Knoten $v'$ jeweils erreichbar sind.
           außerdem, durch wie viele Pfade diese Knoten $v'$ jeweils erreichbar sind.
     \item[C2] Betrachte im folgenden nur die Top-$q$ Knoten, wobei $q \in \mathbb{N}$
     \item[C2] Betrachte im folgenden nur die Top-$q$ Knoten, wobei $q \in \mathbb{N}$
-          eine zu wählende Konstante des Algorithmus ist. \label{list:aggregate.2}
+          eine zu wählende Konstante des Algorithmus ist.\footnote{Sowohl für den DBLP, als auch für den 
+CORA-Datensatz wurde in \cite[S. 364]{aggarwal2011} $q=10$ gewählt.} \label{list:aggregate.2}
     \item[C3] Wähle mit Wahrscheinlichkeit $\frac{\Call{Anzahl}{v'}}{\sum_{w \in L} \Call{Anzahl}{v'}}$
     \item[C3] Wähle mit Wahrscheinlichkeit $\frac{\Call{Anzahl}{v'}}{\sum_{w \in L} \Call{Anzahl}{v'}}$
           den Knoten $v'$ als Ziel des Mehrfachsprungs.
           den Knoten $v'$ als Ziel des Mehrfachsprungs.
 \end{enumerate}
 \end{enumerate}

+ 5 - 3
documents/DYCOS/Vokabularbestimmung.tex

@@ -7,9 +7,11 @@ die in fast allen Texten vorkommen, wie im Deutschen z.~B.
 Wörter zu wählen, die die Texte möglichst start voneinander Unterscheiden.
 Wörter zu wählen, die die Texte möglichst start voneinander Unterscheiden.
 Der DYCOS-Algorithmus wählt die Top-$m$ dieser Wörter als Vokabular,
 Der DYCOS-Algorithmus wählt die Top-$m$ dieser Wörter als Vokabular,
 wobei $m \in \mathbb{N}$ eine Festzulegende Konstante ist. In \cite[S. 365]{aggarwal2011}
 wobei $m \in \mathbb{N}$ eine Festzulegende Konstante ist. In \cite[S. 365]{aggarwal2011}
-wird der Einfluss von $m \in \Set{5,10, 20}$ auf die Klassifikationsgüte
-untersucht und festegestellt, dass für $m \in \Set{5,10}$ die Klassifikationsgüte 
-sehr ähnlich ist.
+wird der Einfluss von $m \in \Set{5,10, 15,20}$ auf die Klassifikationsgüte
+untersucht und festegestellt, dass die Klassifikationsgüte mit größerem
+$m$ sinkt, sie also für $m=5$ für den DBLP-Datensatz am höchsten ist.
+Für den CORA-Datensatz wurde mit $m \in \set{3,4,5,6}$ getestet und 
+kein signifikanter Unterschied festgestellt.
 
 
 Nun kann man manuell eine Liste von zu beachtenden Wörtern erstellen
 Nun kann man manuell eine Liste von zu beachtenden Wörtern erstellen
 oder mit Hilfe des Gini-Koeffizienten automatisch ein Vokabular erstellen.
 oder mit Hilfe des Gini-Koeffizienten automatisch ein Vokabular erstellen.

+ 1 - 0
documents/DYCOS/mystyle.sty

@@ -15,6 +15,7 @@
 \renewtheorem{definition}{Definition}
 \renewtheorem{definition}{Definition}
 
 
 \def\L{\ensuremath{\mathcal{L}}}
 \def\L{\ensuremath{\mathcal{L}}}
+\def\T{\ensuremath{\mathcal{T}}}
 \def\M{\ensuremath{\mathcal{M}}}
 \def\M{\ensuremath{\mathcal{M}}}
 
 
 \renewcommand{\algorithmicrequire}{\textbf{Input:}}
 \renewcommand{\algorithmicrequire}{\textbf{Input:}}