|
@@ -6,11 +6,11 @@ die in fast allen Texten vorkommen, wie im Deutschen z.~B.
|
|
|
\enquote{und}, \enquote{mit} und die Pronomen. Es ist wünschenswert Wörter zu
|
|
|
wählen, die die Texte möglichst stark voneinander Unterscheiden. Der
|
|
|
DYCOS-Algorithmus wählt die Top-$m$ dieser Wörter als Vokabular, wobei
|
|
|
-$m \in \mathbb{N}$ eine Festzulegende Konstante ist. In \cite[S. 365]{aggarwal2011}
|
|
|
+$m \in \mathbb{N}$ eine festzulegende Konstante ist. In \cite[S. 365]{aggarwal2011}
|
|
|
wird der Einfluss von $m \in \Set{5,10, 15,20}$ auf die Klassifikationsgüte
|
|
|
untersucht und festgestellt, dass die Klassifikationsgüte mit größerem $m$
|
|
|
-sinkt, sie also für $m=5$ für den DBLP-Datensatz am höchsten ist. Für den CORA-
|
|
|
-Datensatz wurde mit $m \in \set{3,4,5,6}$ getestet und kein signifikanter
|
|
|
+sinkt, sie also für $m=5$ für den DBLP-Datensatz am höchsten ist. Für den
|
|
|
+CORA-Datensatz wurde mit $m \in \set{3,4,5,6}$ getestet und kein signifikanter
|
|
|
Unterschied festgestellt.
|
|
|
|
|
|
Nun kann man manuell eine Liste von zu beachtenden Wörtern erstellen
|
|
@@ -42,8 +42,8 @@ Datenstruktur wird in \cref{alg4:l10} bis \ref{alg4:l12} gefüllt.
|
|
|
In \cref{alg4:l17} bis \ref{alg4:l19} wird die relative Häufigkeit der Wörter
|
|
|
bzgl. der Beschriftungen bestimmt. Daraus wird in \cref{alg4:l20} bis
|
|
|
\ref{alg4:l22} der Gini-Koeffizient berechnet. Schließlich werden in
|
|
|
-\cref{alg4:l23} bis \ref{alg4:l24} die Top-$q$ Wörter mit den höchsten Gini-
|
|
|
-Koeffizienten zurückgegeben.
|
|
|
+\cref{alg4:l23} bis \ref{alg4:l24} die Top-$q$ Wörter mit den
|
|
|
+höchsten Gini-Koeffizienten zurückgegeben.
|
|
|
|
|
|
\begin{algorithm}[ht]
|
|
|
\begin{algorithmic}[1]
|