12 yıl önce · 3c8ca52391
--- a/documents/DYCOS/Ausblick.tex
+++ b/documents/DYCOS/Ausblick.tex
@@ -3,9 +3,9 @@ vielen Punkten verbessern. So könnte man vor der Auswahl des
 
																 Vokabulars jedes Wort auf den Wortstamm zurückführen.
															
 
																 Dafür könnte zum Beispiel der in \cite{porter} vorgestellte 
															
 
																 Porter-Stemming-Algorithmus verwendet werden. Durch diese Maßnahme wird das
															
 
																-Vokabular kleiner gehalten, mehr Artikel können mit einander
															
 
																-durch Vokabular verbunden werden und der Gini-Koeffizient wird ein
															
 
																-besseres Maß für die Gleichheit von Texten.
															
 
																+Vokabular kleiner gehalten wodurch mehr Artikel mit einander
															
 
																+durch Vokabular verbunden werden können. Außerdem könnte so der 
															
 
																+Gini-Koeffizient ein besseres Maß für die Gleichheit von Texten werden.
															
 
																 Eine weitere Verbesserungsmöglichkeit besteht in der Textanalyse.
															
 
																 Momentan ist diese noch sehr einfach gestrickt und ignoriert die
															
--- a/documents/DYCOS/DYCOS.pdf
+++ b/documents/DYCOS/DYCOS.pdf
--- a/documents/DYCOS/README.md
+++ b/documents/DYCOS/README.md
@@ -10,3 +10,6 @@ TODO
 
																 * Abschnitt "Problemstellung" überarbeiten
															
 
																 * Abbildung verlinken
															
 
																 * Algorithmen erklären
															
 
																+* Warum sind Stellenangaben überflüssig?
															
 
																+* Map erklären
															
 
																+* Algorithmus 4, S. 9
															
--- a/documents/DYCOS/SchwaechenVerbesserungen.tex
+++ b/documents/DYCOS/SchwaechenVerbesserungen.tex
@@ -2,10 +2,9 @@ Der in \cite{aggarwal2011} vorgestellte Algorithmus hat einige Probleme,
 
																 die im Folgenden erläutert werden. Außerdem werden Verbesserungen
															
 
																 vorgeschlagen, die es allerdings noch zu untersuchen gilt.
															
 
																-\subsection{Schwächen von DYCOS}
															
 
																-\subsubsection{Anzahl der Labels}
															
 
																+\subsection{Anzahl der Labels}
															
 
																 So, wie der DYCOS-Algorithmus vorgestellt wurde, können nur Graphen bearbeitet werden, 
															
 
																-deren Knoten höchstens ein Label haben. In vielen Fällen, wie z.~B. 
															
 
																+deren Knoten jeweils höchstens ein Label haben. In vielen Fällen, wie z.~B. 
															
 
																 Wikipedia mit Kategorien als Labels haben Knoten jedoch viele Labels.
															
 
																 Auf einen ersten Blick ist diese Schwäche einfach zu beheben, indem 
															
@@ -22,7 +21,7 @@ sowohl für diese Kategorie als auch für die Kategorie \enquote{Klassifikation}
 
																 zählen.
															
 
																-\subsubsection{Überanpassung und Reklassifizierung}
															
 
																+\subsection{Überanpassung und Reklassifizierung}
															
 
																 Aggarwal und Li beschreiben in \cite{aggarwal2011} nicht, auf welche
															
 
																 Knoten der Klassifizierungsalgorithmus angewendet werden soll. Jedoch
															
 
																 ist die Reihenfolge der Klassifizierung relevant. Dazu folgendes 
															
@@ -71,7 +70,7 @@ Knoten einfügt:
 
																 Wird zum Zeitpunkt $t=4$ ein ungelabelter Knoten $v_4$ und die Kanten
															
 
																 $(v_1, v_4)$, $(v_2, v_4)$, $(v_3, v_4)$ hinzugefügt, so ist die 
															
 
																 Wahrscheinlichkeit, dass $v_4$ mit $A$ gelabelt wird bei $\frac{2}{3}$.
															
 
																-Werden die als ungelabelten Knoten jedoch erst jetzt und alle gemeinsam
															
 
																+Werden die ungelabelten Knoten jedoch erst jetzt und alle gemeinsam
															
 
																 gelabelt, so ist die Wahrscheinlichkeit für $A$ als Label bei nur $50\%$.
															
 
																 Bei dem DYCOS-Algorithmus findet also eine Überanpassung an vergangene
															
 
																 Labels statt.
															
@@ -81,28 +80,4 @@ Problem sein. Knoten, die durch den DYCOS-Algorithmus gelabelt wurden
 
																 könnten eine Lebenszeit bekommen (TTL, Time to Live). Ist diese 
															
 
																 abgelaufen, wird der DYCOS-Algorithmus erneut auf den Knoten angewendet.
															
 
																-\subsection{Schwächen des Papers}
															
 
																-In \cite{aggarwal2011} wurde eine experimentelle Analyse mithilfe 
															
 
																-des DBLP-Datensatzes\footnote{http://dblp.uni-trier.de/} und des
															
 
																-CORA-Datensatzes\footnote{\href{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}} durchgeführt.
															
 
																-Die Ergebnisse dieser Analyse können aus folgenden Gründen
															
 
																-nicht überprüft werden:
															
 
																-\begin{itemize}
															
 
																-    \item Der Parameter $a \in \mathbb{N}$, der die Anzahl der ausgehenden Kanten
															
 
																-          aller Wortknoten beschränkt, wird erst mit der Experimentellen
															
 
																-          Analyse auf S.~362 eingeführt.
															
 
																-          Es ist nicht klar, wie entschieden wird welche Kanten
															
 
																-          gespeichert werden und welche nicht.
															
 
																-    \item Für die Analyse der CORA-Datensatzes analysiert.
															
 
																-          Dieser beinhaltet Forschungsarbeiten, wobei die 
															
 
																-          Forschungsgebiete die in einen Baum mit 73 Blättern 
															
 
																-          eingeordnet wurden. Aus diesen 73 Blättern wurden 5 Klassen
															
 
																-          extrahiert und der Graph, der keine Zeitpunkte beinhaltet,
															
 
																-          künstlich in 10 Graphen mit Zeitpunkten unterteilt. Wie
															
 
																-          jedoch diese Unterteilung genau durchgeführt wurde kann nicht
															
 
																-          nachvollzogen werden.
															
 
																-    \item Der auf S. 360 in \enquote{Algorithm 1} vorgestellte
															
 
																-          Pseudocode soll den DYCOS-Algorithmus darstellen. Allerdings
															
 
																-          werden die bereits klassifizierten Knoten $\T_t$ neu klassifiziert
															
 
																-          und mit $\theta$ die Klassifikationsgüte gemessen.
															
 
																-\end{itemize}
															
 
																+
															
--- a/documents/DYCOS/Sprungtypen.tex
+++ b/documents/DYCOS/Sprungtypen.tex
@@ -54,14 +54,16 @@ die Anzahl der möglichen Zielknoten $v' \in V_T$ auf diejenigen
 
																 $q$ Knoten, die $v$ bzgl. der Textanalyse am ähnlichsten sind.
															
 
																 In \cref{alg:l2} bis \cref{alg:l5} wird \cref{step:c1} durchgeführt.
															
 
																+
															
 
																 In \cref{alg:l6} wird \cref{step:c2} durchgeführt. Bei der
															
 
																-Wahl der Datenstruktur $M_H$ ist zu beachten, dass man in
															
 
																-\cref{alg:21} über Indizes auf Elemente aus $M_H$ zugreifen können muss.
															
 
																+Wahl der Datenstruktur von $T$ ist zu beachten, dass man in
															
 
																+\cref{alg:21} über Indizes auf Elemente aus $T$ zugreifen können muss.
															
 
																 In \cref{alg:l8} bis \cref{alg:l13} wird ein Wörterbuch erstellt,
															
 
																 das von $v' \in T(v)$ auf die relative
															
 
																 Häufigkeit bzgl. aller Pfade von $v$ zu Knoten aus den Top-$q$ abbildet.
															
 
																+In allen folgenden Zeilen wird \cref{step:c3} durchgeführt. 
															
 
																 In \cref{alg:15} bis \cref{alg:22} wird ein Knoten $v' \in T(v)$ mit
															
 
																 einer Wahrscheinlichkeit, die seiner relativen Häufigkeit am Anteil
															
 
																 der Pfaden der Länge 2 von $v$ nach $v'$ über einen beliebigen 
															
@@ -78,14 +80,14 @@ Wortknoten entspricht ausgewählt und schließlich zurückgegeben.
 
																                     \State $reachableNodes[x] \gets reachableNodes[x] + 1$
															
 
																                 \EndFor
															
 
																             \EndFor\label{alg:l5}
															
 
																-            \State \label{alg:l6} $M_H \gets \Call{max}{reachableNodes, q}$ \Comment{Also: $|M_H| = q$, falls $|reachableNodes|\geq q$}
															
 
																+            \State \label{alg:l6} $T \gets \Call{max}{reachableNodes, q}$ \Comment{Also: $|T| = q$, falls $|reachableNodes|\geq q$}
															
 
																             \\
															
 
																             \State \label{alg:l8} $s \gets 0$
															
 
																-            \ForAll{Knoten $x$ in $M_H$}
															
 
																+            \ForAll{Knoten $x \in T$}
															
 
																                 \State $s \gets s + reachableNodes[x]$
															
 
																             \EndFor
															
 
																             \State $relativeFrequency \gets $ Dictionary
															
 
																-            \ForAll{Knoten $x$ in $M_H$}
															
 
																+            \ForAll{Knoten $x \in T$}
															
 
																                 \State $relativeFrequency \gets \frac{reachableNodes[x]}{s}$
															
 
																             \EndFor\label{alg:l13} 
															
 
																             \\
															
@@ -97,7 +99,7 @@ Wortknoten entspricht ausgewählt und schließlich zurückgegeben.
 
																                 \State $i \gets i + 1$
															
 
																             \EndWhile
															
 
																-            \State $v \gets M_H[i-1]$ \label{alg:21}
															
 
																+            \State $v \gets T[i-1]$ \label{alg:21}
															
 
																             \State \Return $v$ \label{alg:22} 
															
 
																         \EndProcedure
															
 
																     \end{algorithmic}
															
--- a/documents/DYCOS/Vokabularbestimmung.tex
+++ b/documents/DYCOS/Vokabularbestimmung.tex
@@ -62,7 +62,11 @@ von Mengen $M,N$ in $\mathcal{O}(\min{|M|, |N|})$ sein muss.
 
																             \ForAll{Label $i \in \L_t$}
															
 
																                 \State $p[i] \gets \frac{cLabelWords[i][w]}{cLabelWords[i][|\L_t|]}$
															
 
																             \EndFor
															
 
																-            \State $w$.gini $\gets$ \Call{sum}{{\sc map}({\sc square}, $p$)}
															
 
																+
															
 
																+            \State $w$.gini $\gets 0$
															
 
																+            \ForAll{$i \in 1, \dots, |\L_t|$}
															
 
																+                \State $w$.gini $\gets$ $w$.gini + $p[i]^2$
															
 
																+            \EndFor
															
 
																         \EndFor
															
 
																         \State $\M_t \gets \Call{SortDescendingByGini}{\M_t}$
															
@@ -72,6 +76,6 @@ von Mengen $M,N$ in $\mathcal{O}(\min{|M|, |N|})$ sein muss.
 
																 \label{alg:vokabularbestimmung}
															
 
																 \end{algorithm}
															
 
																-Die Menge $S_t$ kann durch Aus der Menge aller Dokumenten, deren 
															
 
																-Knoten gelabelt sind, mithilfe des in \cite{Vitter} vorgestellten
															
 
																+Die Menge $S_t$ kann aus der Menge aller Dokumente, deren 
															
 
																+Knoten beschriftet sind, mithilfe des in \cite{Vitter} vorgestellten
															
 
																 Algorithmus bestimmt werden.
															
--- a/documents/DYCOS/schwaechenPaper.tex
+++ b/documents/DYCOS/schwaechenPaper.tex
@@ -0,0 +1,25 @@
 
																+\subsection{Schwächen des Papers}
															
 
																+In \cite{aggarwal2011} wurde eine experimentelle Analyse mithilfe 
															
 
																+des DBLP-Datensatzes\footnote{http://dblp.uni-trier.de/} und des
															
 
																+CORA-Datensatzes\footnote{\href{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}} durchgeführt.
															
 
																+Die Ergebnisse dieser Analyse können aus folgenden Gründen
															
 
																+nicht überprüft werden:
															
 
																+\begin{itemize}
															
 
																+    \item Der Parameter $a \in \mathbb{N}$, der die Anzahl der ausgehenden Kanten
															
 
																+          aller Wortknoten beschränkt, wird erst mit der Experimentellen
															
 
																+          Analyse auf S.~362 eingeführt.
															
 
																+          Es ist nicht klar, wie entschieden wird welche Kanten
															
 
																+          gespeichert werden und welche nicht.
															
 
																+    \item Für die Analyse der CORA-Datensatzes analysiert.
															
 
																+          Dieser beinhaltet Forschungsarbeiten, wobei die 
															
 
																+          Forschungsgebiete die in einen Baum mit 73 Blättern 
															
 
																+          eingeordnet wurden. Aus diesen 73 Blättern wurden 5 Klassen
															
 
																+          extrahiert und der Graph, der keine Zeitpunkte beinhaltet,
															
 
																+          künstlich in 10 Graphen mit Zeitpunkten unterteilt. Wie
															
 
																+          jedoch diese Unterteilung genau durchgeführt wurde kann nicht
															
 
																+          nachvollzogen werden.
															
 
																+    \item Der auf S. 360 in \enquote{Algorithm 1} vorgestellte
															
 
																+          Pseudocode soll den DYCOS-Algorithmus darstellen. Allerdings
															
 
																+          werden die bereits klassifizierten Knoten $\T_t$ neu klassifiziert
															
 
																+          und mit $\theta$ die Klassifikationsgüte gemessen.
															
 
																+\end{itemize}