Einleitung.tex 2.0 KB

123456789101112131415161718192021222324252627282930313233343536373839404142
  1. \subsection{Motivation}
  2. Teilweise gelabelte Netzwerke sind allgegenwärtig. Publikationsdatenbanken
  3. mit Publikationen als Knoten, Literaturverweisen und Zitaten als Kanten
  4. sowie Tags oder Kategorien als Labels;
  5. Wikipedia mit Artikeln als Knoten, Links als Kanten und Kategorien
  6. als Labels sowie soziale Netzwerke mit Eigenschaften der Benutzer
  7. als Labels sind drei Beispiele dafür.
  8. Häufig sind Labels nur teilweise vorhanden und es ist wünschenswert die
  9. fehlenden Labels zu ergänzen.
  10. \subsection{Problemstellung}
  11. Gegeben ist ein Graph, der teilweise gelabelt ist. Zustäzlich stehen
  12. zu einer Teilmenge der Knoten Texte bereit. Gesucht sind nun Labels
  13. für alle Knoten, die bisher noch nicht gelabelt sind.\\
  14. \begin{definition}[Knotenklassifierungsproblem]\label{def:Knotenklassifizierungsproblem}
  15. Sei $G_t = (V_t, E_t, V_{L,t})$ ein gerichteter Graph,
  16. wobei $V_t$ die Menge aller Knoten,
  17. $E_t$ die Kantenmenge und $V_{L,t} \subseteq V_t$ die Menge der
  18. gelabelten Knoten jeweils zum Zeitpunkt $t$ bezeichne.
  19. Außerdem sei $L_t$ die Menge aller zum Zeitpunkt $t$ vergebenen
  20. Labels und $f:V_{L,t} \rightarrow \powerset(L_t)$ die Funktion, die einen
  21. Knoten auf seine Labels abbildet.
  22. Weiter sei für jeden Knoten $v \in V$ eine (eventuell leere)
  23. Textmenge $T(v)$ gegeben.
  24. Gesucht sind nun Labels für $V_t \setminus V_{L,t}$, also
  25. $\tilde{f}: V_t \rightarrow L_t$ mit
  26. $\tilde{f}|_{V_{L,t}} = f$.
  27. \end{definition}
  28. \subsection{Herausforderungen}
  29. Die Graphen, für die dieser Algorithmus konzipiert wurde,
  30. sind viele $\num{10000}$~Knoten groß und dynamisch. Das bedeutet, es
  31. kommen neue Knoten und eventuell auch neue Kanten hinzu bzw. Kanten
  32. oder Knoten werden entfernt. Außerdem stehen textuelle Inhalte zu den
  33. Knoten bereit, die bei der Klassifikation genutzt werden können.
  34. Das bedeutet, es ist wünschenswert bei kleinen Modifikationen nicht
  35. nochmals alles neu berechnen zu müssen, sondern basierend auf zuvor
  36. berechneten Labels die Klassifizierung modifizieren zu können.