Einleitung.tex 2.0 KB

123456789101112131415161718192021222324252627282930313233343536373839404142
  1. \subsection{Motivation}
  2. Teilweise gelabelte Netzwerke sind allgegenwärtig. Publikationsdatenbanken
  3. mit Publikationen als Knoten, Literaturverweisen und Zitaten als Kanten
  4. sowie Tags oder Kategorien als Labels;
  5. Wikipedia mit Artikeln als Knoten, Links als Kanten und Kategorien
  6. als Labels sowie soziale Netzwerke mit Eigenschaften der Benutzer
  7. als Labels sind drei Beispiele dafür.
  8. Häufig sind Labels nur teilweise vorhanden und es ist wünschenswert die
  9. fehlenden Labels zu ergänzen.
  10. \subsection{Problemstellung}
  11. Gegeben ist ein Graph, der teilweise gelabelt ist. Zusätzlich stehen
  12. zu einer Teilmenge der Knoten Texte bereit. Gesucht sind nun Labels
  13. für alle Knoten, die bisher noch nicht gelabelt sind.\\
  14. \begin{definition}[Knotenklassifierungsproblem]\label{def:Knotenklassifizierungsproblem}
  15. Sei $G_t = (V_t, E_t, V_{L,t})$ ein gerichteter Graph,
  16. wobei $V_t$ die Menge aller Knoten,
  17. $E_t$ die Kantenmenge und $V_{L,t} \subseteq V_t$ die Menge der
  18. gelabelten Knoten jeweils zum Zeitpunkt $t$ bezeichne.
  19. Außerdem sei $L_t$ die Menge aller zum Zeitpunkt $t$ vergebenen
  20. Labels und $f:V_{L,t} \rightarrow L_t$ die Funktion, die einen
  21. Knoten auf sein Label abbildet.
  22. Weiter sei für jeden Knoten $v \in V$ eine (eventuell leere)
  23. Textmenge $T(v)$ gegeben.
  24. Gesucht sind nun Labels für $V_t \setminus V_{L,t}$, also
  25. $\tilde{f}: V_t \rightarrow L_t$ mit
  26. $\tilde{f}|_{V_{L,t}} = f$.
  27. \end{definition}
  28. \subsection{Herausforderungen}
  29. Die Graphen, für die dieser Algorithmus konzipiert wurde,
  30. sind viele $\num{10000}$~Knoten groß und dynamisch. Das bedeutet, es
  31. kommen neue Knoten und eventuell auch neue Kanten hinzu bzw. Kanten
  32. oder Knoten werden entfernt. Außerdem stehen textuelle Inhalte zu den
  33. Knoten bereit, die bei der Klassifikation genutzt werden können.
  34. Bei kleinen Modifikationen sollte nicht alles nochmals berechnen
  35. werden müssen, sondern basierend auf zuvor
  36. berechneten Labels sollte die Klassifizierung modifiziert werden.