| 123456789101112131415161718192021222324 |
- %!TEX root = Ausarbeitung-Thoma.tex
- Sowohl das Problem der Knotenklassifikation, als auch das der Textklassifikation,
- wurde bereits in verschiedenen Kontexten. Jedoch scheien bisher entweder nur die Struktur des zugrundeliegenden Graphen oder nur Eigenschaften der Texte verwendet worden zu sein.
- So werden in \cite{bhagat,szummer} unter anderem Verfahren zur Knotenklassifikation
- beschrieben, die wie der in \cite{aggarwal2011} vorgestellte DYCOS-Algorithmus,
- um den es in dieser Ausarbeitung geht, auch auf Random Walks basieren.
- Obwohl es auch zur Textklassifikation einige Paper gibt \cite{Zhu02learningfrom,Jiang2010302}, geht doch keines davon auf den Spezialfall der Textklassifikation
- mit einem zugrundeliegenden Graphen ein.
- Die vorgestellten Methoden zur Textklassifikation variieren außerdem sehr stark.
- Es gibt Verfahren, die auf dem bag-of-words-Modell basieren \cite{Ko:2012:STW:2348283.2348453}
- wie es auch im DYCOS-Algorithmus verwendet wird. Aber es gibt auch Verfahren,
- die auf dem Expectation-Maximization-Algorithmus basieren \cite{Nigam99textclassification}
- oder Support Vector Machines nutzen \cite{Joachims98textcategorization}.
- Es wäre also gut Vorstellbar, die Art und Weise wie die Texte in die Klassifikation
- des DYCOS-Algorithmus einfließen zu variieren. Allerdings ist dabei darauf hinzuweisen,
- dass die im Folgeden vorgestellte Verwendung der Texte sowohl einfach zu implementieren
- ist und nur lineare Vorverarbeitungszeit in Anzahl der Wörter des Textes hat,
- als auch es erlaubt einzelne
- Knoten zu klassifizieren, wobei der Graph nur lokal um den zu klassifizerenden
- Knoten betrachten werden muss.
|