Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/14947
Title: Ανάλυση δεδομένων στα κοινωνικά δίκτυα : μελέτη περίπτωσης στις συζητήσεις φόρουμ ενός MOOC
Other Titles: Data analysis in social networks : case study of a MOOC discussion forum
Authors: Μυρίλλα, Ειρήνη
Keywords: Ανάλυση δεδομένων
Μηχανική μάθηση
Μοντελοποίηση θεμάτων
Επεξεργασία φυσικής γλώσσας
Keywords (translated): Data analysis
Machine learning
Topic modeling
Natural language processing
MOOC
Abstract: Η παρούσα εργασία έχει ως στόχο τη μελέτη των φόρουμ συζητήσεων των Μαζικών Ανοικτών Διαδικτυακών Μαθημάτων (MOOCs), με σκοπό να ενισχύσει την προσπάθεια δημιουργίας ενός εργαλείου αποδοτικότερης περιήγησης σε αυτά. Πιο συγκεκριμένα, με την χρήση τεχνικών μοντελοποίησης θεμάτων επιχειρείται η εξαγωγή των θεμάτων των συζητήσεων και η αυτόματη εκχώρηση ενός τίτλου σε αυτά, ο οποίος αντιστοιχεί σε κάποιο κεφάλαιο της ύλης του μαθήματος. Μελετώνται τρεις αλγόριθμοι μοντελοποίησης θεμάτων, οι LDA, GuidedLDA και anchored CorEx και διαπιστώνεται ότι ο τελευταίος δίνει τα καλύτερα αποτελέσματα για την επίτευξη του στόχου. Επιπλεόν, ερευνάται η κατασκευή ενός αποτελεσματικού κριτηρίου απόφασης, το οποίο θα αποδίδει μοναδικό τίτλο – θέμα στις δημοσιεύσεις, για τις οποίες ο παραπάνω αλγόριθμος δεν μπορεί να πάρει απόφαση. Για τον σκοπό αυτό, χρησιμοποιείται, αρχικά, η έννοια της σημασιολογικής ομοιότητας των δημοσιεύσεων με τα εξαγόμενα θέματα και στη συνέχεια, μελετάται η προσέγγιση του προβλήματος με αλγορίθμους μηχανικής μάθησης με επίβλεψη, συνδυαστικά με τα αποτελέσματα της μοντελοποίησης θεμάτων. Η μελέτη αυτή, έδειξε ότι η χρήση του αλγορίθμου Linear Support Vector Classifier (LSVC), σε συνδυασμό με τα προηγούμενα αποτελέσματα, βελτιώνει την ακρίβειά του. Τέλος, επιχειρείται η μελέτη του φόρουμ ενός, διαφορετικού αντικειμένου μελέτης, MOOC, και διαπιστώνεται ότι ο αλγόριθμος anchored CorEx δίνει σημαντικά καλύτερα αποτελέσματα σε αυτό, ενώ δεν μπορεί να εφαρμοστεί μηχανική μάθηση με επίβλεψη, παρά μόνο κάποιο κριτήριο, το οποίο θα προκύπτει από γνώση του αντικειμένου μελέτης, για την απόδοση τίτλων στις δημοσιεύσεις με ισοπίθανα θέματα.
Abstract (translated): The primary objective of this thesis is the study of discussions in Massive Open Online Courses (MOOCs) forums, in order to contribute to the greater purpose of creating a tool for better browsing of these forums. Topic modeling techniques are used to extract topics from the discussion forum of a MOOC. The extracted topics are then automatically labeled based on MOOC content. Three topic modeling algorithms were tested; LDA, GuidedLDA and anchored CorEx, and the outcome showed that the latter produces significantly better results. The fact, though, that with anchored CorEx, a document can belong to all topics or no topic at all, raised the need for an effective decision criterion, to attribute unique titles – topics, to those posts that the above algorithm cannot make a certain decision about. For this criterion, in a first approach, semantic similarity scores, between posts and extracted topics, were used. In a second approach, supervised machine learning algorithms were deployed, with input features, the TfidfVectorizer count matrix derived from the posts in combination with CorEx probabilities and semantic similarity scores. The results indicated that these last two extra features improved Linear Support Vector Classifier (LSVC) accuracy over time. Finally, the study focuses on a different MOOC, to find out whether subject matter affects the behavior of the above techniques and algorithms. The findings showed that, in this case, anchored CorEx presents better results, while supervised machine learning algorithms cannot be used. Thus, attributing unique titles to posts with equal CorEx probabilities, solely relies on building an efficient heuristic decision criterion.
Appears in Collections:Τμήμα Ηλεκτρολ. Μηχαν. και Τεχνολ. Υπολογ. (ΔΕ)

Files in This Item:
File Description SizeFormat 
thesis_eirini_mirilla_MOOC.pdf1.82 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.