Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/12628
Title: Machine learning techniques for sentiment analysis and emotion recognition in natural language
Other Titles: Τεχνικές machine learning για αναγνώριση συναισθηματικού περιεχομένου προτάσεων φυσικής γλώσσας
Authors: Καρδάκης, Σπυρίδων
Keywords: Sentiment analysis
Emotion recognition
Machine learning
Ensemble learning
Deep learning
Hidden Markov models
Classification algorithms
Big data
Keywords (translated): Ανάλυση συναισθήματος
Μηχανική μάθηση
Βαθιά μάθηση
Μαρκοβιανά μοντέλα
Αλγόριθμοι κατηγοριοποίησης
Μεγάλα δεδομένα
Abstract: The field of Textual Sentiment Analysis has been met with increased interest by the research community in recent years due to the rise of social media and the Internet. The vast amount of opinion-heavy user-generated content that is available to us, whether that is a product/service review or an opinion on an event, shows that effective Sentiment Analysis is needed. However, automatic knowledge extraction about the opinion and emotional state of people can be a very challenging task. This thesis studies the fields of Machine Learning and Deep Learning in-depth, in order to perform Sentiment Analysis and by extension Emotion Recognition classification tasks. A novel Hidden Markov Model-based approach is proposed where a single model is trained for each class label with the help of clustering and a lexicon. Overall, the main goal is to present a variety of Machine Learning models, ranging from basic all the way to state-of-the-art approaches, and implement them in real-world datasets. Initially, the theory behind the aforementioned fields and the related literature is introduced. Then, we present the mathematical background of the proposed approaches as well as expand on their usage for text classification and its challenges. The task at hand is supervised text classification. Additionally, a survey of the available datasets in the Sentiment Analysis domain is performed and the field of Ensemble Learning is explored. Finally, we implement and evaluate the proposed models on benchmark datasets using k-fold cross-validation and come to conclusions regarding each algorithm’s ability to recognize peoples' opinions and emotions. From the experimental results it is observed that the proposed Hidden Markov Models and Deep Neural Networks with word embeddings achieve very high performance, proving that they are potent and suitable tools for Sentiment Analysis and classification tasks in general.
Abstract (translated): Το πεδίο της κειμενικής ανάλυσης συναισθήματος έχει συγκεντρώσει μεγάλο ενδιαφέρον από την ερευνητική κοινότητα τα τελευταία χρόνια λόγω της ανόδου των κοινωνικών μέσων και του Διαδικτύου. Ο τεράστιος όγκος περιεχομένου που δημιουργείται από χρήστες ο οποίος έχουμε στη διάθεση μας, είτε πρόκειται για μια κριτική προϊόντος/υπηρεσίας είτε για μια γνώμη πάνω σε ένα γεγονός, δείχνει ότι αποτελεσματική ανάλυση συναισθήματος είναι αναγκαία. Ωστόσο, η αυτόματη εξόρυξη γνώσης σχετικά με τη γνώμη και συναισθηματική κατάσταση ενός ανθρώπου αποτελεί ένα πολύ δύσκολο έργο. Η παρούσα διπλωματική εργασία πραγματεύεται σε βάθος τα πεδία του Machine Learning και του Deep Learning με σκοπό να διενεργήσουμε ανάλυση συναισθήματος μέσω κατηγοριοποίησης. Προτείνεται μια καινούργια προσέγγιση βασισμένη στα Hidden Markov Models, όπου ένα ατομικό μοντέλο εκπαιδεύεται για κάθε κλάση στα δεδομένα με την βοήθεια συσταδοποίησης και ενός λεξικού. Ο κύριος στόχος είναι να παρουσιαστεί μια ποικιλία μοντέλων Machine Learning, από απλοϊκά μέχρι μοντέλα που αποτελούν την τελευταία λέξη την τεχνολογίας (state-of-the-art), και στη συνέχεια να υλοποιηθούν σε πραγματικά σενάρια. Αρχικά, παρουσιάζεται η θεωρία πίσω από τους προαναφερθέντες τομείς και τη σχετική βιβλιογραφία. Στη συνέχεια, παρουσιάζουμε το μαθηματικό υπόβαθρο των προτεινόμενων προσεγγίσεων και επεκτείνουμε πάνω στην κειμενική κατηγοριοποίηση και τις προκλήσεις της. Το έργο που καλούμαστε να επιτελέσουμε είναι επιβλεπόμενη κατηγοριοποίηση. Επιπλέον, παρουσιάζεται μια έρευνα των διαθέσιμων datasets για ανάλυση συναισθήματος και το Ensemble Learning. Τέλος, υλοποιούνται και αξιολογούνται τα προτεινόμενα μοντέλα πάνω σε datasets με χρήση cross-validation και καταλήγουμε σε συμπεράσματα σχετικά με την ικανότητα κάθε αλγορίθμου να αναγνωρίζει τις απόψεις και τα συναισθήματα ατόμων. Από τα πειραματικά αποτελέσματα παρατηρείται ότι τα προτεινόμενα Hidden Markov Models και τα Deep Neural Networks με word embeddings επιτυγχάνουν πολύ υψηλές επιδόσεις, αποδεικνύοντας ότι είναι ισχυρά εργαλεία για ανάλυση συναισθήματος και κατηγοριοποίηση γενικότερα.
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΔΕ)

Files in This Item:
File Description SizeFormat 
Spyridon_Kardakis_Thesis.pdf3.27 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons