Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/9710
Title: Ανάλυση συναισθημάτων σε δεδομένα από το twitter χρησιμοποιώντας εργαλεία της R και μοντέλα μηχανικής μάθησης
Other Titles: Twitter sentiment analysis using R and machine learning tools
Authors: Καρποδίνης, Κωνσταντίνος
Keywords: Ανάλυση δεδομένων
Ανάλυση συναισθημάτων
Κατηγοριοποίηση κειμένου
Μηχανική μάθηση
Keywords (translated): Twitter
Sentiment analysis
Text classification
RStudio
Machine learning
Abstract: Ο στόχος αυτής της διπλωματικής είναι η ταξινόμηση μικρών μηνυμάτων από το Twitter με γνώμονα το συναίσθημα τους, χρησιμοποιώντας τεχνικές εξόρυξης δεδομένων. Τα μηνύματα στο Twitter, ή αλλιώς tweets, όπως είναι ευρέως γνωστά, περιορίζονται στους 140 χαρακτήρες. Αυτός ο περιορισμός εισάγει μια επιπρόσθετη δυσκολία για τους ανθρώπους στο να εκφράσουν τα συναισθήματα τους και συνεπώς η ταξινόμηση αυτού του συναισθήματος σε θετικό ή αρνητικό θα είναι ακόμα πιο δύσκολη. Γνωστοί αλγόριθμοι επιβλεπόμενης μάθησης όπως ο SVM και ο Naive Bayes χρησιμοποιούνται για να δημιουργηθεί ένα μοντέλο πρόβλεψης. Πριν μπορέσει να δημιουργηθεί το μοντέλο πρόβλεψης, τα δεδομένα πρέπει να προ-επεξεργαστούν από απλό κείμενο σε ένα διάνυσμα συγκεκριμένου μεγέθους χαρακτηριστικών. Τα χαρακτηριστικά αποτελούνται από λέξεις με συναίσθημα και συχνά εμφανιζόμενες λέξεις οι οποίες είναι ικανές να προβλέψουν το γενικότερο συναίσθημα. Έπειτα, ο αλγόριθμος μάθησης εφαρμόζεται σε ένα σύνολο δεδομένων ελέγχου με σκοπό να γίνει αξιολόγηση του μοντέλου.
Abstract (translated): The main subject of this thesis is to classify small messages from Twitter (tweets), according to their sentiment, using data mining techniques. Twitter messages, or tweets, are limited to a maximum of 140 characters of text. This limitation makes it even harder for people to express their sentiments. Thus, the classification process becomes even more difficult. Known supervised learning algorithms such as SVM and Naive Bayes are used to create a prediction model. Before we start building this model, it is important to pre process the data from raw text to a feature vector. Those features consist usually of frequently used words, that are capable to predict the overall sentiment. Finally, the ML algorithm is tested over a specific data set in order to be evaluated.
Appears in Collections:Τμήμα Ηλεκτρολ. Μηχαν. και Τεχνολ. Υπολογ. (ΔΕ)

Files in This Item:
File Description SizeFormat 
Karpodinis(ele).pdf1.37 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.