Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/10365
Title: Sentiment analysis on streams of twitter data
Other Titles: Ανάλυση συναισθήματος σε δεδομένα του κοινωνικού δικτύου Twitter
Authors: Μπαλτάς, Αλέξανδρος
Keywords: Sentiment analysis
Apache Spark
Big data
Machine learning
Supervised learning
Twitter
Keywords (translated): Ανάλυση συναισθήματος
Μηχανική μάθηση
Ταξινόμηση
Εποπτευόμενη μάθηση
Abstract: Sentiment Analysis on Twitter Data is a challenging problem due to the nature, diversity and volume of the data. In this work we implement a system on Apache Spark, an open-source framework for programming with Big Data. The sentiment analysis tool is based on Machine Learning methodologies and Natural Language Processing techniques and utilises Apache Spark’s Machine learning library, MLlib. In order to address the nature of Big Data we introduce some preprocess- ing steps of the input for achieving better results in Sentiment Analysis. The classification algorithms are used for both binary and ternary classification, and we examine the effect of the dataset size as well as the features of the input on the quality of results.
Abstract (translated): Το πρόβλημα της Ανάλυσης Συναισθήματος σε δεδομένα του Twitter περιλαμβάνει πολλές προκλήσεις λόγω της φύσης, της ποικιλίας και του όγκου των δεδομένων που χρειάζεται να αναλυθούν. Στα πλαίσια αυτής της εργασίας κατασκευάζεται ένα σύσ τημα βασισμένο σ το Apache Spark, ένα λογισμικό ανοιχτού κώδικα που επιτρέπει τον προγραμματισμό συσ τημάτων που απαρτίζονται από συσ τάδες υπολογιστών. Το εργαλείο που υλοποιείται χρησιμοποιεί τεχνικές εποπτευόμενης μηχανικής μάθησης καθώς και τεχνικές επεξεργασίας φυσικής γλώσσας και χρησιμοποιεί τη βιβλιοθήκη μηχανικής μάθησης του Apache Spark MLlib. Πειράματα έγιναν για την ταξινόμηση μηνυμάτων ως προς το συναίσθημα σε 2 και σε 3 κατηγορίες. Το μέγεθος του σετ δεδομένων εκπαίδευσης, καθώς και τα χαρακτηριστικά που εξάγονται από τα κείμενα προκειμένου να χρησιμοποιηθούν ως είσοδος του ταξινομητή εξετάζονται ως προς την επίδραση τους στην ποιότητα των αποτελεσμάτων.
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΜΔΕ)

Files in This Item:
File Description SizeFormat 
ety_albaltas.pdf2.33 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons