Please use this identifier to cite or link to this item:
Title: Υλοποίηση συμβούλου αγοράς κινητού τηλεφώνου με χρήση machine learning και sentiment analysis
Other Titles: Implementation of a mobile phone buying consultant using machine learning and sentiment analysis
Authors: Κουλούρης, Γρηγόριος
Keywords: Μηχανική μάθηση
Ανάλυση συναισθήματος
Εξόρυξη δεδομένων
Keywords (translated): Machine learning
Sentiment analysis
Data mining
Abstract: Το αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ταξινόμηση σχολίων που αναφέρονται σε κινητά τηλέφωνα με γνώμονα το συναίσθημα που εκφέρει ο συγγραφέας του σχολίου, χρησιμοποιώντας τεχνικές εξόρυξης δεδομένων και μηχανικής μάθησης. Τελικός σκοπός είναι η δημιουργία μιας εφαρμογής η οποία θα λειτουργεί σαν σύμβουλος αγοράς στην οποία ο χρήστης θα μπορεί να δει μια κατάταξη των κινητών τηλεφώνων βασισμένη στα σχόλια χρηστών του διαδικτύου. Η ταξινόμηση του συναισθήματος γίνεται σε τρείς κατηγορίες, ουδέτερο, θετικό και αρνητικό και εφαρμόζεται πάνω σε ένα σύνολο από περίπου 3.500.000 σχόλια. Πραγματοποιείται εξόρυξη των χαρακτηριστικών και των σχολίων κάθε κινητού και αποθήκευση των δεδομένων αυτών σε μία NoSQL βάση δεδομένων (MongoDB). Στην συνέχεια τα δεδομένα περνάνε από την φάση της προεπεξεργασίας κατά την οποία οι λέξεις αποκτούν σημασιολογικά βάρη και στην συνέχεια εξετάζονται τρείς αλγόριθμοι επιβλεπόμενης μάθησης. Οι αλγόριθμοι αυτοί είναι ο Logistic Regression, ο Random Forest Classifier και ο Multilayer Perceptron. Η παραπάνω διαδικασία πραγματοποιείται στο σύστημα Apache Spark για την ευκολότερη και γρηγορότερη διαχείριση του μεγάλου όγκου από δεδομένα. Τέλος δημιουργήθηκε μία διεπαφή χρήστη σε μορφή ιστοσελίδας όπου παρουσιάζονται ταξινομημένα τα κινητά με βάση μια βαθμολογία η οποία έχει προκύψει από την ταξινόμηση των σχολίων του κάθε κινητού. Η εργασία καταλήγει στο συμπέρασμα πως ο αλγόριθμος επιβλεπόμενης μάθησης Logistic Regression μαζί με την μέθοδο εξόρυξης χαρακτηριστικών TF-IDF εφαρμόζουν σε πολύ καλό βαθμό στο πρόβλημα της ταξινόμησης των σχολίων με ποσοστό ευστοχίας κοντά στο 75%.
Abstract (translated): The purpose of this thesis is to classify commentsreferring to cellphones based on the sentiment expressed by the author of the comment, using data mining and machine learning techniques. The end goal is the creation of a user’s interface where the phones are ranked based on the reviews of other users on them. Emotion is classified into three categories, neutral, positive and negative, and applies to a total of approximately 3.500.000 comments. The features and comments of each mobile are extracted and stored in a NoSQL (MongoDB) database. The data then go through the preprocessing phase in which the words acquire semantic weights, and then three supervised learning algorithms are examined. These algorithms are the Logistic Regression algorithm, the Random Forest Classifier algorithm and the Multilayer Perceptron algorithm. The aforementioned process is implemented in the Apache Spark framework for easier and faster handling of large volumes of data. Finally, a user interface was created in the form of a web page where mobile phones were ranked based on a rating that resulted from the ranking of each mobile phone's comments. The thesis concludes that the Logistic Regression supervised learning algorithm along with the TF-IDF feature extraction method apply very well to the classification problem of the comments with a relevance of near 75%.
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΔΕ)

Files in This Item:
File Description SizeFormat 
koulouris_thesis[6092].pdf3.14 MBAdobe PDFView/Open

This item is licensed under a Creative Commons License Creative Commons