Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/6386
Title: Τεχνικές για την εξαγωγή γνώσης από την πλατφόρμα του Twitter
Authors: Δήμας, Αναστάσιος
Issue Date: 2013-10-12
Keywords: Εντοπισμός συναισθήματος
Keywords (translated): Sentiment analysis
Twitter
Character n-grams
Abstract: Η χρήση του Twitter από ολοένα και περισσότερους ανθρώπους έχει ως συνέπεια την παραγωγή μεγάλου όγκου «υποκειμενικών» δεδομένων. Η ανάγκη για εξεύρεση τυχόν πολύτιμης κρυμμένης πληροφορίας σε αυτά τα δεδομένα, έδωσε ώθηση στην ανάπτυξη ενός νέου πεδίου έρευνας, του Sentiment Analysis, που έχει ως αντικείμενο τον εντοπισμό του συναισθήματος ενός χρήστη (ή μιας ομάδας χρηστών) ως προς κάποιο θέμα. Οι παραδοσιακοί αλγόριθμοι και μέθοδοι εντοπισμού συναισθήματος στηρίζονται στην λεκτική ανάλυση φράσεων ή προτάσεων σε «επίσημα» κείμενα και καλούνται word based approaches. Ωστόσο, το μικρό μέγεθος των κειμένων του Twitter, σε συνδυασμό με την χαλαρότητα της χρησιμοποιούμενης γλώσσας (από πλευράς χρηστών), δεν επιτρέπει την αποτελεσματική χρήση αυτών των τεχνικών. Για τον λόγο αυτό, προτιμάται η χρήση τεχνικών που βασίζονται σε χαρακτήρες (αντί για λέξεις) και καλούνται character based approaches. Στόχος της διπλωματικής εργασίας είναι η εφαρμογή της character based μεθόδου στην ανάλυση tweets πολιτικού περιεχομένου. Συγκεκριμένα, χρησιμοποιήθηκαν δεδομένα από την πολιτική σκηνή των Η.Π.Α., με σκοπό να εντοπιστεί η προτίμηση ενός χρήστη ως προς το Ρεπουμπλικανικό ή το Δημοκρατικό κόμμα μέσω σχετικών tweets. Για την ανάλυση χρησιμοποιήθηκε επιβλεπόμενη μάθηση με την βοήθεια του Naive Bayes ταξινομητή. Αρχικά, συλλέχθηκε ένα σύνολο από 7904 tweets, προερχόμενα από τους επίσημους λογαριασμούς Twitter 48 γερουσιαστών. Το σύνολο αυτό χωρίσθηκε σε δυο επιμέρους σύνολα, το σύνολο εκπαίδευσης και το σύνολο ελέγχου, ελέγχοντας για κάθε μια από τις δυο μεθόδους ανάλυσης (την word based και character based μέθοδο) την ακρίβεια της ταξινόμησης. Από τα πειράματα πρόεκυψε πως η character based μέθοδος ταξινομεί τα tweets με μεγαλύτερη ακρίβεια. Στην συνέχεια συλλέξαμε δυο νέα σύνολα έλεγχου, ένα από τον επίσημο λογαριασμό Twitter του Ρεπουμπλικανικού κόμματος και ένα από τον επίσημο λογαριασμό Twitter του Δημοκρατικού κόμματος. Αυτή την φορά, ως σύνολο εκπαίδευσης χρησιμοποιήθηκε ολόκληρο το αρχικό σύνολο από τα tweets των γερουσιαστών και ελέγχθηκε η ακρίβεια ταξινόμησης για την character based μέθοδο στα δυο νέα σύνολα ελέγχου. Αν και στην περίπτωση του Democratic Twitter account τα αποτελέσματα μπορούν να χαρακτηριστούν ως «ικανοποιητικά», μιας και η ακρίβεια της ταξινόμησης πλησίασε το 80%, για την περίπτωση του Republican Twitter account κάτι τέτοιο δεν ισχύει. Για το λόγο αυτό, προχωρήσαμε σε μια πιο διεξοδική μελέτη της δομής και του περιεχομένου αυτών tweets. Από την ανάλυση προέκυψαν ορισμένα ενδιαφέροντα αποτελέσματα για την προέλευση των χαμηλών ποσοστών στην ακρίβεια ταξινόμησης. Συγκεκριμένα, πρόεκυψε πως στην πλειοψηφία των tweets που έγιναν από τους Ρεπουμπλικάνους γερουσιαστές, δεν περιέχονταν κάποια προσωπική τους άποψη. Ήταν απλά μια αναφορά σε κάποιο άρθρο ή video που είδαν στον διαδίκτυο. Άρα, η πλειοψηφία των tweets αυτών περιέχουν «αντικειμενική» αντί για «υποκειμενική» πληροφορία. Συνεπώς, δεν είναι δυνατόν να εξαχθούν τα χαρακτηριστικά εκείνα που θα βοηθήσουν στον εντοπισμό της πολικότητας των χρηστών.
Abstract (translated): As more people enter the “social web”, social media platforms are becoming an increasingly valuable source of subjective information. The large volume of social media content available requires automatic techniques in order to process and extract any valuable information. This need recently gave rise to the field of Sentiment Analysis, also known as Opinion Mining. The goal of sentiment analysis is to identify the position of a user (or a group of users – a crowd), with respect to a particular issue or topic. Existing sentiment analysis systems aim at extracting patterns mainly from formal documents with respect to a particular language (most techniques concern English). They either search for discriminative series of words or use dictionaries that assess the meaning and sentiment of specific words and phrases. The limited size of Twitter posts in conjunction with the non-standard vocabulary and shortened words (used by its users) inserts a great deal of noise, making word based approaches ineffective. For all of the above reasons, a new approach was recommended in the literature. This new approach is not based on the study of words but rather on the study of consecutive character sequences (namely character-based approaches). In this work, we demonstrate the superiority of the character based approach over the word based one in determining political sentiment. We argue that this approach can be used in order to efficiently determine the political preference (e.g. Republican or Democrat) of voters or to identify the importance that particular issues have on particular voters. This type of feedback can be useful in the organization of political campaigns or policies. We created a corpus consisting of 7904 tweets, collected from the Twitter accounts of 48 U.S. senators. This corpus was then separated into two sets, the training set and the test set, in order to measure for each method (word and character based) the accuracy of the classification. From the experiments it was found that the character based method classified the tweets with greater accuracy. In the next test, we used two new test sets, one from the official Twitter account of the Republican Party and one from the official Twitter account of the Democratic Party. The main difference, with respect to the previous test, was the use of the total set of tweets collected from the senators’ Twitter accounts as a training set and the use of the tweets from the official Twitter accounts of each party as a test set. Even though from the official Democrat Twitter account, 80% of the tweets were correctly classified as Democrat, for the official Republican Twitter account this is not the case (56.7% accuracy). This was found to be partly because the majority of the Republican account tweets were references to online articles or videos and not the personal opinions or views of the users. In other words, such tweets cannot be characterized as personal (subjective), in order to classify the respective user as leaning towards one party or the other, but rather should be considered as objective.
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΔΕ)

Files in This Item:
File Description SizeFormat 
Diploma_Thesis.pdf855.77 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.