Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/14893
Title: Αναγνώριση συναισθήματος από ομιλία με χρήση συνελικτικού νευρωνικού δικτύου και μηχανισμού προσοχής
Other Titles: Speech emotion recognition using convolutional neural network and attention mechanism
Authors: Μουντζούρης, Κωνσταντίνος
Keywords: Βαθιά μάθηση
Μηχανική μάθηση
Αναγνώριση συναισθήματος από ομιλία
Ανάλυση συναισθήματος
Δίκτυα πεποίθησης μεγάλου βάθους
Βαθιά νευρωνικά δίκτυα
Συνελικτικά νευρωνικά δίκτυα
Νευρώνες μακράς-βραχείας μνήμης
Μηχανισμός προσοχής
Keywords (translated): Deep learning
Machine learning
Speech emotion recognition
Sentiment analysis
Deep belief networks
Deep neural networks
Convolutional neural networks
LSTM
Attention mechanism
Abstract: Η διπλωματική αυτή εργασία ασχολείται με θέματα βαθιάς μάθησης. Πιο συγκεκριμένα, ασχολείται με την αναγνώριση συναισθήματος από την ομιλία μέσω της υλοποίησης Βαθύ Συνελικτικού Νευρωνικού Δικτύου. Αρχικά, ξεκινάμε παρουσιάζοντας βασικές τεχνικές της βαθιάς μάθησης, όπως τα Δίκτυα Πεποίθησης Μεγάλου Βάθους (Deep Belief Networks) που αποτελούν επέκταση της Περιορισμένης Μηχανής Boltzmann ((Restricted Boltzmann Machine - RBM)), τα Αναδρομικά Νευρωνικά Δίκτυα (Recurrent Neural Networks) που προέρχονται από τα Νευρωνικά Δίκτυα Εμπρόσθιας τροφοδότησης (Feedforward Neural Networks), τα Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks) που βασίζονται επίσης στα Νευρωνικά Δίκτυα Εμπρόσθιας τροφοδότησης (Feedforward Neural Networks), καθώς και τους Αυτόματους Κωδικοποιητές (Auto Encoders). Στη συνέχεια, παρουσιάζουμε τις κατηγορίες των Συναισθηματικών Μοντέλων, οι οποίες διακρίνονται στο Κατηγορηματικό μοντέλο, στο μοντέλο του Τροχού και στο μοντέλο των Διαστάσεων (Valence-Arousal-Dominance Model), για το οποίο ως διαστάσεις θεωρούνται το Σθένος (που ερμηνεύεται ως ευχαρίστηση-δυσαρέσκεια ενός συναισθήματος), ο βαθμός Διέγερσης και η Κυριαρχία-Υποτακτικότητα του εκφραζόμενου συναισθήματος. Ύστερα, αναφέρουμε κάποιες ευρέως χρησιμοποιούμενες Βάσεις Δεδομένων οι οποίες χρησιμοποιούν κάποια από τα παραπάνω μοντέλα Συναισθημάτων. Στο κεντρικό κομμάτι της διπλωματικής δίνουμε έμφαση στα Συνελικτικά Νευρωνικά Δίκτυα για την αναγνώριση συναισθήματος από την ομιλία. Για την ανάδειξη της συνεισφοράς τους στην αναγνώριση συναισθήματος παρουσιάζονται 6 διαφορετικές τεχνικές βαθιάς μάθησης, μία υλοποίηση Δικτύου Πεποίθησης Μεγάλου Βάθους, μία απλή υλοποίηση βαθύ νευρωνικού δικτύου, μία υλοποίηση βαθύ LSTM δικτύου, μία υλοποίηση βαθύ LSTM δικτύου με προσθήκη μηχανισμού προσοχής, μία υλοποίηση Συνελικτικού νευρωνικού δικτύου και τέλος μία υλοποίηση Συνελικτικού νευρωνικού δικτύου με προσθήκη μηχανισμού προσοχής. Επίσης, είναι σημαντικό να αναφέρουμε ότι για τη βελτίωση της ικανότητας γενίκευσης (αποτροπή overfitting) των μοντέλων καθώς και για την επιτάχυνση της διαδικασίας εκπαίδευσης χρησιμοποιούνται οι τεχνικές κανονικοποίησης Dropout και Batch Normalization. Τέλος, παρουσιάζουμε τα συμπεράσματά μας βάσει των αποτελεσμάτων από τις γραφικές και τις μετρικές που εξήχθησαν.
Abstract (translated): This dissertation deals with issues of deep learning. More specifically, it deals with Speech Emotion Recognition through the implementation of a Deep Convolutional Neural Network. We begin by introducing basic deep learning techniques, such as Deep Belief Networks, which are an extension of the Restricted Boltzmann Machine (RBM), Recurrent Neural Networks, that came from the Feedforward Neural Networks, Convolutional Neural Networks, also based on the Feedforward Neural Networks, as well as Auto Encoders. Next, we present the categories of Emotional models, which are distinguished in the Categorical model, the Wheel model and the Dimensional Model, for which Dimensions are considered the Valence (which is interpreted as pleasure-dissatisfaction of an emotion), the Arousal (degree of Stimulation) and the Dominance-Submissiveness of the expressed emotion. Next, we list some widely used Datasets that use some of the above Emotion models. In the central part of this dissertation we emphasize the Convolutional Neural Networks for Speech Emotion Recognition. To highlight their contribution to Speech Emotion Recognition, 6 different deep learning techniques are presented, a Deep Belief Network implementation, a simple deep neural network implementation a deep LSTM network implementation, a deep LSTM network implementation with with the addition of an attention mechanism, a Convolutional neural network implementation and finally a Convolutional neural network implementation with the addition of an attention mechanism. It is also important to mention that Dropout and Batch Normalization techniques are used to improve the generalization ability (prevention of overfitting) of the models as well as to speed up the training process. Finally, we present our conclusions based on the results from the graphs and metrics that were extracted.
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΔΕ)



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.