Please use this identifier to cite or link to this item:
Title: Κατηγοριοποίηση ομιλητών με χρήση αλγορίθμων μηχανικής μάθησης
Other Titles: Speaker classification using machine learning algorithms
Authors: Καρανικόλα, Αικατερίνη
Keywords: Μηχανική μάθηση
Αναγνώριση ομιλίας
Keywords (translated): Machine learning
Speech recognition
CBIR features
Abstract: Στην παρούσα εργασία, διερευνάται το ζήτημα της κατηγοριοποίησης (classification) χρησιμοποιώντας πολυμεσικά δεδομένα (ήχο, εικόνα). Πιο συγκεκριμένα, εξετάζεται το πρόβλημα αναγνώρισης ομιλητή από κλειστό σύνολο ομιλητών. Η εκπαίδευση των αλγορίθμων κατηγοριοποίησης γίνεται βασιζόμενη σε συγκεκριμένα audio features (MFCCs) όσον αφορά τον ήχο, ενώ για την εικόνα που παράγεται από τα ηχητικά σήματα, χρησιμοποιείται μία πλειάδα από διαφορετικά image features (jpeg, autocorrect, phog, κτλ). Τέλος, προτείνεται ένας τρίτος τρόπος κατηγοριοποίησης που συνδυάζει χαρακτηριστικά ήχου και εικόνας, o οποίος και παρουσιάζει καλύτερα αποτελέσματα. Στο πλαίσιο της πειραματικής διαδικασίας εξετάζεται η αποδοτικότητα συγκεκριμένων ταξινομητών (ενδεικτικά αναφέρονται οι Naive Bayes, SMO, Random Forest, Ibk, LogitBoost που αντιπροσωπεύουν κάποιες από τις κύριες οικογένειες ταξινομητών (Μπεϋζιανοί ταξινομητές (Bayesian Classifiers), Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines – SVM), Δέντρα αποφάσεων (Decision Trees) , Αλγόριθμοι Κ Κοντινότερων Γειτόνων (K Nearest Neighbors Algorithms) , Συνδυαστικές μέθοδοι (Ensemble Methods)). Επιπροσθέτως, οι ταξινομητές «δοκιμάζονται» σε σενάρια που διαφοροποιούνται ως προς πλήθος των ομιλητών (8, 16 και 36 ομιλητές) αλλά και ως προς τον τύπο ομιλίας (κανονική σε ένταση ομιλία, γρήγορη ομιλία και ψίθυρος), ώστε να γίνει αντιληπτή η αύξηση του βαθμού δυσκολίας του προβλήματος όταν αυξάνεται ο αριθμός ομιλητών και όταν η ομιλία τροποποιείται.
Abstract (translated): This master thesis deals with the issue of classification using multimedia data (sound, image). In particular, it addresses the speaker recognition problem by a closed set of speakers. The training of the classification algorithms is based on specific audio features ( MFCCs) in terms of sound , while the image generated by the audio signal uses a multitude of different image features (jpeg, autocorrect, phog, etc.). Finally , a third categorization mode is proposed, that combines audio and video features, which has better results. The experimental process examines the efficiency of specific classifiers (including Naive Bayes, SMO, Random Forest, Ibk, LogitBoost representing some of the main classifiers families (Bayesian Classifiers), Support Vector Machines (SVM ), Decision Trees, K Nearest Neighbors Algorithms, Ensemble Methods, etc.) In addition, classifiers are "tested" in a variety of scenarios (8, 16 and 36 speakers) but also in terms of speech type (normal speech, fast speech and whisper) in order to make clear that the problem is more complex , when the number of speakers increases and when the speech is modified.
Appears in Collections:Τμήμα Μαθηματικών (ΜΔΕ)

Files in This Item:
File Description SizeFormat 
karanikola_thesis_nemertes.pdf3.52 MBAdobe PDFView/Open

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.