Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/10545
Title: Τεχνικές εξόρυξης δεδομένων για την ανάλυση πολυδιάστατων χρονοσειρών
Other Titles: Data mining techniques for multi-dimensional time series analysis
Authors: Πίππα, Ευαγγελία
Keywords: Πολυδιάστατες χρονοσειρές
Κατηγοριοποίηση
Σύντηξη χαρακτηριστικών
Σύντηξη αποφάσεων
Τανυστές
Keywords (translated): Multi-dimensional time series
Classification
Feature-level fusion
Decision-level fusion
Tensors
Abstract: Αντικείμενο της παρούσας διατριβής αποτελεί η χρονική και φασματική ανάλυση καθώς επίσης και η σύντηξη δεδομένων για το συνδυασμό πληροφορίας μεταξύ ενός αριθμού διαφορετικών μονάδων αισθητήρων (διαστάσεων) για τη βελτίωση της κατηγοριοποίησης συμβάντων από δεδομένα πολυδιάστατων χρονοσειρών (κάθε διάσταση αντιστοιχεί σε δεδομένα που αντλούνται από μία μονάδα αισθητήρα). Παρόλο που η αναγωγή του προβλήματος σε μονοδιάστατο, η οποία πραγματοποιείται από το ευρέως γνωστό σχήμα σύντηξης σε επίπεδο χαρακτηριστικών, επιτρέπει τη σύλληψη των εξαρτήσεων μεταξύ των διαστάσεων, η σημαντική αύξηση της διαστατικότητας του διανύσματος χαρακτηριστικών δεν επιτρέπει την εκπαίδευση μοντέλων κατηγοριοποίησης με χρήση ενός περιορισμένου αριθμού δειγμάτων που είναι συνήθως διαθέσιμα στην πράξη. Εναλλακτικά, χρησιμοποιείται ένα σχήμα σύντηξης σε επίπεδο αποφάσεων που εκτελεί σύντηξη των αποφάσεων βασιζόμενο στην υπόθεση ότι το χρονικό περιεχόμενο ποικίλει σημαντικά μεταξύ των διαστάσεων. Επομένως, απαιτούνται τοπικά εξειδικευμένα για κάθε μονάδα αισθητήρα μοντέλα εκπαίδευσης. Έτσι, στην παρούσα διατριβή παρουσιάζεται ένα νέο σχήμα σύντηξης σε επίπεδο αποφάσεων που εκτελεί σύντηξη των αποφάσεων υποθέτοντας πως οι παραλλαγές μεταξύ των διαστάσεων είναι αμελητέες και άρα ένα γενικό (κοινό για όλες τις μονάδες αισθητήρων) μοντέλο μπορεί να χρησιμοποιηθεί. Το προτεινόμενο σχήμα διατηρεί τη διαστατικότητα αρκετά χαμηλή, ενώ η ενσωμάτωση ενός γενικού μοντέλου εκπαίδευσης επιτρέπει τη χρήση περισσότερων δειγμάτων εκπαίδευσης. Είναι προφανές ότι και τα τρία σχήματα αποσκοπούν στην κατηγοριοποίηση γενικευμένων συμβάντων, δηλαδή το συμβάν μπορεί να εντοπιστεί σε όλες τις μονάδες αισθητήρων /διαστάσεις με διαφορετικούς βαθμούς εμπιστοσύνης. Στην παρούσα διατριβή πραγματοποιείται μια εκτενής σύγκριση του προτεινόμενου σχήματος ενώ και τα τρία αξιολογούνται σε σχέση με δύο διαφορετικά πεδία εφαρμογής: την ανάλυση ηλεκτροεγκεφαλογραφικών δεδομένων και την ανάλυση δεδομένων ανθρώπινης κίνησης. Όσον αφορά στο πρώτο πεδίο εφαρμογής, σε αυτή τη διατριβή διερευνάται το πρόβλημα της αυτόματης κατηγοριοποίησης επιληπτικών και μη επιληπτικών συμβάντων από ηλεκτροεγκεφαλογραφικές καταγραφές. Σε αντίθεση με την υπάρχουσα σχετική βιβλιογραφία, στην παρούσα διατριβή η μη-επιληπτική κλάση επεκτείνεται τόσο σε συμβάντα ψυχογενούς μη επιληπτικής κρίσης (psychogenic non-epileptic seizure-PNES) όσο και σε συμβάντα αγγειοδιασταλτικής συγκοπής (vasovagal syncope - VVS). Για το σκοπό της κατηγοριοποίησης, από κάθε διαθέσιμο σήμα εξάγεται ένας μεγάλος αριθμός από χρονικά και φασματικά χαρακτηριστικά και επιστρατεύονται διάφοροι αλγόριθμοι κατηγοριοποίησης. Εξαιτίας του μεγάλου αριθμού χαρακτηριστικών πραγματοποιείται μείωση της διαστατικότητας με δύο διαφορετικές στρατηγικές: επιλογή χαρακτηριστικών με βάση την κατάταξη των χαρακτηριστικών από κάποια σχετική μέθοδο όπως το t-test ή ο αλγόριθμος ReliefF και Ανάλυση Κύριων Συνιστωσών (Principal Component Analysis - PCA). Με αυτό τον τρόπο μελετάται η απόδοση κάθε σχήματος ως συνάρτηση της διαστατικότητας του διανύσματος χαρακτηριστικών. Όσον αφορά στο δεύτερο πεδίο εφαρμογής, δεδομένα πολυδιάστατων χρονοσειρών που έχουν προκύψει από την επισύναψη μονάδων αισθητήρων που περιλαμβάνουν επιταχυνσιόμετρο, γυροσκόπιο και μαγνητόμετρο σε διαφορετικά μέρη του ανθρώπινου σώματος (κεφάλι, στήθος, μέση, καρπό, μηρό, αστράγαλο) αναλύονται με απώτερο σκοπό την αυτόματη ανίχνευση πτώσεων και την ακριβή διάκρισή τους από άλλες καθημερινές δραστηριότητες (Activities of Daily Living - ADLs). Και τα τρία σχήματα σύντηξης αξιολογούνται σε συνδυασμό με αυτή την εφαρμογή. Τα διαφορετικά χαρακτηριστικά αυτού του συνόλου δεδομένων υποδεικνύουν ορισμένες από τις παραμέτρους που μπορούν να βοηθήσουν στην επιλογή του καταλληλότερου σχήματος κάθε φορά. Επίσης, εισάγεται ένα νέο σχήμα που χρησιμοποιεί τανυστές για την μοντελοποίηση του χώρου χαρακτηριστικών και την κατηγοριοποίηση συμβάντων από πολυδιάστατες χρονοσειρές. Παρόλο που η αναπαράσταση μητρώου που αντιμετωπίζει τα χαρακτηριστικά ως ενοποιημένα διανύσματα επιτρέπει τη σύλληψη των εξαρτήσεων μεταξύ των καναλιών, οδηγεί σε σημαντική αύξηση της διαστατικότητας του διανύσματος χαρακτηριστικών και υπολείπεται κάποιου μέσου μοντελοποίησης των εξαρτήσεων μεταξύ των χαρακτηριστικών. Για αυτό το λόγο, στην παρούσα διατριβή εισάγεται ένα νέο σχήμα που βασίζεται σε χρήση τανυστή και συγκρίνεται με το ευρέως χρησιμοποιούμενο σχήμα σύντηξης σε επίπεδο χαρακτηριστικών. Για την εκπαίδευση της λογικής του αρχικού υψηλής διαστατικότητας χώρου χαρακτηριστικών εφαρμόζεται δίασπαση TUCKER. Το νέο σχήμα αξιολογήθηκε σε σχέση με το πρόβλημα της κατηγοριοποίησης επιληπτικών και μη επιληπτικών συμβάντων από τα διαθέσιμα ηλεκτροεγκεφαλογραφικά δεδομένα επιτυγχάνοντας την υψηλότερη ακρίβεια κατηγοριοποίησης.
Abstract (translated): The aim of this thesis is to investigate feature extraction and fusion for the combination of information across a number of sensors (dimensions) to optimize the classification of multi-dimensional time series (each dimension corresponds to data acquired by one sensor unit). Although the reduction to one dimensional problem -that the common feature-level fusion scheme performs- allows capturing dependencies across dimensions, the significant increase of feature vector dimensionality does not allow learning the classification models using a limited number of samples usually available in practice. Furthermore, decision-level fusion performs fusion of decision outputs based on the assumption that the temporal context varies significantly across dimensions. Therefore, local (sensor-specific) training models are required. Thus, we present a new decision-level fusion scheme performing fusion of decision outputs assuming that the variations across dimensions are negligible - i.e. global (common for all sensors) training model can be used. The decision-level fusion scheme keeps the dimensionality quite low, while the incorporation of a global training model allows the use of more training samples. The framework is applied on events that generalize across dimensions, i.e. the event can be tracked in all sensors with varying degree of confidence. An extensive comparison of the proposed scheme with the existing ones is made with respect to two different application fields: the analysis of electroencephalograph (EEG) and the analysis of human motion data. Regarding the first application, in this thesis we investigate the problem of classification between epileptic and non-epileptic events from EEG recordings. Correctly diagnosing generalized epileptic from non-epileptic episodes, such as psychogenic non epileptic seizures (PNES) and vasovagal or vasodepressor syncope (VVS), despite its importance for the administration of appropriate treatment, life improvement of the patient, and cost reduction for patient and healthcare system, is rarely tackled in the literature. Usually clinicians differentiate between generalized epileptic seizures and PNES based on clinical features and video-EEG. In this work, we investigate the use of machine learning techniques for automatic classification of generalized epileptic and non-epileptic events based only on multi-channel EEG data. For this purpose, we extract a large number of temporal and spectral features in order to feed them to several classification algorithms. Due to large number of features we perform dimensionality reduction using two different strategies: feature ranking and selection and principal component analysis. Thus, the classification performance as function of dimensionality is studied for each fusion scheme. Regarding the second application, multi-dimensional time series data derived from accelerometer, gyroscope and magnetometer sensors attached at different body parts are analyzed in order to detect falls while performing Activities of Daily Living (ADLs). All schemes are evaluated. The evaluation provides insight on which one of the three fusion schemes should be chosen for more accurate event detection. Furhtermore, a novel tensor based scheme is introduced for events classification from multi-dimensional time series data. Although matrix representation which treats features as concatenated vectors allows capturing dependencies across sensor units, it leads to significant increase of feature vector dimensionality and lacks a means of modeling dependencies between features. Thus, we compare the commonly used matrix representation with a tensor-based scheme. TUCKER decomposition is applied to learn the essence of original, high-dimensional domain of feature space. The evaluation of the proposed tensor based scheme on EEG data for the classification of epileptic and non-epileptic events, yielded to the overall highest accuracy.
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΔΔ)

Files in This Item:
File Description SizeFormat 
phd-pippa.pdf2.13 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.