Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/9972
Title: Στατιστική ανάλυση δεδομένων με ακραίες και ελλιπούσες τιμές
Other Titles: Statistics analysis of data with outliers and missing values
Authors: Μπούρου, Δήμητρα
Keywords: Ακραίες τιμές
Ελλιπούσες τιμές
Εξόρυξη δεδομένων
Στατιστική ανάλυση
Παλινδρόμηση
Λογιστική παλινδρόμηση
Πολλαπλή παλινδρόμηση
Μέθοδοι καταλογισμού
k-Πλησιέστερος γείτονας
Keywords (translated): Outliers
Missing values
Data mining
Statistical analysis
Regression
Logistic regression
Multiple regression
Imputation methods
k-Nearest neighbor imputation
Abstract: Κατά την στατιστική επεξεργασία και ανάλυση των δεδομένων οι ερευνητές έρχονται αντιμέτωποι με πολλά προβλήματα, τα οποία μπορεί να οφείλονται τόσο σε λάθος σχεδιασμό της έρευνας όσο και σε κάποιους αστάθμητους παράγοντες. Στη συλλογή πληροφοριών παρατηρούνται ελλείψεις στα δεδομένα καθώς και ακραίες τιμές, στην παρούσα διπλωματική θα παρουσιαστούν τρόποι αντιμετώπισης αυτών με σκοπό όσο το δυνατόν καλύτερη εξαγωγή πληροφορίας από τα δεδομένα. Η συλλογή πληροφοριών και δεδομένων καθώς και η εξόρυξη γνώσης χρησιμοποιούνται σε πολλούς τομείς της σύγχρονης κοινωνίας. Σκοπό αυτής της εργασίας αποτελεί η παρουσίαση των μεθόδων που χρησιμοποιούνται σήμερα για την αντιμετώπιση του προβλήματος του χειρισμού δεδομένων με ακραία και ελλιπή στοιχεία και η σύγκριση τους με σκοπό την καλύτερη αντιμετώπιση του προβλήματος. Στο πρώτο κεφάλαιο πραγματοποιείται μια εισαγωγή στον χώρο των ακραίων τιμών. Οι ακραίες τιμές (outliers) ανέκαθεν αποτελούσαν θορυβώδη δεδομένα στον τομέα της στατιστικής. Σήμερα όμως, ο εντοπισμός και η ερμηνεία τους έχει εξελιχθεί σε ένα σημαντικό ερευνητικό και πρακτικό πρόβλημα το οποίο ερευνάται από πολλούς διαφορετικούς κλάδους. Έχει πλέον αναπτυχθεί ποικιλία τεχνικών εντοπισμού ακραίων τιμών, τόσο εξειδικευμένες σε συγκεκριμένα προβλήματα όσο και γενικής φύσεως. Βέβαια, οι τεχνικές και τα αποτελέσματα τους δεν είναι εύκολα στην χρήση και στην ερμηνεία και, ως εκ τούτου, ο κλάδος της εξόρυξης δεδομένων παρουσιάζει μεγάλο ενδιαφέρον και ενεργή ερευνητική κοινότητα. Ο εντοπισμός ακραίων τιμών στοχεύει στην εύρεση προτύπων στα δεδομένα τα οποία δεν συμφωνούν με την τυπική «συμπεριφορά» του συνόλου δεδομένων. Στο δεύτερο κεφάλαιο κάνουμε πλήρη ανάλυση στο πρόβλημα των ελλιπουσών τιμών. Αναλύονται οι μορφές των ελλιπουσών τιμών στα δεδομένα, στη συνέχεια παρουσιάζονται οι αιτίες για τις οποίες υπάρχουν ελλιπή στοιχεία και στο τέλος αυτού του κεφαλαίου αναλύονται οι μέθοδοι που χρησιμοποιούνται για την αντιμετώπιση των ελλιπουσών δεδομένων. Εν συνεχεία, στο τρίτο κεφάλαιο χρησιμοποιήσαμε κάποιες περιγραφικές στατιστικές μεθόδους όπου μας έδωσαν μια γενική εικόνα για τα δεδομένα μας. Στο κύριο κομμάτι της ανάλυσης παρουσιάζονται στατικές μεθόδους ανάλυσης όπως απλή παλινδρόμηση , πολλαπλή παλινδρόμηση καθώς και λογιστικής παλινδρόμησης. Η λογιστική παλινδρόμηση είναι χρήσιμη σε καταστάσεις στις οποίες επιθυμούμε να προβλέψουμε την ύπαρξη ή την απουσία ενός χαρακτηριστικού ή ενός συμβάντος. Η πρόβλεψη αυτή βασίζεται στην κατασκευή ενός μοντέλου και συγκεκριμένα στον προσδιορισμό των τιμών που παίρνουν οι συντελεστές. Αυτή η μέθοδος είναι μια γενίκευση της απλή γραμμικής παλινδρόμησης για την περίπτωση όπου η εξαρτημένη μεταβλητή είναι δίτιμη (παίρνει την τιμή 0 όταν το χαρακτηριστικό απουσιάζει και την τιμή 1 όταν υπάρχει το χαρακτηριστικό). Τέλος, στο τέταρτο κεφάλαιο κάνουμε μια εφαρμογή σε δεδομένα με ελλιπούσες τιμές με την χρήση του στατιστικού πακέτου R. Θα χρησιμοποιήσουμε μερικές μεθόδους που αναφέραμε για να λύσουμε το πρόβλημα των ελλιπουσών τιμών και στην συνέχεια θα αναλύσουμε το μοντέλο με κατάλληλες στατιστικές μεθόδους. Θα συγκρίνουμε τα αποτελέσματα από την στατιστική ανάλυση με το αρχικό σύνολο δεδομένων και το σύνολο με τις ελλιπούσες τιμές.
Abstract (translated): During the statistical processing and data analysis, researchers are confronted with many problems that can be caused either by a wrong design of research or by some uncertain factors. In the collection of information is observed lack in the data and outliers, in this diploma will be presented ways of tackling these with purpose as well as possible export information from the data. The collection of information and data as well as data mining used in many areas of modern society. The aim of this thesis is the presentation of the methods currently used to tackle the problem of handling data with extreme and missing data and their comparison to better address the problem. In the first chapter we introduce the outliers. Outliers were always noisy data in statistics. Nowadays however, the identification and the interpretation has evolved into a major research and practical problem which is being investigated by many different industries. It has now developed a variety of techniques tracking outliers, both specialize in certain problem and in general. Certainly the techniques and their results are not easy to use and interpretation, and as result, the industry of data mining is of great interest and active research community. Identifying outliers aims to find standards in data which are not in accordance with the typical “behavior” of the dataset. In the second chapter we analyze extensively the problem of missing values. After analyzing the forms of missing values in the data, we present the causes for which there are missing data. In the end of this chapter are analyzed the methods which are used to deal with missing data. In the third chapter we use some descriptive statistics methods which gave us an overview of our data. In the main part of the analysis presented static analysis methods such as simple regression, multiple regression and logistic regression. The logistic regression is useful in situations where we want to predict the presence or absence of a characteristic or an event. This forecast is based on the construction of a model, and specifically in the determination of prices that get the rates. This method is a generalization of the simple linear regression line for the case where the dependent variable is bivalent (takes the value 0 if the attribute is not present and the value 1 when exists the characteristic). Finally, in the fourth chapter we make an application to data with missing values using the statistical package R. We use some methods mentioned to solve the problem of missing values and then we analyze the model with appropriate statistical methods. We compare the results of the statistical analysis of the original data set and the set with the missing values.
Appears in Collections:Τμήμα Μαθηματικών (ΜΔΕ)

Files in This Item:
File Description SizeFormat 
Mpourou(math).pdf2.38 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.