Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/9336
Title: Αντιμετώπιση ελλιπών τιμών σε προβλήματα εξόρυξης δεδομένων
Other Titles: Addressing missing values in data mining problems
Authors: Σταμούλη, Ιωάννα
Keywords: Εξόρυξης γνώσης
Ελλιπείς τιμές
Αλγόριθμοι αντιμετώπισης ελλιπών τιμών
Keywords (translated): Data mining
Missing values
Methods of coping with the missing values
Abstract: Η εξόρυξη γνώσης χρησιμοποιούνται σε πολλούς τομείς της σύγχρονης κοινωνίας. Σημειώνεται ότι στη συλλογή πληροφοριών παρατηρούνται ελλείψεις στα δεδομένα και στην παρούσα διπλωματική θα παρουσιαστούν τρόποι αντιμετώπισης αυτών με σκοπό όσο το δυνατόν καλύτερη εξαγωγή πληροφορίας από τα δεδομένα. Αναλύονται οι μορφές των ελλιπών τιμών και παρουσιάζονται οι αιτίες που τις προκαλούν. Γίνεται χρήση μεθόδων αντιμετώπισης ελλιπών τιμών (διαγραφή περίπτωσης, αντικατάσταση με μέση και κεντρική τιμή, παλινδρόμηση, Hot-deck καταλογισμός, k-πλησιέστερος γείτονας, πολλαπλός καταλογισμός, μέθοδος δένδρου απόφασης, μπεϋζιανή επανάληψη, κανένας καταλογισμός, μέθοδος αντικατάστασης με την πιο συχνή τιμή για τα κατηγορικά χαρακτηριστικά και με τη μέση τιμή για τα αριθμητικά χαρακτηριστικά, καταλογισμός στάθμισης με τον k- πλησιέστερο γείτονα, μέση τιμή k σημείων, καταλογισμός με μέση τιμή k-ασαφών σημείων, μηχανές διανυσμάτων υποστήριξης, κάλυψη περιπτώσεων, αλγόριθμος πρόβλεψης-μεγιστοποίησης, μοναδική τιμή αποσύνθεσης, ελάχιστος τοπικός τετραγωνικός καταλογισμός) σε βάσεις δεδομένων και εφαρμογή αλγορίθμων εξόρυξης γνώσης (δένδρο απόφασης, νευρωνικά δίκτυα, μηχανές διανυσμάτων υποστήριξης, k- πλησιέστερος γείτονας, αλγόριθμος προώθησης, αλγόριθμος ακολουθιακής ελάχιστης βελτιστοποίησης, πολυεπίπεδο νευρωνικό δίκτυο) στο στατιστικό πακέτο R και του εργαλείου KEEL.
Abstract (translated): Data mining is widely used in many areas. One of the challenges in the field of data mining is the occurrence of missing values that need to be handled. In this study we describe ways of dealing with missing values in order to improve the quality of information that is extracted from the data. We analyse different forms of missing data and what causes the data to be absent. Finally, we apply the different methods of coping with the missing values (Case Deletion or Ignore Missing, Mean and Mode Imputation, Regression Imputation, Hot-deck Imputation, k-Nearest Neighbor Imputation, Multiple Imputation, Decision Tree, Bayesian Iteration Imputation, Do not Impute, Concept Most Common Attribute Value for Symbolic Attributes and Concept Average Value for Numerical Attributes, Weighted imputation with k-Nearest Neighbour, k-means Clustering Imputation, Imputation with Fuzzy K-means Clustering, Support Vector Machines Imputation, Event Covering, Regularized Expectation-Maximization, Singular Value Decomposition Imputation, Local Least Squares Imputation) in databases and we use different text mining algorithms (Decision Tree, Neural Networks, Support Vector Machines, k-Nearest Neighbor, Boosting, Sequential Minimal Optimization, Multilayer perceptron) in R and the software tool KEEL.
Appears in Collections:Τμήμα Μαθηματικών (ΜΔΕ)

Files in This Item:
File Description SizeFormat 
διπλωματική Ιωάννα Σταμούλη.pdf3.07 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.