Please use this identifier to cite or link to this item:
Title: Βιβλιογραφική επισκόπηση και αξιολόγηση αλγορίθμων μηχανικής μάθησης
Other Titles: Bibliographic review and evaluation of machine learning algorithms
Authors: Βαρδαλάκης, Αλέξανδρος
Keywords: Δεδομένα
Μηχανική μάθηση
Επιβλεπόμενη μάθηση
Μη-επιβλεπόμενη μάθηση
Keywords (translated): Data
Machine learning
Supervised learning
Unsupervised learning
Abstract: Η συλλογή data αποτελεί πλέον βασικό κομμάτι κάθε οργανισμού (π.χ. εταιρία, κυβερνητικός οργανισμός κ.α.) που επιθυμεί να αυξήσει την απόδοσή του. Τα δεδομένα τα οποία θα συλλεχθούν, για να είναι χρήσιμα για τον οργανισμό θα πρέπει πρώτα να δεχτούν προ-επεξεργασία (Data preprocessing) και να καθαριστούν (Data cleaning) ώστε να βρίσκονται σε μία κατάσταση που μπορούν να παρέχουν χρήσιμες πληροφορίες. Οι πληροφορίες αυτές θα εξαχθούν από τα δεδομένα μέσω της χρήσης ειδικών μεθόδων data mining και machine learning. Το Machine Learning έχει 2 βασικές κατηγορίες οι οποίες είναι το Supervised Learning και το Unsupervised Learning. Το Supervised Learning περιέχει δύο βασικές υποκατηγορίες οι οποίες είναι το Classification και το Regression. Για την εκτέλεση της διαδικασίας του classification παρουσιάστηκαν 7 αλγόριθμοι που διαφέρουν σε μεγάλο βαθμό στο τρόπο με τον οποίο καταφέρνουν να κατηγοριοποιήσουν τα δεδομένα και είναι οι Naive Bayes, Logistic Regression, Decision Tree, Random Forest, K-Nearest Neighbor, Artificial Neural Network και Linear Support Vector Machine. Για τη διαδικασία του Regression αναλύθηκαν 3 αλγόριθμοι που έχουν ως σκοπό την πρόβλεψη συνεχών ποσοτικών τιμών και είναι οι Simple Linear Regression, Multiple Linear Regression και Polynomial Regression. Το Unsupervised Learning περιέχει δύο βασικές υποκατηγορίες οι οποίες είναι το Clustering και το Dimensionality Reduction. Το clustering προσπαθεί μέσω επαναλαμβανόμενων διαδικασιών να ομαδοποιήσει τα δεδομένα τα οποία είναι σε μεγάλο βαθμό παρόμοια μεταξύ τους και ουσιαστικά να παραχθούν κατηγορίες μέσω της δημιουργίας των clusters και οι αλγόριθμοι που αναλύθηκαν είναι οι K-Means, DBSCAN και Hierarchical. Τέλος, υπάρχει το dimensionality reduction για το Unsupervised Learning όπου ο βασικότερος αλγόριθμος είναι ο Principal Component Analysis και μέσω αυτού ο αναλυτής προσπαθεί να πετύχει την μείωση του όγκου των attributes των δεδομένων και την εύρεση νέων attributes όπου θα παρέχουν σημαντικές καινούργιες πληροφορίες και θα βρεθούν νέα συσχετίσεις μεταξύ των δεδομένων.
Abstract (translated): Data collection is now an essential part of any organization (i.e. companies, government agencies, etc.) that wants to increase its performance. The data collected will be useful to the organization when there are the following actions of data preprocessing and data cleaning so that the data will be transformed and give useful information. This information will be extracted from the data using specific data mining and machine learning methods. Machine Learning has two main categories which are Supervised Learning and Unsupervised Learning. Supervised Learning contains two subcategories which are Classification and Regression. To perform the process of classification seven algorithms were presented that differ greatly in how they manage to classify the data and the algorithms are Naive Bayes, Logistic Regression, Decision Tree, Random Forest, K-Nearest Neighbor, Artificial Neural Network and Linear Support Vector Machine. For the regression process, which is the prediction of continuous quantitative values, three algorithms were presented which are Simple Linear Regression, Multiple Linear Regression and Polynomial Regression. Unsupervised Learning contains two major subcategories which are Clustering and Dimensionality Reduction. Clustering attempts through iterative processes to cluster data that are largely similar and essentially generates groups of data. The algorithms presented for the clustering method are K-Means, DBSCAN and Hierarchical. Finally, there is dimensionality reduction where the main algorithm for this method is Principal Component Analysis and with the analyst uses this algorithm to try and reduce the volume of attributes in the data and at the same time find new features that will provide new useful information and correlations about the data.
Appears in Collections:Τμήμα Μηχανολόγων και Αεροναυπηγών Μηχανικ. (ΔΕ)

Files in This Item:
File Description SizeFormat 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.