Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/11340
Title: Ενεργητική μηχανική μάθηση
Other Titles: Active machine learning
Authors: Λιαρμακόπουλος, Μιχαήλ
Keywords: Ενεργητική μάθηση
Μηχανική μάθηση
Επιβλεπόμενη μάθηση
Εμπειρική μελέτη
Keywords (translated): Active learning
Machine learning
Supervised learning
Empirical study
JCLAL
Abstract: Η επιβλεπόμενη μηχανική μάθηση (supervised machine learning) είναι ένας τομέας της τεχνητής νοημοσύνης όπου το πρόγραμμα προσεγγίζει μία συνάρτηση βάσει των δεδομένων που δέχεται. Στην συνήθη επιβλεπόμενη μηχανική μάθηση χρησιμοποιεί κανείς ένα σύνολο δεδομένων (training data set) έτσι ώστε να βοηθήσει το πρόγραμμα να κατηγοριοποιήσει τα δεδομένα που του εισάγει ο χρήστης. Πολλές φορές όμως είναι δύσκολο ή με μεγάλο κόστος (υπολογιστικό, χρονικό ή άλλο) να κατασκευαστεί το αρχικό σύνολο δεδομένων με τα κατηγοριοποιημένα δεδομένα. Για αυτόν τον λόγο, μελετήσαμε και παρουσιάζουμε μια νεότερη μέθοδο, ονόματι Ενεργητική Μηχανική Μάθηση. Με αυτήν το πρόγραμμα επιλέγει (με «ερωτήματα», queries) βάσει συγκεκριμένων στρατηγικών κάποια μη ταξινομημένα δεδομένα για κατηγοριοποίηση. Ο στόχος της μεθόδου είναι να μεγιστοποιηθεί η ακρίβεια του προγραμματος μηχανικής μάθησης μέσω των «ερωτημάτων» που θέτει στα μη κατηγοριοποιημένα δεδομένα που υπάρχουν, ενώ παράλληλα μειώνεται το έργο που θα απαιτηθεί από τους «ειδικούς» (domain experts) του συγκεκριμένου αντικειμένου για την κατηγοριοποίηση των υπολοίπων δεδομένων. Πέρα από την παρουσίαση της μεθόδου, και της βιβλιοθήκης JCLAL, έχουμε επιλέξει τρία ερωτήματα στα οποία θα προσπαθήσουμε να απαντήσουμε με εμπειρικές μεθόδους. Το πρώτο ερώτημα μας καλεί να συγκρίνουμε την μέθοδο της ενεργής μάθησης με αυτήν της παθητικής μάθησης. Είναι δηλαδή, καλύτερη η Ενεργητική Μάθηση από την Παθητική Μάθηση; Το δεύτερο ερώτημα εξετάζει τις στρατηγικές που δομούν το πλαίσιο της Ενεργητικής Μάθησης και τις συγκρίνει με την Τυχαία Στρατηγική (Random Sampling strategy). Τέλος, το τρίτο ερώτημα μας καλεί να βρούμε ποιος συνδυασμός στρατηγικής και αλγόριθμου μάθησης (learning algorithm) δίνει τα καλύτερα αποτελέσματα στα σύνολα δεδομένων που μελετάμε. Από την στατιστική ανάλυση των πειραματικών αποτελεσμάτων παρατηρούμε πως από τους πέντε αλγόριθμους μάθησης, στους τρεις επικρατεί η στρατηγική της δειγματοληψίας εντροπίας ενώ στους δύο η λιγότερο βέβαιη δειγματοληψία. Αξίζει να σημειωθεί πως και στις πέντε περιπτώσεις δείξαμε πως τουλάχιστον μία στρατηγική μάθησης επικρατεί της τυχαίας δειγματοληψίας. Ακόμη δείξαμε με εμπειρικό τρόπο πως όλες οι στρατηγικές ενεργητικής μάθησης επικρατούν της παθητικής μάθησης.
Abstract (translated): Supervised machine learning is a subdomain of Artificial Intelligence where a program estimates a function, by using a limited number of observations. In the usual supervised learning framework, a training dataset is being used so that it helps the program classify the given observations faster. Very often though it is hard or costly to create the training dataset with a sample of classified data. For such reason we've studied and present a new method, namely Active Learning. With this method the program selects by querying according to certain strategies some unlabeled data to be classified. The goal of this framework is to maximise the classification accuracy of the program by querying the remaining unclassified data, while minimizing the work for the domain experts to classify the rest of the data. Apart from presenting the active learning framework and the library JCLAL, we have three questions that we'll attempt to answer empirically. The first question asks us to compare the active learning method with passive learning. In other words, is active learning better than passive learning? The second question asks us if the strategies that are in the core of the active learning framework give better results than Random Sampling strategy, and if yes which one is the best of them all. Finally, the third question we're called to answer is which combination of a Strategy and a learning algorithm gives the best results in the given datasets. After doing a statistical analysis of the experimental results we see that in three out of five learning algorithms the strategy of entropy sampling is the best, whereas in the other two the strategy of least confident sampling. Also, in all five cases we've shown that at least one active learning strategy performs better than random sampling. Finally we've shown empirically that all active learning strategies do better than passive learning.
Appears in Collections:Τμήμα Μαθηματικών (ΜΔΕ)

Files in This Item:
File Description SizeFormat 
main.pdf2.13 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons