Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/14590
Title: Εφαρμογές τεχνικών μηχανικής μάθησης με σκοπό την εξόρυξη γνώσης από αθλητικά δεδομένα
Other Titles: Usage of machine learning techniques with the purpose of knowledge mining from sports data
Authors: Πολλάτος, Αλέξανδρος Ερωτόκριτος
Keywords: Μηχανική μάθηση
Αθλητικά δεδομένα
Keywords (translated): Machine learning
Sports data
Abstract: Η παρούσα διπλωματική εξετάζει την εφαρμογή τεχνικών μηχανικής μάθησης πάνω σε αθλητικά δεδομένα. Πιο συγκεκριμένα ως πηγή δεδομένων έχει χρησιμοποιήσει στατιστικά και αποτελέσματα από αγώνες NBA (National Basketball Association) και με την χρήση της python και αλγορίθμων εκμάθησης προσπαθεί να κάνει πρόβλεψη αποτελεσμάτων. Η πολυπλοκότητα και η δυσκολία κατ’ επέκταση της εργασίας έχει να κάνει με δύο βασικούς παράγοντες που συνοδεύουν το NBA αν όχι καθ’ όλη την διάρκεια της παρουσίας του σαν θεσμό, σίγουρα τις τελευταίες δύο δεκαετίες. Οι δύο αυτοί παράγοντες είναι η μεταβλητότητα του τόσο μέσα στην ίδια σεζόν όσο και από σεζόν σε σεζόν καθώς οι ομάδες αλλάζουν σύσταση διαρκώς και η μη προβλεψιμότητα καθώς όλες οι ομάδες είναι πιθανόν να κερδίσουν τον αντίπαλο τους σε οποιαδήποτε φάση της διοργάνωσης. Το τελευταίο αποτελεί για χρόνια αντικείμενο ενασχόλησης τόσο ειδικών στο αντικείμενο όπως είναι οι πρώην και νυν καταξιωμένοι αθλητές του χώρου, αθλητικογράφοι, δημοσιογράφοι αλλά και επιχειρηματικών οργανισμών όπως οι εταιρίες στοιχημάτων. Αυτή η αβεβαιότητα σωστής πρόβλεψης ίσως να είναι και ένας από τους λόγους που ο συγκεκριμένος θεσμός είναι τόσο αγαπητός και παρακολουθείται παγκοσμίως από το ευρύ κοινό. Σε αυτή την αβεβαιότητα προσπαθεί η παρούσα εργασία να καταφέρει να δώσει μια προσέγγιση στην πρόβλεψη του τελικού αποτελέσματος. Η προσέγγιση ακολουθεί την λογική train-test set, με βηματική αύξηση μεγέθους στο train set κατά έναν αγώνα σε κάθε πρόβλεψη και σταθερό μέγεθος στο test set που είναι ίσο με ένα και αφορά πάντα τον αγώνα πρόβλεψης. Οι προσεγγίσεις ξεκινούν απλά στην αρχή και γίνονται όλο και πιο πολύπλοκες καθώς γίνεται εμβάθυνση εμπειρικά και πειραματικά, τόσο στα μεγέθη των train sets κατά την πορεία της σεζόν όσο και στην επιλογή των feature για κάθε classifier αλλά και σεζόν. Τέλος χρησιμοποιούνται 4 βασικοί αλγόριθμοι εκμάθησης και όλα τα στοιχεία είναι διαθέσιμα σε πραγματικό χρόνο. Το τελευταίο αναφέρεται στο ότι για οποιονδήποτε αγώνα πάντα χρησιμοποιούνται στοιχεία τα οποία έχουν ήδη λάβει μέρος την συγκεκριμένη στιγμή και ποτέ αποτελέσματα της παρούσας χρονικής στιγμής, όπως χρησιμοποιούν άλλες προσεγγίσεις που προσπαθούν να κάνουν ανάλογη πρόβλεψη για να φέρουν καλύτερα αποτελέσματα. Η πρόβλεψη είναι ρεαλιστική καθώς χρησιμοποιεί δεδομένα για τα οποία υπάρχει δυνατότητα γνώσης την χρονική στιγμή της πρόβλεψης.
Abstract (translated): The current thesis is an experiment of using machine learning techniques on sports data. More specifically there is use of data that are either statistics or results of NBA (National Basketball Association) games and with the use of python programming language and machine learning algorithms is trying to make a result prediction. The complexity and difficulty of the current project has to do with two main factors that go hand in hand with the organization of NBA if not since its beginning, for sure in the past two decades. Those two main factors are the lack of stability since the teams change composition in a very frequent pace, during the same season and from one season to another and the lack of predictability since every team can win its opponent at any given time of the season. The second factor is considered to be one of the main topics of debate between people that surround the association such as retired and active players, sports writers, journalists and organizations such as betting companies. That lack of predictability may be one of the main reasons that makes the sport so attractive to people throughout the whole world. The current project is trying to give a solution to that lack of predictability and give a percentage of correct predictions. The current approach follows the logic of train-test set, with a step increase of the train set size each time by one game and consistent size of test set which is the current game that is trying to be predicted. The approaches are starting simple and getting more complicated while the time passes since the research is getting deeper and tries different aspects and combinations to get a better percentage of success on predictions. Last but not least, there are four main machine learning algorithms that are being used and all the data is real. Real data is referring to data that can be available in real time and not on future data that other projects similar to that are using in order to get better percentages in their prediction results. The prediction is realistic since its methods can be used at any time even with the current season.
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΔΕ)



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.