Please use this identifier to cite or link to this item:
Title: Ταξινόμηση νομοθετικών κειμένων με χρήση επιβλεπόμενης μηχανικής μάθησης
Other Titles: Classification of legal texts using supervised machine learning techniques
Authors: Μητρούλιας, Δημήτριος
Keywords: Νομικά κείμενα
Μηχανική μάθηση
Ταξινόμηση πολλαπλών ετικετών
Εξόρυξη δεδομένων
Επεξεργασία φυσικής γλώσσας
Επιβλεπόμενη μάθηση
Keywords (translated): Legal text
Machine learning
Multi-label classification
Data mining
Natural language preprocessing
Supervised learning
Abstract: Σε πολλές εφαρμογές ταξινόμησης τα κείμενα σχετίζονται με ένα σύνολο από θεματικές ετικέτες. Ένα σημαντικό πρόβλημα στην ταξινόμηση πολλαπλών ετικετών είναι ο μεγάλος αριθμός τους ο οποίος μπορεί να επηρεάσει αρνητικά τους ταξινομητές στην ποιότητα πρόβλεψης των ετικετών, στον χρόνο εκπαίδευσης τους αλλά και στον χρόνο ταξινόμησης τους με ένα πολύ εκτεταμένο σύνολο μη ισορροπημένων δεδομένων. Στον ιστότοπο του Νομικού Συμβουλίου ο αριθμός των κατηγοριών (λημμάτων) που έχουν επισημειωθεί από τους νομικούς συμβούλους είναι πολύ μεγάλος και αυθαίρετος. Το πρόβλημα που ανακύπτει είναι η δυσκολία ένταξης των νομικών κειμένων σε μονοσήμαντες ετικέτες εξαιτίας της ανισορροπίας του μεγάλου πλήθους λημμάτων. Στόχος της παρούσας διπλωματικής εργασίας είναι να συμβάλει στην ανάπτυξη μιας εφαρμογής αλλά και μοντέλων μηχανικής μάθησης που θα προσδιορίζουν αυτόματα πολλαπλές θεματικές κατηγορίες σε κείμενα γνωμοδοτήσεων του Νομικού Συμβουλίου του Κράτους. Αρχικά μελετήθηκε το περιβάλλον του ιστότοπου του Νομικού Συμβουλίου του Κράτους και η δομή ενός νομικού κειμένου, όπως είναι οι γνωμοδοτήσεις . Για τη δημιουργία των διανυσμάτων εκπαίδευσης μελετήθηκαν οι περιορισμοί που προκύπτουν στο περιβάλλον του ιστοτόπου του Νομικού Συμβουλίου και με τη βοήθεια προγραμμάτων σε γλώσσα Python, εξήχθησαν δεδομένα από το 1980 έως και σήμερα. Πραγματοποιήθηκε εξόρυξη (data scraping) 17451 εγγραφών. Στη συνέχεια πραγματοποιήθηκε η προεπεξεργασία των γνωμοδοτήσεων με χρήση λεκτικής ανάλυσης, και η επιλογή των χαρακτηριστικών διανυσμάτων εκπαίδευσης από το σώμα κειμένων των γνωμοδοτήσεων. Η τεχνική που χρησιμοποιείται κυρίως είναι η αντίστροφη συχνότητα εμφάνισης όρων (TFIDF) με χρήση NGRAMS και τα συνόλα λέξεων (Bag Of Words). Ο λόγος για τον οποίο οι λέξεις τερματικών όρων είναι κρίσιμες για πολλές εφαρμογές είναι ότι, εάν αφαιρέσουμε τις λέξεις που χρησιμοποιούνται πολύ συχνά σε μια δεδομένη γλώσσα, μπορούμε να επικεντρωθούμε στις σημαντικές λέξεις. Αφού μετρήθηκαν και αξιολογήθηκαν τα αποτελέσματα αρκετών ταξινομητών, επιλέχθηκαν οι καλύτεροι ταξινομητές βάσει απόδοσης με σκοπό την ενδελεχή έρευνα της επίδρασης γνωστών τεχνικών μηχανικής μάθησης.
Abstract (translated): In many sorting applications the texts are associated with a set of thematic tags. A major problem with multiple tag sorting is their large number which may adversely affect the sorter’s predictive quality of labels, their training time and their sorting time with a very extensive set of unbalanced data. On the website of the Legal Council the number of categories (lemma/entries) identified by legal advisors is very large and arbitrary. The problem that arises is the difficulty of incorporating legal texts into unambiguous labels due to the imbalance of the large number of data. The aim of this thesis is to contribute to the development of an application and machine learning models that automatically identify multiple thematic categories in texts of opinions of the Legal Council of State. Initially the environment of the State Council of Law website and the structure of a legal text were studied, such opinions. The constraints that arise in the environment of the Legal Council website have been studied for the creation of training vectors and with the help of Python language programs, data was extracted from 1980 to the present. Carried extraction (data scraping) 17.450 entries. Pre-processing of the opinions was then carried out using verbal analysis, and selection of the characteristic training vectors by the body of opinion texts. The technique used mainly is the inverse terms frequency (TFIDF) using NGRAMS and word sets (Bag Of Words). The reason why the term words are critical for many applications is that if we remove the words that are used very often in a given language we can focus on the important words. Once measured and evaluated the effects of several sorters, the best performance-based sorters were selected in order to thoroughly investigate the effect of known mechanical learning techniques.
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΜΔΕ)

Files in This Item:
File Description SizeFormat 
mitroulias_msc_nsk.pdf5.9 MBAdobe PDFView/Open

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.