Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/15429
Title: GraphDocsPy : αναπαράσταση πολλαπλών εγγράφων κειμένου σε γράφο με χρήση της γλώσσας Python
Other Titles: GraphDocsPy : representation of multiple textual documents as a graph using the Python programming language
Authors: Κάρκας, Νικόλαος
Keywords: Ανάλυση κειμένων
Επεξεργασία φυσικής γλώσσας
Αναπαράσταση κειμένων
Βιβλιοθήκες γράφων
Αλγόριθμοι γράφων
Keywords (translated): Text analysis
Natural language processing
Text representation
Graph libraries
Graph algorithms
Abstract: Στην ανάλυση κειμένων, ένα στάδιο με σπουδαία σημασία είναι αυτό της αναπαράστασης των εγγράφων. Ανάμεσα στις μεθόδους αναπαράστασης κειμένων που έχουν προταθεί, μία μέθοδος – η οποία αποκτά ολοένα και μεγαλύτερη δημοτικότητα τα τελευταία χρόνια – είναι η αναπαράσταση κειμένων σε γράφους. Ο συγκεκριμένος τρόπος αναπαράστασης κειμένων παρουσιάζει πολλά πλεονεκτήματα, όπως η απεικόνιση των σχέσεων μεταξύ των λέξεων και η χρήση της θεωρίας γράφων σε προβλήματα ανάλυσης κειμένων. Παρ’ ότι η επιστήμη της πληροφορικής χρησιμοποιείται κατά κόρον τόσο στο πεδίο της σχεδίασης και ανάλυσης γράφων, όσο και στο πεδίο της ανάλυσης κειμένων, σπάνιες είναι οι περιπτώσεις όπου ένα λογισμικό πακέτο συνδυάζει τα δύο ανωτέρω πεδία. Μία τέτοια περίπτωση είναι η βιβλιοθήκη GraphDocsPy, μία βιβλιοθήκη αναπαράστασης κειμένων σε γράφους γραμμένη στη γλώσσα προγραμματισμού Python. Ένα ιδιαίτερο χαρακτηριστικό της GraphDocsPy είναι ότι επιτρέπει την αναπαράσταση περισσότερων του ενός εγγράφων σε έναν γράφο. Η παρούσα εργασία παρουσιάζει αναλυτικά την ανάπτυξη της βιβλιοθήκης. Πιο συγκεκριμένα, περιγράφεται αρχικά το μοντέλο αναπαράστασης κειμένων σε γράφους στο οποίο βασίζεται η βιβλιοθήκη. Έπειτα, αναλύονται μία προς μία όλες οι συναρτήσεις που περιλαμβάνονται σε αυτήν. Τέλος, για την εξέταση της αποτελεσματικότητάς της, η βιβλιοθήκη GraphDocsPy χρησιμοποιείται σε ορισμένες εφαρμογές ανάλυσης κειμένων.
Abstract (translated): In text analysis, document representation is one of the most important steps. Among the methods of text representation that have been proposed, a method – which has become increasingly popular in recent years – is the representation of texts as a graph. This way of representing texts has many advantages, such as visualizing the relationships between words and employing graph theory for text analysis problems. Although computer science is widely used in both the design and analysis of graphs, as well as in text analysis, software packages that combine both fields are rare. One such case is the GraphDocsPy library, a graph–based text representation library written in the programming language Python. A special feature of GraphDocsPy is that it enables the representation of more than one documents in a single graph. This diploma thesis presents in detail the development of the aforementioned library. In particular, the graph–based text representation model that the library implements is first described. Then, all the included functions are analyzed one by one. Finally, to test its effectiveness, the GraphDocsPy library is used in classical text analysis applications.
Appears in Collections:Τμήμα Μηχανολόγων και Αεροναυπηγών Μηχανικ. (ΔΕ)

Files in This Item:
File Description SizeFormat 
DT_M_KARKAS_NIKOLAOS_1054495.pdf2.11 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.