Please use this identifier to cite or link to this item:
Title: Υλοποίηση των μοντέλων LDA και Word2Vec και σύγκριση των εργαλείων TMG και text analytics
Other Titles: Implementation of the LDA and Word2Vec models and comparison of the TMG and text analytics toolboxes
Authors: Ζαραφέτα, Κυριακή-Ηλέκτρα
Keywords: Πιθανολογικό θεματικό μοντέλο
Δειγματοληψία Gibbs
Μηχανική μάθηση
Εξόρυξη κειμένου
Επεξεργασία φυσικής γλώσσας
Νευρωνικό δίκτυο
Διανυσματική αναπαράσταση λέξεων
Μοντέλο Word2Vec
Text-to-Matrix generator
Text analytics
Keywords (translated): LDA
Probabilistic topic model
Gibbs sampling
Machine learning
Text mining
Natural language processing
Neural network
Word embeddings
Word2Vec model
Text-to-matrix generator
Text analytics
Abstract: Τα τελευταία χρόνια στον τομέα της Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing) και της Ανάκτησης Πληροφορίας (Information Retrieval), δημιουργούνται σε τακτά χρονικά διαστήματα καινούργια εργαλεία λογισμικού για την εφαρμογή τεχνικών Μηχανικής Μάθησης (Machine Learning). Επιπλέον, τα ήδη υπάρχοντα εργαλεία λογισμικού ενημερώνονται διαρκώς με νέες τεχνικές του τομέα αυτού. Αρχικός στόχος αυτής της διπλωματικής εργασίας ήταν η υλοποίηση των μοντέλων Latent Dirichlet Allocation (LDA) και Word2Vec και η προσθήκη αυτών στο εργαλείο λογισμικού Text-to-Matrix Generator (TMG). Όσον αφορά το μοντέλο LDA, αναπτύχθηκε με σκοπό την παροχή προς τον χρήστη ενός επιπλέον τρόπου για εξαγωγή θέματος. Επιπρόσθετα, η τεχνική ανάκτησης Word2Vec, και πιο συγκεκριμένα το μοντέλο Skip-Gram, υλοποιήθηκε για την διανυσματική αναπαράσταση των λέξεων ενός κειμένου ή μίας συλλογής κειμένων και αποτελεί μία τεχνική υψηλού ενδιαφέροντος στον τομέα. Στη συνέχεια, λόγω της ανάπτυξης του εργαλείου λογισμικού Text Analytics από την MathWorks θεωρήθηκε σημαντική η σύγκριση αυτού με το TMG για τον εντοπισμό κοινών και διαφορετικών εργασιών. Πιο συγκεκριμένα, πραγματοποιήθηκε σύγκριση στις βασικές λειτουργίες των εργαλείων, όπως είναι η προεπεξεργασία των κειμενικών δεδομένων, και στη συνέχεια σε περαιτέρω εργασίες που παρέχουν, όπως είναι η εξαγωγή του θέματος. Η σύγκριση αυτή βασίστηκε και στην εγκυρότητα των αποτελεσμάτων, αλλά και στην χρονική επίδοση.
Abstract (translated): The main objectives of this thesis are the MATLAB implementation of the Latent Dirichlet Allocation (LDA) and Word2Vec models and their incorporation in the Text-to-Matrix Generator (TMG) toolbox. The thesis reviews these methods and discusses their TMG implementation. LDA provides TMG users the ability to conduct topic extraction from text collections. Word2Vec and specifically the Skip-Gram version, allows vector representations of words from documents or text collections and has been shown to be particularly effective for several text mining applications. The thesis, also, presents experiments on a dataset from Wikipedia using the enhanced TMG toolbox and compares its features and results with those obtained using the \texttt{Mathworks} Text Analytics toolbox.
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΔΕ)

Files in This Item:
File Description SizeFormat 
Thesis_Zarafeta.pdf1.68 MBAdobe PDFView/Open

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.