Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/14876
Title: Ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων
Other Titles: Development of information retrieval techniques for implementation of efficient recommendation systems
Authors: Αγιομαυρίτης, Φώτιος
Keywords: Aνάκτηση πληροφορίας
Μηχανική μάθηση
Mηχανές αναζήτησης
Συστήματα συστάσεων
Επεξεργασία φυσικής γλώσσας
Μεγάλα δεδομένα
Keywords (translated): Ιnformation retrieval
Machine learning
Search engines
Recommendation systems
Natural language processing
Big data
Abstract: Οι μηχανές αναζήτησης είναι συστήματα ανάκτησης πληροφοριών που έχουν σχεδιαστεί για να βοηθούν στην εύρεση πληροφοριών που είναι αποθηκευμένες σε ένα σύστημα υπολογιστή. Τα αποτελέσματα αναζήτησης συνήθως εμφανίζονται σε μια λίστα και ονομάζονται επιτυχίες (hits). Οι μηχανές αναζήτησης συμβάλλουν στην ελαχιστοποίηση του χρόνου που απαιτείται για την εύρεση πληροφοριών και του όγκου των πληροφοριών που ο χρήστης καλείται να ανατρέξει. Στον χώρο της Ιατρικής υπάρχουν τέτοιου είδους αναζητητές ειδικού σκοπού, που χρησιμοποιούνται καθημερινά και διευκολύνουν τις ανάγκες του ιατρικού προσωπικού γύρω από τις πληροφορίες. Στην παρούσα διπλωματική εργασία προτείνεται ότι μια τέτοια μηχανή για ιατρικά επιστημονικά κείμενα, μπορεί να υλοποιηθεί με μεγάλη ακρίβεια αποτελεσμάτων με την χρήση μοντέλου Named-entity recognition (NER), που επιδιώκει να εντοπίσει και να ταξινομήσει οντότητες που αναφέρονται στο κείμενο σε προκαθορισμένες γνωστές κατηγορίες, όπως ονόματα προσώπων, οργανισμών, τοποθεσίες, ιατρικές έννοιες και άλλες πολλές κατηγορίες. Η μηχανή αυτή επίσης έχει δημιουργηθεί με την βοήθεια της Elasticsearch που παρέχει μια κατανεμημένη μηχανή αναζήτησης πλήρους κειμένου με δυνατότητα πολλαπλής τροφοδοσίας με διεπαφή ιστού HTTP και έγγραφα JSON, καθώς επιπλέον παρέχει δυνατότητες αποθήκευσης όπως μια κανονική βάση δεδομένων και διαθέτει την BM25 μετρική ομοιότητας για την εκτίμηση της συνάφειας των εγγράφων με ένα δεδομένο ερώτημα αναζήτησης. Για την διαχείρηση του μεγάλου όγκου των κειμένων αυτών και ενεργειών πάνω στα δεδομένα γίνεται χρήση του Apache Spark. Στο τελικό στάδιο της μηχανής αναζήτησης γίνεται διεπαφή με τον χρήστη και λαμβάνονται υπόψη τα κείμενα που διαβάστηκαν, για να γίνει η δημιουργία ενός recommender system. Το re-rank των κείμενων γίνεται με βάση προσωπικού μοντέλου Linear regression που μαντεύει real time αν ένα κείμενο έχει πιθανότητα να διαβαστεί από τον χρήστη και γίνεται και χρήση της μετρικής score από την Elasticsearch.
Abstract (translated): Search engines are information retrieval systems designed to assist in finding information stored in a computer's system. The search results usually appear in a list and they are known as "hits". Search engines contribute to the minimization of the time needed for the information finding and the volume of information the user needs to search in. In the field of medicine there are such specific target searching machines, which are used in daily bases and facilitate the needs of the medical stuff concerning information. In this work, it is stated that such an engine for medical scientific papers can be implemented with very accurate results using the model Named-entity recognition (NER), which aims to detect and classify entities referred in the text in predefined known categories, for example the name of a person, an organism, a location, medical terms etc. This engine is also created using Elasticsearch, which provides a distributed full text search engine with the ability of multiple input with web HTTP api and JSON documents, while also providing storing ability like a regular database and has BM25 similarity metric for relevance assessment of the documents given the elements in search. In order to handle the volume of the texts and actions on the data Apache Spark is used. In the final stage of the search engine we have a friendly interface for users and take into consideration the papers read by the user to create a recommender system. The document re-rank is based on a personal Linear Regression model which predicts in real time, whether is probable the document to be read by the user using the score metric of Elasticsearch.
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΔΕ)

Files in This Item:
File Description SizeFormat 
thesis.pdf3.53 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.