Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/9435
Title: Σημασιολογική αναζήτηση στον παγκόσμιο ιστό : τεχνικές ομαδοποίησης, δεικτοδότησης και επισήμανσης
Other Titles: Semantic web retrieval : clustering, indexing and labeling techniques
Authors: Καναβός, Ανδρέας
Keywords: Σημασιολογικός ιστός
Ανάκτηση πληροφορίας
Δεικτοδότηση
Ανάλυση κοινωνικών δικτύων
Βιοπληροφορική
Συμβολοσειρές
Σύσταση παγκόσμιου ιστού
Εξόρυξη δεδομένων
Keywords (translated): Semantic web
Data mining
Indexing
Social network analysis
Bioinformatics
Strings
Web recommendation
Information retrieval
Abstract: Η τεράστια και συνεχώς αυξανόμενη ποσότητα και διαθεσιμότητα πληροφοριών, που παρέχεται μέσω του Παγκόσμιου Ιστού (World Wide Web), έχει διαφοροποιήσει αρκετά τη ζωή των ανθρώπων και συνάμα τους έχει βοηθήσει όσον αφορά την ακρίβεια στην αναζήτηση πληροφοριών. Τις τελευταίες δεκαετίες, μια πληθώρα εμπορικών μηχανών αναζήτησης έχουν αναδυθεί και παρέχουν πλέον όλα τα απαραίτητα εργαλεία και εφόδια ώστε να είναι σχετικά απλή και αρκετά γρήγορη για τους χρήστες του Παγκόσμιου Ιστού η αναζήτηση πληροφοριών. Παρόλα ταύτα, η πληθώρα των πληροφοριών αυτών, έχει οδηγήσει στην ανάγκη επέκτασης των μηχανών αναζήτησης με σκοπό τη δημιουργία εξατομικευμένων και διαφορετικών για κάθε χρήστη πλαισίων καθώς και την ανάπτυξη νέων τεχνικών και μεθοδολογιών με σκοπό την αποτελεσματική επεξεργασία των πληροφοριών. Οι μηχανές αναζήτησης είναι ένα ανεκτίμητο εργαλείο για την ανάκτηση πληροφοριών από το διαδίκτυο. Απαντώντας στα ερωτήματα του χρήστη, επιστρέφουν μια λίστα με αποτελέσματα, ταξινομημένα κατά σειρά, με βάση τη συνάφεια του περιεχομένου τους προς το ερώτημα. Ωστόσο, αν και οι μηχανές αναζήτησης είναι σίγουρα αρκετά καλές στην αναζήτηση συγκεκριμένων ερωτημάτων, όπως είναι η εύρεση μιας συγκεκριμένης ιστοσελίδας, αντίθετα μπορούν να είναι λιγότερο αποτελεσματικές όσον αφορά στην αναζήτηση ασαφών, προς αυτές, ερωτημάτων, όπως επί παραδείγματι όταν συναντάται το φαινόμενο της αμφισημίας, όπου μια λέξη μπορεί να πάρει περισσότερες από μία έννοιες μέσα στα συμφραζόμενα διαφορετικής πρότασης. Άλλο ένα εύστοχο παράδειγμα είναι όταν υπάρχουν περισσότερες από δύο υποκατηγορίες και νοήματα σ' ένα ερώτημα, πράγμα που σημαίνει ότι ο χρήστης θα πρέπει να διατρέξει ένα μεγάλο αριθμό αποτελεσμάτων για να βρει αυτά που τον ενδιαφέρουν. Έτσι, χρησιμοποιήθηκε η σημασιολογική εγκυκλοπαίδεια Wikipedia αλλά και το WordNet αντλώντας δεδομένα και εν συνεχεία χρησιμοποιώντας τα ως επιπρόσθετη πληροφορία. Σε όλα τα αποτελέσματα των μηχανών αναζήτησης εφαρμόζεται ο σχολιασμός των κειμένων έτσι ώστε να μπορεί να περιγραφεί αποδοτικότερα και περισσότερο εμπλουτισμένα η πληροφορία που είναι εμφωλευμένη μέσα τους. Η τεχνική του σχολιασμού κειμένων, η οποία χρησιμοποιείται κατά κόρον στη παρούσα Διδακτορική Διατριβή, αποτελεί ένα κομμάτι της εξόρυξης πληροφορίας με την οποία αντιστοιχίζονται είτε σε λέξεις είτε σε φράσεις του κειμένου κάποιες επιπρόσθετες πληροφορίες σχετικές με την καθολική έννοια του συγκεκριμένου κειμένου. Οι επιπρόσθετες πληροφορίες προέρχονται από βάσεις δεδομένων, οντολογίες ή και θησαυρούς. Ως εκ τούτου, απώτερος σκοπός της παρούσας διατριβής είναι η διερεύνηση των δυνατοτήτων του πεδίου της επιστήμης των υπολογιστών που σχετίζεται με τη σημασιολογική αναζήτηση καθώς και την εξόρυξη γνώσης από τον Παγκόσμιο Ιστό και κατ' επέκταση με τις σύγχρονες εφαρμογές. Ερευνώνται χαρακτηριστικοί, και εμφανώς δυσδιάκριτοι μεταξύ τους, τομείς με στόχο το όσο το δυνατόν ευρύτερο πεδίο εφαρμογών των προτεινόμενων αλγορίθμων, τεχνικών και μεθοδολογιών. Πιο συγκεκριμένα, η δομή της παρούσας διατριβής αποτελείται από τρία μέρη. Το θεματολόγιο στο οποίο εστίασε δε, απαρτίζεται από τα παρακάτω οκτώ μέρη, όσα είναι επί της ουσίας και τα κεφάλαια. Το πρώτο μέρος (Κεφάλαια 1, 2 και 3) αναφέρεται στην Εξόρυξη Πληροφορίας σε Διαδικτυακά Περιβάλλοντα χρησιμοποιώντας τις σημασιολογικές πληροφορίες των αποτελεσμάτων αναζήτησης. Ειδικότερα, το πρώτο κεφάλαιο σχετίζεται με τεχνικές σχολιασμού κειμένων με χρήση των θησαυρών WordNet και Wikipedia με σκοπό την ομαδοποίηση των αποτελεσμάτων αναζήτησης. Έπειτα, το δεύτερο αλλά και το τρίτο κεφάλαιο αναφέρονται κατά κύριο λόγο στην Εξατομικευμένη Αναζήτηση και πώς αυτή μπορεί να επιτευχθεί είτε σε Διαδικτυακά Περιβάλλοντα είτε με χρήση γνωμών - κριτικών. Έτσι, ερευνάται η Αναδιάταξη των αποτελεσμάτων των μηχανών αναζήτησης με χρήση της Wikipedia αλλά και η Εξατομίκευση Περιεχομένου και η ακόλουθη Αναδιάταξη Οντοτήτων με αξιοποίηση γνωμών - κριτικών. Η συνεισφορά του πρώτου μέρους έγκειται κυρίως στην δημιουργία ενός συστήματος που λαμβάνει υπόψη διάφορες στρατηγικές αναδιαμόρφωσης έτσι ώστε να μπορούν οι χρήστες των μηχανών αναζήτησης να ανακτούν επιθυμητά προς το ερώτημα που υπέβαλλαν, αποτελέσματα. Επιπρόσθετα, η μετα-μηχανή αναζήτησης, έχει ως στόχο την ανακάλυψη διαφορετικών θεματικών και σημασιολογικών συνόλων αποτελεσμάτων, τα οποία σύνολα διαφοροποιούνται ανάλογα με τις διαφορετικές σημασίες του παρεχόμενου ερωτήματος. Επίσης, χρησιμοποιήθηκαν δύο τεχνικές που ενισχύουν την αποσαφήνιση με τη χρήση τόσο της λεξιλογικής βάσης δεδομένων του WordNet όσο και των τιμών του PageRank των οντοτήτων/άρθρων της Wikipedia. Επιπλέον, οι τεχνικές εξατομικευμένης αναζήτησης που αναπτύχθηκαν επιλύουν τα προβλήματα αμφισημίας στο πεδίο των μηχανών αναζήτησης με σκοπό την αναδιάταξη των αποτελεσμάτων σε διαδικτυακά περιβάλλοντα. Τέλος, επιλύονται προβλήματα αμφισημίας στο πεδίο των κριτικών από χρήστες για συγκεκριμένα προϊόντα, δηλαδή αναδιάταξη οντοτήτων με αξιοποίηση κριτικών. Στο δεύτερο μέρος (Κεφάλαια 4 και 5) μελετώνται αρχικά οι τεχνικές που προαναφέρθηκαν, αλλά σε διαφορετικό τομέα, αυτόν της Βιοπληροφορικής. Συγκεκριμένα, ενσωματώνονται για την Εξόρυξη Γνώσης, ειδικές Οντολογίες Βιοϊατρικών Όρων και τις χρησιμοποιούμε με σκοπό την ομαδοποίηση των βιοϊατρικών αποτελεσμάτων που υπάρχουν σε μεγάλες βιοϊατρικές βιβλιοθήκες. Στο πέμπτο κεφάλαιο ερευνάται η Δεικτοδότηση Βεβαρημένων Ακολουθιών με χρήση του γνωστού Δένδρου Επιθεμάτων καθώς και η Εύρεση Προτύπων προς συμπίεση του χώρου αποθήκευσης και αποδοτικότερη διαχείριση των Βιολογικών Δεδομένων. Ομοίως με το πρώτο μέρος της διατριβής, σκοπός του συγκεκριμένου μέρους αποτελεί η επεξεργασία κειμένων με βιοϊατρικό περιεχόμενο και ακολούθως η αυτόματη εξαγωγή αποτελεσμάτων και συμπερασμάτων. Επίσης, μελετάται η δεικτοδότηση βεβαρημένων ακολουθιών με απώτερο στόχο την αποδοτικότερη διαχείριση βιολογικών ακολουθιών, όπως είναι για παράδειγμα, τα νουκλεοτίδια. Η συνεισφορά του δεύτερου μέρους έγκειται στην εξόρυξη πληροφορίας σε ιατρικά περιβάλλοντα με χρήση οντολογιών βιοϊατρικών όρων και ακολούθως με την υλοποίηση μιας μετα-μηχανής αναζήτησης. Η μεθοδολογία που αναπτύχθηκε χρησιμοποιεί διάφορες βιοϊατρικές οντολογίες, όπως είναι το MeSH, το RxNorm αλλά και η λεξιλογική βάση δεδομένων του WordNet. Επίσης, παρουσιάζεται μια μετα-μηχανή αναζήτησης, η οποία επεξεργάζεται τα αποτελέσματα που επιστρέφει η μηχανή αναζήτησης PubMed με σκοπό την ομαδοποίηση συναφών κειμένων-αποτελεσμάτων. Επιπρόσθετα, μια πολύ μεγάλη συνεισφορά αποτελεί η τεχνική των ανεστραμμένων αρχείων που συνδυάζει το δένδρο επιθεμάτων με τα n-grams με σκοπό τη δεικτοδότηση βεβαρημένων ακολουθιών. Η παροχή των νέων αυτών τεχνικών πάνω στις δομές δεδομένων αποδεικνύει ότι αποδίδουν καλύτερα όσον αφορά την αποθήκευση δεδομένων αλλά και την ανάκτηση της πληροφορίας και των δεδομένων όταν αναφερόμαστε σε βεβαρημένες ακολουθίες σε σχέση με τις ήδη υπάρχουσες τεχνικές. Τέλος, στο τρίτο μέρος της διατριβής (Κεφάλαια 6, 7 και 8), παρουσιάζονται κάποια πολύ δημοφιλή ζητήματα της ανάλυσης των Κοινωνικών Δικτύων. Πιο συγκεκριμένα, εστιάζεται στην εξαγωγή πληροφοριών από τα κοινωνικά δίκτυα, και ειδικότερα για το Twitter, χωρίς αυτό να αποκλείει την εφαρμογή των προτεινόμενων τεχνικών και μεθόδων και σε άλλα κοινωνικά δίκτυα, όπως το Facebook, κλπ. Τα δίκτυα μπορούν να κατηγοριοποιηθούν ανάλογα με τη χρήση τους σε αρκετές κατηγορίες, όπως είναι τα δίκτυα πληροφοριών, τα τεχνολογικά δίκτυα, τα βιολογικά δίκτυα, αλλά και τα κοινωνικά δίκτυα που μελετώνται εδώ. Στα κοινωνικά δίκτυα, ως κόμβοι θεωρούνται οι μεμονωμένοι άνθρωποι ή ομάδες ανθρώπων ενώ οι ακμές αναπαριστούν κάποιου είδους αλληλεπίδραση μεταξύ τους. Χρησιμοποιήθηκαν μέθοδοι ανίχνευσης κοινοτήτων σε γράφους/δίκτυα, οι οποίοι στοχεύουν στην εύρεση ομάδων από χρήστες με συγκεκριμένα κοινά χαρακτηριστικά ανάμεσά τους. Η ιδέα της κοινότητας προήλθε από κοινωνιολογικές μελέτες όπου γίνεται αναφορά στην έννοια της συνεκτικότητας και της αμοιβαιότητας της ομάδας, οι οποίες έχουν τοπικό χαρακτήρα. Ως αποτέλεσμα ήταν να προκύψουν διάφοροι ορισμοί για τον χαρακτηρισμό αυτών των ομάδων, με σημαντικότερους τους ακόλουθους: κλίκες, k-πυρήνες, n-κλίκες, ψευδοκλίκες, κλπ. Ειδικότερα, το έκτο κεφάλαιο πραγματεύεται την εύρεση των κόμβων που επηρεάζουν περισσότερο τους άλλους κόμβους σ' ένα κοινωνικό δίκτυο αλλά και την αναγνώριση και εν συνεχεία την εξαγωγή κοινοτήτων με παρόμοια (ή και διαφορετικά) χαρακτηριστικά. Παρουσιάζονται διαφορετικά μοντέλα εξαγωγής κοινοτήτων με βάση την προσωπικότητα των χρηστών που απαρτίζουν το δίκτυο καθώς και μελετάται η μεταφορά αυτών των μεθοδολογιών σε περιβάλλοντα με μεγάλο αριθμό δεδομένων. Στο έβδομο κεφάλαιο προστίθεται η συναισθηματική πληροφορία στην προσωπικότητα των χρηστών έτσι ώστε να γίνει πιο πλήρης και πιο πολύ-επίπεδη η διαδικασία εξαγωγής των κοινοτήτων με περισσότερα και σημαντικότερα χαρακτηριστικά γνωρίσματα της προσωπικότητας των χρηστών. Τέλος, στο όγδοο κεφάλαιο γίνεται αναφορά στα πρότυπα Διάχυσης Πληροφορίας σε κοινωνικά δίκτυα. Στην απλή περίπτωση μελετάται απλά η ακολουθία των βημάτων του κάθε κειμένου, ενώ στη πιο σύνθετη περίπτωση ενσωματώνεται η συναισθηματική πληροφορία για να είναι πιο πλήρες το περιεχόμενο. Η συνεισφορά του τρίτου μέρους έγκειται στην εύρεση των κόμβων ενός κοινωνικού δικτύου που επηρεάζουν τους άλλους κόμβους και εν συνεχεία στην αναγνώριση και την εξαγωγή κοινοτήτων με παρόμοια (ή και διαφορετικά) χαρακτηριστικά. Επιπλέον, δημιουργήθηκε ένα πρωτότυπο σύστημα που λαμβάνει υπόψη τη προσωπικότητα των χρηστών και με χρήση αλγορίθμων εξαγωγής κοινοτήτων, πραγματοποιεί εξαγωγή κοινοτήτων με επιρροή με σκοπό τη διάχυση της πληροφορίας σε ένα δίκτυο. Πολύ σημαντικό κομμάτι του μέρους αυτού αποτελεί η μεταφορά όλων των τεχνικών στην υποδομή του νέφους και συγκεκριμένα σε περιβάλλον MapReduce και η ακόλουθη πρόταση μιας μεθοδολογίας με σκοπό τη δημιουργία συνθετικών datasets που βασίζονται σε πραγματικά δεδομένα. Επιπρόσθετα, πραγματοποιείται η προσθήκη της συναισθηματικής πληροφορίας στην προσωπικότητα των χρηστών ώστε να γίνει πολύ-επίπεδη η διαδικασία εξαγωγής κοινοτήτων. Τέλος, παρουσιάζεται η έννοια των Tree-Shaped Tweet Cascades, τα οποία στην ουσία δημιουργούνται από τα ReTweets και τα οποία συνεισφέρουν στην πρόβλεψη της διάχυσης της πληροφορίας ενός δεδομένου tweet. Για την αναγνώριση των βασικών προτύπων διάχυσης, χρησιμοποιήθηκε η κωδικοποίηση κάθε προτύπου διάχυσης ως string και ακολούθως η χρήση τεχνικών και μεθοδολογιών δομών δεδομένων και ανάκτησης πληροφορίας.
Abstract (translated): -
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΔΔ)

Files in This Item:
File Description SizeFormat 
Kanavos(com).pdf3.24 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons