Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/276
Title: Τεχνικές και συστήματα διαχείρισης γνώσης στο διαδίκτυο
Other Titles: Techniques and systems for knowledge management on the Web
Authors: Μαρκέλλου, Πηνελόπη
Issue Date: 2007-06-25T06:15:07Z
Keywords: Εξόρυξη γνώσης
Διαχείριση γνώσης
Εξατομίκευση
Ηλεκτρονική μάθηση
Ηλεκτρονικό εμπόριο
Επιχειρηματική ευφυΐα
Συστάσεις
Keywords (translated): Knowledge management
Web mining
Personalization
Recommendations
E-learning
E-commerce
Business intelligence
Abstract: Ο Παγκόσμιος Ιστός Πληροφοριών (Web) χαρακτηρίζεται σαν ένα περιβάλλον αχανές, ετερογενές, κατανεμημένο και πολύπλοκο με αποτέλεσμα να είναι δύσκολος ο αποδοτικός χειρισμός των δεδομένων των e-εφαρμογών με βάση παραδοσιακές μεθόδους και τεχνικές. Αυτό με τη σειρά του οδηγεί στην απαίτηση για σχεδιασμό, ανάπτυξη και υιοθέτηση «ευφυών» εργαλείων που θα επιλέξουν και θα εμφανίσουν στο χρήστη την κατάλληλη πληροφορία, στον κατάλληλο χρόνο και με την κατάλληλη μορφή. Η παρούσα διδακτορική διατριβή ασχολείται με το πρόβλημα της εξόρυξης «κρυμμένης» γνώσης από συστήματα και εφαρμογές ηλεκτρονικής μάθησης (e-learning), ηλεκτρονικού εμπορίου (e-commerce) και επιχειρηματικής ευφυΐας (business intelligence) με κύριο στόχο τη βελτίωση της ποιότητας και της απόδοσης των παρεχόμενων υπηρεσιών προς τους τελικούς χρήστες. Συγκεκριμένα, τα ερευνητικά αποτελέσματα επικεντρώνονται στα ακόλουθα: α) Μεθοδολογίες, τεχνικές και προτεινόμενοι αλγόριθμοι εξόρυξης «κρυμμένης» γνώσης από e-εφαρμογές λαμβάνοντας υπόψη τη σημασιολογία των δεδομένων, β) Παραγωγή εξατομικευμένων εκπαιδευτικών εμπειριών, γ) Παραγωγή αποδοτικών συστάσεων για την αγορά online προϊόντων, δ) Παραγωγή επιστημονικών και τεχνολογικών δεικτών από διπλώματα ευρεσιτεχνίας για την ανάδειξη του επιπέδου καινοτόμου δραστηριότητας μιας αγοράς, ε) Προτάσεις για μελλοντικές ερευνητικές κατευθύνσεις που επεκτείνουν τις τεχνικές εξόρυξης γνώσης σε πιο σύνθετους τύπους εφαρμογών και αναδεικνύουν νέες ερευνητικές ευκαιρίες. Στο πρώτο κεφάλαιο παρουσιάζεται μια προσέγγιση για την υποστήριξη εξατομικευμένου e-learning όπου η δομή και η σχέση των δεδομένων και των πληροφοριών παίζουν ουσιαστικό ρόλο. Ο προτεινόμενος αλγόριθμος βασίζεται σε μια οντολογία (ontology) η οποία βοηθά στη δόμηση και στη διαχείριση του περιεχομένου που σχετίζεται με μια δεδομένη σειρά μαθημάτων, ένα μάθημα ή ένα θεματικό. Η διαδικασία χωρίζεται σε δύο στάδια: στις offline ενέργειες προετοιμασίας των δεδομένων, δημιουργίας της οντολογίας και εξόρυξης από δεδομένα χρήσης (usage mining) και στην online παροχή της εξατομίκευσης. Το σύστημα βρίσκει σε πρώτη φάση ένα αρχικό σύνολο συστάσεων βασισμένο στην οντολογία του πεδίου και στη συνέχεια χρησιμοποιεί τα frequent itemsets (συχνά εμφανιζόμενα σύνολα στοιχείων) για να το εμπλουτίσει, λαμβάνοντας υπόψη την πλοήγηση άλλων παρόμοιων χρηστών (similar users). Με τον τρόπο αυτό, μειώνουμε το χρόνο που απαιτείται για την ανάλυση όλων των frequent itemsets και των κανόνων συσχέτισης. Εστιάζουμε μόνο σε εκείνα τα σύνολα που προέρχονται από το συνδυασμό της ενεργούς συνόδου (current session) του χρήστη και των συστάσεων της οντολογίας. Επιπλέον, αυτή η προσέγγιση ανακουφίζει και το πρόβλημα των μεγάλων χρόνων απόκρισης, το οποίο μπορεί στη συνέχεια να οδηγήσει στην εγκατάλειψη του e-learning συστήματος. Αν και η εξατομίκευση απαιτεί αρκετά βήματα επεξεργασίας και ανάλυσης, το εμπόδιο αυτό αποφεύγεται με την εκτέλεση σημαντικού μέρους της διαδικασίας offline. Στο δεύτερο κεφάλαιο μελετάται το πρόβλημα της παραγωγής προτάσεων σε μια εφαρμογή e-commerce. Τα συστήματα συστάσεων (recommendations systems ή RSs) αποτελούν ίσως την πιο δημοφιλή μορφή εξατομίκευσης και τείνουν να μετατραπούν στις μέρες μας σε σημαντικά επιχειρησιακά εργαλεία. Η προτεινόμενη υβριδική προσέγγιση στοχεύει στην παραγωγή αποτελεσματικών συστάσεων για τους πελάτες ενός online καταστήματος που νοικιάζει κινηματογραφικές ταινίες. Η γνώση για τους πελάτες και τα προϊόντα προκύπτει από δεδομένα χρήσης και τη δομή της οντολογίας σε συνδυασμό με τις εκτιμήσεις-βαθμολογίες των πελατών για τις ταινίες καθώς και την εφαρμογή τεχνικών ταιριάσματος «όμοιων» πελατών. Όταν ένα ή περισσότερα κριτήρια ταιριάσματος ικανοποιούνται, τότε άλλες ταινίες μπορούν να προσδιοριστούν σύμφωνα με το οντολογικό σχήμα που έχουν παρόμοια χαρακτηριστικά με αυτές που ο πελάτης έχει ήδη νοικιάσει. Στην περίπτωση ενός νέου πελάτη όπου το ιστορικό του είναι κενό, πληροφορίες από την αίτηση εγγραφής του αναλύονται ώστε να ταξινομηθεί σε μια συγκεκριμένη κλάση πελατών και να παραχθούν προτάσεις με βάση το οντολογικό σχήμα. Αυτή η ολοκλήρωση παρέχει πρόσθετη γνώση για τις προτιμήσεις των πελατών και επιτρέπει την παραγωγή επιτυχημένων συστάσεων. Ακόμη και στην περίπτωση του «cold-start problem» όπου δεν είναι διαθέσιμη αρχική πληροφορία για τη συμπεριφορά του πελάτη, η προσέγγιση μπορεί να προβεί σε σχετικές συστάσεις. Τέλος, στο τρίτο κεφάλαιο μελετάται το πρόβλημα της εξόρυξης γνώσης από καταχωρήσεις διπλωμάτων ευρεσιτεχνίας που καταδεικνύουν το επίπεδο της καινοτόμου δραστηριότητας μιας αγοράς. Η προτεινόμενη προσέγγιση αφορά στην εφαρμογή τεχνικών Text Mining σε διπλώματα ευρεσιτεχνίας που βρίσκονται καταχωρημένα σε βάσεις δεδομένων διαφόρων διεθνών οργανισμών διαχείρισής τους, με στόχο την παραγωγή επιστημονικών και τεχνολογικών δεικτών για την ανάδειξη του επιπέδου καινοτομίας μιας αγοράς και συνεπώς την επιχειρηματική ευφυΐα. Αρχικά τα δεδομένα καθαρίζονται προκειμένου να βελτιωθεί η ποιότητά τους πριν την επεξεργασία. Στη συνέχεια εφαρμόζονται δύο τύποι επεξεργασίας η απλή ανάλυση (simple analysis) και η στατιστική ανάλυση (statistical analysis). Στην πρώτη περίπτωση παράγονται γραφήματα που συσχετίζουν τις πληροφορίες π.χ. κύριοι τομείς ανάπτυξης σε μια χώρα. Στη δεύτερη περίπτωση αναλύονται γλωσσολογικά τα πεδία title και abstract των διπλωμάτων ευρεσιτεχνίας και ομαδοποιούνται τα λήμματα των λέξεων. Στη συνέχεια πάνω στα δεδομένα εφαρμόζονται τεχνικές correspondence και clustering analysis έτσι ώστε αυτά να ομαδοποιηθούν σύμφωνα με τις τεχνολογίες στις οποίες αναφέρονται. Τα clusters πλέον αυτά προβάλλονται όπως και στην απλή ανάλυση παρέχοντας στο χρήστη μια πιο λεπτομερή απεικόνιση της πληροφορίας των διπλωμάτων ευρεσιτεχνίας. Ο συνδυασμός των αναλύσεων που εφαρμόζονται με βάση την προτεινόμενη μεθοδολογία επιτρέπει την αποτύπωση των τεχνολογικών εξελίξεων και καινοτομιών. Οι δείκτες που παράγονται είναι πολύ σημαντικοί αφού μπορούν να ποσοτικοποιήσουν τις πληροφορίες που αφορούν σε συγκεκριμένες τεχνολογίες. Με αυτό τον τρόπο μπορούμε να παράγουμε δείκτες για τη δραστηριότητα συγκεκριμένων φορέων, εφευρετών, χωρών, κλπ. Τέλος, τεχνολογικοί δείκτες που υποδεικνύουν μελλοντικές ελπιδοφόρες τεχνολογίες καθώς και ποιοι φορείς θα είναι πρωτοπόροι σε αυτές μπορούν να εξαχθούν.
Abstract (translated): The World Wide Web (Web) has been characterized as a vast, heterogeneous, distributed and complicated environment resulting in difficulties for the efficient handling of e-applications’ data with traditional methods and techniques. This leads to the requirement for designing, implementing and adopting “intelligent” tools, able to select and present to the user the suitable information, at the suitable time and in the suitable form. The present dissertation deals with the problem of mining “hidden” knowledge from systems and applications of electronic learning (e-learning), electronic commerce (e-commerce) and business intelligence (BI), aiming mainly at the improvement of quality and performance of the services provided to the end-users. Specifically, the results are focused on the following: a) Methodologies, techniques and proposed algorithms of mining hidden knowledge from e-applications taking into consideration the semantics of data, b) Production of personalized educational experiences, c) Generation of efficient recommendations for the online purchase of products, d) Discovery of scientific and technological indicators in patents that indicate the level of innovation activity of a market, e) Proposals for future research directions that extend the techniques of knowledge mining to more complex types of applications and indicate new research opportunities. The first chapter presents an approach for the support of personalized e-learning in the cases where the structure and the relation of data and information play essential role. The proposed algorithm is based on an ontology which helps in structuring and managing the content that is related with a given course, a lesson or a topic. The process is decomposed into two stages: the offline phase of data preparation, ontology creation and data usage mining and the online phase of producing personalization. The system finds a initial set of recommendations based on the ontology of the domain and then identifies a set of frequent itemsets (sets of items observed often) in order to enrich the initial recommendations, taking into consideration the navigation of other similar users. In this way, we decrease the time required for the analysis of all the frequent itemsets and association rules, by focusing only on those sets that derive from the combination of the current active session of the user and the ontology recommendations. Moreover, this approach also alleviates the problem of long response times that can lead to the abandonment of the system. Even if the personalization requires considerable steps of preparation and analysis, this obstacle is avoided with the implementation of important part of the process offline. The second chapter studies the problem of recommendations’ production in an e-commerce application. Recommendation systems or RSs constitute perhaps the most popular form of personalization and they tend to become in our days an important business tool. The proposed hybrid approach aims in the production of effective recommendations for the customers of an online shop that rents movies. The knowledge for the customers and the movies results from usage data and the structure of an ontology in combination with customer rates about the movies, as well as with the application of matching techniques for discovering similar customers. When one or more matching criteria are satisfied, then other movies can be specified according to the ontological schema that has similar characteristics with those that the customer already has rented. In the case of a new customer with no history information, data from his registration form are analyzed so that he is categorized in a specific group of customers and the recommendations are based on the ontology. This integration provides additional knowledge for the preferences of customers and allows the production of successful recommendations. Even in the case of cold-start problem where initial information on the customer’s behavior is not available, the approach can produce qualitative and relatively precise recommendations. Finally, the third chapter describes the problem of mining knowledge from patent registrations which indicate the level of innovation activity of a market. The proposed approach concerns the application of Text Mining techniques in patents retrieved from the databases of various national and international Patent Offices, aiming at the production of scientific and technological indicators of the innovation level of a market activity and consequently business intelligence. Initially, the data are cleaned in order to improve their quality before the analysis steps. Then two types of analysis are applied on the data: simple analysis and statistical analysis. In the first case, several charts are produced that connect the information e.g. main sectors of development in a country. In the second case, the title and abstract fields of the patents are linguistically analyzed and the lemmas of words are grouped. Then correspondence and clustering analysis are applied. The produced clusters are depicted as in the simple analysis providing the user with a detailed representation of patent information. The combination of analyses that are applied based on the proposed methodology allows the identification of technological evolutions and innovations. The produced indicators are very important since they can quantify the information that concerns specific technologies. In this way, we can produce indicators for the activity of specific institutions, inventors, countries, etc. Finally, technological indicators about the potential emerging technologies as well as the institutions that will be pioneers can be exported.
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΔΔ)

Files in This Item:
File Description SizeFormat 
343.pdf6.67 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.