Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/5498
Title: Εξόρυξη γνώσης στον παγκόσμιο ιστό και εφαρμογές σε συστήματα συστάσεων
Authors: Φαλιάγκα, Ευανθία
Issue Date: 2012-09-17
Keywords: Ηλεκτρονικές προσλήψεις
Εξόρυξη προσωπικότητας
Συστήματα συστάσεων
Keywords (translated): e-Recruitment
Personality mining
Recommendation systems
AHP
Abstract: Το διαδίκτυο συγκεντρώνει μεγάλες ποσότητες πληροφοριών, οι οποίες λόγω του όγκου τους πολλές φορές μένουν αναξιοποίητες. Οι τεχνικές εξόρυξης γνώσης μπορούν να αυτοματοποιήσουν τη διαδικασία της ανάκτησης χρήσιμων πληροφοριών από τον ιστό και να συνδυαστούν με συστήματα που μπορούν να αξιοποιήσουν τη γνώση αυτή. Ένα τέτοιο παράδειγμα είναι τα συστήματα συστάσεων, τα οποία μπορούν να αξιοποιούν την υπάρχουσα γνώση και να εντοπίζουν αυτόματα τις κατάλληλες επιλογές από ένα μεγάλο αριθμό εναλλακτικών, με βάση ορισμένα καθορισμένα κριτήρια. Για το λόγο αυτό τα συστήματα συστάσεων είναι άρρηκτα συνδεδεμένα με τεχνικές εξόρυξης γνώσης, οι οποίες μέσα από πληθώρα πληροφοριών μπορούν να εξάγουν χρήσιμα στοιχεία που βοηθούν στην αυτοματοποιημένη παραγωγή συστάσεων, διαδικασία που γίνεται ακόμα πιο πολύπλοκη όταν η πρόταση πρέπει να γίνει με βάση πολλαπλά κριτήρια, με διαφορετικά βάρη το καθένα. Εφαρμογές των συστημάτων συστάσεων υπάρχουν σε τομείς όπως η ψυχαγωγία, το ηλεκτρονικό εμπόριο αλλά και σε διαδικτυακές υπηρεσίες. Μία ακόμη εφαρμογή τους είναι και το πρόβλημα της αξιολόγησης ανθρώπινων χαρακτηριστικών, όπου τα κριτήρια των συστάσεων θα είναι οι δεξιότητες των ανθρώπων και το αντικείμενο της σύστασης θα είναι το πρόσωπο που αξιολογείται. Αυτά ονομάζονται συστήματα ηλεκτρονικών προσλήψεων (e-recruitment συστήματα) και αυτοματοποιούν τη διαδικασία της δημοσίευσης θέσεων εργασίας και τη λήψη βιογραφικών σημειωμάτων. Το πρόβλημα των ηλεκτρονικών προσλήψεων έχει δύο όψεις: Μπορεί να είναι είτε προσανατολισμένο στον υποψήφιο (seeker oriented) είτε προσανατολισμένο στον εργοδότη (company oriented). Στην πρώτη περίπτωση το σύστημα ηλεκτρονικών προσλήψεων προτείνει στον υποψήφιο μία λίστα από θέσεις εργασίας που ταιριάζουν καλύτερα στο προφίλ του. Στη δεύτερη περίπτωση οι εργοδότες δημοσιεύουν τις προδιαγραφές των διαθέσιμων θέσεων εργασίας οι υποψήφιοι εκδηλώνουν ενδιαφέρον και στη συνέχεια γίνεται κατάταξη των υποψηφίων με βάση κριτήρια που εξαρτώνται από τη θέση εργασίας. Αντικείμενο της παρούσας διδακτορικής διατριβής είναι η μελέτη και η εφαρμογή τεχνικών εξόρυξης γνώσης ώστε να βελτιωθεί η διαδικασία των συστάσεων. Οι τεχνικές που προτείνονται εφαρμόζονται σε συστήματα ηλεκτρονικών προσλήψεων προσανατολισμένων στον εργοδότη. Συγκεκριμένα, στο πρώτο κεφάλαιο παρουσιάζονται τα βασικά χαρακτηριστικά των συστημάτων συστάσεων και δίνεται έμφαση στα συστήματα όπου οι συστάσεις βασίζονται στο φιλτράρισμα με βάση το περιεχόμενο. Σαν παράδειγμα των συστημάτων συστάσεων χρησιμοποιήθηκε ένα σύστημα ηλεκτρονικών προσλήψεων προσανατολισμένο στον εργοδότη που αυτοματοποιεί την αξιολόγηση των υποψηφίων. Στη συνέχεια του κεφαλαίου παρουσιάζεται μία νέα προσέγγιση στην κατάταξη υποψηφίων με πολλές βελτιώσεις σε σχέση με τα υπάρχοντα συστήματα. Η προσέγγιση που προτείνεται διαφέρει από τα υπάρχοντα συστήματα ηλεκτρονικών προσλήψεων στο γεγονός ότι δε δέχεται βιογραφικά, αλλά οι υποψήφιοι συμπληρώνουν τα στοιχεία του προφίλ τους χρησιμοποιώντας προκαθορισμένες φόρμες μέσω διαδικτύου. Ακόμη, μοντελοποιεί τα βιογραφικά που προκύπτουν με χρήση της HR-XML γλώσσας μοντελοποίησης και στη συνέχεια κατατάσσει τους υποψηφίους, βαθμολογώντας τα προσόντα τους ανάλογα με τις απαιτήσεις της κάθε θέσης εργασίας. Η διαδικασία βαθμολόγησης και κατάταξης βασίζεται στον αλγόριθμο Analytic Hierarchy Process, ή AHP (Saaty, 1990). Για να ελεγχθεί η λειτουργικότητα και η αποτελεσματικότητα του συστήματος σχεδιάστηκε και εκτελέστηκε ένα σενάριο, που χρησιμοποίησε θέσεις εργασίας από το γραφείο διασύνδεσης του Πανεπιστημίου Πατρών. Στο δεύτερο κεφάλαιο, προτείνεται μία μέθοδος δημιουργίας συστάσεων που βασίζεται στην αυτόματη εξόρυξη των στοιχείων της προσωπικότητας των χρηστών. Το τελευταίο βασίζεται στη γλωσσολογική ανάλυση των γραπτών δεδομένων που σχετίζονται με τους υποψηφίους και είναι διαθέσιμα στις ιστοσελίδες κοινωνικής δικτύωσης. Τα χαρακτηριστικά προσωπικότητας των υποψηφίων θεωρούνται μεγάλης σημασίας στις περισσότερες θέσεις εργασίας αλλά αγνοούνται εντελώς στα υπάρχοντα συστήματα ηλεκτρονικών προσλήψεων. Στο σύστημα παροχής συστάσεων που υλοποιήθηκε, υπολογίστηκε η εξωστρέφεια του κάθε υποψηφίου, το οποίο χρησιμοποιήθηκε σαν ένα από τα κριτήρια κατάταξης. Στη συνέχεια, περιγράφεται η αρχιτεκτονική του συστήματος και παρουσιάζεται η εφαρμογή διαδικτύου που υλοποιήθηκε, η οποία ουσιαστικά είναι ένα ολοκληρωμένο σύστημα ηλεκτρονικών προσλήψεων που κατατάσσει τους υποψηφίους για κάθε θέση εργασίας. Η εφαρμογή αυτή δοκιμάστηκε με πραγματικά δεδομένα μέσω ενός πιλοτικού σεναρίου που σχεδιάστηκε σε συνεργασία με το τμήμα προσωπικού της Novartis Hellas. Για τα πειραματικά αποτελέσματα χρησιμοποιήθηκαν 100 ελληνικά ιστολόγια και υπολογίστηκαν τα LIWC σκορ για κάθε κατηγορία λέξεων σε κάθε ιστολόγιο. Τα αποτελέσματα αξιολογήθηκαν από έμπειρους υπεύθυνους προσλήψεων και δείχνουν την αποτελεσματικότητα του συστήματος σε ένα πραγματικό σενάριο πρόσληψης προσωπικού. Στο τρίτο κεφάλαιο προτείνεται η εφαρμογή εποπτευόμενων αλγορίθμων μάθησης (supervised learning algorithms) σε αυτοματοποιημένα συστήματα συστάσεων, για να αντιμετωπιστεί το πρόβλημα της κατάταξης. Η προτεινόμενη μέθοδος εφαρμόζεται σε ένα σύστημα ηλεκτρονικών προσλήψεων όπου, ένα σύνολο αντικειμενικών κριτηρίων εξάγεται από το LinkedIn προφίλ του υποψηφίου και υπολογίζονται τα χαρακτηριστικά της προσωπικότητάς του χρησιμοποιώντας γλωσσολογική ανάλυση στις δημοσιεύσεις του ιστολογίου του. Το νέο χαρακτηριστικό της μεθόδου είναι ότι πλέον αξιοποιεί τις κατατάξεις που έκανε ο υπεύθυνος προσλήψεων για κάθε θέση εργασίας, τις χρησιμοποιεί σαν δεδομένα εκπαίδευσης και ενσωματώνοντας αλγόριθμους μηχανικής μάθησης, το σύστημα «μαθαίνει» και ταξινομεί τους υποψηφίους με βάση τις προηγούμενες επιλογές. Μία ακόμη βελτίωση που προτείνεται στο κεφάλαιο αυτό είναι η δημιουργία και χρήση ταξινομίας, ώστε να γίνεται σημασιολογική αναζήτηση των δεξιοτήτων που απαιτούνται σε κάθε θέση εργασίας και να μετράται η σχετική προϋπηρεσία. Χρησιμοποιώντας τη σημασιολογική αναζήτηση, το σύστημα μπορεί να ανταποκριθεί σε κάθε θέση εργασίας ακόμα και αν απαιτεί συγκεκριμένη προϋπηρεσία και εξειδικευμένα προσόντα. Τα αποτελέσματα του συστήματος που υλοποιήθηκε για την εφαρμογή της μεθόδου που προτείνεται συγκρίθηκαν με τις κατατάξεις ενός υπεύθυνου προσλήψεων και έδειξαν ότι το σύστημα που αναπτύχθηκε μπορεί να χρησιμοποιηθεί σε πραγματικές συνθήκες με πολύ καλή ακρίβεια. Στο τέταρτο κεφάλαιο παρουσιάζεται μία μέθοδος εξόρυξης γνώσης σε επίπεδο κλώνων μοντέλων για την εκτίμηση της ποιότητας των εφαρμογών. Η μέθοδος προτείνει τη μοντελοποίηση του εννοιολογικού συστήματος μιας εφαρμογής. Στη συνέχεια, εφαρμόζοντας εργαλεία ανάκτησης υπογράφων γίνεται αναζήτηση κλώνων μοντέλων και υπολογίζονται οι κατάλληλες μετρικές ποιότητας. Σκοπός της μεθοδολογίας και του συστήματος που αναπτύχθηκε είναι να ανιχνεύει προβλήματα στο εννοιολογικό σχήμα μιας εφαρμογής όσο αφορά στην αποδοτικότητα, στη συνέπεια, στην ευχρηστία και γενικά στην ποιότητα μιας εφαρμογής. Η προτεινόμενη μεθοδολογία μπορεί να χρησιμοποιηθεί είτε στη φάση του σχεδιασμού μιας εφαρμογής είτε στην ανακατασκευή της. Η σωστή λειτουργία του συστήματος που αναπτύχθηκε επιβεβαιώνεται πειραματικά μέσω ενός πιλοτικού σεναρίου.
Abstract (translated): The internet gathers vast amounts of information, which remain unexploited. Data mining techniques can automate the process of extracting knowledge from the web, which can be exploited by information systems. On the other hand recommender systems can utilize knowledge for a specific domain to automatically find the best choice from a large number of alternatives according to certain specified criteria. Thus recommender systems are closely related to data mining techniques, which can be employed to extract useful data and produce automatic recommendations. This process becomes more complex when the recommendations are based on multiple criteria with different weights. Recommender systems have many applications in the areas of entertainment, e-commerce and other web services. Another application is the problem of assessing human traits, where the recommendation criteria are the candidates’ skills and the recommendation objective is to assess candidate’s relevance to a specific position. These are termed e-recruitment systems and automate the process of publishing positions and receiving CVs. The online recruitment problem is two-sided: It can be seeker-oriented or company-oriented. In the first case the e-recruitment system recommends to the candidate a list of job positions that better fit his profile. In the second case recruiters publish the specifications of available job positions, the candidates apply and then they are ranked based on criteria that depend on the job position. The purpose of this thesis is the study the application of data mining techniques with an objective to improve the recommendation process. The proposed techniques are applied to company-oriented e-recruitment systems. Specifically, the first chapter presents the basic characteristics of the recommender systems and focuses on systems that make content-based predictions. As an example of recommender systems a company oriented e-recruitment system was used to automatically evaluate job applicants. In this chapter, a new approach for candidate ranking is presented that has many improvements over the existing systems. The proposed approach differs from conventional e-recruitment systems in that it does not accept CVs, but candidates fill predefined online forms. Moreover, it models the resulting CVs using the HR-XML modeling language and then ranks the candidates, graduating the required qualifications for each job. The process of scoring and ranking algorithm is based on the Analytic Hierarchy Process, or AHP. To test the functionality and the efficiency of the system a scenario was set based on job offers from the liaison office of the University of Patras. The second chapter proposes a recommender system based on the algorithm of Analytic Hierarchy Process (AHP) and the automatic extraction of the users’ personality elements. The latter is based on the linguistic analysis of text data associated with the candidates and are available on social networking sites. The personality traits of the candidates are very important in most jobs, but completely ignored in the existing e-recruitment systems. Then, the system architecture is shown and the Web application that was implemented is presented, which is essentially an integrated e-recruitment system that ranks the candidates for each job. This application was tested with real data through a pilot script that was designed in collaboration with the personnel department of Novartis Hellas. For the experimental results were used 100 Greek blogs and LIWC scores were calculated for each category of words in each blog. The results were evaluated by experienced recruiters and show the effectiveness of the system in real scenario recruitment. The third chapter introduces the application of supervised learning algorithms on automated recommender systems, to solve the problem of ranking. The proposed method is applied to an e-recruitment system where a set of objective criteria is extracted from the candidate’s LinkedIn profile and then his personality traits are calculated using linguistic analysis to his blog posts. The new feature of this method is that it uses the recruiter’s rankings for each job position, uses them as training data and incorporates machine learning algorithms. The system “learns” and ranks the candidates based on previous recommendations. Another enhancement proposed in this chapter is the development and use of a taxonomy, to enable a semantic matching of the skills required for each job position and calculate the relevant experience. Using semantic matching, the system can respond to any job position even of it requires specific job experience and specialized skills. The results of the system implemented to validate the proposed method, were compared to a recruiter’s ranking and showed that the implemented system can be used in real world with very good accuracy. The fourth chapter presents a method for model clones mining to evaluate the applications’ quality. The method proposes the modeling of the conceptual schema of the application. Then, using tools for sub graphs mining a search for model clones is performed and the appropriate quality metrics are calculated. The purpose of the methodology and the implemented system was to detect problems in the conceptual schema of an application regarding the efficiency, consistency, usability and overall quality of an application. The proposed methodology can be used either in the design phase of an application or in the reconstruction phase. The proper functionality of the developed system is experimentally confirmed with a pilot scenario.
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΔΔ)

Files in This Item:
File Description SizeFormat 
thesis_final_faliagka_2.pdf1.99 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.