Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/10604
Title: Αναζήτηση, μοντελοποίηση και αξιολόγηση εφαρμογών και δεδομένων στον Παγκόσμιο ιστό
Other Titles: Searching, modeling and evaluation of applications and data in the World Wide Web
Authors: Βιέννας, Εμμανουήλ
Keywords: Αναζήτηση
Μοντελοποίηση
Αξιολόγηση
Μηχανές αναζήτησης
Τεχνικές αναζήτησης
Βάσεις σημασιολογικής γνώσης
Αξιολόγηση εφαρμογών παγκοσμίου ιστού
Οπτικοποίηση
Οπτικοποίηση γνώσης
Βάσεις βιολογικών δεδομένων
Keywords (translated): Search engines
Post-ranking
Semantic matching
Relevant feedback
Dynamic refinement
Re-ranking model
Inference network
WordNet senses
Databases
Data interpretation
Data mining
Gene causative mutations
Pharmacogenomic markers
Databases
Pharmacogenomics
Visualization
Data querying
HTML5 code quality
HTML5 metrics
Web applications
WebML
Design Patterns
Mining
Modeling
Evaluation
Abstract: Η παγκόσμια διαθεσιμότητα των πληροφοριών που παρέχονται από το World Wide Web τις τελευταίες δεκαετίες ανέδειξε το web searching σαν ένα από τα πιο υποσχόμενα πεδία ενδιαφέροντος στην ευρύτερη ερευνητική περιοχή του web. Στις μέρες μας, οι σύγχρονες μηχανές αναζήτησης απαντάνε αρκετά ικανοποιητικά τα ερωτήματα των χρηστών, αλλά τα αποτελέσματα που επιστρέφονται στις πρώτες θέσεις αρκετές φορές δεν είναι σχετικά με τα δεδομένα που ο χρήστης αναζητά. Έχουν καταβληθεί σημαντικές προσπάθειες από τις μηχανές αναζήτησης για να κατατάξουν τα πιο σχετικά αποτελέσματα σε σχέση με το ερώτημα στην κορυφή. Μέχρι τώρα, σε γενικές γραμμές, οι μηχανές αναζήτησης χρησιμοποιούν τη συχνότητα των λέξεων-κλειδιών σε μια ιστοσελίδα, προκειμένου να κατατάξουν τα αποτελέσματα αναζήτησης. Οι σελίδες στις οποίες οι όροι αναζήτησης εμφανίζονται στον τίτλο (title html tag) ή σχετικά στη κορυφή μέσα στο περιεχόμενο της σελίδας (πρώτες παραγράφους του κειμένου) ή στις επικεφαλίδες συχνά θεωρούνται ότι είναι πιο σχετικές από άλλες σελίδες, το οποίο δεν είναι πάντα αληθές. Οι μηχανές αναζήτησης υποθέτουν στην αρχή ότι κάθε σελίδα σχετική με το θέμα, θα ανέφερε αυτές τις λέξεις κλειδιά από την αρχή. Η συχνότητα είναι ο άλλος μεγάλος παράγοντας για το πώς οι μηχανές αναζήτησης καθορίζουν τη σχετικότητα αποτελεσμάτων – λέξεων αναζήτησης (relevance). Μια μηχανή αναζήτησης θα αναλύσει το πόσο συχνά εμφανίζονται οι λέξεις-κλειδιά σε σχέση με άλλες λέξεις σε μια ιστοσελίδα. Εκείνες με τη μεγαλύτερη συχνότητα συχνά θεωρείται ότι είναι πιο σχετικές από άλλες ιστοσελίδες. Η ανάλυση των υπερσυνδέσμων (Link analysis) χρησιμοποιείται επίσης από πολλές μηχανές αναζήτησης (κυρίως από τη Google) ως μέρος του αλγόριθμου κατάταξης γιατί πιστεύουν ότι είναι μια χρήσιμη και ανόθευτη μέθοδος για να καθορίσει ποιες σελίδες έχουν το καλύτερο περιεχόμενο για συγκεκριμένα θέματα. Τα αρχεία καταγραφής των ενεργειών του χρήστη (user logs) χρησιμοποιούνται έτσι ώστε να δημιουργηθούν οι σχετικές συσχετίσεις μεταξύ των ερωτημάτων των χρηστών και των εγγράφων που οι χρήστες έχουν επιλέξει να διαβάσουν. Με στόχο την αντιμετώπιση του παραπάνω προβλήματος, στα πλαίσια της διδακτορικής διατριβής προτείνονται νέες τεχνικές για τη βελτίωση (refinement) των αποτελεσμάτων αναζήτησης σε σχέση με τα αποτελέσματα που επιλέγει ο χρήστης. Αυτές οι τεχνικές βασίζονται στη σχετική ανατροφοδότηση (relevance feedback) και έχουν ως στόχο τη βελτίωση της σειράς κατάταξης των αποτελεσμάτων έτσι όπως επιστρέφονται από μια μηχανή αναζήτησης. Σε περιπτώσεις πολυσημίας, η λέξη-κλειδί (ή λέξεις-κλειδιά) που χρησιμοποιούνται δεν έχουν σαφή, αλλά ένα γενικό νόημα και δεν διευκρινίζουν το θέμα το οποίο ο χρήστης αναζητά αποτελεσματικά. Για παράδειγμα, στην περίπτωση ενός ερωτήματος για τη λέξη "rockets", ο χρήστης θα μπορούσε να ενδιαφέρεται για την ομάδα μπάσκετ "Houston Rockets" και όχι για τους πυραύλους/ρουκέτες που είναι η πραγματική σημασία της λέξης. Προφανώς στα πρώτα δέκα αποτελέσματα θα εμφανιστούν και άσχετα αποτελέσματα. Επιλέγοντας το πρώτο αποτέλεσμα, ο χρήστης παρέχει τη σημασιολογική πληροφορία σύμφωνα με την οποία ενδιαφέρεται για την ομάδα "rockets". Επεκτείνουμε τις πληροφορίες που διατηρούνται ανά χρήστη από ένα απλό σύνολο των λέξεων-κλειδιών του ερωτήματος, σε ένα σύνολο πληροφοριών που περιέχει σημασιολογικές πληροφορίες σχετικά με την σελίδα που σχετίζεται με αυτό που ο χρήστης ψάχνει. Αυτό το εμπλουτισμένο σύνολο των πληροφοριών χρησιμοποιείται στην βελτίωση/αναδιάταξη της κατάταξης των αποτελεσμάτων που επιστρέφονται από τη μηχανή αναζήτησης, προκειμένου να κατατάσσονται σε υψηλότερη θέση τα αποτελέσματα που ενδιαφέρουν πραγματικά το χρήστη. Για την υλοποίηση αυτής της ιδέας, δεν υπάρχει ανάγκη για πληροφορίες που συλλέγονται από τα προηγούμενα ερωτήματα ή την εισαγωγή πρόσθετων δεδομένων. Το γεγονός αυτό καθιστά την προσθήκη της ιδέας σαν add-on στις μηχανές αναζήτησης εύκολη ή ακόμα και τη δημιουργία μίας μετα-μηχανής αναζήτησης βασισμένη στην αρχική μηχανή αναζήτησης. Κάθε αποτέλεσμα αναλύεται σημασιολογικά, καθώς και η ομοιότητά του με τα άλλα αποτελέσματα είναι το κριτήριο που καθορίζει τη θέση που λαμβάνει στην τελική κατάταξη. Η πρώτη τεχνική στα πλαίσια της διδακτορικής διατριβής υλοποιείται χρησιμοποιώντας σημασιολογική ομοιότητα και την επικάλυψη των κειμένων (text coverage) μεταξύ των αποτελεσμάτων που επιλέγουν οι χρήστες και των υπόλοιπων αποτελεσμάτων και επιτυγχάνει μια υψηλή κατάταξη για τα αποτελέσματα που ταιριάζουν καλύτερα το θέμα που ο χρήστης ενδιαφέρεται. Το σύστημα που αναπτύχθηκε ονομάζεται Serf και είναι διαθέσιμο στο http://alkistis.ceid.upatras.gr/research/serf/. Η δεύτερη τεχνική στα πλαίσια της διδακτορικής διατριβής υλοποιείται στο σύστημα SerfSIN (Search Engines results ReFinement using a Sense-driven Inference Network – Αναδιάταξη των αποτελεσμάτων των μηχανών αναζήτησης χρησιμοποιώντας ένα Sense-driven Inference Network - http://alkistis.ceid.upatras.gr/research/serfsin/ ), το οποίο χρησιμοποιεί ένα μοντέλο ανακατάταξης που βασίζεται σε δίκτυα εξαγωγής συμπερασμάτων (inference networks) και το ενισχύει, προκειμένου να διαμορφωθεί ένα αποτελεσματικό σύστημα για την αποτελεσματική αναδιάταξη των αποτελεσμάτων αναζήτησης με βάση τις επιλογές του χρήστη. Επιπλέον, χρησιμοποιούμε τη βάση γνώσεων WordNet, προκειμένου να αποσαφηνίσουμε τις διάφορες έννοιες που οι όροι θα μπορούσαν να έχουν και έτσι να εμπλουτιστεί το μοντέλο μας με επιπλέον σημασιολογική πληροφορία. Εκτός από το WordNet, προτείνουμε επίσης τη χρήση της βάσης γνώσεων Wikipedia και ιδιαίτερα τη σημασιολογική πληροφορία που εμπεριέχεται στα άρθρα, ως δεύτερο τρόπο για να διευκρινιστούν οι διαφορετικές έννοιες των όρων. Οι τεχνικές μας δεν περιορίζονται στην WordNet και το Wikipedia, αλλά μπορεί επίσης να επεκταθεί για να υποστηρίξει άλλες βάσεις γνώσεων, όπως το YAGO και το BabelNet. Το προτεινόμενο σύστημα συνδυάζει με αποτελεσματικό τρόπο τεχνικές από την περιοχή των Inference Networks και δεδομένα από βάσεις σημασιολογικής γνώσης (semantic knowledge bases). Η καινοτομία στο σύστημα SerfSIN έγκειται στο ότι μεταφέρει την πίστη του χρήστη στο επιλεγμένο από τον ίδιο έγγραφο μέσω του δικτύου που κατασκευάστηκε, στα άλλα έγγραφα που περιέχουν τις ίδιες έννοιες με το επιλεγμένο. Η νέα κατάταξη των αποτελεσμάτων βασίζεται σε ένα διάνυσμα το οποίο περιέχει ένα βάρος για κάθε έγγραφο που αντιπροσωπεύει τη πιθανότητα του εγγράφου να είναι σχετική για τον χρήστη. Λεπτομερή πειράματα απεικονίζουν την ανωτερότητα του προτεινόμενου συστήματος σε σύγκριση με την αρχική κατάταξη και σε σχέση με προηγούμενες σχετικές προτεινόμενες τεχνικές. Στις μέρες μας, οι σύγχρονες εφαρμογές παγκόσμιου ιστού παρέχουν πολύ πιο πολύπλοκες υπηρεσίες σε σχέση με τους πρώτους ιστότοπους που η χρησιμότητα τους ήταν απλά για την προβολή πληροφοριών. Λόγω της πολυπλοκότητας αυτής που είναι όλο και αυξανόμενη, ο σχεδιασμός, η ανάπτυξη και η συντηρησιμότητα μιας τέτοιας εφαρμογής αποτελεί πλέον μια πολυσύνθετη και πολυδιάστατη διαδικασία την οποία καλείται να αντιμετωπίσει ο σχεδιαστής. Η δουλειά του σχεδιαστή μπορεί να γίνει πιο εύκολη με το να χρησιμοποιήσει την εμπειρία άλλων σχεδιαστών εφαρμογών παγκόσμιου ιστού. Αυτό γίνεται με τη χρήση σχεδιαστικών προτύπων που είναι το καταστάλαγμα της γνώσης πεπειραμένων σχεδιαστών. Αν κατά τη φάση του σχεδιασμού μιας εφαρμογής παγκόσμιου ιστού χρησιμοποιηθεί κάποια μέθοδος μοντελοποίησης σε συνδυασμό με ένα σύνολο σχεδιαστικών προτύπων τότε η τελική εφαρμογή περιμένουμε να είναι μάλλον πιο αποδοτική και ποιοτική. Η έλευση των αναδυόμενων τεχνολογιών κοινωνικών δικτύων έχει μετατρέψει το Web σε ένα μέρος όπου οι χρήστες μπορούν να στραφούν για την κοινωνική αλληλεπίδραση, την αναζήτηση περιεχομένου και την διαδικασία λήψης αποφάσεων. Καθώς τα κοινωνικά δίκτυα γίνονται όλο και πιο πανταχού παρόντα, θέτουν νέες απαιτήσεις στις ανάγκες των σύγχρονων επιχειρήσεων οι οποίες πλέον χρειάζεται να μπορούν να ενσωματώσουν στις εφαρμογές διαδικτύου που έχουν, χαρακτηριστικά κοινωνικής δικτύωσης στην επιχείρησή τους. Το γεγονός αυτό οδηγεί στην ανάγκη για εργαλεία που υποστηρίζουν τους προγραμματιστές κατά το σχεδιασμό και την ανάπτυξη των εν λόγω εφαρμογών που ενσωματώνουν αλληλεπίδραση με κοινωνικά δίκτυα. Στο δεύτερο μέρος, της διατριβής μελετήθηκαν οι μέθοδοι μοντελοποίησης και τα σχεδιαστικά πρότυπα που έχουν οριστεί από πεπειραμένους σχεδιαστές. Επιπλέον εστιάσαμε σε εφαρμογές διαδικτύου οι οποίες είναι βασισμένες σε συστήματα διαχείρισης περιεχομένου (CMS) οι οποίες εκμεταλλεύονται χαρακτηριστικά κοινωνικής δικτύωσης και προτείναμε μία σχεδιαστική τεχνική με γνώμονα το μοντέλο (model-driven) για την αξιολόγηση της δομής του υπερκειμένου σε σχέση με τα ενσωματωμένα τμήματα σχεδιασμού που εκτελούν τη λειτουργικότητα που σχετίζεται με ένα κοινωνικό δίκτυο. Έχουμε αναπτύξει μια μεθοδολογία που βασιζόμενη στον εντοπισμό και την αξιολόγηση της επαναχρησιμοποίησης του σχεδιασμού σε ένα hypertext σχήμα μιας εφαρμογής, ανιχνεύει ένα σύνολο επαναλαμβανόμενων σχεδιαστικών λύσεων (π.χ. διαμορφώσεις των στοιχείων hypertext) που δηλώνει είτε ασυνέπειες στο σχεδιασμό είτε στην αποτελεσματική επαναχρησιμοποίηση δομών social design τα οποία μπορούν να χρησιμοποιηθούν ως δομικά μπλοκ για την υλοποίηση ορισμένων κοινωνικών χαρακτηριστικών σε μελλοντικά σχέδια (designs). Επιπλέον στο δεύτερο μέρος γίνεται μία ανασκόπηση της έρευνας στην περιοχή του web quality που συνήθως αναφέρεται στην ποιότητα του περιεχομένου των ιστοσελίδων. Υπάρχουν κάποιες ερευνητικές προσπάθειες σχετικά με την ποιότητα του κώδικα JavaScript και την ποιότητα του κώδικα CSS, αλλά καμία για την αξιολόγηση του κώδικα HTML5 και την εκτίμηση της ποιότητας και της ποσότητας του. Προς αυτή την κατεύθυνση στο μέρος αυτό θα παρουσιαστούν ποια χαρακτηριστικά του κώδικα HTML5 μπορεί να αξιολογηθούν και να οριστούν συγκεκριμένες μετρικές για τη μέτρηση αυτών των χαρακτηριστικών. Σε επόμενο επίπεδο η διδακτορική διατριβή ασχολείται με την οπτικοποίηση μεγάλου όγκου δεδομένων. Στις μέρες μας, βιώνουμε μία «έκρηξη» πληροφορίας, αποτέλεσμα όχι μόνο της αυξανόμενης χρήσης του Διαδικτύου από ανθρώπους σε όλο τον κόσμο αλλά και της σύνδεσης δισεκατομμυρίων υπολογιστών στο Διαδίκτυο. Στην αρχή της δεκαετίας, υπήρχαν μόνο 5 exabytes πληροφορίας στο Διαδίκτυο, ποσό που πριν δύο χρόνια διαδιδόταν μέσω του Internet κατά τη διάρκεια ενός μόνο μήνα. Σύμφωνα με πρόσφατες εκτιμήσεις, τα δεδομένα που διαδίδονται στο Διαδίκτυο μηνιαία φτάνουν τα 27 exabytes. Μέσα σε αυτό το πλήθος δεδομένων κρύβεται μια πληθώρα πολύτιμων πληροφοριών που για να αξιοποιηθούν κατάλληλα θα πρέπει να βρεθούν τρόποι για την διερεύνηση και συσχέτιση των δεδομένων. Ο όρος οπτικοποίηση δεδομένων (data visualization) αναφέρεται στη μελέτη τεχνικών οπτικής αναπαράστασης δεδομένων χρησιμοποιώντας γραφικά, κίνηση, τρισδιάστατες απεικονίσεις και άλλα πολυμεσικά εργαλεία και έχει ως κύριο στόχο την παρουσίαση ενός συνόλου δεδομένων με τρόπο σαφή και αποτελεσματικό που να παρέχει τη δυνατότητα εξαγωγής συμπερασμάτων και ανακάλυψης συσχετίσεων που διαφορετικά θα παρέμεναν άγνωστες. Μέχρι τώρα, η οπτικοποίηση δεδομένων έχει χρησιμοποιηθεί ευρέως από τους επιστήμονες για την αναπαράσταση των δεδομένων χρησιμοποιώντας απλά γραφήματα (όπως bar charts, pies κλπ). Σήμερα, με την ανάπτυξη νέων τεχνολογιών οι τεχνολογίες οπτικοποίησης μπορούν να συνδυαστούν με δυναμικές εφαρμογές και να επεξεργαστούν μεγάλο όγκο δεδομένων με αποτέλεσμα σύγχρονες εφαρμογές οπτικοποίησης που ενσωματώνουν δυνατότητες κίνησης και επιτρέπουν την αλληλεπίδραση με το χρήστη. Στο τελευταίο και τρίτο μέρος της διδακτορικής διατριβής ασχολούμαστε με μία σειρά από τεχνικές οπτικοποίησης γνώσης με έμφαση στην οπτικοποίηση βιολογικών δεδομένων μέσα από εφαρμογές Παγκόσμιου Ιστού. Στόχος είναι να παρασχεθεί η δυνατότητα σε ερευνητές να ανακαλύψουν νέα γνώση μέσα από τις συσχετίσεις των βιολογικών δεδομένων που αποκαλύπτονται μέσα από την οπτικοποίηση τους. Στα πλαίσια της διδακτορικής διατριβής οι τεχνικές οπτικοποίησης γνώσης εφαρμόστηκαν στις ακόλουθες δύο βάσεις βιολογικών δεδομένων α) FINDbase (μια παγκόσμια βάση δεδομένων που συγκεντρώνει συχνότητες από genetic variations) β) DautoBase (μια παγκόσμια βάση δεδομένων για την επιδημιολογία των αυτοάνοσων νοσημάτων και των ασθενών). Η αποδοχή από την ερευνητική κοινότητα ήταν άκρως ενθαρρυντική καθώς τα αποτελέσματα τις έρευνάς μας έγιναν μία ολοκληρωμένη εφαρμογή διαδικτύου με χιλιάδες επισκέπτες κάθε μήνα και δεν περιοριστήκαμε απλά σε μία πιλοτική εφαρμογή.
Abstract (translated): The global availability of information provided by the World Wide Web in recent decades has made Web searching one of the most promising areas of interest in the broader research area of the Web. Nowadays, search engines respond in a satisfactory level to user queries. However, the top results are often irrelevant to what the user is looking for. A lot of effort has been made in order for search engines to rank relevant results to the top. Until now, search engines used the keyword frequency to rank search results. Pages where the search terms appear in the title (title html tag) or in the top of the page content (first paragraphs) or in headings, are usually considered to be more relevant to others, which is not always the case. Search engines first assume that each page relevant to the subject, will mention these words at the beginning. Frequency is another pillar on how search engines define the relevance of results and search terms. A search engine computes how often keywords appear in web pages compared to other words. The pages that present the highest frequency, are considered to be more relevant. Link analysis, is also used by a lot of search engines (Google mostly), as part of their ranking algorithm because they believe that this is a useful and reliable method for defining which pages have the best content for particular topics. User logs are used in order to create the respective connections between user queries and documents that users choose to read. In this PhD thesis, having as our goal to address this problem, we suggest novel techniques on refining search results based on the results the users choose. These techniques are based on relevance feedback and they focus on refining the ranking of search results. In cases where the keyword(s) used, don’t have a strict but more general/abstract meaning (polysemy phenomenon), these words don’t define the topic the user is looking for. For example, in the case of a query for word “rockets”, the user could be interested in “Houston Rockets”, the basketball team rather than rockets literally. Obviously, top-10 results will include irrelevant results as well. By choosing the top result, the user offers semantic information that he is interested in the “rockets” team. We extend the information logged per user, in order to include semantic information regarding the page relevant to the topic the user is looking for rather than logging only query keywords. This rich set of information can be used at improving/reordering the results ranking in order for more relevant results (based on user interest) to be ranked in top positions. In order to implement this idea, there is no need for information collected from previous queries or the introduction of additional data. This fact makes adding this idea as a search engine add on, easy or even making a post-search engine based on the initial search engine, feasible. Each result is semantically analyzed and its similarity with the rest of results, is the key for determining its position in the final ranking. The first technique that is presented, makes use of semantic similarity and text coverage between results that users choose and those they do not and succeeds in producing a high ranking of results that fit better to the topic the user is interested in. The software system that was developed, is called Serf and is available in the following link: http://alkistis.ceid.upatras.gr/research/serf/. The second technique is implemented in SerfSIN (Search Engines results ReFinement using a Sense-driven Inference Network) which can be found in this link: http://alkistis.ceid.upatras.gr/research/serfsin/. It makes use of a re-ranking model based on inference networks and empowers it in order to form a system for efficiently rearranging search results based on user options. In addition, we use the WordNet Knowledge Base to clarify the various meanings the terms could have, and thus enrich our model with extra semantic information. Alternatively, we suggest the use of the Wikipedia knowledge base and in particular, the semantic information of the articles for the terms meanings clarification. The suggested techniques are not limited to WordNet or Wikipedia but our model can be extended in order to support alternative knowledge bases such as YAGO and BabelNet. The proposed system, combines effectively Inference Networks techniques with semantic knowledge bases data. The novelty in SerfSIN, lies in the fact that it transfers user confidence on the selected document, to the other documents that have the same meaning, through the developed network. The produced ranking of results, is based on a vector that contains document weights each of which represents the probability of relevance between a document and a user. We conducted extensive experiments which present that this system outperforms previous techniques and produces better results in terms of ranking. Nowadays, modern web applications provide much more complex services than the first sites whose scope was simply for information presentation. Due to the increasing complexity of web applications, the development as well as the maintenance of such applications has transformed into a complex and multi-level process for the designer. Using tips of past experience from other web designers, could make the designer’s job easier. A great example is the use of design patterns which are seduced knowledge from experienced designers. We expect that the use of a modelling technique combined with a set of design patterns, could produce an effective and of great quality web application. Besides that, social network technologies have turned the Web into a place where users can interact socially, search for content and make decisions. Since social networks are more present that ever before, there is an urge for companies to incorporate social network features to their web applications. As a result, there is a need for respective tools that will help developers and they will provide support for social network interactions. In order to fulfill both needs, in the second part of this thesis, we study modelling techniques and design patterns from experienced designers as well as we focus on CMS-based web applications that make use of social network features. As a result, we propose a model-driven design technique for evaluating the structure of the hypertext in relation with embedded design segments that perform the functionality associated with a social network. The method we developed, after detecting and evaluating the reuse of a design in a hypertext schema of the application, it can detect a set of repetitive design solutions. This set can either represent incoherence in terms of design or effective reuse of social design structures, which can be used as blocks for the development of social features in future designs. Moreover, in the second part, we present a review of research conducted in the field of web quality with focus mainly on the quality of content of web pages. There have been efforts made to evaluate JavaScript and CSS code in terms of quality. However, there is no record of respective research on qualitatively and quantitatively evaluating HTML5. Here, we present which HTML5 characteristics could be evaluated as well as their respective metrics. In the next section, we focus on Big Data visualization. As a result of the increasing use of the Internet from people all over the world as well as the connection of billions of computers on the Internet, we face information explosion. At the beginning of the decade, there were only 5 exabytes of available information in the Internet. The same amount of information was propagated through the Internet in one month. According to recent metrics, the amount of data transferred through the Internet on a monthly basis, are about 27 exabytes. In this plethora of data, there is valuable information which in order to get processed, there is a need for finding ways to mine and relate data. The term data visualization, refers to the study of visualization representation techniques for data, using graphics, animation, 3D representation and other multimedia tools. Its main focus is on presenting a set of data in a clear and effective way do so that it is possible to make conclusions and discover correlations, otherwise unknown. Until recently, data visualization was limited to data representation using bar charts, pies etc. Today, data visualization technologies combined with dynamic applications, can process large volumes of data, resulting in modern visualization application that support animation as well as user interaction. In the last part of the dissertation, we present a series of visualization techniques with focus on biological data visualization through Web applications. Our main goal is to offer scientists the opportunity for knowledge discovery through biological data associations, which are revealed through their visualization. The data visualization techniques were applied to the following databases of biological data: a) FINDbase (a global database which contains genetic variation frequencies b) DautoBase (a global database for the epidemiology of autoimmune diseases and patients). The acceptance and feedback by the research community were highly encouraging as the results of our research became an integrated web application with thousands of visitors each month and they were not limited to a pilot application.
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΔΔ)

Files in This Item:
File Description SizeFormat 
Nemertes_Viennas(com).pdf8.17 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons