Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/11767
Title: FREQY, an integrated software for revealing single nucleotide polymorphisms upon ENSEMBL database population comparisons
Other Titles: FREQY, ένα υπολογιστικό εργαλείο για την ανίχνευση στατιστικά σημαντικών μονονουκλεοτιδικών πολυμορφισμών μεταξύ πληθυσμών με εξόρυξη δεδομένων
Authors: Λουκάτου, Στυλιανή
Keywords: Comparative genomics
Single nucleotide polymorphism
Pearson-Chi square test
Keywords (translated): Συγκριτική γονιδιωματική
Μονονουκλεοτιδικός πολυμορφισμός
Δοκιμασία X2
Abstract: Modern science revealed the ultimate importance of single nucleotide polymorphisms, directing several research programs towards the unraveling of their contribution in living organisms’ functions. Towards this direction, Dr. Patrinos laboratory grant me access to real data of the genome of 14 Greek individuals, initially aiming to provide a statistical analysis upon them, thus initiating the development of the below mentioned software platform, Freqy, which enables the user to interact with genomic databases towards data mining and statistical analysis of population data. After this statistical analysis, the main goal of the thesis turned to a wider scope, to the development of an integrated bioinformatics tool that falls within the Comparative Genomics field, as its main functionality is the comparison of the genomic features of different populations. Comparative Genomics reveal similarities or differences between different organisms or populations. By using comparative genomics on single nucleotide polymorphisms, many nominated candidates related to a specific phenotype or functionality may arise. Freqy, enables the user to interact with genomic databases towards data mining and statistical analysis of population data. The statistical analysis performed by this software is based on Pearson-Chi square test, a formula that determines the association between categorical variables. Furthermore, two plot types can be created by using this tool to empower data visualization. The first graph is a bar plot that visualizes the frequencies of SNPs observed among the population of interest and the second one is a Heat Map plot which visualizes the calculated p-values per SNP of the sample data in contrast to the populations of interest. This program can interact with both Ensembl and 1000Genome databases, granting access to the most updated data. User can obtain many crucial data according to the available options given to him. To create this software, we used Matlab programming language and tested its functionality on the real data obtained by Dr Patrinos wet lab techniques. We performed statistical analysis on these 14 Greek individuals in contrast of the TSI and CEU population. TSI and CEU population SNPs datasets were mined from Ensembl database through this tool and were statistically analyzed via the software. Afterwards, both type of plots were created and the outcome was analyzed further in the below presented study case. Freqy is an innovative tool, which can contribute in the analysis of human genome, indicating SNPs among different populations with similar or non-similar observation frequencies. The use of this software may give a guide to scientists on which SNPs to focus each time according to their research purpose.
Abstract (translated): Η ανακάλυψη της υπέρτατης σημασίας των μονονουκλεοτιδικών πολυμορφισμών έχει στρέψει πολλά ερευνητικά προγράμματα προς την διερεύνηση της συμβολής τους στις λειτουργείες των ζωντανών οργανισμών. Προς αυτή την κατεύθυνση, το εργαστήριο του Δρ. Πατρινού μου έδωσε πρόσβαση σε πραγματικά γονιδιωματικά στοιχεία 14 ατόμων Ελληνικής καταγωγής, με αρχικό στόχο την παροχή στατιστικής ανάλυσης των δεδομένων αυτών. Δόθηκε έτσι το έναυσμα για την δημιουργία της πλατφόρμας στην οποία θα αναφερθούμε παρακάτω, με την ονομασία Freqy, η οποία επιτρέπει στον χρήστη να αλληλεπιδρά με γονιδιακές βάσεις δεδομένων με σκοπό την ανάκτηση δεδομένων και την στατιστική ανάλυση τους. Μετά από αυτή την στατιστική ανάλυση, ο κύριος στόχος της διπλωματικής στράφηκε σε ένα ευρύτερο φάσμα, προς την ανάπτυξη ενός ενοποιημένου εργαλείου Βιοπληροφορικής το οποίο εμπίπτει στο πεδίο της Συγκριτικής Γονιδιωματικής, καθώς η κύρια λειτουργεία του είναι η σύγκριση των γενετικών χαρακτηριστικών διαφορετικών πληθυσμών. Η Συγκριτική Γονιδιωματική αποκαλύπτει ομοιότητες η διαφορές ανάμεσα σε διαφορετικούς οργανισμούς ή πληθυσμούς. Με τη χρήση συγκριτικής γονιδιωματικής σε μονονουκλεοτιδικούς πολυμορφισμούς μπορεί να αποκαλύψει πολλά γενετικά στοιχεία τα οποία ίσως σχετίζονται με συγκεκριμένους φαινοτύπους ή βιολογικές διεργασίες. Η πλατφόρμα Freqy, δίνει στον χρήστη την δυνατότητα να αλληλεπιδρά με γονιδιακές βάσεις δεδομένων με σκοπό την εξαγωγή δεδομένων σχετικά με πληθυσμούς και τη στατιστική ανάλυση τους. Η στατιστική ανάλυση που πραγματοποιείται από αυτό το πρόγραμμα βασίζεται στο Pearson-Chi square test, μια φόρμουλα που προσδιορίζει τον συσχετισμό ανάμεσα σε κατηγορικές μεταβλητές. Επιπρόσθετα, με την χρήση αυτού του εργαλείου δίνεται η δυνατότητα δημιουργίας δυο τύπων γραφημάτων, ώστε να ενισχυθεί η οπτικοποίηση των ευρημάτων. Το πρώτο γράφημα είναι ένα γράφημα μπαρών το οποίο οπτικοποιεί τις συχνότητες των SNPs που παρατηρούνται στον υπό εξέταση πληθυσμό, και το δεύτερο είναι ένα Heat Map γράφημα το οποίο οπτικοποιεί τις υπολογισμένες p-values ανά SNP του δείγματος σε αντίθεση με άλλους πληθυσμούς. Αυτό το πρόγραμμα μπορεί να αλληλεπιδράσει τόσο με τη βάσης δεδομένων Ensembl όσο και με 1000 Genome, επιτρέποντας στον χρήστη πρόσβαση στα πλέον ενημερωμένα δεδομένα. Ο χρήστης μπορεί να εξάγει πολλά σημαντικά ευρήματα ανάλογα με τις επιλογές που του δίνονται. Για την δημιουργία αυτού του λογισμικού χρησιμοποιήθηκε η γλώσσα προγραμματισμού Matlab και η λειτουργικότητά του δοκιμαστικέ στα πραγματικά δεδομένα που προέκυψαν από τις εργαστηριακές δοκιμές που έγιναν στο εργαστήριο του Δρ. Πατρινού. Αναλύσαμε τα 14 δείγματα των ατόμων Ελληνικής καταγωγής σε αντίθεση με τους πληθυσμού TSI και CEU. Τα SNPs των πληθυσμών TSI και CEU εξήχθησαν με αυτό το εργαλείο από τη βάση δεδομένων Ensembl και αναλυθήκαν στατιστικά. Έπειτα δημιουργήθηκαν και οι δυο τύποι γραφημάτων και το αποτέλεσμα αναλύθηκε περαιτέρω. Το Freqy είναι ένα καινοτόμο εργαλείο, το οποίο μπορεί να συμβάλει στην ανάλυση του ανθρωπίνου γονιδιώματος, καταδεικνύοντας τα SNPs με παρόμοιες η διαφορετικές συχνότητες παρατήρησης ανάμεσα σε διαφορετικούς πληθυσμούς. Η χρήση αυτού του λογισμικού μπορεί να παρέχει στου επιστήμονες έναν οδηγό ως προς το σε ποιους μονονουκλεοτιδικούς πολυμορφισμούς πρέπει κάθε φορά να επικεντρωθούν, ανάλογα με τον σκοπό της ερευνάς τους.
Appears in Collections:Τμήμα Ιατρικής (ΜΔΕ)



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.