Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/12487
Title: Investigation of macromolecular interaction interfaces using 3D graph analysis
Other Titles: Μελέτη επιφανειών αλληλεπίδρασης μακρομορίων με ανάλυση τρισδιάστατων γραφημάτων
Authors: Κομνηνού, Μαρία-Αγγελική
Keywords: Macromolecules
Bioinformatics
PPIs
Keywords (translated): Μακρομόρια
Βιοπληροφορική
Abstract: Bioinformatics is the field of science in which the three disciplines biology, computer science, and information technology merge into a single one and Bioinformaticians are mostly conducting research for designing new algorithms, software, developing and updating databases in order to help in solving biological problems. Proteins that are organic molecules playing important roles in all aspects of cell structure and function usually do not act alone, but they form complexes with other proteins or biomolecules. The process in which proteins interact with other proteins is known as Protein-Protein Interactions (PPIs) and are formed when their physical contacts cause binding and activation of specific functions. Moreover, the computational tools that have been created until now, focus on finding binding sites for specifically bound molecules or substrates while, some tools for analyzing the three-dimensional structure of proteins offer comparisons to find structural similarity between proteins. Our methodology suggests a novel tool for studying PPIs that occur at the surface of a protein and are governed by electrostatic forces, hydrophobic and hydrophilic properties as well as a plethora of other physicochemical properties. There are a lot of structural databases hosting 3D protein conformational information in the form of Cartesian coordinates. For the purposes of this study the dataset has been retrieved from the Protein Data Bank database (http://www.rcsb.org) which is the ‘gold standard’ repository for structural information of proteins. Chapter 1 is an introduction to the theoretical background of proteins and their structure, the methods of protein classification, their binding sites and the Protein- Protein interactions that can be present. Moreover, in Chapter 2 there is a short introduction to the open databases that exist for protein data, followed by an extensive presentation of the Protein Data Bank database (PDB). Afterwards, in Chapter 3, there is a presentation about Bioinformatics and their importance but also their use in Drug Design. Chapter 4 presents the methodology that is followed, step by step, and Chapter 5 includes the results of the tools that are created while in there is a discussion on them and possible future work. The tool created in this study gives as output four files for each PDB entry: i) ii) iii) pdb_id-v.pdb file, which is a PDB structured file, contains ATOM records of virtual atoms placed in the mid distance between each pair of atoms on different chains with distance less than 7Å, pdb_id-a.pdb file is a PDB structured file that contains ATOM records of the real pair of atoms that interact for distance less than 7Å pdb_id.int file has records for every pair of atoms that interact for distance less than 7Å. Each record has information of the chain, residue name, residue number, atom name, atom number, 3D position (X, Y, Z) and measured distance between the two atoms that interact. At the end the v percentage of appearance of each residue in the whole protein is recorded but also the percentage of distinct residues involved in interfacing over the total number of residues in interface and the % ratio of each residue involved in interfacing over the total number of the same residue appeared in protein, the Mean, Median, Standard Deviation, minimum and maximum of all distances in interface and the Geometric Centroid and Center of Mass of the protein iv) pdb_id.sum file, is a summary of any Pdb_id.int file, that has the percentage of each residue appeared in protein, the percentage of distinct residues involved in the interface over the total number of residues in interface, the Mean, Median, Standard Deviation, minimum and maximum of all distances in interface and the Geometric Centroid and Center of Mass of the protein. The output files of this tool can be used to decode 3D structural preferences and statistical trends of dimeric proteins in a manner that will lead to the production of novel drugs.
Abstract (translated): Η Βιοπληροφορική είναι το πεδίο της επιστήμης στο οποίο τρεις κλάδοι, αυτοί της βιολογίας, της πληροφορικής και της τεχνολογίας πληροφοριών συγχωνεύονται σε έναν και οι επιστήμονες της Βιοπληροφορικής διεξάγουν κυρίως έρευνα για το σχεδιασμό νέων αλγορίθμων, το λογισμικό, την ανάπτυξη και την ενημέρωση βάσεων δεδομένων για να βοηθήσουν στην επίλυση βιολογικών προβλημάτων. Οι πρωτεΐνες, οργανικά μόρια που διαδραματίζουν σημαντικό ρόλο σε όλες τις πτυχές της κυτταρικής δομής και λειτουργίας, συνήθως δεν δρουν μόνοι τους, αλλά σχηματίζουν σύμπλοκα με άλλες πρωτεΐνες ή βιομόρια. Η διαδικασία στην οποία οι πρωτεΐνες αλληλεπιδρούν με άλλες πρωτεΐνες είναι γνωστή ως αλληλεπίδραση πρωτεΐνης-πρωτεΐνης (PPIs) και σχηματίζονται όταν οι φυσικές τους επαφές προκαλούν δέσμευση και ενεργοποίηση συγκεκριμένων λειτουργιών. Επιπλέον, τα υπολογιστικά εργαλεία που έχουν δημιουργηθεί μέχρι τώρα εστιάζουν στην εύρεση θέσεων πρόσδεσης για ειδικά δεσμευμένα μόρια ή υποστρώματα ενώ κάποια εργαλεία για την ανάλυση της τρισδιάστατης δομής των πρωτεϊνών παρέχουν συγκρίσεις για να βρεθεί δομική ομοιότητα μεταξύ των πρωτεϊνών. Η μεθοδολογία μας υποδεικνύει μια νέα προοπτική για τον τρόπο που προβλέπονται αυτές οι θέσεις δέσμευσης. Οι ΡΡΙ εμφανίζονται στην επιφάνεια μιας πρωτεΐνης και διέπονται από ηλεκτροστατικές δυνάμεις, υδρόφοβες και υδρόφιλες ιδιότητες καθώς και από πληθώρα άλλων φυσικοχημικών ιδιοτήτων. Υπάρχουν πολλές δομικές βάσεις δεδομένων που φιλοξενούν πληροφορίες διαμόρφωσης τρισδιάστατων πρωτεϊνών με τη μορφή καρτεσιανών συντεταγμένων. Για τους σκοπούς της παρούσας μεταπτυχιακής εργασίας, το σύνολο δεδομένων ανακτήθηκε από τη βάση δεδομένων της Πρωτεϊνικής Τράπεζας Δεδομένων ( BDP-http://www.rcsb.org), η οποία είναι η αποθήκη «χρυσού προτύπου» για τη δομική πληροφόρηση των πρωτεϊνών. Το κεφάλαιο 1 παρουσιάζει το θεωρητικό υπόβαθρο των πρωτεϊνών και τη δομή τους, τις μεθόδους ταξινόμησης, τις θέσεις δέσμευσης τους και τις αλληλεπιδράσεις πρωτεΐνης-πρωτεΐνης που μπορεί να υπάρχουν. Επιπλέον, στο Κεφάλαιο 2 γίνεται μια σύντομη εισαγωγή στις ανοιχτές βάσεις δεδομένων που υπάρχουν για τα δεδομένα πρωτεϊνών, ακολουθούμενη από μια εκτενή παρουσίαση της βάσης δεδομένων Protein Data Bank (PDB). Στη συνέχεια, στο κεφάλαιο 3, παρουσιάζεται μια παρουσίαση σχετικά με τη Βιοπληροφορική και τη σημασία της, αλλά και τη χρήση της στο σχεδιασμό φαρμάκων. Το κεφάλαιο 4 παρουσιάζει τη μεθοδολογία που ακολουθείται σταδιακά και τα αποτελέσματα των εργαλείων που δημιουργούνται, ενώ στο Κεφάλαιο 5 υπάρχει συζήτηση για τα αποτελέσματα και τις πιθανές μελλοντικές εργασίες. Το εργαλείο που δημιουργήθηκε σε αυτή την εργασία δίνει ως έξοδο τέσσερα αρχεία για κάθε εγγραφή PDB: i) Το αρχείο pdb_id-v.pdb, το οποίο έχει τη δομή ενός αρχείου PDB, περιέχει τα στοιχεία αλληλεπίδρασης για εικονικά άτομα τοποθετημένα στη μέση vii απόσταση μεταξύ κάθε ζεύγους ατόμων σε διαφορετικές αλυσίδες με απόσταση μικρότερη από 7Α, ii) Το αρχείο pdb_id-a.pdb έχει τη δομή ενός αρχείου PDB και περιέχει τα ATOM του πραγματικού ζεύγους ατόμων που αλληλεπιδρούν για απόσταση μικρότερη από 7Α iii) Το αρχείο pdb_id.int έχει εγγραφές για κάθε ζεύγος ατόμων που αλληλεπιδρούν για απόσταση μικρότερη από 7Α. Κάθε εγγραφή περιέχει πληροφορίες για την αλυσίδα, το όνομα του residue, τον αριθμό των residues , το όνομα του ατόμου και τον αριθμό του, τις διαστάσεις σε 3D (X, Y, Z) και τη μετρούμενη απόσταση μεταξύ των δύο ατόμων που αλληλεπιδρούν. Στο τέλος καταγράφεται το ποσοστό εμφάνισης κάθε residue σε ολόκληρη την πρωτεΐνη, αλλά και το ποσοστό των residues που εμπλέκονται στην αλληλεπίδραση επί του συνολικού αριθμού residues στη διεπαφή όπως επίσης το ποσοστό% κάθε residue που εμπλέκεται στην διεπαφή επί του συνολικού αριθμού στο ίδιο residue, το μέσο της απόστασης, η τυπική απόκλιση αυτής, το ελάχιστο και το μέγιστο όλων των αποστάσεων στη διεπαφή και το γεωμετρικό κέντρο και το κέντρο μάζας της πρωτεΐνης iv) Το αρχείο pdb_id.sum, είναι μια περίληψη οποιουδήποτε αρχείου Pdb_id.int, το οποίο έχει το ποσοστό κάθε residue που εμφανίζεται στην πρωτεΐνη, το ποσοστό των residues που εμπλέκονται στη διεπαφή σε σχέση με τον συνολικό αριθμό residues της διεπαφής, το μέσο, την τυπική απόκλιση, το ελάχιστο και μέγιστο όλων των αποστάσεων στη διεπαφή και το Γεωμετρικό κέντρο και το κέντρο μάζας της πρωτεΐνης. Τα αρχεία εξόδου αυτού του εργαλείου μπορούν να χρησιμοποιηθούν για την αποκωδικοποίηση των 3D δομικών προτιμήσεων και των στατιστικών τάσεων των διμερών πρωτεϊνών κατά τρόπο που θα οδηγήσει στην παραγωγή νέων φαρμάκων.
Appears in Collections:Τμήμα Ηλεκτρολ. Μηχαν. και Τεχνολ. Υπολογιστών (ΜΔΕ)

Files in This Item:
File Description SizeFormat 
MSc Thesis-Komninou .pdf3.84 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons