1103adf690013a3dad4f95b7ba8a0b43.ppt
- Количество слайдов: 47
Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy
L’era “omica”: genomi completi • Archea: 16 speci/33 in progress • Batteri: 83 speci • Eukarioti: 17 speci (242 chromosomi) www. ncbi. nlm. nih. gov Draft del genoma umano • Nature (2/15/01) Human Genome Issue http: //www. ncbi. nlm. nih. gov/genome/guide/human http: //www. ensembl. org/ • Science (2/16/01) Human Genome Issue http: //public. celera. com/index. cfm
Dalla Sequenza alla Funzione Genomica funzionale, Proteomica ed Interattomica > RICIN GLYCOSIDASE MYSFPNSFRFGWSQAGFQSEMGTPGSEDPNTDWYKWVHDPENMAAGLVSG DLPENGPGYWGNYKTFHDNAQKMGLKIARLNVEWSRIFPNPLPRPQNFDE SKQDVTEVEINENELKRLDEYANKDALNHYREIFKDLKSRGLYFILNMYH WPLPLWLHDPIRVRRGDFTGPSGWLSTRTVYEFARFSAYIAWKFDDLVDE YSTMNEPNVVGGLGYVGVKSGFPPGYLSFELSRRHMYNIIQAHARAYDGI KSVSKKPVGIIYANSSFQPLTDKDMEAVEMAENDNRWWFFDAIIRGEITR GNEKIVRDDLKGRLDWIGVNYYTRTVVKRTEKGYVSLGGYGHGCERNSVS LAGLPTSDFGWEFFPEGLYDVLTKYWNRYHLYMYVTENGIADDADYQRPY YLVSHVYQVHRAINSGADVRGYLHWSLADNYEWASGFSMRFGLLKVDYNT KRLYWRPSALVYREIATNGAITDEIEHLNSVPPVKPLRH Geni Sequenze proteiche Strutture proteiche Funzione
PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINE Livelli di organizzazione strutturale Primaria Secondaria Terziaria Quaternaria
PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINE Gli elementi di struttura secondaria Foglietto b a -elica N C
La predizione del Protein Folding Il processo di folding La cinetica del Folding: La proteina nativa La catena I siti di iniziazione
Le Banche Dati di Sequenze Biologiche e Strutture NCBI: >BGAL_SULSO BETA-GALACTOSIDASE Sulfolobus solfataricus. MYSFPNSFRFGWSQAGFQSEMGTPGSEDPNTDWYKWVHDPENMAAGLVSG DLPENGPGYWGNYKTFHDNAQKMGLKIARLNVEWSRIFPNPLPRPQNFDE SKQDVTEVEINENELKRLDEYANKDALNHYREIFKDLKSRGLYFILNMYH WPLPLWLHDPIRVRRGDFTGPSGWLSTRTVYEFARFSAYIAWKFDDLVDE YSTMNEPNVVGGLGYVGVKSGFPPGYLSFELSRRHMYNIIQAHARAYDGI KSVSKKPVGIIYANSSFQPLTDKDMEAVEMAENDNRWWFFDAIIRGEITR GNEKIVRDDLKGRLDWIGVNYYTRTVVKRTEKGYVSLGGYGHGCERNSVS LAGLPTSDFGWEFFPEGLYDVLTKYWNRYHLYMYVTENGIADDADYQRPY YLVSHVYQVHRAINSGADVRGYLHWSLADNYEWASGFSMRFGLLKVDYNT KRLYWRPSALVYREIATNGAITDEIEHLNSVPPVKPLRH 18, 197, 119 sequenze 22, 616, 937, 182 nucleotidi Swiss-Prot: PDB: 113, 470 sequenze 41, 413, 223 residui 17, 510 strutture August/2002
Possiamo estrarre dal PDB circa 1500 esempi di catene di cui e’ nota la struttura terziaria al fine di ricavare informazioni non ridondanti per la relazione tra sequenza e: Struttura secondaria Motivi strutturali e funzionali Struttura terziaria (3 D)
Il Protein Folding T T C C P S I V A R S N F N V C R L P G T P E A L C A T Y T G C I I I P G A T C P G D Y A N
Caratteristiche della Predizione Strutturale di Sequenze Proteiche ·Ampio insieme di dati per cui la soluzione del problema è nota · E’ difficile (impossibile) formulare una soluzione analitica del problema ·Le banche dati vengono aggiornate in modo continuo (grande volume di dati, necessità di operare in tempo reale)
Mapping generale non-lineare funzionale Y space X x 1 x 2 ………xn X space Y y 1 y 2 ………yn
Tools derivati dall’apprendimento automatico: Reti Neurali Training Predizione Set dalla banca dati Nuova sequenza Regole Generali Mapping noto Predizione
La finestra di input Le proprieta’ del residuo R dipendono sia dalle interazioni locali (finestra W) che da quelle non locali (contesto C) Contesto C Finestra W Residuo R Rete Neurale Oa Onon a
Input basato sulla Informazione Evolutiva Multiple Sequence Alignment (MSA) Posizione lungo la sequenza 1 2 3 4 5 6 7 8 9 10 11 12 13 MVKGPGLYTDIGKKARDLLYKDYHS--DKKFTISTYSPTGVAITSSGTKKGEL--FLGDV MAKGPGLYTDIGKKARDLLYRDYQT--DQKFSITTYSPTGVAITSSGTKKGDL--FLADV MVKGPGLYSDIGKRARDLLYRDYQS--DHKFTLTTYTANGVAITSTGTKKGEL--FLADV MVKGPGLYSDIGKKARDLLYRDYVS--DHKFTVTTYSTTGVAITASGLKKGEL--FLADV MVKGPGLYTEIGKKARDLLYRDYQG--DQKFSVTTYSSTGVAITTTGTNKGSL--FLGDV MVVAVGLYTDIGKKTRDLLYKDYNT--HQKFCLTTSSPNGVAITAAGTRKNES--IFGEL -MGGPGLYSGIGKKAKDLLYRDYQT--DHKFTLTTYTANGPAITATSTKKADL--TVGEI AVVRPYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSLEI --AVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSL -MAVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVNGSL --AVPPSYADLGKSARDIFNKGYGFG-LVKLDVKTKSATGVEFTTSGTSNTDSGKVNGSL --MAPPSYSDLGKQARDIFSKGYNFG-LWKLDLKTKTSSGIEFNTAGHSNQESGKVFGSL --MAVPAFSDIAKSANDLLNKDFYHLAAGTIEVKSNTPNNVAFKVTGKSTHDK-VTSGAL Sequenze allineate Finestra di Input
Artificial Neural Networks Percettrone a singolo strato z 1 Outputs zm d a= S 0 w i= i xi z = g (a) Bias x 0 x 1 Inputs xd La Funzione di Errore Y i (X q) = Output of the network D iq = Expected Value L’ Algoritmo di Training: il Back Propagation (gradient descendent: Rumelhart et al. 1986) Correction to the weights m = learning rate h = momentum term
Parametri variabili delle Reti Neurali • Il codice di input • L’ampiezza della finestra mobile • L’architettura: il numero di nodi (neuroni) e gli strati di neuroni • La velocità di apprendimento
Le Reti Neurali a Bologna predicono: • La struttura secondaria delle proteine • I siti di iniziazione del protein folding • La topologia delle proteine di membrana all alpha and all beta (ISMB BEST PAPER AWARD 2002) • La presenza dei peptidi segnale • Lo stato di legame delle cisteine e la topologia dei ponti a zolfo • Le mappe di contatto delle proteine (BEST PREDICTOR of the CATEGORY at CASP 4) • Le superfici di interazione tra proteine
www. biocomp. unibo. it
Schema generale dei predittori disponibili al nostro sito web
Predittori basati su Reti Neurali Verso la predizione della struttura 3 D: La predizione delle mappe dei contatti
Predizione dei contatti tra residui Contatti nelle Proteine F 156 F 297 V 299 I 269 V 238 V 271 I 240
Computation of Contact Maps From 3 D Structure F 156 F 297 I 269 V 238 V 299 V 271 I 240 To Contact Map T T C C P S I V A R S N F N V C R L P G T P E A I C A T Y T G C I I I P G A T C P G D Y A N TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN
3 -D Modelling through Contact Maps Bacteriorhodopsin Model 1 QHJ (1. 9 Å) N Contact map MARC C RMSD = 2. 5 Å
Tools di Apprendimento Automatico Le Reti Neurali imparano il mapping dalla sequenza alla mappa dei contatti Predizione Training Set Banca Dati Sequenza TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN Regole generali Mapping noto Predizione della mappa dei contatti
T 0087: 310 residues A=20 % (FR/NF) C N
T 0110: 128 residues A=30% (NF) N C
Predittori basati su Reti Neurali Verso la predizione della struttura 3 D: La predizione dei ponti a zolfo
Il Protein Folding RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTF VYGGCRAKRNNFKSAEDCMRTCGGA
I legami a zolfo tra cisteine nelle proteine S Ca C Ca S C 2 -SH -> -SS- + 2 H+ + 2 e. S-S distance 2. 2 Å Torsion angle C-S-S-C 90° Bond Energy 3 Kcal/mol
Neural Networks for the Prediction of the disulfide-bonding state of cysteines in proteins Bonding 1 2 3 4 5 6 7 8 9 10 11 12 13 Non bonding MVKGPGLYTDIGKKARDLLYKDYHS--DKKFTISTYS CTGVAITSSGTKKGEL--FLGDV SAKGPGLYTDIGKKARDLLYRDYQT--DQKFSITTYSCTGVAITSSGTKKGDL--FLADV MVKGPGLYSDIGKRARDLLYRDYQS--DHKFTLTTYTCNGVAITSTGTKKGEL--FLADV MVKGPGLYSDIGKKARDLLYRDYVS--DHKFTVTTYSCTGVAITASGLKKGEL--FLADV MVKGPGLYTEIGKKARDLLYRDYQG--DQKFSVTTYSCTGVAITTTGTNKGSL--FLGDV MVVAVGLYTDIGKKTRDLLYKDYNT--HQKFCLTTSSCNGVAITAAGTRKNES--IFGEL -MGGPGLYSGIGKKAKDLLYRDYQT--DHKFTLTTYTCNGPAITATSTKKADL--TVGEI AVVRPYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSLEI --AVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVTGSL -MAVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVNGSL --AVPPSYADLGKSARDIFNKGYGFG-LVKLDVKTKSCTGVEFTTSGTSNTDSGKVNGSL --MAPPSYSDLGKQARDIFSKGYNFG-LWKLDLKTKTCSGIEFNTAGHSNQESGKVFGSL --MAVPAFSDIAKSANDLLNKDFYHLAAGTIEVKSNTCNNVAFKVTGKSTHDK-VTSGAL
W 1 W 2 W 3 MYSFPNSFRFGWSQAGFQCEMSTPGSEDPNTDWYKWVHDPENMAAGL CSGDLPENGPGYWGNYKTFHDNAQKM CLKIARLNVEWSRIFPNP. . . P(B|W 1), P(F|W 1) P(B|W 2), P(F|W 2) P(B|W 3), P(F|W 3) Begi n Cysteine free states Cysteine bonding states End Most probable path through the states Prediction of the bonding and non-bonding states of all the cysteines of the sequence
Il sistema ibrido Accuratezza per cisteina: 88%; per proteina: 84% HNN-based predictor Correctly predicted proteins (%) NN-based predictor No of cysteines per protein No of proteins Protein Science, in press
Output Input www. prion. biocomp. unibo. it/cyspred. html VGDKLIPLKITYDYYVCNNH MDTDTSYERWPALGTYRPLN GRDCVMNNHKLAASDRWECD VGDKLIPLKITYDYYVCNNHMDTDTSYERWPA QREPLYTCMCNKDLPTKAAG LGTYRPLNGRDCVMNNHKLAASDRWECDQREP LYTCMCNKDLPTKAAGPLMNTRPILNLSREEWLLPLLTHMNVVAGLCKLP VGDKLIPLKITYDYYVCNNHMDTDTSYERWPALG TYRPLNGRDCVMNNHKLAASDRWECDQREPLYTC MCNKDLPTKAAGPLMNTRPILNLSREEWLLPLLT HMNVVAGLCKLP Disulfide bonding cysteine Free cysteine
I PREDITTORI POSSONO ESSERE USATI PER SCOPRIRE NUOVE PROTEINE?
Escherichia coli K 12, genoma completo Completed: Oct 13, 1998. Total Bases: 4, 639, 221 bp NCBI (www. ncbi. nlm. nih. gov) Protein coding genes: 4, 289 Structural RNAs: 115 Eco. Gene/Eco. Prot (bmb. med. miami. edu/Eco. Gene) Protein coding genes: 4, 173 Structural RNAs : 120
Eco. Gene/Swiss. Prot functional annotation Keywords of Swiss. Prot entries (if exist) are extracted : 2160 421 35 1704 ANNOTATED PROTEINS (52 %) Inner membrane proteins Outer membrane proteins Globular proteins 760 PARTIALLY ANNOTATED PROTEINS (18 %) proteins annotated as “Hypothetical proteins” and with other functional annotations 352 Inner membrane proteins 18 Outer membrane proteins 390 Globular proteins 1253 NON ANNOTATED PROTEINS (30 %) 137 proteins don’t have Swiss. Prot entry 1116 proteins don’t contain functional annotation in Swiss. Prot
Outer Membrane proteins (all b-Transmembrane proteins) Inner Membrane proteins (all a-Transmembrane proteins)
PROTEOME HUNTER Signal peptide Yes No All-a TM No all a-TM s All-b TM No Globular Ye s all b-TM all a-TM
Predicting globular, inner and outer membrane proteins in genomes of Gram-negative bacteria with Hunter * the number of new proteins predicted in the class with Hunter, out of the non-annotated region
www. biocomp. unibo. it
Collaborazioni Italia L. Masotti, Biochemistry, Bologna M. Rossi, IBPE/CNR, Napoli G. Mita, IIGB/CNR, Napoli G. Irace, Biochemistry, Napoli D. Boraschi, CNR, Pisa P. Arrigo, ICE/CNR, Genova P. Mariani, Physics, Ancona G. Campadelli-Fiume, Pathology, Bologna S. Prosperi, Veterinary, Bologna F. Bernardi, Chemistry, Bologna S. Ciurli, Agricultural Chemistry, Bologna C. Bergamini, Biochemistry, Ferrara All’estero B. Rost, Columbia University, New York A. Valencia, Protein Design Group, Cantoblanco, Madrid P. Baldi, Genomics and Bioinformatics, Irvine, California A. Krogh, University of Copenhagen, Copenhagen N. Ben Tal, Israel Insitute of Technology, Tel Aviv
The cross validation procedure Protein set Training set Testing set
Evaluation of the performance p+n correct predictions = —— Q 2 = ———— N total predictions correct predictions in class x p Q(x) = —————— = —— total observations in class x p+u P(x) = correct predictions in class x p —————— = —— total predictions in class x p+o C p·n - o ·u Correlation index = ——————— [(p+o) ·(p+u) ·(n+o) ·(n+u)]1/2 = Legend: Observed Predicted
Evaluation of the efficiency of contact map predictions 1) Accuracy: A = Ncp* / Ncp where Ncp* and Ncp are the number of correctly assigned contacts and that of total predicted contacts, respectively. 2) Improvement over a random predictor : R = A / (Nc/Np) where Nc/Np is the accuracy of a random predictor ; Nc is the number of real contacts in the protein of length Lp, and Np are all the possible contacts 3) Difference in the distribution of the inter-residue distances in the 3 D structure for predicted pairs compared with all pair distances in the structure (Pazos et al. , 1997): Xd= i=1, n (Pic - Pia ) / n di where n is the number of bins of the distance distribution (15 equally distributed bins from 4 to 60Å cluster all the possible distances of residue pairs observed in the protein structure); di is the upper limit (normalised to 60 Å) for each bin, e. g. 8 Å for the 4 to 8 Å bin; Pic and Pia are the percentage of predicted contact pairs (with distance between di and di-1 ) and that of all possible pairs respectively
The cross validation procedure Protein set Testing set 1 Training set 1
PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINE Gli elementi della costruzione della struttura primaria Amminoacidi Backbone della proteina


