105cd6ccaa60a76ba248c76f5d2cb894.ppt
- Количество слайдов: 113
D. L. Nelson, M. M. Cox, I PRINCIPI DI BIOCHIMICA DI LEHNINGER 4/E, Zanichelli Editore S. p. A. Copyright
Included groups. Archaeplastida Chlorophyta (green algae) Rhodophyta (red algae) Glaucophyta Rhizaria, Excavata Chlorarachniophytes Euglenids Chromista, Alveolata Heterokonts Bacillariophyceae (Diatoms) Axodine Bolidomonas Eustigmatophyceae Phaeophyceae (brown algae) Chrysophyceae (golden algae) Raphidophyceae Synurophyceae Xanthophyceae (yellow-green algae) Cryptophyta Dinoflagellates Haptophyta Excluded groups. Cyanobacteria Plantae Euglenophyta (euglenoidi) Cryptophyta (criptomonadi) Chrysophyta (alghe giallo-brune) Dinophyta (dinoflagellate) Haptophyta (aptofite) Bacillariophyta (diatomee) Chlorophyta (alghe verdi) Phaeophyta (alghe brune) Rhodophyta (alghe rosse)
LINEs (Long INterspersed Elements) SINEs (Short INterspersed Elements)
D. L. Nelson, M. M. Cox, I PRINCIPI DI BIOCHIMICA DI LEHNINGER 4/E, Zanichelli Editore S. p. A. Copyright
ATGGTTCCACAAACAGAAACTAAAGCAGGTGCTGGATTCAAAGCCGGTGTAAAAGACTAC CGTTTAACATACTACACACCTGATTACGTAGTAAGAGATACTGATATTTTAGCTGCATTC CGTATGACTCCACAACTAGGTGTTCCACCTGAAGAATGTGGTGCTGCTGTAGCTGCTGAA TCTTCAACAGGTACATGGACTACAGTATGGACTGACGGTTTAACAAGTCTTGACCGTTAC AAAGGTCGTTGTTACGATATCGAACCAGTTCCGGGTGAAGACAACCAATACATTGCTTAC GTAGCTTACCCAATCGACTTATTCGAAGAAGGTTCAGTAACATGTTCACTTCTATT GTAGGTAACGTATTCGGTTTCAAAGCTTTACGTGCTCTACGTCTTGAAGACCTTCGTATT CCACCTGCTTACGTTAAAACATTCGTAGGTCCTCCACACGGTATTCAGGTAGAACGTGAC AAATTAAACAAATATGGTCGTGGTCTTTTAGGTTGTACAATCAAACCTAAATTAGGTCTT TCAGCTAAAAACTACGGTCGTGCAGTTTATGAATGTTTACGTGGTGGTCTTGACTTTACT AAAGACGACGAAAACGTAAACTCACAACCATTCATGCGTTGGCGTGACCGTTTCCTTTTC GTTGCTGAAGCTATTTACAAAGCTCAAGCAGAAACAGGTGAAGTTAAAGGTCACTACTTA AACGCTACTGCTGGTACTTGTGAAGAAATGATGAAACGTGCAGTATGTGCTAAAGAATTA GGTGTACCTATTATTATGCACGACTACTTAACAGGTGGTTTCACAGCTAACACTTCATTA GCTATCTACTGTCGTGACAACGGTCTTCTTCTACACATCCACCGTGCTATGCACGCGGTT ATTGACCGTCAACGTAACCACGGTATTCACTTCCGTGTTCTTGCTAAAGCTCTTCGTATG TCTGGTGGTGACCACCTTCACTCTGGTACTGTTGTAGGTA http: //web. expasy. org/translate/ GGTTCCACAAACAGAAACTAAAGCAGGTGCTGGATTCAAAGCCGGTGTAAAAGACTAC CGTTTAACATACTACACACCTGATTACGTAGTAAGAGATACTGATATTTTAGCTGCATTC CGTATGACTCCACAACTAGGTGTTCCACCTGAAGAATGTGGTGCTGCTGTAGCTGCTGAA TCTTCAACAGGTACATGGACTACAGTATGGACTGACGGTTTAACAAGTCTTGACCGTTAC AAAGGTCGTTGTTACGATATCGAACCAGTTCCGGGTGAAGACAACCAATACATTGCTTAC GTAGCTTACCCAATCGACTTATTCGAAGAAGGTTCAGTAACATGTTCACTTCTATT GTAGGTAACGTATTCGGTTTCAAAGCTTTACGTGCTCTACGTCTTGAAGACCTTCGTATT CCACCTGCTTACGTTAAAACATTCGTAGGTCCTCCACACGGTATTCAGGTAGAACGTGAC AAATTAAACAAATATGGTCGTGGTCTTTTAGGTTGTACAATCAAACCTAAATTAGGTCTT TCAGCTAAAAACTACGGTCGTGCAGTTTATGAATGTTTACGTGGTGGTCTTGACTTTACT AAAGACGACGAAAACGTAAACTCACAACCATTCATGCGTTGGCGTGACCGTTTCCTTTTC GTTGCTGAAGCTATTTACAAAGCTCAAGCAGAAACAGGTGAAGTTAAAGGTCACTACTTA AACGCTACTGCTGGTACTTGTGAAGAAATGATGAAACGTGCAGTATGTGCTAAAGAATTA GGTGTACCTATTATTATGCACGACTACTTAACAGGTGGTTTCACAGCTAACACTTCATTA GCTATCTACTGTCGTGACAACGGTCTTCTTCTACACATCCACCGTGCTATGCACGCGGTT ATTGACCGTCAACGTAACCACGGTATTCACTTCCGTGTTCTTGCTAAAGCTCTTCGTATG TCTGGTGGTGACCACCTTCACTCTGGTACTGTTGTAGGTA
Prendete la sequenza tradotta precedentemente analizzata e inseritela in http: //npsa-pbil. ibcp. fr/cgi-bin/npsa_automat. pl? page=npsa_color. html
1 2 3 4 5 6 7 8 9 10 11 12 13 14
PRINCIPALI BANCHE DATI BIOLOGICHE MEDLINE E’ una banca dati primaria contenente i riferimenti bibliografici. EMBL E’ una banca dati primaria contenente sequenze nucleotidiche. PDB E’ una banca dati primaria contenente strutture proteiche. Uni. Prot E’ una banca dati secondaria contenente sequenze proteiche e molte altre informazioni accessorie oltre ai riferimenti ad altre banche dati tra le quali quelle succitate.
2007 Uni. Prot. KB/Swiss-Prot - Non-redundant - High level of integration - High level of manual curation - Contains 241, 242 entries 2010 Uni. Prot. KB/Tr. EMBL - Translations of CDS in EMBL/Gen. Bank/DDBJ - Automatic annotation - Contains 3, 313, 265 entries Uni. Prot. KB/Swiss-Prot Uni. Prot. KB/Tr. EMBL 515, 000 -11, 000
Capturing the correct sequence Archive collections Each sequence report stored in its own entry - - Merging at 100% identity Still some redundancy
Literature Analysis tools Other databases External expertise
http: //www. uniprot. org/ MVPQTETKAGAGFKAGVKDYRLTYYTPDYVVRDTDILAAFRMTPQLGVPPEECGAAVAAE SSTGTWTTVWTDGLTSLDRYKGRCYDIEPVPGEDNQYIAYVAYPIDLFEEGSVTNMFTSI VGNVFGFKALRALRLEDLRIPPAYVKTFVGPPHGIQVERDKLNKYGRGLLGCTIKPKLGL SAKNYGRAVYECLRGGLDFTKDDENVNSQPFMRWRDRFLFVAEAIYKAQAETGEVKGHYL NATAGTCEEMMKRAVCAKELGVPIIMHDYLTGGFTANTSLAIYCRDNGLLLHIHRAMHAV IDRQRNHGIHFRVLAKALRMSGGDHLHSGTVVGKLEGEREVTLGFVDLMRDDYVEKDRSR GIYFTQDWCSMPGVMPVASGGIHVWHMPALVEIFGDDACLQFGGGTLGHPWGNAPGAAAN RVALEACTQARNEGRDLAREGGDVIRSACKWSPELAAACEVWKEIKFEFDTIDKL P 00877
STRUTTURA DI UNA BANCA DATI Flat-file Entry Field Le banche dati biologiche sono in formato flat-file. Questo formato rende semplice distinguere le Entry ed i Field sia all’occhio umano che ai programmi che dovranno effettuare la ricerca.
INTERROGARE UNA BANCA DATI Il software per interrogare una banca dati può essere sia integrato nel sito web della stessa banca dati (es: Uni. Prot, PDB) e questo può essere più o meno efficiente, oppure è possibile utilizzare software di terze parti che offrono la possibilità di interrogare banche dati in maniera avanzata come SRS è un sistema di ricerca che permette di interrogare molte banche dati sfruttando la ricerca per field e la possibilità di utilizzare gli operatori logici AND, OR e NOT sia tra i field che all’interno di ciascun field, inoltre permette di recuperare agevolmente le sole informazioni desiderate e di scaricarle in locale. Es: Ottenere le sequenze della melibiase umana e di topo ricercando con SRS in Uni
Esercitazione: Cercare le proteine da Chlorophyta (alghe verdi) Contenute nei plastidi Cercare le proteine da Chlorophyta (alghe verdi)contenute nei plastidi diversi dai cloroplast Cercare le le proteine da Chlorophyta (alghe verdi)contenute nei cloroplasti e note al lvello di proteina Cercare le le proteine da Chlorophyta (alghe verdi)contenute nei cloroplasti e note al livello di proteina ed a struttura nota
VISUALIZZAZIONE DI STRUTTURE PROTEICHE Le strutture proteiche sono custodite nella banca dati PDB. E’ possibile notare nel flatfile che le entry di questa banca dati posseggono un field particolare denominato ATOM nel quale è annotata la posizione spaziale (nelle tre dimensioni x, y, z) di ciascun atomo della struttura. Software specifici sono in grado di leggere il flat-file delle entry , che generalmente è associato ad estensione. pdb, e mappare queste coordinate su un sistema di assi permettendo di visualizzare la struttura 3 D della proteina (Rasmol, Jmol, Chimera). Coordinate x, y, z
RASMOL E’ un software gratuito che permette di leggere i file. pdb scaricati direttamente da PDB oppure da SRS (in tal caso bisogna aggiungere l’estensione. pdb al file). Nonostante sia possibile sfruttare l’interfaccia grafica, per godere a pieno della potenza del software è indispensabile imparare la modalità a riga di comando che permette un controllo completo sulla visualizzazione della struttura. Scaricate http: //159. 149. 98. 238/WEB/sections/02_Teaching/05_Biotec/Es 04 Biotec 08. html Cercate la banca dati pdb e scaricate la struttura 1 GK 8 Mouse Tasto sinistro = ruota Tasto destro = muove tutto Tasto sinistro + freccia in alto = zoom
RASMOL Comandi per selezionare residui Ras. Mol> select *A (seleziona gli atomi appartenenti al monomero A) Ras. Mol> select amino (seleziona gli atomi dei soli amminoacidi) Ras. Mol> select 50, 130, 150 (seleziona gli atomi degli amminoacidi indicati Ras. Mol> select 100 -200 (seleziona gli atomi degli amminoacidi compresi nel ran Ras. Mol> select hetero (seleziona gli atomi di tutte le molecole non proteiche) Ras. Mol> select [nome molecola] (seleziona gli atomi una specifica molecola ) Ras. Mol> select all (seleziona tutti gli atomi di tutte le molecole)
RASMOL Comandi per i colori Ras. Mol> color red (colora gli atomi selezionati con il colore indicato) Ras. Mol> color [10, 40, 50] (colora gli atomi selezionati con il colore indicato in R Comandi per differenti visualizzazioni Ras. Mol> wireframe on/off Ras. Mol> backbone on/off Ras. Mol> ribbons on/off Ras. Mol> cartoons on/off Ras. Mol> spacefill on/off
RASMOL Comandi per restringere i residui Ras. Mol> restrict *A Ras. Mol> restrict amino Ras. Mol> restrict 50, 130, 150 Ras. Mol> restrict 100 -200 Ras. Mol> restrict hetero Ras. Mol> restrict [nome molecola] Ras. Mol> restrict all
RASMOL Comandi per modificare il colore dello sfondo Ras. Mol> background red Ras. Mol> background [10, 40, 50] Comando per zoommare Ras. Mol> zoom 10 Comando per ruotare la molecola Ras. Mol> rotate x 100 Ras. Mol> rotate y -10 Ras. Mol> rotate z 200
RASMOL Es: visualizzare i residui catalitici della melibiase umana utilizzando la struttara 3 gxt della melibiase umana. - Comandi: restrict amino color white select 170, 231 color red spacefill
Jmol E’ un applicazione Java molto diffusa sul web che mantiene quasi tutte le caratteristiche riscontrate per Rasmol, bisogna solo ricordare di aprire la console dei comandi puntando il mouse sulla struttura e cliccando sulla parte destra del mouse, nel menù a tendina baste cliccare su console.
Confrontate 1 IR 2 e 1 GK 8 e 1 UW 9 Quante catene ci sono? Sono tutte uguali? Quali sono i residui del sito attivo?
Esempio di allineamento • Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch 970 980 990 1000 1010 1020 SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC. . : : . : : : . : NOTC_DROME YKCECPRGFYDAHCLSDVDECASN-PCVNEGRCEDGINEFICHCPPGYTGKRCELDIDEC 740 750 760 770 780 790
Qualche definizione Identity : Generalmente espressa come percentuale, proporzione degli amminoacidi identici tra due sequenze allineate. Fortemente dipendente dal modo in cui due sequenze sono state allineate. Similarity Proporzione di amminoacidi simili. dipende dal criterio utilizzato per definire amminoacidi simili e dal modo in cui le due sequenze sono state allineate Homology Due proteine sono omologhe se hanno un progenitore in comune. non ci sono livelli di omologia: o due proteine sono omologhe o non lo sono. Proteine omologhe non necessariamente hanno la stessa funzione e non necessariamente sono molto simili.
Allineamento di una coppia di sequenze deletion Seq A Seq B GARFIELDTHELASTFA-TCAT |||||| || |||| GARFIELDTHEVERYFASTCAT errors / mismatches insertion – in un allineamento possono esistere inserzioni, delezioni e mismatch (cattivi accoppiamenti)
Numero di allinemanti ci sono molti modi di allineare due sequenze CGATGCAGACGTCA |||| CGATGCAAGACGTCA ma anche: CGATGCAGACGTCA |||| CGATGCAAGACGTCA CGATGCA-GACGTCA ||||||| CGATGCAAGACGTCA • Il numero di possibili allineamenti diversi per due sequenze di mille amminoacidi, se si consentono inserzioni e delezioni è 2 10600 • (nel giudicare questo numero tenete conto che il numero di atomi totali stimato nell’universo è 1080)
Valutazione di un allineamento intuitiavamente noi capiamo che questo allineamento CGAGGCACAACGTCA ||| |||||| CGATGCAAGACGTCA e’ meglio di: ATTGGACAGCAATCAGG | || | | ACGATGCAAGACGTCAG • Abbiamo applicato senza accorgercene un criterio di valutazione o di punteggio che in iglese chiamiamo scoring system.
Scoring system Il modo piu’ semplice di dare un punteggio e’ quello di dare 1 se due amminoacidi sono identici, 0 se sono diversi. Il punteggio, in inglese score, in questi due casi sara’ CGAGGCACAACGTCA ||| |||||| CGATGCAAGACGTCA ðScore: 12 ATTGGACAGCAATCAGG | || | | ACGATGCAAGACGTCAG ðScore: 5 Ma noi intuitivamente capiamo che sostituire ser con thr che sono due amminoacidi molto simili non puo’ essere tanto sfavorevole per una proteina quanto sostituite ser con trp
Introduzione dell’informazione biologica Possiamo 1)creare una scala di punteggi basata sulle proprieta’ chimicofisiche degli amminoacidi, tipo dimensioni (punteggio piu’ alto per la sostituzione di una amminoacido piccolo da parte di un altro amminoacido piccolo e piu’ basso per la sostituzione di un amminoacido piccolo con uno grande) idrofobicita’, etc 2) osservare delle famiglie di proteine chiaramente omologhe e misurare con che frequenza l’evoluzione ha sostituito un amminoacido con un altro. In entrambi i casi si costruiscono delle matrici di sostituzioni
Matrici di sostituzione (log-odds matrices) Per una famiglia di proteine ben conosciute: si allineano le sequenze (Leu, Ile): 2 (Leu, Cys): -6 si contano le mutazioni ad ogni posizione si calcola il numero di volte che per esempio ser e’ sostiuta da thr e si divide per la frequenza di ser e di thr, cioe’ per la numero di volte atteso per una sostituzoione casuale di ser in thr . . . PAM 250 • Punteggi positivi: gli amminoacidi sono stati considerati simili dall’evoluzione e sono stati sostituiti l’uno nell’altro piu’ frequentemente di quando sarebbe accaduto per caso. • Punteggi negativi: gli amminoacidi sono stati considerati dissimili dall’evoluzione e sono stati sostituiti l’uno nell’altro meno frequentemente di quanto sarebbe dovuto accadere per caso.
Le matrici piu’ utilizzate sono le PAMX e le BLOSUMY. X e Y sono dei numeri, piu’ alto e’ il numero X, piu’ la matrice e’ adatta a comparare sequenze molto diverse, piu’ basso e’ il numero Y, piu’ la matrice è adatta a comparare sequenze molto diverse. Le piu’ utilizzate sono PAM 250 e BLOSUM 62 Punteggio (score)grezzo TPEA ¦| | APGA Score = + 6 + 0 + 2 = 9 1 ð E’ possibile che allineamenti molto corti prendano punteggi grezzi piu’ alti di allineamenti piu’ lunghi ð Abbiamo bisogno di punteggi normalizzati! (p-value, e-value)
Durante l’evoluzione di una proteina alcuni amminoacidi possono essere stati deleti o inseriti. I programmi di allineamnto devono prevedere la possibilita’ di introdurre gap puo’ essere migliorato inserendo un gap GCATGCAACTGCAT ||||| GCATGGGCAACTGCATG--CAACTGCAT ||||||||| GCATGGGCAACTGCAT ma bisogna evitare troppi gap qualsiasi coppia di sequenze si puo’ allineare inserendo molti gap! ATGAKLPWP QAGMMAWIP -ATG—-AKLPW-P | | QA-GMMA---WIP
Gap opening and extension penalties L’apertura di gap deve essere penalizzata. E ’piu’ ragionevole introdurre un gap piu’ lungo che molti gap corti perche’ l’evoluzione puo’ aver introdotto o eliminato un certo numero di amminoacidi in un loop per esempio ma difficilmente elimina o inserisce un singolo amminoacido piu’ volte CGATGCAGCATCG ||||||| CGATGC------AGCATCG gap opening CGATGCAGCATCG || || || | CG-TG-AGCA-CA--AT-G gap extension Gap opening penalty • Contato ogni volta che si apre un gap Gap extension penalty • Contato ogni volta che viene allungato un gap • Gap opening penalty>> Gap extension penalty
Gap opening and extension penalties Esempio: con una matrice di punteggio semplicissima, 1 aa identici, 0 aa diversi con un opening gap penalty di 10 e un extention gap penalty di 1 abbiamo il seguente punteggio CGATGCAGCATCG ||||||| CGATGC------AGCATCG gap opening CGATGCAGCATCG || || || | CG-TG-AGCA-CA--AT-G gap extension 13 x 1 - 10 - 6 x 1 = -3 13 x 1 - 5 x 10 - 6 x 1 = -43
Valutazione statistiva dei risultati Valori statistici derivati dagli « score » • p-value ð Probabilità che un allineamento con un certopunteggio si trovi per caso in una certa banca dati ð Più basso è il p-value migliore l’allineamento • e-value ð Numero di casi con lo stesso punteggio che si possono trovare per caso in una certa banca dati ð Più vicino a 0 è le-value, migliore è l’allineamento
Tipi di allineamento Gli allineamenti possono essere: Globali: si cerca di allineare tutta la sequenza A con tutta la sequenza B e si calcola un punteggio complessivo Locali: si cerca di allineare dei “pezzi” di A con dei “pezzi” di B. ATYRDTYGGFSDRLPATFRETFGGFSDRLPCGATGCAAGACGTCA || | | |||||| ATFRETFGGFSDRLP--------CGATGCSSA-CGTCA Un allineamento globale penalizzerebbe troppo la lunga delezione e ci farebbe perdere di vista la forte somiglianza fra “i pezzi” blu e rosso
http: //www. ch. embnet. org/software/LALIGN_form. html Provate ad allineare RNS_BOVIN ANG 1_MOUSE Oppure TPA_HUMAN UROK_HUMAN
DOMINI I domini proteici sono delle strutture ripiegate in maniera compatta con un loro proprio nucleo idrofobico. I domini di proteine che si sono evolute recentemente sono frequentemente codificati da esoni diversi e riflettono la fusione genica di moduli piu’ semplici. Sebbene i domini rappresentino un livello importante nella gerarchia organizzativa delle proteine, non tutte le proteine possono essere descritte come strutture multidominio.
ATTGGLPPDRTGH | || ASGGQRPR---GH ATTGGLPPDRTGH | || AS-GGQRPR--GH ATTGGLPPDRTGH | | || ASGGQRP--R-GH un metodo che misuri in base alla matrice di punteggio scelta e al la penalizzazione per i gap e per le loro estensioni scelte tutti i punteggi per tutti i possibili allineamenti di due sequenze, e’ molto dispendioso in termini di tempo e si puo applicare solo a poche sequenze alla volta. non si puo’ applicare per cercare in una banca dati sequenze omologhe alla nostra
Metodi euristici 1) Si utilizzano metodi rapidi approssimati che consentono di selezionare da una bancadati le sequenze che piu’ probabilmente sono simili a quella di nostro interesse (query sequence) e si localizza la regione di similarieta’ in esse. 2) si restringe l’allinemanto solo alle sequenze della banca dati selezionate e solo ad alcune regioni di esse
Matrici di sostituzione (log-odds matrices) Per una famiglia di proteine ben conosciute: si allineano le sequenze (Leu, Ile): 2 (Leu, Cys): -6 si contano le mutazioni ad ogni posizione si calcola il numero di volte che per esempio ser e’ sostiuta da thr e si divide per la frequenza di ser e di thr, cioe’ per la numero di volte atteso per una sostituzoione casuale di ser in thr . . . PAM 250 • Punteggi positivi: gli amminoacidi sono stati considerati simili dall’evoluzione e sono stati sostituiti l’uno nell’altro piu’ frequentemente di quando sarebbe accaduto per caso. • Punteggi negativi: gli amminoacidi sono stati considerati dissimili dall’evoluzione e sono stati sostituiti l’uno nell’altro meno frequentemente di quanto sarebbe dovuto accadere per caso.
BLAST. . . . AAAERTYPFGRTSF. . . si può scomporre in tante parole di lunghezza w. se w=3 avremo AAA, AAE, AER, ERT, RTY, YPF. . . se si allinea AAA con AAA si ottiene un certo punteggio usando per esempio PAM 250=6, allineando AER con AER =12. selezioniamo le parole che diano un punteggio per esempio >10 tipo AER
Cerchiamo nella banca dati tutte le sequenze che contengano la parola AER AAAERTYPFGRTST AAAERSFGGLWAA query db a partire dalla parola allineata tra la query e la sequenza della db, cerchiamo di allungare l’allineamento fino a quando il punteggio che daremmo utilizzando PAM 250 si mantiene alto
http: //www. expasy. org/proteomics/similarity_search_alignment MVPQTETKAGAGFKAGVKDYRLTYYTPDYVVRDTDILAAFRMTPQLGVPPEECGAAVAAE SSTGTWTTVWTDGLTSLDRYKGRCYDIEPVPGEDNQYIAYVAYPIDLFEEGSVTNMFTSI VGNVFGFKALRALRLEDLRIPPAYVKTFVGPPHGIQVERDKLNKYGRGLLGCTIKPKLGL SAKNYGRAVYECLRGGLDFTKDDENVNSQPFMRWRDRFLFVAEAIYKAQAETGEVKGHYL NATAGTCEEMMKRAVCAKELGVPIIMHDYLTGGFTANTSLAIYCRDNGLLLHIHRAMHAV IDRQRNHGIHFRVLAKALRMSGGDHLHSGTVVGKLEGEREVTLGFVDLMRDDYVEKDRSR GIYFTQDWCSMPGVMPVASGGIHVWHMPALVEIFGDDACLQFGGGTLGHPWGNAPGAAAN RVALEACTQARNEGRDLAREGGDVIRSACKWSPELAAACEVWKEIKFEFDTIDKL atggctccac aaactgaaac tagagcaggt gctgggttta aagcaggtgt taaagactac cgtttaactt actatactcc tgattaccaaaagaca ctgatattct tgcagcattc cgtatgactc ctcaaccagg tgttccacca gaagaagctg gtgcagcggt agctgcagaa tcatcaactg gtacttggac aactgtatgg actgatggtt taactagttt agatcgttac aaaggccgtt gttatgacat cgagccagtt ccaggtgaag aaaaccaata cattgcatatc ctttagatct ttttgaagaa ggatctgtaa ctaatttatt tacttcaatt gtaggtaacg tttttggttt caaagctctt cgtgctttac gtttagaaga tcttcgtatt ccaccagcat acgtaaaaac tttccaaggt cctcctcatg gtattcaagt agaacgtgat aaacttaaca aatatggtcg tggtttatta ggttgtacaa ttaaaccaaa attaggtctt tcagctaaaa actacggtcg tgctgtatac gaatgtttac gtggtggtct tgatttcact aaagatgatg aaaacgtaaa ctctcaacca ttcatgcgtt ggagagatcg tttcttattc gttgcggaag ctatctacaa atctcaatct gaaacaggtg aaattaaagg tcactattta aatgcgactg cagcaactgc tgaagaaatg cttaaacgtg cggaatgtgc aaaagattta
UN ALLINEMENTO MULTIPLO RIFLETTE LA STRUTTURA DELLE PROTEINE
COME SI COSTRUISCE UN CONSENSO
COME COSTRUIRE UN PATTERN
COME SI COSTRUISCE UN PATTERN
http: //us. expasy. org/prosite/ dopo aver mandato l’analisi cliccate su PS 00157 secuite l’EC number e andate sulla banca Brenda MVPQTETKTGAGFKAGVKDYRLTYYTPDYVVSETDILAAFRMTP QPGVPPEECGAAVAAESSTGTWTTVWTDGLTSLDKYKGRCYDLEPVPGEENQYIAYVA YPIDLFEEGSVTNLFTSIVGNVFGFKALRALRLEDLRISPAYVKTFVGPPHGIQVERD KLNKYGRGLLGCTIKPKLGLSAKNYGRAVYECLRGGLDFTKDDENVNSQPFMRWRDRF LFVAEAIYKSQAETGEIKGHYLNATAGTAEGMLQRAQCAKELGVPIIMHDYLTGGFTA NTSLAHYCRDHGLLLHIHRAMHAVIDRQRNHGIHFRVLAKTLRMSGGDHLHSGTVVGK LEGEREVTLGFVDLMRDNFVEKDRSRGIYFTQDWCSMPGVMPVASGGIHVWHMPALVE IFGDDACLQFGGGTLGHPWGNAPGAVANRVALEACTQARNEGRDLAREGGNVIRSACK WSPELAAACEVWKEIKFEFDTIDKL
PSSM: Position Specific Substitution Matrix Una PSSM si basa sulle diverse frequenze di ogni amminoacido ad ogni posizione ed e’ derivata dall’allineamento multiplo. Serve ad allineare una sequenza ad una particolare famiglia di proteine
PSEUDO-CONTE ALCUNE FREQUENZE OSSERVATE SONO UGUALI A 0. QUESTA E’ UNA CONSEGUENZA DEL NUMERO LIMITATO DI SEQUENZE PRESENTI NELL’ALLINEAMENTO MULTIPLO SFORTUNATAMENTE, UNA FREQUENZA UGUALE A 0 POTREBBE IMPLICARE LA TOTALE ESCLUSIONE DI UN AMMINOACIDO IN QUELLA POSIZIONE UN TRUCCO CONSISTE NELL’AGGIUNGERE UN PICCOLO NUMERO A TUTTE LE FREQUENZE OSSERVATE. QUESTE SI CHIAMANO PSEUDOCONTE PER ESEMPIO POSSIAMO AGGIUNGERE UN 1
COME SI CALCOLA UNA PSSM LA FREQUENZA DI OGNI AA AD OGNI POSIZIONE VIENE CALCOLATA , PSEUDOCONTE SONO AGGIUNTE E SI DIVIDE PER LA FREQUENZA IN UNA SEQUENZA A CASO DELL’AA. PER SEMPLICITA’ CONSIDEREREMO LA FREQUENZA DI TUTTI GLI AA IN UNA SEQUENZA A CASO UGUALE E PARI A 1/20 IL PUNTEGGIO PER L’AA I ALLA POSIZIONE J SCOREij= log 2 (f’ij/ qi) =ln (f’ij/ qi) x 1, 57 (Cosi’ si ottiene il log 2)
Per l’allineamento multiplo precedente Calcoliamo:
SE VOGLIAMO ALLINEARE UNA SEQUENZA AD UNA FAMIGLIA DI SEQUENZE OMOLOGHE
APPOGGEREMO SULLA SEQUENZA LA PSSM E CALCOLEREMO UN PUNTEGGIO
POI SI RIPROVA FACENDO SCIVOLARE LA PSSM DI UNA POSIZIONE E SI RICALCOLA IL PUNTEGGIO
SI PROCEDE CON LO SCIVOLAMENTO FINO A TROVARE LA POSIZIONE OSSIA L’ALLINEAMENTO CHE DA IL MASSIMO PUNTEGGIO
ANCHE IN QUESTO CASO IL PUNTEGGIO SI TRASFORMA IN E VALUE: PER ESEMPIO PUNTEGGI FINO A 4 SI TROVANO ANCHE CON SEQUENZE A CASO NON CORRELATE ALLA FAMIGLIA, PUNTEGGI SUPERIORI A 5 CADONO OLTRE LA GAUSSIANA, HANNO PUNTEGGI SUPERIORI A QUELLI ATTESI PER CASO, E QUINDI CORRISPONDONO A SEQUENZE OMOLOGHE A QUELLE DELLA FAMIGLIA
MA UN ALLINEAMENTO MULTIPLO CI MOSTRA ANCHE QUALI SONO I SITI DOVE E’ PIU’ PROBABILE UNA INSERZIONE O UNA DELEZIONE. SE LA STRUTTURA DI QUALCUNA DI QUESTE PROTEINE FOSSE NOTA, PROBABILMENTE SI SCOPRIREBBE CHE QUESTE REGIONI CORRISPONDONO AI LOOP O ALLE ESTREMITA’ DI ALFA ELICHE O BETA STRAND
La PSSM PUO’ ESSERE GENERALIZZATA PERCHE’ PER OGNI POSIZIONE OLTRE A CONSIDERARE IL PUNTEGGIO DA DARE AD UNA SOSTITUZIONE SI CONSIDERA ANCHE IL PUNTEGGIO DA DARE AD UNA INSERZIONE O DELEZIONE.
Pfam E’ UNA BANCA DATI DI FAMIGLIE DI PROTEINE. SI PUO’ UTILIZZARE PER CERCARE DI ALLINEARE UNA QUERY SEQUENCE AL PROFILO DI UNA FAMIGLIA. OFFRE ANCHE MOLTE INFORMAZIONI SULLA FAMIGLIA. E’ MOLTO UTILE PER SCOPRIRE SE UNA PROTEINA E’ MULTIDOMINIO http: //www. sanger. ac. uk/Software/Pfam/ VSLLDFNGNMSQVTGETTLLYKEIARNVEKTKKIKIIDFGIGQPDLPTFKRIRDAAKEAL DQGFTFYTSAFGIDELREKIAQYLNTRYGTDVKKEEVIVTPGAKPALFLVFILYINPSDE VILPDPSFYSYAEVVKLLGGKPIYANLKWSREEGFSIDVDDLQSKISKRTKMIVFNNPHN PTGTLFSPNDVKKIVDISRDNKIILLSDEIYDNFVYEGKMRSTLEDSDWRDFLIYVNGFS KTFSMTGWRLGYIVAKREIIQKMGILAANVYTAPTSFVQKAAVKAFDTFDEVNQMVSLFK KRRDVMYDELTKVKGVEVSKPNGAFYMFPNVSKILKTSGFDVKSLAIKLIEEKGVVTIPG EVFPLNIGKEFLRLSFAVNEEVIKEGIQKIREFAEQMMNSR
PSI-BLAST: UN METODO PER CERCARE SEQUENZE OMOLOGHE NELLA BANCA DATI SFRUTTANDO BLAST E LA SENSIBILITA’ DELLE PSSM. PRINCIPIO: 1)ABBIAMO UNA QUERY SEQUENCE. FACCIAMO UNA NORMALE RICERCA BLAST NELLA BANCA DATI USANDO UNA MATRICE DI SOSTITUZIONE. PER ESEMPIO LA BLOSUM 62 2 COSTRUIAMO UN ALLINEAMENTO MULTIPLO, MSA, UTILIZZANDO LE SEQUENZE TROVATE DA BLAST COL MIGLIOR EVALUE, PER ESEMPIO<0, 001. COSTRUIAMO UNA PSSM. A QUESTO PUNTO LA MATRICE DI PUNTEGGIO BLOSUM VIENE ABBANDONATA E UTILIZZIAMO LA PSSM CIOE’ UNA MATRICE POSIZIONE SPECIFICA CHE DA PIU’ IMORTANZA AI RESIDUI CONSERVATI CHE SI OSSERVANO NEL MSA. 3) MANDIAMO UN’ALTRA VOLTA BLAST, SECONDA ITERAZIONE UTILIZZANDO LA PSSM. EVENTUALMENTE COSTRUIAMO UN ALTRO MSA INCLUDENDO LE NUOVE SEQUENZE TROVATE CON LA SECONDA ITERAZIONE. DAL SECONDO MSA GENERIAMO UN SECONDO PSSM. SOSTITUIAMO AL PRIMO E PARTIAMO PER UNA TERZA ITERAZIONE
COLLEGATEVI A BLAST http: //us. expasy. org/tools/ - similarity SCEGLIETE IL SITO DELL’NCBI, PROTEIN, PSI-BLAST E PROVATE L’ANALISI CON LA SEQUENZA MSTAKVTLVTSGGSSQDFTSEQTNITTDFARVRVTKGM WIFYQQANYNDASGGGSLW IKLDESSHLMDLPFTPRSFRPVKTF QVGATLYKHVNFGGKELDLPNSNPRIDIGGVSS ALISQGQWRLYEQYDY
C L U S T A L W
A B C D A B 0 d(A, B)=5 0 d(A, C)=11 d(B, C)=9 d(A, D)=14 d(B, D)=10 C D 0 d(C, D)=7 0 d(X, Y) – e’ la percentuale di aa diversi fra le sequenze X e Y. (ii) AB sono le piu’ vicine. Le colleghiamo nel seguente modo e creiamo un’altra matrice in cui A e B sono un cluster : AB C D d(A, B)/2 AB 0 2, 5 C d(AB, C) 0 ______ A D d(AB, D) d(C, D)=7 0 | |______ B d(AB, C)=(d(A, C)+d(B, C))/2 =(11+9)/2 =10 d(AB, D)=(d(A, D)+d(B, D))/2 =(14+10)/2=12 D(C, D)/2=3, 5 (iii) d(C, D) e’ la distanza minore adesso. _________C | |_________D AB BC AB CD 0 d(AB, CD)=(d(AB, C)+d(AB, D))/2=(10+12)/2=11 ____2, 5____ A ______| | |______ B | | _______3, 5_______ C |______| |_________ D 5, 5
http: //www. ch. embnet. org/software/Clustal. W. html >sp|P 02023|HBB_HUMAN ----VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDN----LKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH----->sp|P 02062|HBB_HORSE ----VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDN----LKGTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH----->sp|P 01922|HBA_HUMAN -----VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTNAVAHVDD----MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR----->sp|P 01958|HBA_HORSE -----VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTLAVGHLDD----LPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR----->sp|P 02185|MYG_PHYCA -----VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGH----HEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG >sp|P 02208|GLB 5_PET MAPIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVNDAVASMDDT-EKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAG-----DAGFEKLMSMICILLRSAY----->sp|P 02240|LGB 2_LUP LU----GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSEVP-QNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKGVAD- AHFPVVKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA---