fd1f3d085934ae815c634f2e46fbe609.ppt
- Количество слайдов: 58
Биологични бази данни Lecture 2. 0
Настоящи цели Да се познават редица типове данни, и използването им. Разбиране и използване на всички типове идентификатори на секвенциите в базата данни. Познаване на редица характеристики на флат файловете присъстващи в Gen. Bank. Познаване на поне няколко основни раздела на Gen. Bank и работа с тях. Lecture 2. 0 2
Изложение Био-Бази данни общи принципи Типове данни Бази данни за секвенции Файлови фомати Други базиданни и “колекции от биологични данни” Базаданни Gen. Bank n n идентификатори раздели Lecture 2. 0 3
Бази данни Информационна система Система за заявки Система за съхраняване Данни Lecture 2. 0 4
Бази данни Gen. Bank флат файл PDB файл Запис за взаимодействие Име на статия Статия Информационна система Система за заявки Система за съхраняване Данни Lecture 2. 0 5
Бази данни Oracle Информационна система My. SQL Система за заявки PC бинарни файлове Unix текстови файлове Система за съхраняване таблици Данни Lecture 2. 0 6
Бази данни Списъци каталози индекс с файлове SQL Информационна система Система за заявки Система за съхраняване Данни Lecture 2. 0 7
Бази данни Информационна система Система за заявки UBC библиотека Google Entrez SRS Система за съхраняване Данни Lecture 2. 0 8
Биоинформатични данни през: July 17, 1999 Нуклеотидни секвенции: Протеинови секвенции: 3 D структури: Човешки унигени: Карти и цели геноми Данни за разл. таксони: db. SNP Ref. Genes human contigs > 250 kb Pub. Med записи: OMIM записи: : Lecture 2. 0 4, 456, 822 706, 862 9, 780 75, 832 10, 870 52, 889 6, 377 515 341 (4. 9 MB) 10, 372, 886 10, 695 9
Фев 10 2004 Нуклеотидни секвенции Протеинови секвенции: 3 D структури: Взаимодействия и комплекси Човешки унигени Карти и цели геноми Данни за разл. таксони Човешки db. SNP Човешки Ref. Seq записи bp in Human Contigs > 5, 000 kb (116) записи Pub. Med OMIM записи Lecture 2. 0 36, 653, 899 4, 436, 362 19, 640 52, 385 118, 517 6, 948 283, 121 13, 179, 601 22, 079 2, 487, 920, 000 12, 570, 540 15, 138 10
Видове бази данни Вторични Първични (архиви) n n n Gen. Bank/EMBL/DDBJ Uni. Prot PDB Medline (Pub. Med) BIND Lecture 2. 0 n n n Ref. Seq Taxon Uni. Prot OMIM SGD 11
http: //nar. oupjournals. org/content/vol 31/issue 1/ Lecture 2. 0 12
http: //nar. oupjournals. org/content/vol 32/suppl_1/ Lecture 2. 0 13
Базиданни за секвенции Първични - ДНК n DDBJ/EMBL/Gen. Bank Първични - протеини n Gen. Pept/Tr. EMBL Вторични DB n n Ref. Seq (Геномни, и. РНК и протеин) Swiss-Prot & PIR -> Uni. Prot (протеини) Lecture 2. 0 14
Какво е Gen. Bank? Gen. Bank разработена от NIH, е база данни за секвенции, със свободен достъп. За ДНК и протеинови секвенции с анотации съдържащи биологична информация. http: //www. ncbi. nlm. nih. gov/Genbank. Overview. html Benson et al. , 2004, Nucleic Acids Res. 32: D 23 -D 26 Lecture 2. 0 15
Entrez NIH NCBI • Submissions • Updates Gen. Bank • Submissions • Updates EMBL DDBJ EBI CIB NIG • Submissions • Updates getentry Lecture 2. 0 SRS EMBL 16
EMBL Lecture 2. 0 17
Gen. Bank записи – флат файлове (GBFF) LOCUS DEFINITION MUSNGH 1803 bp m. RNA ROD 29 -AUG-1997 Mouse neuroblastoma and rat glioma hybridoma cell line NG 108 -15 cell TA 20 m. RNA, complete cds. ACCESSION D 25291 NID g 1850791 KEYWORDS neurite extension activity; growth arrest; TA 20. SOURCE Murinae gen. sp. mouse neuroblastma-rat glioma hybridoma cell_line: NG 108 -15 c. DNA to m. RNA. ORGANISM Murinae gen. sp. Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae. REFERENCE 1 (sites) AUTHORS Tohda, C. , Nagai, S. , Tohda, M. and Nomura, Y. TITLE A novel factor, TA 20, involved in neuronal differentiation: c. DNA cloning and expression JOURNAL Neurosci. Res. 23 (1), 21 -27 (1995) MEDLINE 96064354 REFERENCE 3 (bases 1 to 1803) AUTHORS Tohda, C. TITLE Direct Submission JOURNAL Submitted (18 -NOV-1993) to the DDBJ/EMBL/Gen. Bank databases. Chihiro Tohda, Toyama Medical and Pharmaceutical University, Research Institute for Wakan-yaku, Analytical Research Center for Ethnomedicines; 2630 Sugitani, Toyama 930 -01, Japan (E-mail: CHIHIRO@ms. toyama-mpu. ac. jp Tel: +81 -764 -34 -2281(ex. 2841), , Fax: +81 -764 -34 -5057) COMMENT On Feb 26, 1997 this sequence version replaced gi: 793764. FEATURES Location/Qualifiers source 1. . 1803 /organism="Murinae gen. sp. " /note="source origin of sequence, either mouse or rat, has not been identified" /db_xref="taxon: 39108" /cell_line="NG 108 -15" /cell_type="mouse neuroblastma-rat glioma hybridoma" misc_signal 156. . 163 /note="AP-2 binding site" GC_signal 647. . 655 /note="Sp 1 binding site" TATA_signal 694. . 701 gene 748. . 1311 /gene="TA 20" CDS 748. . 1311 /gene="TA 20" /function="neurite extensiion activity and growth arrest effect" /codon_start=1 /db_xref="PID: d 1005516" /db_xref="PID: g 793765" /translation="MMKLWVPSRSLPNSPNHYRSFLSHTLHIRYNNSLFISNTHLSRR KLRVTNPIYTRKRSLNIFYLLIPSCRTRLILWIIYIYRNLKHWSTSTVRSHSHSIYRL RPSMRTNIILRCHSYYKPPISHPIYWNNPSRMNLRGLLSRQSHLDPILRFPLHLTIYY RGPSNRSPPLPPRNRIKQPNRIKLRCR" poly. A_site 1803 BASE COUNT 507 a 458 c 311 g 527 t ORIGIN 1 tcagtttttttttttttttg ttgattcatg 61 tccgtttaca tttggtaagt tcacaggcct cagtcaacac aattggactg ctcaggaaat 121 cctccttggt gaccgcagta tacttggcct atgaacccaa gccacctatg gctagg 181 agaagctcaa ctgtagggct gactttggaa gagaatgcac atggctgtat cgacatttca 241 catggtggac ctctggccag agtcagcagg ccgagggttc tcttccgggc tgctccctca 301 ctgcttgact ctgcgtcagt gcgtccatac tgtgggcgga cgttattgct atttgccttc 361 cattctgtac ggcattgcct ccatttagct ggagagggac agagcctggt tctctagggc 421 gtttccattg gggcctggtg acaatccaaa agatgagggc tccaaacacc agaatcagaa 481 ggcccagcgt atttgtaaaa acaccttctg gtgggaatga atggtacagg ggcgtttcag 541 gacaaagaac agcttttctg tcactcccat gagaaccgtc gcaatcactg ttccgaagag 601 gaggagtcca gaatacacgt gtatgggcat gacgattgcc cggagagagg cggagcccat 661 ggaagcagaa agacgaaaaa cacacccatt atttaaaatt attaaccact cattga 721 cctacctgcc ccatccaaca tttcatcatg atgaaacttt gggtcccttc taggagtctg 781 cctaatagtc caaatcatta caggtctttt cttagccata cactacacat cagatacaat 841 aacagccttt tcatcagtaa cacacatttg tcgagacgta aattacgggt gactaatccg 901 atatatacac gcaaacggag cctcaatatt ttttatttgc ttattccttc atgtcggacg 961 aggcttatat tatggatcat atacatttat agaaacctga aacattggag tacttctact 1021 gttcgcagtc atagccacag catttatagg ctacgtcctt ccatgaggac aaatatcatt 1081 ctgaggtgcc acagttatta caaacctcct atcagccatc ccatatattg gaacaaccct 1141 agtcgaatga atttgagggg gcttctcagt agacaaagcc accttgaccc gattcttcgc 1201 tttccacttc atcttaccat ttattatcgc ggccctagca atcgttcacc tcctcttcct 1261 ccacgaaaca ggatcaaaca acccaacagg attaaactca gatgcagata aaattccatt 1321 tcacccctac tatacatcaa agatatccta ggtatcctaa tcatattctt aattctcata 1381 accctagtat tatttttccc agacatacta ggagacccag acaactacat accagctaat 1441 ccactaaaca cccca tattaaaccc gaatgatatt tcctatttgc atacgccatt 1501 ctacgctcaa tccccaataa actaggaggt gtcctagcct taatcttatcctaatt 1561 ttagccctaa tacctttcct tcatacctca aagcaacgaa gcctaatatt ccgcccaatc 1621 acacaaattt tgtactgaat cctagtagcc aacctactta tcttaacctg aattgggggc 1681 caaccagtag acacccattt attatcattg gccaactagc ctccatctca tacttctcaa 1741 tcatcttaat tcttatacca atctcaggaa ttatcgaaga caaaatacta aaattatatc 1801 cat // Заглавна част • Заглавие • Таксономия • Цитати, статии характеристика (+ АК сек. ) ДНК секвенция Lecture 2. 0 18
Gen. Bank Header Locus Length Molecule type Division Date Definition line Accession GI number Lecture 2. 0 19
Gen. Bank Feature table Source CDS gene Lecture 2. 0 20
Gen. Bank sequence Lecture 2. 0 21
Gen. Bank record, cont Lecture 2. 0 22
Тип записи/файлове в Gen. Bank От изследователи на гени n n n Често много добре анотирани к. ДНК Геномни сегменти от нов организъм Митохондриални или вирусни секвенции. От популационни/филогенетични анализи n р. РНК от природни обекти От геномни центрове: n Генна експресия: Expressed Sequence Tags - EST Цели фрагменти к. ДНК n От проекти за секвениране на геноми WGS HTG CON Lecture 2. 0 23
Uni. Prot Нова база данни за протеини формирана в резултат от сливането на SWISS-PROT и PIR. Данните в нея са основно анотирани секвенции на кодиращи редиони (CDS) от EMBL (Gen. Bank/DDBJ) на нуклеотидни секвенции. Uni. Prot е база данни с флат файлове, подобно на EMBL и Gen. Bank Файловите формати са подобни на Swiss. Prot, или EMBL. Lecture 2. 0 24
Swiss-Prot ID AC DT DT DT DE GN OS OC OC RN RP RX RA RA RT RT RL RN RP RC RX RA RT RT RT RL RN RP RC RX RA RA RT RT RL RN RP RX RA RA RT RT RL CC CC CC CC CC DR DR DR DR KW FT FT SQ ID AC DT DE GN OS OC CYS 3_YEAST STANDARD; PRT; 393 AA. P 31373; 01 -JUL-1993 (REL. 26, CREATED) CYSTATHIONINE GAMMA-LYASE (EC 4. 4. 1. 1) (GAMMA-CYSTATHIONASE). CYS 3 OR CYI 1 OR STR 1 OR YAL 012 W OR FUN 35. TAXONOMY SACCHAROMYCETACEAE; SACCHAROMYCES. RX CC CC CC CITATION -!- CATALYTIC ACTIVITY: L-CYSTATHIONINE + H(2)O = L-CYSTEINE + NH(3) + 2 -OXOBUTANOATE. -!- COFACTOR: PYRIDOXAL PHOSPHATE. -!- PATHWAY: FINAL STEP IN THE TRANS-SULFURATION PATHWAY SYNTHESIZING L-CYSTEINE FROM L-METHIONINE. -!- SUBUNIT: HOMOTETRAMER. -!- SUBCELLULAR LOCATION: CYTOPLASMIC. -!- SIMILARITY: BELONGS TO THE TRANS-SULFURATION ENZYMES FAMILY. -------------------------------------DISCLAMOR ------------------------------------- DR KW FT FT SQ DATABASE cross-reference CYSTEINE BIOSYNTHESIS; LYASE; PYRIDOXAL PHOSPHATE. INIT_MET 0 0 BINDING 203 PYRIDOXAL PHOSPHATE (BY SIMILARITY). SEQUENCE 393 AA; 42411 MW; 55 BA 2771 CRC 32; TLQESDKFAT KAIHAGEHVD VHGSVIEPIS LSTTFKQSSP ANPIGTYEYS RSQNPNRENL ERAVAALENA QYGLAFSSGS ATTATILQSL PQGSHAVSIG DVYGGTHRYF TKVANAHGVE TSFTNDLLND LPQLIKENTK LVWIETPTNP TLKVTDIQKV ADLIKKHAAG QDVILVVDNT FLSPYISNPL NFGADIVVHS ATKYINGHSD VVLGVLATNN KPLYERLQFL QNAIGAIPSP FDAWLTHRGL KTLHLRVRQA ALSANKIAEF LAADKENVVA VNYPGLKTHP NYDVVLKQHR DALGGGMISF RIKGGAEAAS KFASSTRLFT LAESLGGIES LLEVPAVMTH GGIPKEAREA SGVFDDLVRI SVGIEDTDDL LEDIKQALKQ ATN CYS 3_YEAST STANDARD; PRT; 393 AA. P 31373; 01 -JUL-1993 (REL. 26, CREATED) 01 -JUL-1993 (REL. 26, LAST SEQUENCE UPDATE) 01 -NOV-1995 (REL. 32, LAST ANNOTATION UPDATE) CYSTATHIONINE GAMMA-LYASE (EC 4. 4. 1. 1) (GAMMA-CYSTATHIONASE). CYS 3 OR CYI 1 OR STR 1 OR YAL 012 W OR FUN 35. SACCHAROMYCES CEREVISIAE (BAKER'S YEAST). EUKARYOTA; FUNGI; ASCOMYCOTA; HEMIASCOMYCETES; SACCHAROMYCETALES; SACCHAROMYCETACEAE; SACCHAROMYCES. [1] SEQUENCE FROM N. A. , AND PARTIAL SEQUENCE. MEDLINE; 92250430. [NCBI, Ex. PASy, Israel, Japan] ONO B. -I. , TANAKA K. , NAITO K. , HEIKE C. , SHINODA S. , YAMAMOTO S. , OHMORI S. , OSHIMA T. , TOH-E A. ; "Cloning and characterization of the CYS 3 (CYI 1) gene of Saccharomyces cerevisiae. "; J. BACTERIOL. 174: 3339 -3347(1992). [2] SEQUENCE FROM N. A. , AND CHARACTERIZATION. STRAIN=DBY 939; MEDLINE; 93328685. [NCBI, Ex. PASy, Israel, Japan] YAMAGATA S. , D'ANDREA R. J. , FUJISAKI S. , ISAJI M. , NAKAMURA K. ; "Cloning and bacterial expression of the CYS 3 gene encoding cystathionine gamma-lyase of Saccharomyces cerevisiae and the physicochemical and enzymatic properties of the protein. "; J. BACTERIOL. 175: 4800 -4808(1993). [3] SEQUENCE FROM N. A. STRAIN=S 288 C / AB 972; MEDLINE; 93289814. [NCBI, Ex. PASy, Israel, Japan] BARTON A. B. , KABACK D. B. , CLARK M. W. , KENG T. , OUELLETTE B. F. F. , STORMS R. K. , ZENG B. , ZHONG W. W. , FORTIN N. , DELANEY S. , BUSSEY H. ; "Physical localization of yeast CYS 3, a gene whose product resembles the rat gamma-cystathionase and Escherichia coli cystathionine gammasynthase enzymes. "; YEAST 9: 363 -369(1993). [4] SEQUENCE FROM N. A. STRAIN=S 288 C / AB 972; MEDLINE; 93209532. [NCBI, Ex. PASy, Israel, Japan] OUELLETTE B. F. F. , CLARK M. W. , KENG T. , STORMS R. K. , ZHONG W. W. , ZENG B. , FORTIN N. , DELANEY S. , BARTON A. B. , KABACK D. B. , BUSSEY H. ; "Sequencing of chromosome I from Saccharomyces cerevisiae: analysis of a 32 kb region between the LTE 1 and SPO 7 genes. "; GENOME 36: 32 -42(1993). [5] SEQUENCE OF 1 -18, AND CHARACTERIZATION. MEDLINE; 93289817. [NCBI, Ex. PASy, Israel, Japan] ONO B. -I. , ISHII N. , NAITO K. , MIYOSHI S. -I. , SHINODA S. , YAMAMOTO S. , OHMORI S. ; "Cystathionine gamma-lyase of Saccharomyces cerevisiae: structural gene and cystathionine gamma-synthase activity. "; YEAST 9: 389 -397(1993). -!- CATALYTIC ACTIVITY: L-CYSTATHIONINE + H(2)O = L-CYSTEINE + NH(3) + 2 -OXOBUTANOATE. -!- COFACTOR: PYRIDOXAL PHOSPHATE. -!- PATHWAY: FINAL STEP IN THE TRANS-SULFURATION PATHWAY SYNTHESIZING L-CYSTEINE FROM L-METHIONINE. -!- SUBUNIT: HOMOTETRAMER. -!- SUBCELLULAR LOCATION: CYTOPLASMIC. -!- SIMILARITY: BELONGS TO THE TRANS-SULFURATION ENZYMES FAMILY. -------------------------------------This SWISS-PROT entry is copyright. It is produced through a collaboration between the Swiss Institute of Bioinformatics and the EMBL outstation the European Bioinformatics Institute. There are no restrictions on its use by non-profit institutions as long as its content is in no way modified and this statement is not removed. Usage by and for commercial entities requires a license agreement (See http: //www. isb-sib. ch/announce/ or send an email to license@isb-sib. ch). -------------------------------------EMBL; L 05146; AAC 04945. 1; -. [EMBL / Gen. Bank / DDBJ] [ Co. Ding. Sequence] EMBL; L 04459; AAA 85217. 1; -. [EMBL / Gen. Bank / DDBJ] [ Co. Ding. Sequence] EMBL; D 14135; BAA 03190. 1; -. [EMBL / Gen. Bank / DDBJ] [ Co. Ding. Sequence] PIR; S 31228. YEPD; 5280; -. SGD; L 0000470; CYS 3. [SGD / YPD] PFAM; PF 01053; Cys_Meta_PP; 1. PROSITE; PS 00868; CYS_METAB_PP; 1. DOMO; P 31373. PRODOM [Domain structure / List of seq. sharing at least 1 domain] PROTOMAP; P 31373. PRESAGE; P 31373. SWISS-2 DPAGE; GET REGION ON 2 D PAGE. CYSTEINE BIOSYNTHESIS; LYASE; PYRIDOXAL PHOSPHATE. INIT_MET 0 0 BINDING 203 PYRIDOXAL PHOSPHATE (BY SIMILARITY). SEQUENCE 393 AA; 42411 MW; 55 BA 2771 CRC 32; TLQESDKFAT KAIHAGEHVD VHGSVIEPIS LSTTFKQSSP ANPIGTYEYS RSQNPNRENL ERAVAALENA QYGLAFSSGS ATTATILQSL PQGSHAVSIG DVYGGTHRYF TKVANAHGVE TSFTNDLLND LPQLIKENTK LVWIETPTNP TLKVTDIQKV ADLIKKHAAG QDVILVVDNT FLSPYISNPL NFGADIVVHS ATKYINGHSD VVLGVLATNN KPLYERLQFL QNAIGAIPSP FDAWLTHRGL KTLHLRVRQA ALSANKIAEF LAADKENVVA VNYPGLKTHP NYDVVLKQHR DALGGGMISF RIKGGAEAAS KFASSTRLFT LAESLGGIES LLEVPAVMTH GGIPKEAREA SGVFDDLVRI SVGIEDTDDL LEDIKQALKQ ATN // // Lecture 2. 0 25
Swiss-Prot Lecture 2. 0 26
Swiss-Prot SWISS-PROT включва: Функция на протеини Посттранслационни модификации Домени и сайтове. Вторични структури. Третични структури. Сходство с други протеини; Патологии свързани с модификации на протеини Варианти на секвенции. Lecture 2. 0 27
TREMBL Tr. EMBL е компютърно анотирана протеинна бази данни за секвенции допълваща SWISS-PROT Protein Sequence Data Bank. Tr. EMBL съдържа транслации на всички кодиращи редиони присъстващи в EMBL Nucleotide Sequence Database, които не са все още в SWISS -PROT. Tr. EMBL може да се счита като временна/подготвителна секция на SWISS-PROT. За всички Tr. EMBL записи, които окончателно ще се пренесат в последствие в SWISS-PROT, се задава SWISS-PROT номер за достъп. Lecture 2. 0 28
PDB Протеин База Данни n n Протеини и НК с 3 D структури Присъстват и секвенции Lecture 2. 0 29
PDB HEADER - Заглавна част COMPND – Макромол. Съд. SOURCE AUTHOR DATE JRNL REMARK SECRES ATOM COORDINATES Lecture 2. 0 HEADER COMPND SOURCE AUTHOR REVDAT JRNL JRNL REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK SEQRES SEQRES HELIX CRYST 1 ORIGX 2 ORIGX 3 SCALE 1 SCALE 2 SCALE 3 ATOM LEUCINE ZIPPER 15 -JUL-93 1 DGC GCN 4 LEUCINE ZIPPER COMPLEXED WITH SPECIFIC 2 ATF/CREB SITE DNA GCN 4: YEAST (SACCHAROMYCES CEREVISIAE); DNA: SYNTHETIC T. J. RICHMOND 1 22 -JUN-94 1 DGC 0 AUTH P. KONIG, T. J. RICHMOND TITL THE X-RAY STRUCTURE OF THE GCN 4 -BZIP BOUND TO TITL 2 ATF/CREB SITE DNA SHOWS THE COMPLEX DEPENDS ON DNA TITL 3 FLEXIBILITY REF J. MOL. BIOL. V. 233 139 1993 REFN ASTM JMOBAK UK ISSN 0022 -2836 0070 1 2 2 RESOLUTION. 3. 0 ANGSTROMS. 3 3 REFINEMENT. 3 PROGRAM X-PLOR 3 AUTHORS BRUNGER 3 R VALUE 0. 216 3 RMSD BOND DISTANCES 0. 020 ANGSTROMS 3 RMSD BOND ANGLES 3. 86 DEGREES 3 3 NUMBER OF REFLECTIONS 3296 3 RESOLUTION RANGE 10. 0 - 3. 0 ANGSTROMS 3 DATA CUTOFF 3. 0 SIGMA(F) 3 PERCENT COMPLETION 98. 2 3 3 NUMBER OF PROTEIN ATOMS 456 3 NUMBER OF NUCLEIC ACID ATOMS 386 4 4 GCN 4: TRANSCRIPTIONAL ACTIVATOR OF GENES ENCODING FOR AMINO 4 ACID BIOSYNTHETIC ENZYMES. 5 5 AMINO ACIDS NUMBERING (RESIDUE NUMBER) CORRESPONDS TO THE 5 281 AMINO ACIDS OF INTACT GCN 4. 6 6 BZIP SEQUENCE 220 - 281 USED FOR CRYSTвсички. IZATION. 7 7 MODEL FROM AMINO ACIDS 227 - 281 SINCE AMINO ACIDS 220 7 226 ARE NOT WELL ORDERED. 8 8 RESIDUE NUMBERING OF NUCLEOTIDES: 8 5' T G G A T G A C G T C A T C C 8 -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 1 2 3 4 5 6 7 8 9 9 9 THE ASYMMETRIC UNIT CONTAINS ONE HALF OF PROTEIN/DNA 9 COMPLEX PER ASYMMETRIC UNIT. 10 10 MOLECULAR DYAD AXIS OF PROTEIN DIMER AND PALINDROMIC HALF 10 SITES OF THE DNA COINCIDES WITH CRYSTвсички. OGRAPHIC TWO-FOLD 10 AXIS. THE FULL PROTEIN/DNA COMPLEX CAN BE OBTAINED BY 10 APPLYING THE FOLLOWING TRANSFORMATION MATRIX AND 10 TRANSLATION VECTOR TO THE COORDINATES X Y Z: 10 10 0 -1 0 X 117. 32 X SYMM 10 -1 0 0 Y + 117. 32 = Y SYMM 10 0 0 -1 Z 43. 33 Z SYMM 1 A 62 ILE VAL PRO GLU SER ASP PRO ALA LEU LYS ARG 2 A 62 ALA ARG ASN THR GLU ALA ARG SER ARG ALA ARG 3 A 62 LYS LEU GLN ARG MET LYS GLN LEU GLU ASP LYS VAL GLU 4 A 62 GLU LEU SER LYS ASN TYR HIS LEU GLU ASN GLU VAL 5 A 62 ALA ARG LEU LYS LEU VAL GLY GLU ARG 1 B 19 T G G A T G A C G T C 2 B 19 A T C C 1 A ALA A 228 LYS A 276 1 58. 660 86. 660 90. 00 P 41 21 2 8 1. 000000 0. 000000 1. 000000 0. 017047 0. 000000 0. 011539 0. 00000 1 N PRO A 227 35. 313 108. 011 15. 140 1. 00 38. 94 2 CA PRO A 227 34. 172 107. 658 15. 972 1. 00 39. 82 1 DGC 3 1 DGC 4 1 DGC 5 1 DGC 6 1 DGC 7 1 DGC 8 1 DGC 9 1 DGC 10 1 DGC 11 1 DGC 12 1 DGC 13 1 DGC 14 1 DGC 15 1 DGC 16 1 DGC 17 1 DGC 18 1 DGC 19 1 DGC 20 1 DGC 21 1 DGC 22 1 DGC 23 1 DGC 24 1 DGC 25 1 DGC 26 1 DGC 27 1 DGC 28 1 DGC 29 1 DGC 30 1 DGC 31 1 DGC 32 1 DGC 33 1 DGC 34 1 DGC 35 1 DGC 36 1 DGC 37 1 DGC 38 1 DGC 39 1 DGC 40 1 DGC 41 1 DGC 42 1 DGC 43 1 DGC 44 1 DGC 45 1 DGC 46 1 DGC 47 1 DGC 48 1 DGC 49 1 DGC 50 1 DGC 51 1 DGC 52 1 DGC 53 1 DGC 54 1 DGC 55 1 DGC 56 1 DGC 57 1 DGC 58 1 DGC 59 1 DGC 60 1 DGC 61 1 DGC 62 1 DGC 63 1 DGC 64 1 DGC 65 1 DGC 66 1 DGC 67 1 DGC 68 1 DGC 69 1 DGC 70 1 DGC 71 1 DGC 72 1 DGC 73 1 DGC 74 1 DGC 75 1 DGC 76 ATOM TER MASTER END 842 843 844 1 DGC 1 DGC C 5 C 6 46 C B C B 0 9 9 9 0 57. 692 100. 286 58. 128 100. 193 1 0 0 0 22. 744 21. 465 6 842 1. 00 29. 82 1. 00 30. 63 2 0 7 30 916 917 918 919 920
Формати Flat Files – флат файлове n n ДНК (или РНК) Протеин FASTA n n ДНК (или РНК) Ппртеин Lecture 2. 0 31
ФАСТА формат >gi|121066|sp|P 03069|GCN 4_YEAST GENERAL CONTROL PROTEIN GCN 4 MSEYQPSLFALNPMGFSPLDGSKSTNENVSASTSTAKPMVGQLIFDKFIKTEEDPI IKQDTPSNLDFDFALPQTATAPDAKTVLPIPELDDAVVESFFSSSTDSTPMFEYEN LEDNSKEWTSLFDNDIPVTTDDVSLADKAIESTEEVSLVPSNLEVSTTSFLPTPVL EDAKLTQTRKVKKPNSVVKKSHHVGKDDESRLDHLGVVAYNRKQRSIPLSPIVPES SDPAALKRARNTEAARRSRARKLQRMKQLEDKVEELLSKNYHLENEVARLKKLVGE R Lecture 2. 0 32
Graphical Representation Lecture 2. 0 33
Организмови идентификатори използвани в бази данни BCT FUN HUM INV MAM ORG PHG PLN PRI PRO ROD SYN VRL VRT бактерии гъби Homo sapiens безгръбначни бозайници органели фаги растения примати (also see HUM) прокариоти гризачи синтетични вирусни гръбначни Lecture 2. 0 DDBJ - Gen. Bank EMBL DDBJ - EMBL всички всички EMBL всички 34
Функционални идентификатори EST STS GSS HTG HTC CON Expressed Sequence Tags Sequence Tagged Site Genome Survey Sequence High Throughput Genome (unfinished) High throughput c. DNA (unfinished) Contig assembly instructions Organismal divisions: BCT PRI FUN ROD INV SYN MAM VRL PHG VRT Lecture 2. 0 PLN 35
Водещи принципи при работа с Gen. Bank Записите в Gen. Bank са групирани по редица правила, разбирането на които е ключов елемент за ефективността при работа с конкретната база данни. . Lecture 2. 0 36
Идентификатори Нужни са за установяване на стабилността на секвенциите. Идентификаторите винаги придружават дадена секвенция в съответните файлови формати. За определяне на произхода и историята на секвенцията. За характеристика на секвенцията са нужни идентификатори на отделни елементи и анотационни идентификатори. Lecture 2. 0 37
LOCUS, Accession, PID LOCUS: Уникален стринг от 10 символа – букви и цифри. Може да не е еднакъв всички бази данни, поради което е слаб идентификатор на секвенцията. ACCESSION Number: Уникален идентификатор за даден запис в база данни. Не се променя при модифициране на записа. Много добър идентификатор, идеален например за цитати на публикации. VERSION: Показва версия на модификацията на даден запис. Nucleotide gi: Geninfo identifier (gi), уникален идентификатор, цяло число, променя се при всяка модификация на секвенцията. PID: Protein Identifier: g, e или d префикс към gi номера. Can have one or two on one CDS. Protein gi: Geninfo identifier (gi), уникален идентификатор, цяло число, променя се при всяка модификация на секвенцията. Lecture 2. 0 38
LOCUS, Accession, gi and PID LOCUS DEFINITION ACCESSION VERSION HSU 40282 1789 bp m. RNA PRI 21 -MAY-1998 Homo sapiens integrin-linked kinase (ILK) m. RNA, complete cds. U 40282. 1 GI: 3150001 LOCUS: ACCESSION: VERSION: GI: PID: Protein gi: protein_id: CDS HSU 40282. 1 3150001 g 3150002 AAC 16892. 1 LOCUS ACCESSION Accession. version gi PID protein gi Protein_id 157. . 1515 /gene="ILK" /note="protein serine/threonine kinase" /codon_start=1 /product="integrin-linked kinase" /protein_id="AAC 16892. 1" /db_xref="PID: g 3150002" /db_xref="GI: 3150002" Lecture 2. 0 39
EST: Expressed Sequence Tag Къси (300 -500 bp) участъци от и. РНК ( или к. ДНК), които се продуцират в големи количества. Те пресъздават “снимка” на експресията в дадена тъкан или стадий на развитие. Also see: http: //www. ncbi. nlm. nih. gov/db. EST/ http: //www. ncbi. nlm. nih. gov/Uni. Gene/ Lecture 2. 0 40
STS Sequenced Tagged Sites, са уникални секвенции, определящи комбинацията на праймери използвани в PCR анализи. Те определят уникално място в генома. Also see: http: //www. ncbi. nlm. nih. gov/db. STS/ http: //www. ncbi. nlm. nih. gov/genemap/ Lecture 2. 0 41
GSS: Genome Survey Sequences са подобни по природа до ESTs, с изключение на това, че са част от геномна ДНК, от колкото м. РНК. Разделът GSS включва: • random "single pass read" genome survey sequences. • включени в космидни/BAC/YAC хромозоми • екзонни секвенции • Alu секвенции • Сателитни секвенции Also see: http: //www. ncbi. nlm. nih. gov/db. GSS/ Lecture 2. 0 42
HTG: High Throughput Genome Секвенциите получени при високопродуктивните геномни методи са непълни опити за секвениране на геноми. Съдържат гапове (gaps, “празнини”) в нуклеотидната секвенция. С ниска точност и не съдържат анотации в записа. Also see: http: //www. ncbi. nlm. nih. gov/HTGS/ Ouellette and Boguski (1997) Genome Res. 7: 952 -955 Lecture 2. 0 43
HTGS в Gen. Bank фаза 0 Acc = AC 000003 фаза 1 Acc = AC 000003 фаза 2 Acc = AC 000003 фаза 3 Acc = AC 000003 gi = 1235673 gi = 1556454 gi = 2182283 gi = 2204282 Lecture 2. 0 HTG HTG PRI 44
HTGS в Gen. Bank Незавършени записи n Секвенирането не е завършено n фаза 1 или фаза 2 n Идентификатор за фазите - HTG n KEYWORDS: HTG; HTGS_PHASE 1 or 2 Завършени записи n Секвенирането е завършено n фаза 3 n Идентификатор за фазите PRI, INV or PLN n KEYWORDS: HTG Lecture 2. 0 45
HTC в Gen. Bank раздел за незавършени к. ДНК секвенции. HTC секвенциите могат да съдържат 5'UTR и 3'UTR и техните краища, частични кодиращи региони, и интрони. Ключовата дума: "HTC" ще присъства заедно с кода на раздела "HTC". Тези секвенции които преминат в крайната фаза, т. е. ре-секвениране ще бъдат преместени в определена таксономична група в Gen. Bank, като кода на раздела се променя. Lecture 2. 0 46
Top 5 организми в раздел HTC 64106 62848 9119 7732 2957 Mus musculus Anopheles gambiae Zea mays Homo sapiens Schmidtea mediterranea Lecture 2. 0 47
CON in Gen. Bank Идентификаторът води до файлове съдържащи контиг елементи. Създаден от NCBI за да може да се обработват и проследяват сегментите с лимит до 350 KB в DDBJ/EMBL/Gen. Bank Lecture 2. 0 49
CON в Gen. Bank LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM [. . ] FEATURES source CONTIG AH 007743 7832 bp DNA CON 26 -MAY-1999 Gallus gallus ornithine transcarbamylase (OTC) gene, complete cds. AH 007743. 1 GI: 4927367. chicken. Gallus gallus Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Archosauria; Aves; Neognathae; Galliformes; Phasianidae; Phasianinae; Gallus. Location/Qualifiers 1. . 7832 /organism=" Gallus gallus" /db_xref="taxon: 9031" /chromosome="1" join(AF 065630. 1: 1. . 1903, gap(), AF 065631. 1: 1. . 435, gap(), AF 065632. 1: 1. . 509, gap(), AF 065633. 1: 1. . 722, gap(), AF 065634. 1: 1. . 707, gap(), AF 065635. 1: 1. . 836, gap(), AF 065636. 1: 1. . 1614, gap(), AF 065637. 1: 1. . 605, gap(), AF 065638. 1: 1. . 501) // Lecture 2. 0 50
join(AF 065630. 1: 1. . 1903, gap(), AF 065631. 1: 1. . 435, gap(), AF 065632. 1: 1. . 509, gap(), AF 065633. 1: 1. . 722, gap(), AF 065634. 1: 1. . 707, … Lecture 2. 0 51
Секвенции, които не са локализирани в Gen. Bank SNPs SAGE tags Ref. Seq (геномни, м. РНК, или протеини) Консенсусни секвенции Lecture 2. 0 52
Ref. Seq nomenclature NC_#### complete genome NG_#### incomplete genomic NM_#### m. RNA NR_#### noncoding transcripts NP_#### proteins NT_#### intermediate genomic contigs Lecture 2. 0 53
Ref. Seq nomenclature - models XM_#### m. RNA XR_#### RNA XP_#### protein Automated gene models provided by the Genome Annotation process; sequence corresponds to the genomic contig. Lecture 2. 0 54
Секвенциите в публичните бази дании Секвенции не се публикуват в списания Електронния формат е най-удачен и полезен. Позволява валдиране и тестване. Най-добрият подход за развитието на науката. Секвенциите се обновяват и допълват ежедневно. Най-добрият начин за обмяна на секвенции, нови данни и модификации. Lecture 2. 0 55
Как да добавим наша секвенция? Bank. It: Уеб-базиран софтуер, лесен за използване, но не най-добър за изпращане на сложни секвенции. n n Sakura (DDBJ) Web. In (EMBL) Sequin: Клиент, който е необходимо да се свали на локалният компютър, по-сложен от предходните, добре документиран, идеален за сложни/големи секвенции Lecture 2. 0 56
Коя програма да използваме? m. RNA EST Genomic Other db. EST Simple • Better control of annotations • pop/phylo • segmented sets Simple Sequin FTP WWW Bank. It Lecture 2. 0 STS/ GSS db. STS db. GSS FTP HTGS Customized software or tbl 2 asn FTP 57
Resources W W W: n n n n n http: //www. ncbi. nlm. nih. gov http: //www. ddbj. nig. ac. jp/ http: //www. ebi. ac. uk/ http: //www. ncbi. nlm. nih. gov/Genbank. Overview. html http: //www. ebi. ac. uk/embl/ http: //www. pir. uniprot. org/ http: //www. expasy. ch/sprot/ http: //www. rcsb. org/pdb/ http: //www. ncbi. nlm. nih. gov/Genbank/ (submission info) http: //genome-www. stanford. edu/Saccharomyces/ Lecture 2. 0 58
Интернет ресурси W W W: http: //nar. oupjournals. org/content/vol 30/issue 1/ nhttp: //nar. oupjournals. org/content/vol 31/issue 1/ nhttp: //www. ncbi. nlm. nih. gov/HTGS/ nhttp: //www. ncbi. nlm. nih. gov/db. EST/ nhttp: //www. ncbi. nlm. nih. gov/Genbank/wgs. html nhttp: //www. ncbi. nlm. nih. gov/db. STS/ nhttp: //www. ncbi. nlm. nih. gov/db. GSS/ nhttp: //www. ncbi. nlm. nih. gov/genome/guide/ n Lecture 2. 0 59
fd1f3d085934ae815c634f2e46fbe609.ppt