
31305c2d0d1dbca1f4f32f9d339c6244.ppt
- Количество слайдов: 46
ゲノムデータベース入門 東大医科研ヒトゲノム解析センター 中 井 謙 太 knakai@ims. u-tokyo. ac. jp
講義内容 • データベースの基礎 • 文献データベース • 古典的データベース • ゲノム関連データベース • 将来展望
データベースとは • 生物学では単に一定のフォーマット(様式)に 従って整理されたデータのイメージ – エントリー:データの単位 • 情報科学では独立したデータベース管理システ ム (DBMS) による検索・更新に注目
関係データベース • Relational Database • 表の形のデータ • 情報科学で盛んに研究された枯れた技術 • 実システムの例: – Oracle, Postgre. SQL, My. SQL • 関係データベース言語 – SQL:IBM から業界標準へ – “SELECT 属性群 FROM 関係群 WHERE 条件”
関係演算 • 関係データベースに特徴的な代数演算 • Microsoft Excel でもある程度サポート • 射影、結合、制約など 氏名 住所 森鴎外 島根 夏目漱石 東京 室生犀星 石川 宮沢賢治 岩手 射影 氏名 森鴎外 夏目漱石 室生犀星 宮沢賢治 制約 氏名 住所 室生犀星 石川 氏名 作品 森鴎外 雁 宮沢賢治 狼 夏目漱石 猫 結合 氏名 住所 作品 森鴎外 島根 雁 夏目漱石 東京 猫 宮沢賢治 岩手 狼
データベース検索 • キーワード検索 – ブール代数 (AND, OR, …) • ホモロジー(相同性)検索 – 進化モデルに従って、各配列と最適アラインメントを とり、偶然でないと思われる類似性を検出 – 最新データ利用の重要性 – nr (non-redundant database) – BLAST プログラム
適切なデータベースの探し方 • インターネットの検索エンジン – Google: http: //www. google. com • Nucleic Acids Research 誌の特集号 – 毎年第一号はフリー
データベースの分類 Major Sequence Repositories Pathology Comparative Genomics Protein Databases Gene Expression Protein Sequence Motifs Gene Identification and Struct. Proteome Resources Genetic and Physical Maps RNA Sequences Genomic Databases Retrieval Systems & DB Struct Intermolecular Interactions Structure Metabol. Pathways & Cell. Reg. Transgenics Mutation Databases Varied Biomedical Content
講義内容 • データベースの基礎 • 文献データベース • 古典的データベース • ゲノム関連データベース • 将来展望
MEDLINE • 米国 NIH の National Library of Medicine (NLM) によ る医学生命科学関連文献データベース • 1960 年代中ごろからの 1, 200 万件の論文要旨( 4, 600以上の学術雑誌)などを含む • 以前は大変高価だった – データベース会社が付加価値をつけた CD-ROM を販売していた • MESH term – 階層化されたキーワードによる注釈づけ
Pub. Med • NLM のNational Center for Biotechnology Information (NCBI) が MEDLINE に付加価値をつけて、全世界に無料公開 • Entrez(アントレ)検索システムの一部 – オンラインジャーナルのフルテキストデータや、関連データベー ス、教科書の記述などへもリンクが張られている
Pub. Med 検索 • “nakai k” で著者名と判断してくれる • Single citation matcher も便利
Related Articles は便利! • 機械的に計算された関連文献リストを表示
Advanced Search • (NAKAI K AND PREDICTION) AND DATABASE NOT SPLICING
Web of Science • ISI 社の引用文献データベース • 東大内部での利用が可能(図書館のページから)
• あの論文は何回引用されている ? 論文の価値を計る尺度の一つå
講義内容 • データベースの基礎 • 文献データベース • 古典的データベース • ゲノム関連データベース • 将来展望
Gen. Bank/EMBL/DDBJ • 代表的な塩基配列データベース – 無料で提供。基本的には Public Domain • 定期更新は2ヶ月毎、毎日追加 – 日米欧3極で毎日データ交換 • 2003 年 4 月で 311 億塩基(2, 403万配列) – 補助ファイルも合わせて 114 GBytes
維持機関 • NCBI / NLM / NIH – Gen. Bank は最初 1982 年 Los Alamos 国立研究所で創設 – 1988 年よりNIH, NLM の下部機関 NCBI (National Center for Biotechnology Information) へ移管 • EBI / EMBL – 以前は Heidelberg の本部で – 現在はEuropean Bioinformatics Institute (EBI) @ 英国 Hinxton • DDBJ / NIG – 国立遺伝学研究所生命情報・DDBJ 研究センター (Center for Information Biology and DDBJ) – 日本からのデータ貢献は1割程度?
Gen. Bank のエントリー例 LOCUS DEFINITION SCU 49845 5028 bp DNA PLN 21 -JUN-1999 Saccharomyces cerevisiae TCP 1 -beta gene, partial cds, and Axl 2 p (AXL 2) and Rev 7 p (REV 7) genes, complete cds. ACCESSION U 49845 VERSION U 49845. 1 GI: 1293613 KEYWORDS. SOURCE baker's yeast. ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Hemiascomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey, L. E. , Gibbs, P. E. , Nelson, J. and Lawrence, C. W. TITLE Cloning and sequence of REV 7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503 -1509 (1994) MEDLINE 95176709 FEATURES Location/Qualifiers source 1. . 5028 /organism="Saccharomyces cerevisiae" /db_xref="taxon: 4932" /chromosome="IX" /map="9" CDS <1. . 206 /codon_start=3 /product="TCP 1 -beta" /protein_id="AAA 98665. 1" /db_xref="GI: 1293614" /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM" gene 687. . 3158 /gene="AXL 2" BASE COUNT 1510 a 1074 c 835 g 1609 t ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct. . . 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc //
フラットファイル • • • EST (244) Primate (25) Patent (8) Rodent (7) STS (2) Other mammalian (1) GSS (70) Other vertebrate (2) HTGS (62) Invertebrate (6) HTC (4) Plant/fungi (7) (CON (1)) Bacterial (7) Viral (3) GSS: genome survey sequence, Phage (1) BAC end などゲノムEST Synthetic (1) HTGS: high throughput genomic sequencing Unannotated (1) HTC: high throughput c. DNA seq CON: CONTIG information
アクセッション番号 • 学術雑誌で配列決定を報告するときに論文投稿時 に提出が義務づけられている • 例:U 12345 (old) or AF 181452 (new) • バージョン: AF 181452. 1 • 参考:GI: 017929 • 論文では LOCUS 名でなく、この番号を引用する • プライオリティの証明にはならない – 先を越されていても、アクセッション番号はもらえる • データ提出は DDBJ 以外にも可能
Gen. Bank の問題点 • (ほとんど)同じデータでも別々に登録 – 収録遺伝子数など、まったく不明 – あまりに冗長性が高い • データの質はまちまち – 特に注釈情報 • 長い配列は重複をつけてぶつ切り
Ref. Seq • Reference Sequence Database @ NCBI • 標準となる非冗長データベース • 2003. 5 現在ヒト 18, 000 loci、マウス 16, 000 loci 程度 • 配列の分類(curated / automated) – 全ゲノム、部分ゲノム、m. RNA, (non-coding) RNA, タンパク質 • 現有生物種 – B. taurus, D. rerio, D, melanogaster, H. sapiens, M. musculus, R. norvegics
Locus. Link • 統一的なインターフェースのもとで、各遺伝子座位に対して、配列情報、表現 型、地図情報、ホモロジー情報、などのさまざまな関連情報をまとめている
PIR: 最古の配列データベース • "Atlas of Protein Sequence and Structure" – Margaret O. Dayhoff (ed. ) 1965 -1978 • Protein Information Resource 設立 1984 – National Biomedical Research Foundation (NBRF) • 以前は非常によく使われていた – 特に family/superfamily 分類 – Annotation は SWISS-PROT より簡素
SWISS-PROT • Swiss Institute of Bioinformatics と EBI – もとは Amos Bairoch が大学院生時代に構築 – 詳しい注釈づけ・リンクで、世界標準に • 2003 年 5 月で約 12 万エントリー • 1998 年から営利機関には有料化 – PIR と一緒に NIH の資金で Uni. Prot プロジェクト開始 • Tr. EMBL – Computer annotated supplement to SWISS-PROT – 2003. 5 現在約 86 万エントリー
抜粋 ID AC DT DE DE DE GN OS CC CC DR DR KW KW FT FT SQ // GRAA_HUMAN STANDARD; PRT; 262 AA. P 12544; 15 -DEC-1998 (Rel. 37, Last annotation update) GRANZYME A PRECURSOR (EC 3. 4. 21. 78) (CYTOTOXIC T-LYMPHOCYTE PROTEINASE 1) (HANUKKAH FACTOR) (HF) (GRANZYME 1) (CTL TRYPTASE) (FRAGMENTIN 1). GZMA OR CTLA 3 OR HFSP. Homo sapiens (Human). -!- FUNCTION: THIS ENZYME IS NECESSARY FOR TARGET CELL LYSIS IN CELLMEDIATED IMMUNE RESPONSES. IT CLEAVES AFTER LYS OR ARG. MAY BE INVOLVED IN APOPTOSIS. -!- CATALYTIC ACTIVITY: HYDROLYSIS OF PROTEINS, INCLUDING FIBRONECTIN, TYPE IV COLLAGEN AND NUCLEOLIN. PREFERENTIAL CLEAVAGE: ARG-|-XAA, LYS-|-XAA >> PHE-|-XAA IN SMALL MOLECULE SUBSTRATES. -!- SUBUNIT: HOMODIMER, DISULFIDE-LINKED. -!- SUBCELLULAR LOCATION: CYTOPLASMIC GRANULES. EMBL; M 18737; AAA 52647. 1; -. PIR; A 28943. PDB; 1 HF 1; 15 -OCT-94. MIM; 140050; -. INTERPRO; IPR 001254; -. PFAM; PF 00089; trypsin; 1. PROSITE; PS 00134; TRYPSIN_HIS; 1. PROSITE; PS 00135; TRYPSIN_SER; 1. Hydrolase; Serine protease; Zymogen; Signal; T-cell; Cytolysis; Apoptosis; 3 D-structure. SIGNAL 1 26 PROPEP 27 28 ACTIVATION PEPTIDE. CHAIN 29 262 GRANZYME A. ACT_SITE 69 69 CHARGE RELAY SYSTEM (BY SIMILARITY). DISULFID 54 70 BY SIMILARITY. DISULFID 148 218 BY SIMILARITY. CARBOHYD 170 N-LINKED (GLCNAC. . . ) (POTENTIAL). SEQUENCE 262 AA; 28968 MW; DA 87363 A 0 D 92 BAF 4 CRC 64; MRNSYRFLAS SLSVVVSLLL IPEDVCEKII GGNEVTPHSR PYMVLLSLDR KTICAGALIA KDWVLTAAHC NLNKRSQVIL GAHSITREEP TKQIMLVKKE FPYPCYDPAT REGDLKLLQL TEKAKINKYV TILHLPKKGD DVKPGTMCQV AGWGRTHNSA SWSDTLREVN ITIIDRKVCN DRNHYNFNPV IGMNMVCAGS LRGGRDSCNG DSGSPLLCEG VFRGVTSFGL ENKCGDPRGP GVYILLSKKH LNWIIMTIKG AV
Ex. PASy Molecular Biology Server • Expert Protein Analysis System – Bairoch の提供する情報サイト • 多数のデータベース – PROSITE, SWISS 2 DPAGE, ENZYME, . . . • 多数の解析プログラム – Swiss-Pdb. Viewer, SWISS-MODEL, Melanie, . . . • 多数の情報 – SWISS-FLASH, Swiss-Shop, . . .
Protein Data Bank • タンパク質・核酸立体構造(モデルも含む) • 2003 年 5 月現在約 21, 000 構造 – ただし、類似構造が多い • 1999年よりRCSBが維持 – 以前はBrookhaven 国立研究所 – Research Collaboratory for Structural Bioinformatics – SDSC, Rutgers, NIST • 2000年より阪大蛋白研でデータ登録も分担
HEADER COMPND SOURCE EXPDTA AUTHOR REVDAT JRNL JRNL REMARK. . . ATOM ATOM ATOM ATOM ATOM. . . CONECT MASTER END PROTEINASE INHIBITOR (TRYPSIN) 18 -FEB-95 1 BPI BOVINE PANCREATIC TRYPSIN INHIBITOR (BPTI) (CRYSTAL FORM II) BOVINE (BOS TAURUS) PANCREAS X-RAY DIFFRACTION S. PARKIN, B. RUPP, H. HOPE 1 03 -JUN-95 1 BPI 0 AUTH S. PARKIN, B. RUPP, H. HOPE TITL THE STRUCTURE OF BOVINE PANCREATIC TRYPSIN TITL 2 INHIBITOR AT 125 K: DEFINITION OF CARBOXYL-TERMINAL TITL 3 RESIDUES GLYCINE-57 AND ALANINE-58 REF TO BE PUBLISHED REFN 0353 1 2 2 RESOLUTION. 1. 1 ANGSTROMS. 3 1 BPI 1 BPI 1 BPI 1 BPI 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 N CA C O CB CG CD NE CZ NH 1 NH 2 N CA C O CB CG CD ARG ARG ARG PRO PRO 1 BPI 1 BPI 1 BPI 1 BPI 1 BPI 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 471 463 96 4 1 1 1 2 2 2 2 1 31. 758 31. 718 33. 154 33. 996 30. 886 29. 594 28. 700 27. 267 26. 661 27. 370 25. 367 33. 800 34. 976 34. 960 33. 962 34. 922 34. 058 33. 371 2 3 13. 358 13. 292 13. 224 12. 441 12. 103 11. 968 13. 182 12. 895 13. 087 13. 558 12. 797 13. 936 13. 367 11. 922 11. 306 14. 145 15. 391 15. 273 0 0 -13. 673 -12. 188 -11. 664 -12. 225 -11. 724 -12. 534 -12. 299 -12. 546 -13. 727 -14. 735 -13. 838 -10. 586 -9. 840 -9. 660 -9. 391 -8. 523 -8. 737 -10. 096 6 637 1. 00 1. 00 1 18. 79 14. 26 18. 25 20. 10 16. 74 15. 96 15. 45 12. 82 17. 38 18. 38 25. 73 17. 07 14. 99 13. 11 10. 57 15. 81 18. 91 19. 41 16 5 1 BPI 790 1 BPI 791 1 BPI 792 他に mm. CIF format
Entrez • NCBI によるデータベース検索システム • 種々のデータベースを同じインターフェースで 統合的に検索 • Neighbor 検索は便利 – 配列の近傍:BLAST – 文献の近傍:text とMe. SH term
講義内容 • データベースの基礎 • 文献データベース • 古典的データベース • ゲノム関連データベース • 将来展望
オーム・データ駆動型生物学 • Proteome, Transcriptome, Metabolome, … – Genome = gene + chromosome(造語) – OMICS という雑誌も創刊 • 生物学のパラダイム転換? – 仮説駆動型からデータ駆動型へ – データマイニング – 生物学にとってデータベースは本質的?
GDB (The Genome Database) • 1990 年にJohns Hopkins 大学で創設 – 日本では科学技術振興事業団 (JST) がミラー • プロジェクト打ち切り! – 更新が遅く、検索しにくかった • 1999 年から The Hospital for Sick Children (Tronto) でサポート • 染色体上の位置での遺伝子検索など
Ensembl • EMBL-EBI と Sanger Institute のプロジェクト • 真核生物ゲノムの自動アノテーション(注釈付け)
UCSC Genome Browser
データベースとビジネス • Celera Discovery System ™ – 学術誌への論文発表との関係で大論争に – Celera は製薬会社に方向転換 • Incyte Genomics (Proteome Division) – Human Proteome Survey Database (Human PSD™) – G Protein-Coupled Receptor Proteome DB (GPCR-PD™) • Torrey Mesa Research Inst. , Syngenta – イネゲノムのデータ • Double. Twist: 2002年倒産
モデル生物データベース TAIR Arabidopsis Dicty. Base Dictyostelium Fly. Base Drosophila MGD Mouse RGD Rat Pom. Base Schizosaccharomyces pombe SGD Saccharomyces Worm. Base Nematode ZFIN Zebrafish OMIM Online Mendelian Inheritance in Man
比較ゲノム学 • 遺伝子発見・制御領域の解析・進化 • オーソログ遺伝子 sub hal ste > >>>>>>]]]]]]]]]]]]]]]] A-AATCCTGATTAAAAAGCCGTCGTTATGCAGGCTTTTTTTATGCCTTCAGA ACAAGCCTACTT. AAAGGAAAGCGGGC-TTTCGCAGAATT. . . . . A-GAGGCGGCTTTACG-GAAAGAAGCCGCACGAATGATTTTT. . . -120 -110 -100 -90 -80 sub hal ste @@@@@@@@@@ GGAGCATCGTTCTACCTGTCCAAATTCAGGCATAAAATGAAACAAGCCTA--AATAAGGA. . . . TCCCTATTC--GAATAAGTTGAAACAAGCCTA. . . . TACAAGCATATAGTGGAACGAGCCCACCATGAAGGA -70 -60 -50 -40 -30 -20
Genome. Net と KEGG • ゲノムネット – 文部省ヒトゲノムプロジェクトの下で行われた 京大化学研究所と東大医科研ヒトゲノム解析セ ンターによる情報基盤整備プロジェクト – 2000 年よりソフト面は京大化研が中心に • KEGG – Kyoto Encyclopedia of Genes and Genomes – Pathway/Genes/Genomes/Expression – 特に代謝マップなどのパスウェイデータが充実
講義内容 • データベースの基礎 • 文献データベース • 古典的データベース • ゲノム関連データベース • 将来展望
統一化への努力 • 過去の努力はあまり実を結んでいない – 大手のデータ提供者の努力でさえ一般化しにくい:ASN. 1 – 情報科学者の提案は生物学者にあまり魅力的でなかった? – 政治的要素? • 関連技術 – 用語の統一:GO (Gene Ontology™) – Bio* Projects (Bio. Perl, Bio. Java, …):ライブラリの統一 – SOAP/XML 関連
知識ベースについて • 情報科学的には、自動推論できるように整理された知識の DB • 究極の生物学:あらゆる相互作用を記述した DB で推論 – シミュレーション(システム生物学?)
参考文献 • D. W. Mount, “Bioinformatics: Sequence and Genome Analysis”, Cold Spring Harbor Lab. Press, 2001(邦訳、岡崎・坊農監訳「 バイオインフォマティクス:ゲノム配列から機能解析へ」、メ ディカル・サイエンス・インターナショナル 2002) • 金久實編, “ゲノムネットのデータベース利用法(第3版)”, 共 立 2002 • 中村・石川・礒合編, ”バイオデータベースとウェブツールの手 とり足とり活用法”、羊土社、2002.
31305c2d0d1dbca1f4f32f9d339c6244.ppt