Bancos de Dados Biológicos I Daniel Guariz Pinheiro

Sumário Introdução Banco de Dados Sistemas de Banco de Dados Processo de extração de conhecimento Banco de Dados Biológicos Revisão Histórica Principais Bases de Dados de Expressão Gênica NCBI GEO (Gene Expression Omnibus) e o CGAP SAGE Genie Referências

Banco de Dados A database is a collection of related data. By data, we mean known facts that can be recorded and that have implicit meaning. (R. Elmasri and S. B. Navathe) A database is a repository for a collection of computerized data files. (C. J. Date) Propriedades: Representar um aspecto do mundo real; -Conter dados coerentes e com um significado inerente; -Deve ter um propósito; -

Abordagem utilizando Sistema de Arquivos O programador define e implementa os arquivos necessários para uma aplicação específica. Gera redundância na definição e no armazenamento dos dados; Possui estrutura específica e dependente de determinada aplicação; Não permite compartilhamento e acesso concorrente; …

Abordagem com Sistemas de Banco de Dados Utiliza um sistema de gerenciamento de bancos de dados para manter um único repositório de dados; Evita redundância; Contém em si a definição de sua estrutura (metadados); Possui restrições implementadas que evitam inconsistências nos dados; Solução genérica para qualquer aplicação; Permite o acesso concorrente de múltiplos usuários; Permite diferentes visões dos dados; Independência da aplicação; Permite representar relacionamentos complexos entre os dados; . . .

Modelo de dados Uma coleção de conceitos que podem ser usados para descrever a estrutura do banco de dados. Projeto de um Banco de Dados Relacional Modelo de Dados Conceitual; Modelo de Entidades e Relacionamentos (MER); Entidades, atributos e relacionamentos; Diagrama de Entidades e Relacionamentos (DER); Modelo de Dados de Implementação; Modelo de Dados Relacional; Detalhamento do Modelo Conceitual (MER) e adequação ao SGBDR; Modelo de Dados Baseado em Registros Representação através de estruturas de registros; Modelo de Dados Físico; Detalhes internos de armazenamento;

Diagrama de Entidades e Relacionamentos Notação Original Peter Chen, 1976. Modelo diagramático que descreve o modelo de dados de um sistema com alto nível de abstração. Ele é a principal representação do Modelo de Entidades e Relacionamentos. Notação IDEF 1 X Chen, Peter P. English Sentece Structure and Entity-Relationship Diagrams, Elsevier Science Publishing Co, , Inc. 52 Vanderbilt Ave, New York, NY 10017 ERwin®

Sistema de Gerenciamento de Banco de Dados A database management system (DBMS) is a collection of programs that enables users to create and maintain a database. The DBMS is hence a general-purpose software system that facilitates the processes of defining, constructing, and manipulating databases for various applications. (R. Elmasri and S. B. Navathe) • • • Modelo de Dados Relacional (SGBDR) – Inspirado na Álgebra Relacional – Organiza os dados em uma estrutura de tabelas – Linguagem SQL (Structured Query Language) Modelo de Dados Orientado a Objetos (SGBDOO) – Inspirado nos Paradigmas de Orientação a Objetos – Permite a persistência de objetos – Linguagem OQL (Object Query Language) Modelo de Dados Objeto-Relacional (SGBDOR) – Extensão do Modelo Relacional incorporando algumas das funcionalidades do modelo Orientado a Objetos; – Extensão da linguagem SQL (SQL 3); O 2 Jasmine

Ambiente Simplificado de um Banco de Dados Elmasri, R. A. and Navathe

A abordagem com arquivos é indicada? O banco de dados e as aplicações são simples e bem definidas e não espera-se alterações; Há o requisito de tempo-real para alguns programas, não encontrado com o uso de SGBDs dada sua sobrecarga; Não há necessidade de múltiplos acessos.

Banco de Dados Flat file Abordagem utilizando arquivos Arquivos que contêm registros de dados que não estruturalmente relacionados. Exemplo: Banco de Dados flat seqüências de nucleotídeos (nt) file de Possui um padrão específico de formatação Gen. Bank, Fasta, ASN. 1. . . É necessário um programa chamado de parser, que reconhece esses formatos específicos e conseguem extrair informação de forma automática. Ex. : Módulos da Bio. Perl (http: //www. bioperl. org/)

Bancos de Dados para Extração de Conhecimento Data mining Transformação Integração dos Dados/ Pré-Processamento Conhecimento Seleção Padrões Databases Dados Data warehouse

Revisão Histórica Leroy Hood Desenvolve o primeiro seqüenciador automático 1986 1977 Gilbert & Sanger Desenvolvem métodos para o seqüenciamento de DNA

Sequenciamento de DNA Sequenciamento manual x automático CCCAACT. . .

Revisão Histórica Iniciativa pública Projeto Genoma Humano Cancer Genome Anatomy Project 1990 1988 National Center for Biotechnology Information Publicação do rascunho do Genoma Humano ACTACGACAT ACGTACCTGC TCACGAGACA ACGATTACAA CGAGAGTACG GTACAGATAC CGAGAT CCCAGAGTAA TTAGAC … SAGE 1996 231 200 189 150 100 50 45 40 37 1995 microarray 1999 1997 2001 2000 Genoma Xylella fastidiosa Rede Organization for Nucleotide Sequencing and Analysis

Repositórios de Dados Biológicos 1965 – Atlas of Protein Sequences and Structure (Dayhoff et al. ) - 1 Mb 1982 – Gen. Bank – 1988 – NCBI – National Center for Biotechnology Information 1997 – EMBL – European Molecular Biology Laboratory 1986 – DDBJ – DNA Data Bank of Japan

International Nucleotide Sequence Database Colaboration

The Molecular Biology Database Collection A cada ano a 1 edição da revista Nucleic Acids Research é dedicada aos Bancos de Dados Biológicos Galperin MY. The Molecular Biology Database Collection: 2008 update. Nucleic Acids Res. 2008 Jan; 36(Database issue): D 2 -4. Atualizações (2008) 1078 bancos de dados 110 adicionais à versão anterior Links atualizados para 80 bancos de dados e 25 bancos de dados considerados obsoletos foram removidos da lista. A lista completa dos bancos de dados e uma breve descrição estão disponíveis no site a revista Nucleic Acids Research http: //nar. oxfordjournals. org/.

Gen. Bank Banco de Dados de Seqüências Genéticas do NIH ( http: //www. ncbi. nlm. nih. gov/Genbank) Repositório público de seqüências de nucleotídeos Arquivamento de todos os dados de seqüências submetidos para qualquer organismo. ~20. 000 submissões diretas por mês ~200. 000 submissões a granel por mês Redundância de seqüências do mesmo locus Análise de Polimorfismo International Nucleotide Sequence Database Collaboration Último Release 15/12/2007 80. 388. 382 seqüências (83. 874. 179. 730 bp) ~ 250. 000 diferentes organismos Gen. Pept Banco de dados de traduções automáticas das regiões codificadoras (CDS) das seqüências de nucleotídeos do Gen. Bank ®

Divisões do Gen. Bank primate sequences ROD rodent sequences MAM other mammalian sequences VRT other vertebrate sequences INV invertebrate sequences PLN plant, fungal, and algal sequences BCT bacterial sequences VRL viral sequences PHG bacteriophage sequences SYN synthetic sequences UNA unannotated sequences EST sequences (expressed sequence tags) PAT patent sequences STS sequences (sequence tagged sites) GSS sequences (genome survey sequences) HTG sequences (high-throughput genomic sequences) HTC unfinished high-throughput c. DNA sequencing ENV environmental sampling sequences Core. Nucleotide PRI db. EST Divisão db. GSS SIGLA Organizada por Taxonomia Submissões Diretas Acurado (~1 error por 10. 000 pb) Bem Caracterizada Organizada por tipo de seqüência Submissões a Granel Não acurado Não é bem caracterizada

Ref. Seq Coleção de seqüências curadas de DNA, RNA e proteínas. (http: //www. ncbi. nlm. nih. gov/Ref. Seq) Somente um único exemplar de seqüência para cada molécula. Organismos: Plasmídeos, organelas, vírus, arqueobactérias, bactérias e eucariotos 06/01/2007 4. 926 taxons distintos Genômicas: 1. 387. 692 (99. 006. 517. 014) RNAs: 1. 211. 414 (2. 053. 035. 099) Proteínas: 4. 426. 609 (1. 556. 356. 987) Status do Registro GENOME ANNOTATION INFERRED MODEL PREDICTED PROVISIONAL REVIEWED VALIDATED WGS

Ref. Seq Accession Moleule Method AP_123456 Protein Mixed NC_123456 Genomic Mixed NG_123456 Genomic Mixed NM_123456789 m. RNA Mixed NP_123456789 Protein Mixed NR_123456 RNA Mixed NT_123456 Genomic Automated NW_123456789 Genomic Automated NZ_ABCD 12345678 Genomic Automated XM_123456789 m. RNA Automated XP_123456789 Protein Automated XR_123456 RNA Automated YP_123456789 Protein Mixed ZP_12345678 Protein Automated Mixed – processo automático e também de revisão.

Gen. Bank versus Ref. Seq Gen. Bank Ref. Seq Não curado Curado Submissão do autor Criado pelo NCBI a partir do Gen. Bank Somente o autor pode revisar Múltiplos registros para o mesmo locus Somente o autor faz a revisão NCBI revisa cada novo registro Múltiplos registros para os mesmos loci Único registro para cada molécula de cada organismo Registro podem entrar em contradições uns com os outros Sem limites para espécies Limitado a organismos modelos Dados compartilhados entre os membros do INSDC Exclusivo do NCBI Assemelha-se à literatura primária Assemelha-se à artigos de revisão Proteínas identificadas e relacionadas Proteínas e transcritos são identificados e relacionados Acesso via NCBI Nucleotide database Acesso via Nucleotide & Protein databases

Principais Formatos dos Bancos de Dados Flat files do NCBI COMMENT exon gene /GO_process="nitric oxide transport [PMID 8292032]; oxygen REVIEWED REFSEQ: This record has been curated by NCBI staff. The 366. . 626 1. . 626 FASTA (Pearson) Gen. Bank reference/gene="HBB" transport was derived from L 48217. 1. sequence [PMID 1540659] [PMID 11747442]; positive On Feb 11, 2003 thisof nitric version replaced gi: 13788565. /inference="alignment: Splign" regulation sequence oxide biosynthesis [PMID 7965120]; /note="hemoglobin, beta; synonyms: HBD, CD 113 t-C" >gi|28302128|ref|NM_000518. 4| Homo sapiens hemoglobin, linear LOCUS NM_000518 626 bp m. RNA beta (HBB), m. RNA PRI 27 -JAN-2008 /number=3 transport“ /db_xref="Gene. ID: 3043" ACATTTGCTTCTGACACAACTGTGTTCACTAGCAACCTCAAACAGACACCATGGTGCATCTGACTCCTGA DEFINITION Homo sapiens hemoglobin, beta (HBB), m. RNA. poly. A_signal /note="beta alpha chain" Summary: Theglobin (HBA) and beta (HBB) loci determine the 602. . 607 /db_xref="HGNC: 4827" GGAGAAGTCTGCCGTTACTGCCCTGTGGGGCAAGGTGAACGTGGATGAAGTTGGTGGTGAGGCCCTGGGC ACCESSION NM_000518 structure/db_xref="HPRD: HPRD_00786" /gene="HBB" /codon_start=1 of polypeptide chains in adult hemoglobin, of the 2 types AGGCTGCTGGTGGTCTACCCTTGGACCCAGAGGTTCTTTGAGTCCTTTGGGGATCTGTCCACTCCTGATG VERSION NM_000518. 4 GI: 28302128 poly. A_site. A. The/db_xref="MIM: 141900" Hb 626 /product="betahemoglobin tetramer consists of two alpha normal adult globin" CTGTTATGGGCAACCCTAAGGTGAAGGCTCATGGCAAGAAAGTGCTCGGTGCCTTTAGTGATGGCCTGGC KEYWORDS. exon chains and two beta chains. Mutant beta globin causes sickle cell /gene="HBB" /protein_id="NP_000509. 1" 1. . 142 TCACCTGGACAACCTCAAGGGCACCTTTGCCACACTGAGCTGCACTGTGACAAGCTGCACGTGGAT SOURCE Homo sapiens (human) anemia. Absence of beta chain causes beta-zero-thalassemia. Reduced /db_xref="GI: 4504349" /gene="HBB" CCTGAGAACTTCAGGCTCCTGGGCAACGTGCTGGTCTGTGTGCTGGCCCATCACTTTGGCAAAGAATTCA ORGANISM Homo sapiens ORIGIN amounts of detectable beta globin causes beta-plus-thalassemia. The /db_xref="CCDS: CCDS 7753. 1" /inference="alignment: Splign" CCCCACCAGTGCAGGCTGCCTATCAGAAAGTGGTGGCTGGTGTGGCTAATGCCCTGGCCCACAAGTATCA Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; 1 acatttgctt the genes in the beta-globin cluster is 5'-epsilon -order of /number=1 tgtgttcact agcaacctca aacagacacc atggtgcatc ctgacacaac /db_xref="Gene. ID: 3043" CTAAGCTCGCTTTCTTGCTGTCCAATTTCTATTAAAGGTTCCTTTGTTCCCTAAGTCCAACTACTAAACT Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; CDS tgactcctga-- gamma-A -- delta -- beta--3'. caaggtgaac gtggatgaag 61 gamma-G 51. . 494 ggagaagtct gccgttactg /db_xref="HGNC: 4827" ccctgtgggg GGGGGATATTATGAAGGGCCTTGAGCATCTGGATTCTGCCTAATAAAAAACATTTTCATTGC Catarrhini; Hominidae; Homo. 121 ttggtggtga /gene="HBB"aggctgctgg tggtctaccc ttggacccag aggttctttg ggccctgggc /db_xref="HPRD: HPRD_00786" REFERENCE 1 (bases 1 to 626) 181 agtcctttgg /GO_component="hemoglobin complexcaaccctaag gtgaaggctc Publication Note: This Ref. Seq record includes a subset of[PMID ggatctgtcc actcctgatg /db_xref="MIM: 141900" ctgttatggg [PMID 1540659] the AUTHORS Ma, Q. , Abel, K. , Sripichai, O. , Whitacre, J. , Angkachatchai, V. , 241 atggcaagaa 10588683]" gcctttagtg atggcctggcgene. Pleaseaacctcaagg publications that are available for this tcacctggac see the agtgctcggt /translation="MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFE Makarasara, W. , Winichagoon, P. , Fucharoen, S. , Braun, A. and 301 gcacctttgc /GO_function="heme binding; hemoglobin binding [PMID Entrez Gene record to access additional publications. cctgagaact cacactgagt gagctgcact gtgacaagct gcacgtggat SFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPE Farrer, L. A. 361 tcaggctcct 1512262]; length. binding; metaltcactttggc aaagaattca COMPLETENESS: full iron ion gggcaacgtg ctggtctgtg tgctggccca ion binding; NFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH" oxygen TITLE Beta-globin gene cluster polymorphisms are strongly associated with FEATURES ccccaccagt Location/Qualifiers exon 421 gcaggctgcc tatcagaaag tggtggctgg tgtggctaat gccctggccc 143. . 365 binding [PMID 11747442]; oxygen transporter activity [PMID severity of Hb. E/beta(0)-thalassemia source 481 acaagtatca 1. . 626 ctaagctcgc /gene="HBB"tttcttgctg tccaatttct attaaaggtt cctttgttcc 1971109] [PMID 11747442]; selenium binding [PMID JOURNAL Clin. Genet. 72 (6), 497 -505 (2007) 541 ctaagtccaa /organism="Homo sapiens" ctactaaact /inference="alignment: Splign" 15780970]" gggggatatt atgaagggcc ttgagcatct ggattctgcc PUBMED 17894837 601 taataaaaaa /mol_type="m. RNA" catttt /number=2 cattgc REMARK Gene. RIF: Forty-five SNPs within the interval including the LCR // /db_xref="taxon: 9606" region and the delta gene showed strong association with disease /chromosome="11" severity. /map="11 p 15. 5"

Formato Padrão ASN. 1 Abstract Syntax Notation One International Standards Organization (ISO) Linguagem formal para a definição de tipos de dados abstratos NCBI define as especificação para o armazenamento de seqüências de nucleotídeos, proteínas, estruturas, genomas, etc. Seq-entry : : = set { level 1 , class nuc-prot , descr { user { type str "Ref. Seq. Gene" , data { { label str "Status" , data str "Reference Standard" } } } , …

Formato XML Standard Generalized Markup Language (SGML) e. Xtensible Markup Language Recomendação da W 3 C para gerar linguagens de marcação para necessidades especiais Intercâmbio de dados estruturados. Similar à Hyper. Text Markup Language (HTML) Document Type Definition (DTD) – especificação da estrutura Modular <? xml version="1. 0"? > <!DOCTYPE Seq-entry PUBLIC "-//NCBI Seqset/EN" "http: //www. ncbi. nlm. nih. gov/dtd/NCBI_Seqset. dtd"> <Seq-entry_set> <Bioseq-set_level>1</Bioseq-set_level> <Bioseq-set_class value="nuc-prot"/> <Bioseq-set_descr> <Seq-descr> <Seqdesc_user> <User-object_type> <Object-id_str>Ref. Seq. Gene</Object-id_str> …

Uni. Gene Sistema analítico automatizado para produzir uma visão organizada do transcriptoma. (http: //www. ncbi. nlm. nih. gov/Uni. Gene/) Contribuição Expressed Sequence Tags (ESTs) Pode auxiliar na identificação de uma seqüência não anotada por similiaridade Análise de Expressão Gênica Diferencial Digital Differential Display (DDD) Agrupamento (Clusterização) Eliminar resquícios de vetores, primer (iniciadores), linkers (adaptadores) Excluir seqüências mitocondriais e de r. RNA Mascarar seqüências repetitivas (baixa complexidade) e elementos repetitivos transponíveis (transposons) Somente seqüências com mais de 100 pb de alta qualidade não repetitiva Alinhamento de seqüências (Megablast) Sobreposição com um nível tolerável de mismatch Cluster pode conter mais de uma forma alternativa do gene Cluster ancorado final 3’ (cauda e/ou sinal poli-A ou, 2 ESTs [primer 3’])

Uni. Gene Hs build 209 Tamanho Quantidade 32769 -65536 1 16385 -32768 4 8193 -16384 19 4097 -8192 59 2049 -4096 215 1025 -2048 739 513 -1024 1882 257 -512 3990 129 -256 4508 65 -128 3935 33 -64 3919 17 -32 5090 9 -16 8107 5 -8 13349 3 -4 18126 2 19078 1 40756 query 5’ EST hits 3’ EST hits

Digital Differential Display (DDD) Gene LIPE

Nomes e Símbolos de Genes HUGO Gene Nomenclature Committee (HGNC) (http: //www. genenames. org/) Genes humanos Aprovação de um nome e símbolo (abreviação) único. Exemplo: CSE 1 L CSE 1 chromosome segregation 1 -like (yeast) XPO 1 exportin 1 (CRM 1 homolog, yeast) XPO 4 exportin 4 XPO 5 exportin 5 XPO 6 exportin 6 XPO 7 exportin 7 XPOT exportin, t. RNA (nuclear export receptor for t. RNAs) XPOTP 1 exportin, t. RNA (nuclear export receptor for t. RNAs) pseudogene 1 Homólogo XP 01 Xpo 1 - exportin 1, CRM 1 homolog (yeast) [Mus musculus] Mouse Genome Informatics (MGI) Mouse Genomic Nomenclature Committee (MGNC) Zebrafish Nomenclature Committee(ZNC) …

Repositórios para Seqüências de Proteínas Uni. Prot – Universal Protein Resource (Swiss-Prot, Tr. EMBL e PIR) HBB – Hemoglobin Beta (http: //beta. uniprot. org/) • P 68871 Uni. Ref 100_P 68871 Uni. Ref 90_P 68871 Uni. Ref 50_P 02042 UPI 00000015 C 9

Repositórios de Dados Biológicos (Estrutura de Proteínas) PDB – Protein Data Bank (http: //www. rcsb. org/pdb/) DEOXY HUMAN HEMOGLOBIN PDB: 1 A 3 N

Repositórios de Dados Biológicos (Gene Ontology) Projeto colaborativo para tratar da necessidade de descrições consistentes de produtos gênicos em diferentes bancos de dados. (http: //www. geneontology. org) Termos do GO (diferentes níveis de especificidade) Componente Celular Ex. : Retículo Endoplasmático Rugoso, núcleo, ribossomo, etc. Processo Biológico Processo celular fisiológico, transdução de sinal, metabolismo de pirimidinas, etc. Função Molecular Atividade catalítica, atividade de adenilato ciclase, atividade de álcool desidrogenase, etc. Estrutura dos termos Grafo direcionado acíclico (Similar a uma hierarquia, porém nesse caso um filho pode ter mais de um pai) Is_a - A is a B ( A é subclasse de B ) nuclear chromosome is_a chromosome Part_of – C part of D ( C é parte de D, mas não necessariamente D deve possuir C)

Repositórios de Dados Biológicos (Gene Ontology) GO Identifier Exemplos GO: 0005623 (Cell) GO: 0005104 (Fibroblast growth factor receptor binding) GO: 0007165 (Signal transduction) Banco de Dados OBO (Open Biomedical Ontologies) Flat File

Repositórios de Dados Biológicos (Gene Ontology) Grafo Direcionado Acíclico (DAG) Termo mais abrangente para um termo mais específico

Repositórios de Dados Biológicos (Vias metabólicas) KEGG – Kyoto Encyclopedia of Genes and Genome (http: //www. genome. ad. jp/kegg/) Via de sinalização MAPKinase (hsa 04010) • Bio. Carta (http: //www. biocarta. com/genes/allpathways. asp) Via de sinalização MAPKinase (h_mapk. Pathway)

Bancos de Dados de Expressão Gênica GEO (Gene Expression Omnibus) (http: //www. ncbi. nlm. nih. gov/geo/) Início em 1999 Suporte a muitos tipos de dados

Gene Expression Omnibus (Arquitetura) Plataforma (Platform) (GPL) Base para os experimentos com determinado configuração utilizando certa tecnologia. Accession Samples Organism(s) Title Família (Family) GPL 4 GPL 6 15 Homo sapiens SAGE: 10: Sau 3 A: Homo sapiens GPL 1485 • 396 Homo sapiens SAGE: 10: Nla. III: Homo sapiens 34 Homo sapiens SAGE: 17: Nla. III: Homo sapiens Amostra (Sample) (GSM) – Descrição do material biológico e condições experimentais. sobre o qual a amostra foi manipulada e os valores de expressãõ gênica. Accession Title GSM 14735 GSM 14736 SAGE_Pancreas_carcinoma_CL_PL 45 GSM 14737 • SAGE_Pancreas_carcinoma_CL_ASPC SAGE_Brain_astrocytoma_grade_II_B_H 359 Série (Series) (GSE) – Organiza as amostras em conjuntos considerados serem parte de um experimento. . Accession GSE 14 Title CGAP SAGE

Gene Expression Omnibus (Implementação) Banco de Dados Relacional Não armazena imagens cruas de experimentos (raw image data) Armazenamento BLOB (tipo de dados - texto compactado) Dados (Atributos) GEO - obrigatórios Identificação do clone Número de Acesso Submitter - opcionais

Gene Expression Omnibus (Recuperando Informação) Web Queries GPLXXXX GSMXXXX GSEXXXX

Gene Expression Omnibus (Ferramenta de Busca)

Gene Expression Omnibus (Data-mining) GEO Data. Sets (GDS) (http: //www. ncbi. nlm. nih. gov/sites/entrez? db=gds) Visão do GEO centrada no experimento Series – conjunto de amostras definido pelo autor Datasets – conjunto de amostras estatísticamente comparáveis processadas sob a mesma plataforma.

Formato dos Dados • SOFT - Simple Omnibus Forma. T MINi. ML – MIAME Notation in Markup Language – XML Schema (Validação Arquivo texto (ASCII) XSD) <Platform iid="GPL 4"> <Data-Processing /> <Accession database="GEO">GPL 4</Accession> <Platform-Ref ref="GPL 4" /> <? xml</Platform> version="1. 0" encoding="UTF-8" /> ^SAMPLE = GSM 14737 ref="contrib 1" brain <Contact-Ref !Sample_description = Keywords = standalone="no" ? > <Sample iid="GSM 14737"> !sample_table_begin <MINi. ML xmlns="http: //www. ncbi. nlm. nih. gov/projects/geo/info/MINi. ML" !Sample_title = SAGE_Brain_astrocytoma_grade_II_B_H 359 <Supplementary-Data type="unknown">NONE</Supplementary-Data> !Sample_description = Keywords = non-normalized <Status TPM TAG COUNT database="GEO"> xmlns: xsi="http: //www. w 3. org/2001/XMLSchema-instance" !Sample_geo_accession= =Keywords = bulk GSM 14737 <Data-Table> !Sample_description <Submission-Date>2003 -12 -31</Submission-Date> CTAAGACTTC 1237 11695. 8511 xsi: schema. Location="http: //www. ncbi. nlm. nih. gov/projects/geo/info/MINi. ML. xsd" version="0. 2"> !Sample_status = Public. Keywords 02 astrocytoma grade II <Column = on Jan = !Sample_descriptionposition="1"> 2004 <Release-Date>2004 -01 -02</Release-Date> CCCATCGTCC iid="contrib 1"> 8708. 0670 <Contributor 921 <Name>TAG</Name> short SAGE !Sample_submission_date. Keywords = 2003 !Sample_description = = Dec 31 CAAGCATCCC 660 6240. 3086 May 28 2005 <Person> <Description>Ten base SAGE tag, </Description> !Sample_last_update_date = !Sample_platform_id = GPL 4 <Last-Update-Date>2005 -05 -28</Last-Update-Date> AGCCCTACAA 637 <First>Cancer Genome !Sample_type<Link- 6022. 8433 Anatomy Project</First> = SAGE !Sample_contact_name = Cancer Genome Anatomy Project, , CGAP </Status> = 5446. 0875 TTCATACACC 576 Nla. III <Last>CGAP</Last>cgapbs-r@mail. nih. gov !Sample_anchor Prefix>http: //www. ncbi. nlm. nih. gov/SAGE/index. cgi? cmd=tagsearch&anchor=NLAIII&org=Hs&tag=</Link-Prefix> !Sample_contact_email = <Title>SAGE_Brain_astrocytoma_grade_II_B_H 359</Title> AAAACATTCT 547 </Person> !Sample_tag_length 5171. 8921 = 10 </Column> !Sample_contact_phone = 301 -496 -1550 <Accession ATAATTCTTT 438 database="GEO">GSM 14737</Accession> 4141. 2957 <Email>cgapbs-r@mail. nih. gov</Email> !Sample_tag_count = position="2"> <Column 105764 = Cancer Genome Anatomy Project !Sample_contact_department <Type>SAGE</Type> CACCTAATTG 426 4027. 8356 <Phone>301 -496 -1550</Phone> !Sample_channel_count = 1 = National Cancer Institute <Name>COUNT</Name> !Sample_contact_institute <Anchor>Nla. III</Anchor> TTGGGGTTTC 424 4008. 9255 Anatomy Project</Department> <Department>Cancer Genome !Sample_source_name_ch 1 == astrocytoma grade count</Description> <Description>Absolute tag II !Sample_contact_address <Tag-Length>10</Tag-Length> GTTGTGGTTA 391 3696. 9101 <Organization>National Cancer Institute</Organization> !Sample_organism_ch 1 == Homo sapiens </Column> !Sample_contact_city Bethesda <Tag-Count>105764</Tag-Count> TTGGTCCTCT 368 3479. 4448 <Address> <Column = total !Sample_molecule_ch 1 position="3"> !Sample_contact_state = MD RNA <Channel-Count>1</Channel-Count> TTTAACGGCC 364 3441. 6247 <City>Bethesda</City> !Sample_description = Producer: Jennifer B. Edwards <Name>TPM</Name> !Sample_contact_zip/postal_code = 20852 <Channel position="1"> TGCACTTCAA 355 3356. 5296 description: brain <State>MD</State> !Sample_description = Tissue <Description>Tags !Sample_contact_country = USAgrade per million, or (1000000*COUNT)/(Total tags)</Description> <Source>astrocytoma TGATTTCACT 339 3205. 2494 supplier: Duke <Zip-Code>20852</Zip-Code> II</Source> !Sample_description = Tissuehttp: //cgap. nci. nih. gov/ </Column> !Sample_contact_web_linksapiens</Organism> Tissue Bank <Organism>Homo = GTGACCACGG 305 2883. 7790 <Country>USA</Country>NONE !Sample_description = Sample= type: bulk <Internal-Data !Sample_supplementary_filerows="20">CTAAGACTTC 1237 11695. 8511 CCCATCGTCC 921 8708. 0670 CAAGCATCCC 660 <Characteristics>none</Characteristics> TTCAATAAAA 295 2789. 2288 information: Grade II </Address> !Sample_description= =GSE 146022. 8433 TTCATACACC 576 5446. 0875 AAAACATTCT 547 5171. 8921 ATAATTCTTT 438 Other 6240. 3086 AGCCCTACAA 637 !Sample_series_id <Molecule>total RNA</Molecule> TACCATCAAT 288 2723. 0438 <Web-Link>http: //cgap. nci. nih. gov/</Web-Link> !Sample_description = 426 35555 4141. 2957 CACCTAATTG Laboratory: Gregory Riggins, Duke University Medical 3696. 9101 TTGGTCCTCT 368 !Sample_data_row_count = 4027. 8356 TTGGGGTTTC 424 4008. 9255 GTTGTGGTTA 391 Center </Channel> AGGTGGCAAG 287 2713. 5887 </Contributor> !Sample_description = tag, 3441. 6247 represents a 355 3356. 5296 TGATTTCACT 339 3205. 2494 GTGACCACGG 305 Cancer Genome Anatomy Project library , which was 3479. 4448 base SAGE This #TAG = Ten. TTTAACGGCC 364 library TGCACTTCAA Tissue description: brain Tissue supplier: Duke Tissue <Description>Producer: Jennifer B. Edwards TTGGTGAAGG 273 through CGAP funding, or donated to CGAP. 2581. 2186 <Database iid="GEO"> 295 2789. 2288 TACCATCAAT 288 2723. 0438 AGGTGGCAAG 287 2713. 5887 TTGGTGAAGG 273 either produced 2883. 7790 TTCAATAAAA LINK_PRE: "http: //www. ncbi. nlm. nih. gov/SAGE/index. cgi? cmd=tagsearch&anchor=NLAIII&org=Hs&tag=" Medical Bank Sample type: bulk The Cancer (GEO)</Name> II Laboratory: Gregory Riggins, Duke University CCACTGCACT 262 2477. 2134 information: Grade <Name>Gene Expression 2477. 2134</Internal-Data> !Sample_descriptiontag 262 Omnibus Genome Anatomy Project (CGAP: http: //cgap. nci. nih. gov) is an = Other 2581. 2186 #COUNT = CCACTGCACT count a Cancer Genome Anatomy Center This. Absolute program established and administered Project National , Cancer Institute (NCI: library which was either produced !sample_table_end represents <Public-ID>GEO</Public-ID> interdisciplinarymillion, by the library #TPM </Data-Table> Tags per through= CGAP funding, or toor (1000000*COUNT)/(Total tags) Anatomy Project (CGAP: to decipher the donated to CGAP. information and technological tools needed The Cancer Genome <Organization>NCBI NLM NIH</Organization> http: //www. nci. nih. gov) generate the </Sample> http: //cgap. nci. nih. gov) is an interdisciplinary program established and administered by the National <Web-Link>http: //www. ncbi. nlm. nih. gov/geo</Web-Link> molecular anatomy of the cancer cell. </MINi. ML> Cancer Institute (NCI: http: //www. nci. nih. gov) to generate the information and technological tools <Email>geo@ncbi. nlm. nih. gov</Email> needed to decipher the molecular anatomy of the cancer cell. Keywords = brain Keywords = non-normalized </Database> Keywords = bulk Keywords = astrocytoma grade II Keywords = short SAGE</Description>

SAGEmap Repositório para os dados de SAGE do NCBI (http: //www. ncbi. nlm. nih. gov/SAGE/) Ferramentas de consulta e análise Ferramentas: Virtual Northern / SAGE x. Profiler Mapeamento TAG-Gene (Uni. Gene) Lash AE, Tolstoshev CM, Wagner L, Schuler GD, Strausberg RL, Riggins GJ, Altschul SF. SAGEmap: a public gene expression resource. Genome Res. 2000 Jul; 10(7): 105160.

SAGE Genie Repositório para os dados de SAGE do CGAP (Somente Hs e Mm) (http: //cgap. nci. nih. gov/SAGE) Ferramentas de consulta e análise Ferramentas: SAGE Anatomic Viewer / Digital Northern / SAGE Digital Gene Expression Displayer/ … Mapeamento TAG-Gene

Arquivos SAGE Genie (ftp: //ftp 1. nci. nih. gov/pub/SAGE/HUMAN) - Hs. libraries numeric library id [unique key] old library name new library name total tags including linker total tags after elimination of linker unique tags library quality ('1' if good) organ/tissue preparation cell type keywords patient age patient sex mutations other information tagging enzyme anchoring enzyme tissue or cell line supplier library producer laboratory references - Hs_short. datasets database rank order [unique key] database id database name total c. DNAs has poly. A signal? has poly. A tail? tag position [ordinal position, 1 = closest to 3' end] percent tags in confident tag list - Hs_short. map tag database rank order accession Uni. Gene cluster number - Hs_short. best_gene tag [unique key] Uni. Gene cluster number symbol title cytogenetic location - Hs_short. best_tag Uni. Gene cluster number [unique key] tag symbol title cytogenetic location - Hs_short. frequencies tag numeric library id frequency - Hs_short. confident tag [unique key] frequency - Hs_short. no_anchor accession of transcript with no anchor site - Hs_short. repetitive tag [unique key] number of transcripts in which tag is found

H 2 G: Hyper & Hypo Expressed Genes Repositório de dados de Expressão Gênica (http: //gdm. fmrp. usp. br/h 2 g/) Técnicas SAGE, Microarrays, MPSS Organismos: Homo sapiens (humano) Mus musculus (camundongo) Rattus novergicus (rato) Apis mellifera (abelha) Análises de Expressão Gênica Diferencial SAGEci (Vêncio et al. , 2003) Correlation metric P (Slonim et al. , 2000) Fold Change (Razão) Difference (Diferença) Acesso aos serviços HTTP (interno/externo) CORBA (interno) (Bi. T: : Inter) SOAP (interno/externo) (SOAP: : Lite e Bi. T: : Inter)

Referências Date, C. J. 2003. An Introduction to Database Systems. Addison-Wesley Longman Publishing Co. , Inc. Elmasri, R. A. and Navathe, S. B. 2003. Fundamentals of Database Systems. Addison-Wesley Longman Publishing Co. , Inc. CMPUT 695 - Principals of Knowledge Discovery In Data (http: //www. cs. ualberta. ca/~zaiane/courses/cmput 690/notes/Chapter 1/in dex. html) Wheeler DL, Church DM, Federhen S, Lash AE, Madden TL, Pontius JU, Schuler GD, Schriml LM, Sequeira E, Tatusova TA, Wagner L. Database resources of the National Center for Biotechnology. Nucleic Acids Res. 2003 Jan 1; 31(1): 28 -33. NCBI Field Guide - (http: //www. ncbi. nlm. nih. gov/Class/Field. Guide/) Wikipedia (http: //en. wikipedia. org/) NCBI-Hand. Book (http: //www. ncbi. nlm. nih. gov/books/bv. fcgi? call=bv. View. . Show. TOC&ri d=handbook. TOC&depth=2)

Perguntas. . . Daniel Guariz Pinheiro daniel@lgmb. fmrp. usp. br http: //scarecrow. fmrp. usp. br/~daniel/ MUITO OBRIGADO !!!