Скачать презентацию Uma plataforma computacional para análise de expressão diferencial Скачать презентацию Uma plataforma computacional para análise de expressão diferencial

7ea3cf844c12313b9babd1a1b636a5dd.ppt

  • Количество слайдов: 59

Uma plataforma computacional para análise de expressão diferencial múltipla Israel Tojal da Silva Orientador: Uma plataforma computacional para análise de expressão diferencial múltipla Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Doutorado em Ciências com ênfase em Genética

Introdução Expressão Gênica Introdução Expressão Gênica

Introdução Expressão gênica ü Dogma Central da Biologia Molecular Introdução Expressão gênica ü Dogma Central da Biologia Molecular

Introdução Expressão gênica ü Por que estudar o transcriptoma? Um ponto de partida para Introdução Expressão gênica ü Por que estudar o transcriptoma? Um ponto de partida para a compreensão das desordens moleculares associadas com a fisiopatologia de um dado fenótipo. (Murray et al. , 2007) Busca no Pub. Med por palavra chave

Introdução Expressão gênica ü Análise dos perfis de expressão gênica Introdução Expressão gênica ü Análise dos perfis de expressão gênica

Introdução Expressão gênica ü Medida da Expressão Gênica • Real Time quantitative RT-PCR • Introdução Expressão gênica ü Medida da Expressão Gênica • Real Time quantitative RT-PCR • Microarray (Schena et al. , 1995) • Serial Analysis of Gene Expression (SAGE) (Velculescu et al. , 1995) • Massively Parallel Signature Sequencing (MPSS) (Brenner et al. , 2000) • Proxima geração de sequenciamento (Rusk & Kiermer, 2008) • 454 Roche • Illumina Solexa • SOLi. D system

Introdução Banco de dados biológicos ü NCBI - National Center for Biotechnology Information Introdução Banco de dados biológicos ü NCBI - National Center for Biotechnology Information

Introdução Estado da arte Introdução Estado da arte

Introdução Estado da arte üAnálise da Expressão Diferencial – ED ü Questões : Ø Introdução Estado da arte üAnálise da Expressão Diferencial – ED ü Questões : Ø Sejam duas amostras biológicas C e T, quais os genes que estão hiper ( > ) ou hipo ( < ) expressos em relação ao controle( C ) ?

Introdução Estado da arte • Análise ED C C T Teste T ü Teste Introdução Estado da arte • Análise ED C C T Teste T ü Teste Fisher Exato ü X 2 ü Audic-Claverie (Audic & Claverie, 1997) ü teste tw (Baggely et al. , 2003) ü teste log-t (Lu et al. , 2005) ü SAGEbeta. Bin (Vencio et al. , 2004), etc C

Introdução Estado da arte üFerramentas web para análise ED Introdução Estado da arte üFerramentas web para análise ED

Introdução Estado da arte üAnálise da Expressão Diferencial Múltipla – ED ü Questões : Introdução Estado da arte üAnálise da Expressão Diferencial Múltipla – ED ü Questões : Ø Sejam duas amostras biológicas C e T, quais os genes que estão hiper ( > ) ou hipo ( < ) expressos em relação ao controle( C ) ? T 1 T 2 T 3

Introdução Estado da arte • Análise EDM A B A C B Teste B Introdução Estado da arte • Análise EDM A B A C B Teste B C Teste (1) (2) AC p < cutoff A< B >C A < B c/ p < cutoff B > C c/ p < cutoff (3) (4) ü Erros de estimação (Romualdi et al. , 2003) ü A, B : A ü A, B, C : A B; B; B C AC AC (5)

Introdução Objetivos Introdução Objetivos

Introdução Objetivos ü Geral ü Desenvolver uma plataforma computacional para análises de EDM; B Introdução Objetivos ü Geral ü Desenvolver uma plataforma computacional para análises de EDM; B A C SAGE 454 MPSS SOLID Gene 1 Gene 2 Gene 3 Gene 4 Gene 5 …. Gene. N Solexa Análises Hipótese Conhecimento a priori P r o b F A S T Medidas Interpretação

Introdução Objetivos ü Geral ü Desenvolver uma plataforma computacional para análises de EDM; A Introdução Objetivos ü Geral ü Desenvolver uma plataforma computacional para análises de EDM; A B ü Específicos ü Estabelecer uma métrica de avaliação e verificar o desempenho do método em relação às demais abordagens por meio de um estudo simulado; P Gene 1 r Gene 2 ü Criar uma plataforma (Prob. FAST) que o permita. Gene 3 análises globais associando aos resultados informações funcionais; b Gene 4 Gene 5 F SAGE …. ü Avaliar um conjunto de dados de expressão gênica pelo Prob. FAST. A Gene. N 454 MPSS S T SOLID Solexa Análises Hipótese Conhecimento a priori Medidas Interpretação

Material e Métodos Material e Métodos

Modelagem • Implementação e testes EDM Análise simulada • Escolher uma métrica de avaliação Modelagem • Implementação e testes EDM Análise simulada • Escolher uma métrica de avaliação • Gerar dados simulados a partir de evidências experimentais • Avaliar a performance do método com as demais abordagens Prob. FAST • Desenvolver uma ambiente web para análise EDM/ED • Permitir análises com dados públicos e privados • Associar informações funcionais aos resultados Análise com dados reais • Analisar um conjunto de dados reais por meio do Prob. FAST em 2 questões envolvendo EDM e ED com réplicas

Modelagem • Implementação e testes EDM Análise simulada Prob. FAST Análise com dados reais Modelagem • Implementação e testes EDM Análise simulada Prob. FAST Análise com dados reais • Escolher uma métrica de avaliação • Gerar dados simulados a partir de evidências experimentais • Avaliar a performance do método com as demais abordagens • Desenvolver uma ambiente web para análise EDM/ED • Permitir análises com dados públicos e privados • Associar informações funcionais aos resultados • Analisar um conjunto de dados reais por meio do Prob. FAST em 2 questões envolvendo EDM e ED com réplicas

Material e Métodos Modelagem ü Método para análise EDM e ED A SAGE B Material e Métodos Modelagem ü Método para análise EDM e ED A SAGE B G 1 24 G 2 46 88 66 24 65 52 G 4 66 76 25 G 5 11 8 89 … . . . GN Solexa 99 … SOLID MPSS 6 G 3 454 100 C 3 77 49 E X P R E S S Ã O 50 10 3 A B CONDIÇÃO BIOLÓGICA Ø Beta(a, b) (Chen et al. , 1998; Baggerly et al. , 2003; Vëncio et al. 2003; Zuyderdyn, 2007) Ø P (A < B > C) Ø P ( (A < B ) AND (A>C) ) Ø… C

Material e Métodos Modelagem üComo funciona ? A B C G 1 26 19 Material e Métodos Modelagem üComo funciona ? A B C G 1 26 19 24 G 2 56 48 66 G 3 44 45 52 G 4 66 36 65 G 5 11 8 59 … … . . . GN 33 7 49 + A>B

Modelagem • Implementação e testes EDM Análise simulada Prob. FAST Análise com dados reais Modelagem • Implementação e testes EDM Análise simulada Prob. FAST Análise com dados reais • Escolher uma métrica de avaliação • Gerar dados simulados a partir de evidências experimentais • Avaliar a performance do método com as demais abordagens • Desenvolver uma ambiente web para análise EDM/ED • Permitir análises com dados públicos e privados • Associar informações funcionais aos resultados • Analisar um conjunto de dados reais por meio do Prob. FAST em 2 questões envolvendo EDM e ED com réplicas

Material e Métodos Avaliação do método - Análise simulada ü MAQC - Micro. Array Material e Métodos Avaliação do método - Análise simulada ü MAQC - Micro. Array Quality Control (Shi et al. 2006) • Affymetrix (AFX); • ~ 1000 genes validados ( Taq. Man ) • 2 amostras de RNAs: §Universal Human Reference RNA (UHRR) § Human Brain Reference RNA (HBRR) • 4 pools: § A: 100% UHRR § B: 100% HBRR § C: 75% UHRR e 25% HBRR § D: 25% UHRR: 75% HBRR

Material e Métodos Estudo simulado – pré processamento ü Gerando as tags virtuais Affymetrix Material e Métodos Estudo simulado – pré processamento ü Gerando as tags virtuais Affymetrix (AFX) A D 6 99 24 32 A 2 56 88 66 19 A 3 24 65 52 61 A 4 üAtualizada a anotação ü spot c/ maior intensidade ü Excluir probes repetidos ü Taq. Man C A 1 ü 4 test site B 66 76 25 53 A 5 11 8 89 47 1) A 1, A 2, A 3, A 4 > B 1, B 2, B 3, B 4 2) A 1 > C 1 > D 1 > B 1

Material e Métodos Avaliação do método - Análise simulada TP/(TP+FN) ü Curva ROC (Receiver Material e Métodos Avaliação do método - Análise simulada TP/(TP+FN) ü Curva ROC (Receiver Operating Characteristic) 1 – TN/(FP+TN) • Verdadeiro positivo - TP , Verdadeiro negativo - TN • Falso positivo - FP , Falso negativo - FN (Fawcett 2006)

Material e Métodos Avaliação do método - Análise simulada ü Construindo a curva ROC Material e Métodos Avaliação do método - Análise simulada ü Construindo a curva ROC Cutoff G 1 59 G 2 66 G 3 62 G 4 88 G 5 79 … . . . GN 94 + Taq. Man + Cortes (limiar de decisão) Corte TP 70 179 71 178 72 178 73 178 74 178 75 178 76 178 77 177 78 177. . . 100 176 TN 105 106 109 120 120 125 FP 414 413 410 399 399 394 FN 22 23 23 23 24 24 X Y 0. 80 0. 89 0. 79 0. 89 0. 77 0. 89 0. 76 0. 88 131 388 25 0. 75 0. 88

Modelagem • Implementação e testes EDM Análise simulada Prob. FAST Análise com dados reais Modelagem • Implementação e testes EDM Análise simulada Prob. FAST Análise com dados reais • Escolher uma métrica de avaliação • Gerar dados simulados a partir de evidências experimentais • Avaliar a performance do método com as demais abordagens • Desenvolver uma ambiente web para análise EDM/ED • Permitir análises com dados públicos e privados • Associar informações funcionais aos resultados • Analisar um conjunto de dados reais por meio do Prob. FAST em 2 questões envolvendo EDM e ED com réplicas

Material e Métodos Plataforma de desenvolvimento – Prob. FAST ü Linguagem de Programação • Material e Métodos Plataforma de desenvolvimento – Prob. FAST ü Linguagem de Programação • R • PERL ü Interface de Aplicação • CGI + Apache • DBI ü Sistema de Gerenciamento de Banco de Dados • My. SQL ü Sistema Operacional • Linux Red Hat ü DBDesigner, CPAN, Bio. PERL

Material e Métodos Modelo entidade relacional - Prob. FAST ü Dados Biológicos • Informações Material e Métodos Modelo entidade relacional - Prob. FAST ü Dados Biológicos • Informações funcionais i. KEGG ii. BIOCARTA/CGAP iii. Gene Ontology • Dados de expressão gênica i. GEO (Gene Expression Omnibus) • Anotação i. Unigene – Gene ii. Tag - gene

Modelagem • Implementação e testes EDM Análise simulada Prob. FAST Análise com dados reais Modelagem • Implementação e testes EDM Análise simulada Prob. FAST Análise com dados reais • Escolher uma métrica de avaliação • Gerar dados simulados a partir de evidências experimentais • Avaliar a performance do método com as demais abordagens • Desenvolver uma ambiente web para análise EDM/ED • Permitir análises com dados públicos e privados • Associar informações funcionais aos resultados • Analisar um conjunto de dados reais por meio do Prob. FAST em 2 questões envolvendo EDM e ED com réplicas

Material e Métodos Aplicação – Análise com dados reais ü Efeito da radiação na Material e Métodos Aplicação – Análise com dados reais ü Efeito da radiação na expressão gênica ü Grupos biológicos Acesso Biblioteca # Tags # Transcritos GSM 66698 Controle 17297 52162 GSM 66712 Exposta a RF durante 2 h 15487 51916 GSM 66714 Exporsta a RF durante 6 h 17814 51601 GSM 755 Tumoral 23001 57686 GSM 756 Tumoral 21254 49064 GSM 728 Normal 17913 50179 GSM 729 Normal 16569 49593

Resultados e Discussões Resultados e Discussões

Resultados e Discussões Estudo Simulado Prob. FAST Análise com dados reais • Análise da Resultados e Discussões Estudo Simulado Prob. FAST Análise com dados reais • Análise da curva ROC • Arquitetura Cliente/Servidor • Interfaces de análises • Reavaliação de dados -EDM • Análise ED com réplicas

Resultados e Discussões Estudo Simulado Prob. FAST Aplicação em dados reais • Análise da Resultados e Discussões Estudo Simulado Prob. FAST Aplicação em dados reais • Análise da curva ROC • Arquitetura Cliente/Servidor • Interfaces de análises • Reavaliação de dados -EDM • Análise ED com réplicas

Resultados e Discussões Estudo simulado üAnálise da curva ROC ü A 1, A 2, Resultados e Discussões Estudo simulado üAnálise da curva ROC ü A 1, A 2, A 3, A 4 > B 1, B 2, B 3, B 4 ( Prob. FAST x Baggerly x Beta. Bin x log-t ) F =1 E 6 F =1 E 7 F =1 E 8

Resultados e Discussões Estudo simulado üAnálise da curva ROC ü A 1, A 2, Resultados e Discussões Estudo simulado üAnálise da curva ROC ü A 1, A 2, A 3, A 4 > B 1, B 2, B 3, B 4 ( Prob. FAST x Baggerly x Beta. Bin x log-t ) F = 1 E 6

Resultados e Discussões Estudo simulado üAnálise da curva ROC ü A 1>C 1>D 1>B Resultados e Discussões Estudo simulado üAnálise da curva ROC ü A 1>C 1>D 1>B 1 ( Prob. FAST x Fisher x Chi 2 x 2 x AC ) A 1 C 1 D 1 A 1 >C 1 > D 1 p < cutoff A 1 > C 1 c/ p < cutoff (1) B 1 D 1 > B 1 p < cutoff C 1 > D 1 c/ p < cutoff (2) (3) D 1 > B 1 c/ p < cutoff A 1 >C 1 AND C 1>D 1 AND D 1>B 1 ( A 1>C 1>D 1>B 1 ) (4) (5)

Resultados e Discussões Estudo simulado üAnálise da curva ROC üA 1>C 1>D 1>B 1 Resultados e Discussões Estudo simulado üAnálise da curva ROC üA 1>C 1>D 1>B 1 ( Prob. FAST x Fisher x Chi 2 x 2 x AC ) F = 1 E 6 F = 1 E 7 F = 1 E 8

Resultados e Discussões Estudo simulado üAnálise da curva ROC ü A 1>C 1>D 1>B Resultados e Discussões Estudo simulado üAnálise da curva ROC ü A 1>C 1>D 1>B 1 ( Prob. FAST x Fisher x Chi 2 x 2 x AC ) F = 1 E 7

Estudo Simulado Prob. FAST Aplicação em dados reais • Análise da curva ROC • Estudo Simulado Prob. FAST Aplicação em dados reais • Análise da curva ROC • Arquitetura Cliente/Servidor • Interfaces de análises • Reavaliação de dados -EDM • Análise ED com réplicas

Resultados Prob. FAST - Arquitetura Prob. FAST – Probabilistic Functional Analysis System Tool http: Resultados Prob. FAST - Arquitetura Prob. FAST – Probabilistic Functional Analysis System Tool http: //gdm. fmrp. usp. br/probfast

Resultados e discussões Prob. FAST – interface web Analysis Creating Question Visualize Analysis Resultados e discussões Prob. FAST – interface web Analysis Creating Question Visualize Analysis

Resultados e discussões Prob. FAST – interface web Analysis Creating Question Visualize Analysis Resultados e discussões Prob. FAST – interface web Analysis Creating Question Visualize Analysis

Resultados e discussões Prob. FAST– Workflow web Prob. FAST – interface web Analysis Creating Resultados e discussões Prob. FAST– Workflow web Prob. FAST – interface web Analysis Creating Question €€€ Visualize Analysis

Resultados e discussões Prob. FAST – interface web Analysis Creating Question Visualize Analysis Resultados e discussões Prob. FAST – interface web Analysis Creating Question Visualize Analysis

Resultados e discussões Estudo Simulado Prob. FAST Aplicação em dados reais • Análise da Resultados e discussões Estudo Simulado Prob. FAST Aplicação em dados reais • Análise da curva ROC • Arquitetura Cliente/Servidor Aplicações • Interfaces de análises • Reavaliação de dados -EDM • Análise ED com réplicas

Resultados e discussões Aplicações üEfeito da radiação na expressão gênica ü Lee et al. Resultados e discussões Aplicações üEfeito da radiação na expressão gênica ü Lee et al. (2005) ü GSM 66698 (CT), GSM 66712 (2 h) e GSM 66714 (6 h) ü Prob. FAST - questões avaliadas relacionadas ao tempo de exposição ü Quais os genes que foram ativados ( CT < 2 h < 6 h ) EIF 5 (eukaryotic translation initiation factor 5) • Li et al. (2004) indução apotose – cancer de pulmão • Taylor et al. (2004) X protegeu células a entrarem em apoptose ü Quais os genes que foram desativados ( CT > 2 h > 6 h ) PTMA (prothymosin, alpha) • Ojima et al (2007) células suscetíveis a apotose

Resultados e discussões Aplicações üEfeito da radiação na expressão gênica ü Lee et al. Resultados e discussões Aplicações üEfeito da radiação na expressão gênica ü Lee et al. (2005) ü GSM 66698 (CT), GSM 66712 (2 h) e GSM 66714 (6 h) ü Prob. FAST - questões avaliadas relacionadas ao tempo de exposição ü Quais os processos que foram ativados ( CT < 2 h < 6 h ) • response to oxidative stress (GO: 0006979) • defense response (GO: 0006952) • induction apoptosis (GO: 0006917) • (EIF 5) ü Quais os processos que foram desativados ( CT > 2 h > 6 h ) • transcription (GO: 0006350) • (PTMA)

Resultados e discussões Aplicações üEfeito da radiação na expressão gênica ü Lee et al. Resultados e discussões Aplicações üEfeito da radiação na expressão gênica ü Lee et al. (2005) ü GSM 66698 (CT), GSM 66712 (2 h) e GSM 66714 (6 h) ü Prob. FAST - questões avaliadas relacionadas ao tempo de exposição Apoptose EIF 5 PTMA

Resultados e discussões Aplicacões üAlteração da expressão entre amostras dos tecidos tumoral e normal Resultados e discussões Aplicacões üAlteração da expressão entre amostras dos tecidos tumoral e normal ü Cólon (GSM 755, GSM 756 > GSM 728, GSM 72) ü Prob. FAST – Avaliar os processos biológicos mais expressos nas amostras tumorais • translation, GO: 0006412 • cell cycle, GO: 0007049 • transcription, GO: 0006350 • cell proliferation, GO: 0008283 • intracellular signaling cascade, GO: 0007242

Resultados e discussões Aplicacões üAlteração da expressão entre amostras dos tecidos tumoral e normal Resultados e discussões Aplicacões üAlteração da expressão entre amostras dos tecidos tumoral e normal ü Cólon (GSM 755, GSM 756 > GSM 728, GSM 72) ü Prob. FAST – Avaliar os processos biológicos mais expressos nas amostras tumorais • translation, GO: 0006412 • cell cycle, GO: 0007049 • transcription, GO: 0006350 • cell proliferation, GO: 0008283 • intracellular signaling cascade, GO: 0007242

Resultados e discussões Aplicacões üAlteração da expressão entre amostras dos tecidos tumoral e normal Resultados e discussões Aplicacões üAlteração da expressão entre amostras dos tecidos tumoral e normal ü Cólon (GSM 755, GSM 756 > GSM 728, GSM 72) ü Prob. FAST – Avaliar os processos biológicos mais expressos nas amostras tumorais Gene Estudo Descrição PRR 5 Johnstone et al. 2005 Envolvido com a tumorigênese de colon retal e células mamárias BP 1 Rojo et al. , 2007 Progressão de neoplasias por meio da sinalização celular S 100 A 6 Komatsu et al. 2002 PLCB 2 REG 1 A Tumorigênese cólon retal Bertagnolo et al. Capacidade de invasão em células mamárias 2007 LIU et al. 2008 Infiltração de propriedade primária do carcinoma gástrico. Hanahan & Weinberg (2000)

Conclusão Conclusão

Conclusão Prob. FAST para análises EDM e ED • Prob. FAST para análises EDM Conclusão Prob. FAST para análises EDM e ED • Prob. FAST para análises EDM e ED – Aplicação web (on the fly) para análises de dados de expressão basedo em sequenciamento (perfis digitais); – Interface intuitiva para formular expressões ( AND , > , < ) ; – Análises globais a partir de dados públicos (GEO) e/ou privados ; – Ambiente integrado com informações funcionais do Gene Ontology, Biocarta e KEGG; – Alternativa de análise aos procedimentos usuais.

Conclusão Estudo simulado • Avaliação do método – estudo simulado – Curva ROC – Conclusão Estudo simulado • Avaliação do método – estudo simulado – Curva ROC – MAQC – gerar os dados virtuais – Boa performance quando comparado aos procedimentos usuais durante análise EDM (A>B>C>D) e ED (A 1, A 2, A 3, A 4 > B 1, B 2, B 3, B 4)

Conclusão Análise com dados reais • Avaliação do método – dados reais – 2 Conclusão Análise com dados reais • Avaliação do método – dados reais – 2 análises realizadas; • Exposição a RF ( Ativados e Desativados ) • Super expressos em amostras tumorais – Resultados refletem a natureza dos dados experimentais; – Genes não descritos em Lee et al. (2005) ; – Informações funcionais (GO e vias) associados aos genes auxiliam a visualizar os processos ativados e/ou desativados.

Conclusão O ambiente integrado do Prob. FAST habilita identificar potenciais marcadores baseados nas alterações Conclusão O ambiente integrado do Prob. FAST habilita identificar potenciais marcadores baseados nas alterações no padrão de expressão gênica e, também, auxilia o pesquisador a compreender em termos funcionais estas alterações.

Conclusão • Próximas etapas – Integrar informações de outros estudos a partir do Gene. Conclusão • Próximas etapas – Integrar informações de outros estudos a partir do Gene. RIF (Gene Reference Into Function); – Adaptar o Prob. FAST para comportar processamento paralelo com o objetivo de reduzir o tempo de processamento; – Disponibilizar um sistema de exportação dos dados para análises locais. – Comportar análises com dados de Microarray

Agradecimentos ü ü Prof. Ricardo Vêncio – RGE/FMRP Prof. Junior Barrera – DFM/FFCLRP ü Agradecimentos ü ü Prof. Ricardo Vêncio – RGE/FMRP Prof. Junior Barrera – DFM/FFCLRP ü Prof. Rafael Rosales – DFM/FFCLRP Laboratório de Genética Molecular e Bioinformática