Скачать презентацию Manipulation et traitement de données massives Scripts et Скачать презентацию Manipulation et traitement de données massives Scripts et

0c8c1cc0a086f505b75657e81c051253.ppt

  • Количество слайдов: 32

Manipulation et traitement de données massives Scripts et Pertinence des données Raymond Ripp Manipulation et traitement de données massives Scripts et Pertinence des données Raymond Ripp

Traiter beaucoup de données u 30000 protéines pour Homo sapiens u Ce n’est pas Traiter beaucoup de données u 30000 protéines pour Homo sapiens u Ce n’est pas faisable manuellement – trop long, trop compliqué – risque d’erreurs (par ex. coupé-collé) u Automatiser – Trouver l’outil idéal … – Utiliser les outils existants – Tout faire soi-même

L’outil interactif u Malheureusement beaucoup d’outils ne sont utilisables qu’à travers une interface graphique L’outil interactif u Malheureusement beaucoup d’outils ne sont utilisables qu’à travers une interface graphique – par ex. Seqlab de GCG – sites web u Pourquoi ? – convivial – actions prédéfinies – interrogation – … évite la fuite des données des sites web

Gérer soi-même les données u Les trouver u Les rapatrier – en bloc – Gérer soi-même les données u Les trouver u Les rapatrier – en bloc – à la volée u Les traiter u Les stocker u Les rendre disponibles u … faire un site web.

1/ Accéder aux données 1/ Accéder aux données

Accéder aux données : Bases de données vs Données « à plat » u Accéder aux données : Bases de données vs Données « à plat » u Une base de données « bien faite » permet un accès direct aux données – niveau de précision (par ex pour une protéine) u Texte en vrac de la séquence et des infos concernant fonction, organisme, biblio, etc. u Sequence. AA , Tax. Id, Inter. Pro – Relations avec d’autres information u Localisation génomique, expression – Facilité d’accès u Interactif, requête SQL

Les formats des données « à plat » (hors « base de données » Les formats des données « à plat » (hors « base de données » ) u u Les données sont dans des fichiers rangés dans une arborescence Généralement un format de fichier « binaire » est associé à une application – Word. doc, Excell. xls, etc. – Images. jpg, . tif, Sons. mp 3, Vidéos u Sinon c’est du Texte (Ascii) – lisible par l’humain et la machine – simple mais pas agréable pour l’oeil u pas rapide ni précis u u Web. html, . xml – Xml fédère tout le monde …

Comment lire un fichier Excell Comment lire un fichier Excell

Universel ? Peu de programme donne ainsi un moyen d’accès « simple » aux Universel ? Peu de programme donne ainsi un moyen d’accès « simple » aux données qu’ils produisent … u Le programme est obligatoire u Pourquoi ne pas lire le binaire ? u – Très difficile quand on ne sait pas comment il est organisé – Essai erreur … u Ouvert … Open – Si les spécifications existent le binaire est aussi lisible

Les formats standard en bioinfo u Public u Universitaire u Mondial u Historique u Les formats standard en bioinfo u Public u Universitaire u Mondial u Historique u Compatible u Evolution u … Avenir

Format Fasta d’une séquence >PGS 110 Aa. Ec. R-A Aedes aegypti Ecdysone receptor isoforme-A Format Fasta d’une séquence >PGS 110 Aa. Ec. R-A Aedes aegypti Ecdysone receptor isoforme-A MYRLNIVSTNPSGSVQQQQQAQGQQVISSVVRPQQQQPPPQLALVQTGGS GGTTTTIIGLTSLNALNATTITGLVAGAAGSSTSAIAAAGASNSGSGPST ATTKHILKAATTNNNISIVKIVDDIMLKAVKVEPLPMDTGGGGGGVSMIP SSATTSGGVTVTAIPASVAPMPPVAAGTNVSSNGSVTVYASGKRRLESNE EWISSPSPGSVPGSAPPLSPSPGSQSTTYTTTMSNGYSSPMSTGSYDPYS PNGKMGREDLSPSSSLNGYTDGSDAKKQKKGPTPRQQEELCLVCGDRESG YHYNALTCEGCKGFFRRSVTKNAVYCCKFGHACEMDMYMRRKCQECRLKK CLAVGMRPECVVPENQCAIKRKEKKAQKEKDKVQTNATVSTTNSTYRSEI LPILMKCDPPPHQAIPLLPEKLLQENRLRNIPLLTANQMAVIYKLIWYQD GYEQPSEEDLKRIMIGSPNEEEDQHDVHFRHITEITILTVQLIVEFAKGL PAFTKIPQEDQITLLKACSSEVMMLRMARRYDAATDSILFANNRSYTRDS YRMAGMADTIEDLLHFCRQMFSLTVDNVEYALLTAIVIFSDRPGLEQAEL VEHIQSYYIDTLRIYILNRHAGDPKCSVIFAKLLSILTELRTLGNQNSEM CFSLKLKNRKLPRFLEEIWDVQDIPPSMQAQMHSHGTQSSSSSS SNGSSNGNSSSNSNSSQHGPHPHPHGQQLTPNQQQHSQLQQVHANG SGSGGGSNNNSSSGGVVPGLGMLDQVLV

Format Embl d’une séquence ID AC DT DT DE GN OS OC OC OX Format Embl d’une séquence ID AC DT DT DE GN OS OC OC OX DR DR KW SQ Q 7 UB 09 PRELIMINARY; PRT; 391 AA. Q 7 UB 09; 01 -OCT-2003 (Tr. EMBLrel. 25, Created) DT 01 -MAR-2004 (Tr. EMBLrel. 26, Last annotation update) Putative xylanase. YIEL OR S 4034. Shigella flexneri. Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Shigella. NCBI_Tax. ID=623; EMBL; AE 016991; AAP 19014. 1; -. GO; GO: 0005975; P: carbohydrate metabolism; IEA. Inter. Pro; IPR 000379; Ser_estrs. Pfam; PF 02922; Isoamylase_N; 1. Glycosidase; Hydrolase; Xylan degradation. SEQUENCE 391 AA; 43049 MW; 0 C 6006 A 9977 CFBC 0 CRC 64; MNIKIAALTL AIASGISAQW AIAADMPASP APTIPVKQYV TQVNADNSVT FRYFAPGAKN VSVVVGVPVP DNIHPMTKDE AGVWSWRTPI LKGNLYEYFF NVDGVRSIDT GTAMTKPQRQ TFSGVTTTTV PDEGVAARLN DPAAINQQLR NFTVVVGDKD VVTGKDIAGL KTELEQKKIK FDYQEYPGLN HEMDVWRPAY AAFVQKFKIR H

Format Genbank 1/2 LOCUS DEFINITION ACCESSION SOURCE ORGANISM NC_003071 19643621 bp DNA PLN 13 Format Genbank 1/2 LOCUS DEFINITION ACCESSION SOURCE ORGANISM NC_003071 19643621 bp DNA PLN 13 -AUG-2001 Arabidopsis thaliana chromosome 2, complete sequence. NC_003071 thale cress. Arabidopsis thaliana Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; FEATURES Location/ Qualifiers source 1. . 19643621 / organism="Arabidopsis thaliana" /cultivar="Columbia" / db_xref="taxon: 3702" /chromosome="2" gene complement(64436. . 66139) / gene="At 2 g 01040" /note="F 23 H 14. 1; pseudogene, disease resistance protein" pseudogene, protein" /pseudo m. RNA complement(<67337. . >68884) gene complement(67337. . 68884) / gene="At 2 g 01050" /note="F 23 H 14. 2; predicted by genscan" CDS complement(67337. . 68884) / gene="At 2 g 01050"

Format Genbank 2/2 m. RNA gene CDS complement(join(<72279. . 72950, 73073. . 73142, 73240. Format Genbank 2/2 m. RNA gene CDS complement(join(<72279. . 72950, 73073. . 73142, 73240. . 73297, complement( join(<72279. . 72950, 73073. . 73142, 73240. . 73297, 73383. . 73425, 73509. . 73585, 73785. . 73907, 74190. . 74340)) /gene="At 2 g 01060" complement(67337. . 68884) /gene="At 2 g 01050" /note="F 23 H 14. 2; predicted by genscan" complement(67337. . 68884) /gene="At 2 g 01050" /codon_start=1 /product="hypothetical protein" /db_xref="Gene. ID: At 2 g 01050" /protein_id="NP_178215. 1" /db_xref="GI: 15226168" /translation="MLDVGEKGRPPGDPPDKLESWATKVKGSAGGGILKPEDVIDDEF VRERVGLEFPDGEDEEPVITIGEEVLEAMNGLWKKCMIVKVLGSQIPISVLNRKLREL WKPSGVMTVMDLPRQFFMIRFELEEEYMAALTGGPWRVLGNYLLVQDWSSRFDPLRDD IVTTPVWVRLSNIPYNYYHRCLLMEIARGLGRPLKVDMNTINFDKGRFARVCIEVNLA KPLKGTVLINGDRYFVAYEGLSKICSSCGIYGHLVHSCPRNVVVKVSAGAETVTDRAV VPVGMEGDDGFTVVQRTARRPAAPVQKMVFAVGASGGRSKQRLRELPKNQGVDLANRF GGLDGNGDLPDLREVAITEGPNKENEYHGRNVGKVMGVPLVKEARGSTQMEKGKGGSK GGFKWKRNGGMKALEPIGPKQKHGAANKPARGLIFGPTKDANSVPVGEDLLSNGKRLR VEQRDVGRPGGVYSSAMGSHAHEASFDLDSSSTLSQRFQREDLMSEIAVVSHEGSEVG NSSEGMA « complement(join(<72279. . 72950, 73073. . 73142, 73240. . 73297, complement( join(<72279. . 72950, 73073. . 73142, 73240. . 73297, 73383. . 73425, 73509. . 73585, 73785. . 73907, 74190. . 74340)) /gene="At 2 g 01060" complement(72279. . 74340) /gene="At 2 g 01060" /note="F 23 H 14. 3; similar to transfactor GB: BAA 75684 from (Nicotiana tabacum)" complement(join(72456. . 72950, 73073. . 73142, 73240. . 73297, complement( join(72456. . 72950, 73073. . 73142, 73240. . 73297,

… il n’y a pas que des séquences u Blast u Alignements u GO … il n’y a pas que des séquences u Blast u Alignements u GO u Références bibliographiques – Data mining –… u…

Où trouver les données ? u Dans les banques de données – Ramener la Où trouver les données ? u Dans les banques de données – Ramener la banque en entier – Traiter les fichiers ainsi stockés sur le disque u Chercher l’info pertinente … à la volée u Faire une requête ciblée dans une banque de données – SRS le permet …

2/ Traiter ces données 2/ Traiter ces données

Qu’est qu’un script ? u C’est un programme. u Qui enchaîne une suite de Qu’est qu’un script ? u C’est un programme. u Qui enchaîne une suite de programmes – (pris dans un boîte à outils) u Écrit dans un langage – sh, csh, tcsh, bash – Perl, Tcl, Python, – C, C++, Visual. Basic, Fortran, Java « Mon langage est le meilleur ! »

Un script de metteur en scène u Qui utilise des outils – qui préexistent Un script de metteur en scène u Qui utilise des outils – qui préexistent – qui doivent être écrits u Ce script sera lui aussi un outil

Boîte à outils NCBI-toolbox Gcg Gscope Emboss Boîte à outils NCBI-toolbox Gcg Gscope Emboss

Un exemple de traitement en local Un exemple de traitement en local

 sinon … sinon …

Traitement à distance sur un site web … u On simule par programme les Traitement à distance sur un site web … u On simule par programme les actions répétitives de l’utilisateur – Ce n’est pas toujours possible u ce n’est pas fait pour ça u il faut connaître l’organisation des données – Le format des données est souvent difficile à exploiter u Html, Xml, images – Problèmes de connexion et de gestion des décrochages – Attention aux mises à jour des sites

Les problèmes liés au « massif » u Long en temps – Plusieurs jours Les problèmes liés au « massif » u Long en temps – Plusieurs jours ou semaines – L’intervention humaine est souvent impossible Puissance de calcul et de stockage u Erreurs ou incohérences u – Plus de traitement plus d’erreurs – Causes externes u Coupures de courant, disques pleins u Les banques changent u Les programmes changent u Les questions changent

3/ « Publier » la valeur ajoutée Rendre vos résultat accessibles aux autres 3/ « Publier » la valeur ajoutée Rendre vos résultat accessibles aux autres

Comment ? u En interne, en externe u En vrac, en finesse u Par Comment ? u En interne, en externe u En vrac, en finesse u Par une base de données «utilisable » u Créer un site – rien que pour les yeux – …

Gscope u Collecte les données u Crée une base de données u Les visualise Gscope u Collecte les données u Crée une base de données u Les visualise u Les rend accessibles – … à tous les niveaux u en bloc u au détail u 150 000 lignes de programme Tcl/Tk

4/ À vos claviers ! Merci 4/ À vos claviers ! Merci