gtcactaaatactttaaccaatataggcatagcgcacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta ggtcactaaatactttaaccaatataggcatagcgcacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccattacca acggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcgggctttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggca aattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcattagtttgttggggcagtgcccggatagcatcaacgctgatttgccgtggcgaga tgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatcgatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattg agtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggcaggtttcaccgccggtaatgaaaaaggcgaactggtggtgcttggacgcaacggttccg actctgctgcggtgctgcctgtttacgcgccgattgttgcgagatttggacgttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagt tgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgcaccattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatc aagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggcatttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaaggga tcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctgattacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgacttgc gagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggagccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtagcacct tgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtcgccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatg ccactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtgtttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagc gctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggctctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaag aagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaacccggtcattgttgactgcacttccaggcagtggcggatcaatatgccgacttgc gcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattactaccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacacca ttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaattgatgaagttctccggcattctggttcgctttcttatatcttcggcaagttag aaggcatgagtttctccgaggcgaccacgctggcgcgggaaatgggttataccgaaccggacccgcgagatgatctttctggtatggatgtggcgcgtaaactattgattctcgctс aaacgggacgtgaactggagctggcggatattgaacctgtgctgcccgcagagtttaacgccgagggtgatgttgccgcttttatggcgaatctgtcacaactcgacgatc ttgccgcgtggcgaaggcccgtgatgaaggaaaagttttgcgctatgttggcaatattgatgaagatggcgtctgccgcgtgaagattgccgaagtggatggtaatgatccgc tcaaagtgaaaaatggcgaaaacgccctggccttctatagccactattatcagccgctgccgttggtactgcgcggatatggtgcgggcaatgacgttacagctgccggtgtctttg atctgctacgtaccctctcatggaagttaggagtctgacatggttaaagtttatgccccggcttccagtgccaatatgagcgtcgggtttgatgtgctcggggcggcggtgacacct gatggtgcattgctcggagatgtagtcacggttgaggcggcagagacattcagtctcaacaacctcggacgctttgccgataagctgccgtcagaaccacgggaaaatatcgtttat tgctgggagcgtttttgccaggaactgggtaagcaaattccagtggcgatgaccctggaaaagaatatgccgatcggttcgggcttaggctccagtgcctgttcggtggtcgcggcg atggcgatgaacactgcggcaagccgcttaatgacactcgtttgctggctttgatgggcgagctggaaggccgtatctccggcagcattacgacaacgtggcaccgtgt ctcggtggtatgcagttgatgatcgaagaaaacgacatcatcagcaagtgccagggtttgatgagtggctgtgggtgctggcgtatccggggattaaagtctcgacggcagaa agggctattttaccggcgcagtatcgccgccaggattgcgcacgggcgacatctggcaggcttcacgcctgctattcccgtcagcctgagcttgccgcgaagctgatgttatcgctgaaccctaccgtgaacggttactgccaggcttccggcaggcggtcgcggaaatcggcgcggtagcggtatctccggcccgaccttg gctctgtgtgacaagccggaaaccgcccagcgcgttgccgactggttgggtaagaactacctgcaaaatcaggaaggttttgttcatatttgccggctggatacggcgcacga ctggaaaactaaatgaaactctacaatctgaaagatcacaacgagcaggtcagctttgcgcaagccgtaacccaggggttgggcaaaaatcaggggctgttttttccgcacgacctg gaattcagcctgaaattgatgagatgctgaagctggattttgtcacccgcagtgcgaagatcctctcggcgtttattggtgatgaaatcccacaggaaatcctggaagagcgc gcttatcgtgcgctgcgtgatcagttgaatccaggcgaatatggcttgttcctcggcaccgcgcatccggcgaaatttaaagagagcgtggaagcgattctcggtgaaacgttggat ccaaaagagctggcagaacgtgctgatttacccttgctttcacataatctgcccgccgattttgctgcgtaaattgatgatgaatcatcagtaaaatctattcattatctca aggccgggtttgcttttatgcagcccggcttttttatgaagaaattatggagaaaaatgacagggaaaaaggagaaattctcaataaatgcggtaacttagagattaggattgcgga taacaaccgccgttctcatcgagtaatctccggatatcgacccataacgggcaatgataaaaggagtaacctgtgaaaaagatgcaatctatcgtactcgcactttccctggttctg gctcccatggcagcacaggctgcggaaattacgttagtcccgtcagtaaaattacagataggcgatcgtgataatcgtggctattactgggatggaggtcactggcgcgaccacggc gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta ggtcactaaatactttaaccaatataggcatagcgcacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccattacca acggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcgggctttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggca gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca Нуклеотидные последовательности (номенклатура, правила записи и чтения) © А. Б. Рахманинова, 2007 г.
ДНК Повторяем: фосфодиэфирные связи, сахарофосфатный остов, антипараллельные цепи, 3'- и 5'- конец, канонические пары.
Разработка эффективных методов секвенирования привела к быстрому росту известных последовательностей
Как записывают последовательности нуклеиновых кислот ? 1. Последовательность = последовательность однобуквенных символов. Никаких дефисов и обозначений фосфодиэфирных связей. 2. Одни и те же однобуквенные символы для последовательностей РНК и ДНК (при записи РНК обычно ‘U’ ‘T’ ). Любая последовательность по умолчанию считается ДНК (т. е. полимером 2'-дезоксирибонуклеотидов). 3. Одни и те же символы используются для обозначения азотистых оснований, нуклеозидов и нуклеотидов Допустимы заглавные и строчные буквы, хотя рекомендованы заглавные. 4. Последовательность записывается в направлении 5'→ 3' Пример: 5'-CTCGAC-3' Nomenclature Committee of the International Union of Biochemistry (NC-IUB) Nomenclature for incompletely specified bases in nucleic acid sequences Recommendations 1984 Biochem. J. (1985) 229, 281 -286
Описание сайтов связывания с регуляторными белками Описание сайтов рестрикции Восстановление предковой последовательности Описание вырожденности генетического кода 1 ----TGGt. ACAGCATTTGCA 2 ----TGGCACAGCc. TTc. GCA 3 ----TGGCAtta. Gc. TTTGCA 4 ----TGGCACgat. Ag. Tc. GCA 5 ----TGGCACAGGc. Tg. TGCt 6 ----TGGCACAGat. TTc. GCt 7 ----TGGt. ACAa. GAcc. TGCA 8 ----TGGCACgatt. TTTt. CA 9 ----TGGCAagca. Aa. TTGCA 10 ----g. GGCg. CAGCc. TTc. GCA 11 ----TGGt. Atc. GCAa. TTGCt 12 ----TGGag. Cgc. GAa. TTGCA 13 ----TGGt. Atgttccc. TGCA CONSENSUS. . . . TGGCACrrsmt. TTGCA
Общепринятые однобуквенные обозначения для стандартных азотистых оснований (остатков нуклеозидов и нуклеотидов) и вырожденных позиций в выравниваниях нуклеиновых кислот
Образец теста:
ttttacctctttttagtgatattgtgatatagagcaaaaatcccgacattgtgtcgggattgtttttaaactcttgttgattttaatttttcaatcgcttctttattaaagaagtagtgtgtgcc acaacactcacattgcatatcaatacggcctttatgttcggctaatatttcgtcaatttcttcatcagagatgagcagtagatgcagaactagaacgctcagcagccaca gaaaaattgtacatcttgtgctggataaagattaacggtttcttcgtgatataaacgataggagtaactcttctgcagggagaccaaataattcttcatcttttactgttgctgcgagc gtagttaaatgctcaaaatcttctggtgtaccagaaccatcaggcataatttgtaataacatacctgctgccactggcttgccttcatattctccagtacgaataattgagtttg aagactcatattttcagtgaagtttcgatcgcccttaggaggggccgcgctttctctttcaa Gen. Bank EMBL DDBJ компьютерный поиск гена, трансляция и компьютерная аннотация Базы данных научной литературы ~2 500 000 последовательностей Uni. Parc Экспертиза Uni. Ref (Uni. Prot Archive) 200 000 последовательностей PIR-PSD (Uni. Prot non-redundant Reference databases)
The EMBL Nucleotide Sequence Database (также просто БД EMBL) http: //www. ebi. ac. uk/embl/Documentation/User_manual/usrman. html
Статистика EMBL Total nucleotides Number of entries
Статистика EMBL Homo sapiens Mus musculus Rattus norvegicus marine metagenome Bos taurus Pan troglodytes Canis lupus familiaris Zea mays Macaca mulatta Monodelphis domestica Other
Что надо знать про банк EMBL -что это архив (за содержание записи несёт ответственность её автор) - поэтому разнобой в терминологии - поэтому одно и то же по многу раз - поэтому много неисправленных ошибок - что у последовательности из записи часто нет естественных границ - что это часть триединства (EMBL, Gen. Bank, DDBJ) - ежедневный обмен данными - … ну и смысл основных полей, конечно (особенно структуру поля FT!)
Класс данных
ID AC PR DT DE KW OS OC OG RN RC RP RX RG RA RT RL DR CC AH AS FH FT XX SQ CO bb // - identification (begins each entry; 1 per entry) accession number (>=1 per entry) project identifier (0 or 1 per entry) date (2 per entry) description (>=1 per entry) keyword (>=1 per entry) organism species (>=1 per entry) organism classification (>=1 per entry) organelle (0 or 1 per entry) reference number (>=1 per entry) reference comment (>=0 per entry) reference positions (>=1 per entry) reference cross-reference (>=0 per entry) reference group (>=0 per entry) reference author(s) (>=0 per entry) reference title (>=1 per entry) reference location (>=1 per entry) database cross-reference (>=0 per entry) comments or notes (>=0 per entry) assembly header (0 or 1 per entry) assembly information (0 or >=1 per entry) feature table header (2 per entry) feature table data (>=2 per entry) spacer line (many per entry) sequence header (1 per entry) contig/construct line (0 or >=1 per entry) (blanks) sequence data (>=1 per entry) termination line (ends each entry; 1 per entry)
FT FT Key Location/Qualifiers=value FT CDS 1. . 1000 /codon=(seq: "cug", aa: Ser) /codon=(seq: "tga", aa: Trp) http: //www. ebi. ac. uk/embl/Web. Feat/index. html