Введение в биоинформатику охота.ppt
- Количество слайдов: 34
Введение в биоинформатику
Биоинформатика Современная междисциплинарная наука, которая использует современные компьютерные технологии для решения биологических проблем • Сбор, хранение , анализ и интерпритация биологической информации • Молекулярное моделирование • Открытие генов • Определение функции генов • Определение вторичной, третичной структуры белков и РНК • Сравнение белков, ДНК, РНК • …. .
Секвенирование Установление нуклеотидной (ДНК, РНК) или аминокислотной (белки) последовательности Нуклеотидная последовательность Аминокислотная последовательность
Накопление информации по секвенированию • 2. 8 триллионов ридов • 326. 2 триллиона п. н. Второе поколение сиквенаторов
Биоинформатика включает в себя: • базы данных, в которых хранится биологическая информация (банки данных) • набор инструментов для анализа тех данных, которые лежат в таких базах • правильное применение компьютерных методов для правильного решения биологических задач
Базы данных биологической информации
Типы БД ДНК Белковые Gen. Bank PIR EMBL MIPS DDBJ Swiss-Prot Celera Tr. EMBL Gen. Pept • Nucleotide sequences • Proteins sequence patterns or motifs • Macromolecular 3 D structure • Gene expression data • Metabolic pathways • Genomic data • Maps • Markers
Типы БД • Архивные • Курируемые • Производные • Интегрированные • Локальные • Частные • Общедоступные
Архивные БД Архивные базы данных, это большая свалка, куда любой может поместить все, что захочет. К таким базам относятся: • Gene. Bank & EMBL – здесь хранятся первичные последовательности • PDB – пространственные структуры белков, и многое другое.
Курируемые БД За достоверность отвечает владельцы базы данных. Информацию из архивных баз данных отбирают эксперты, проверяя достоверность информации – что записано в этих последовательностях, какие есть экспериментальные основания для того, чтобы считать, что эти последовательности выполняют ту или иную функцию. К базам данных такого типа относятся: • Swiss- Prot – наиболее качественная база данных, содержащая аминокислотные последовательности белков • KEGG – информация о метаболизме • Fly. Base – информация о Drosophila • COG – информация об ортологичных генах прокариот • KOG - информация об ортологичных генах эукариот • TAIL – информация о Arabidopsis thaliana
Производные БД Такие базы получаются в результате обработки данных из архивных и курируемых баз данных. Сюда входит: SCOP – База данных структурной классификации белков (описывается структура белков) PFAM – База данных по семействам белков GO (Gene Ontology) – Классификация генов (попытка создания набора терминов, упорядочивания терминологии, чтобы один ген не назывался по разному, и чтобы разным генам не давали одинаковые названия) Pro. Dom – белковые домены As. Mam. DB – альтернативный сплайсинг у млекопитающих
Интегрированные БД • Вся информация (курируемая, не курируемая) свалена в кучу, и введя имя гена, можно найти всю связанную с ним информацию – в каких организмах встречается, в каком месте генома локализован, какие функции выполняет и т. д. • NCBI Entrez – доступ к информации о нуклеотидных и аминокислотных последовательностях и структурах • Ecocyc – все о E. coli – гены, белки, метаболизм и пр.
Локальные БД • DIGAP – база данных аннотированных геномов фитопатогенов • Pln. TFDB – база данных о транскрипционных факторах растений • PRGdb – база данных для анализа генов устойчивости у растений • SALAD – база данных для анализа мотивов белков растений и установления их функций • Sol. EST – база данных для изучения транскрипции генов картофеля • Animal. TFDB - база данных транскрипционных факторах животных • И др.
National Centre for Biotechnology Information (NCBI)
Gen. Bank • Аннотированная коллекция всех ДНК сиквенсов • Подбазы интегрированы • Включает подбазы: GSS – случайные сиквенсы геномной ДНК EST - секвенированные фрагменты экспрессирующихся последовательностей Nucleotide - аннотированные нуклеотидные последовательности И др. • Содержит более 10 000 сиквенсов растений
NCBI Entrez
BLAST (Basic Local Alignment Search Tool BLASTp (выравнивание аминокислотных последовательностей), BLASTn (выравнивание нуклеотидных последовательностей), BLASTx (выравнивание всех возможных транслятов нашей нуклеотидной последовательности против банка аминокислотных последовательностей), TBLASTx (выравнивание всех возможных транслятов нашей нуклеотидной последовательности против всех транслятов банка нуклеотидных последовательностей).
Выравнивание (Alignment) • Cравнение ДНК сиквенсов (Сlustal. W, Clustal. X, Phylipe, MAFFT, BLAST…) • Множественное выравнивание – выравнивание нескольких сиквенсов Где это можно сделать online: http: //www. ebi. ac. uk/Tools/msa/clustalo/ http: //www. genebee. msu. su/services/malign_reduced. html
Поиск ДНК гомологии в базе данных NCBI • BLASTN: Ваша НУКЛЕОТИДНАЯ последовательность поиск НУКЛЕОТИДНАЯ последовательности NCBI • t. BLASTx: Ваша НУКЛЕОТИДНАЯ последовательность НУКЛЕОТИДНАЯ последовательности NCBI трансляция АМИНОКИСЛОТНЫЕ трансляты трансляция поиск АМИНОКИСЛОТНЫЕ трансляты
Результаты BLAST анализа
Примеры использования биоинформатики
Предсказание открытых рамок считывания (ORF: Open Reading Frame) TATTTGTGGTTTAGATGGGCTTTTGTAAGGGACAAGAGTGTGTATGACAAGTTAACAACATATCAACAGTGAGGGAGTTTCGCGTGAAACACATCTCCGAACACTCATGATTAT AAAGGAGATTATACTACAAATAAAACCGTGGTACTATCGGTGACTTCAACTGGTAT GGCCATCACACATTGAGGGCGAGATGGGTTCAACTAAACAGCCTGGTGTCGCTATCTACTC GATTCTCCCATCAGGAAGCATCTCCTGAATATTGCAACTACTTTCAAAGAATCAGAAACCCT TCTCCAAGTATGTTAATTTTATTTCCAAAATGCTCTCGGTAA
Как сравнить два сиквенса? дельтоплан дель----фин
Выравнивание двух последовательностей ДНК UAG – стоп кодон AAG - лизин SNP (Single Nucleotide Polymorphism) Чувствительное Устойчивое ТРАНСЛИРОВАНИЕ В БЕЛОК
Множественное выравнивание (alignment) ДНК последовательностей с помощью CLC sequence viewer
Выравнивание 354 п. н. цитохрома b Европейских и Калифорницских красных лис Perrine et al. , 2007
Построение филогенетических деревьев на основе выравнивния УКОРЕНЁННОЕ
Филогения видов из семейства собачьих Kerstin Lindblad-Toh et al. , 2005
Создание SNP маркеров с помощью методов биоинформатики
SNP – однонуклеотидные изменения • Полиморфизм по одного нуклеотида • Встречаются часто • Могут возникать в экзонах, интронах и межгенных регионах • Могут приводить к изменению в аминокислотной последовательности (не синонимичные) или нет (синонимичные)
Создание SNP маркеров SNP – однонуклеотидный полиморфизм
SNP маркеры, разработанные после секвенирования «друга человека»
Введение в биоинформатику охота.ppt