Скрытые Марковские Модели 1 1 1 2

Скачать презентацию Скрытые Марковские Модели 1 1 1 2

c9ea6aa744556ac0d965abbff44aeabb.ppt

Количество слайдов: 55

Скрытые Марковские Модели 1 1 … 1 2 2 2 … … … K K K x 1 0 1 x 2 x 3 … … K x. L H 1 H 2 Hi HL-1 HL X 1 X 2 Xi XL-1 XL 0

Вероятности и вероятностные модели Вероятностная модель с множеством дискретных исходов 1. Бросание кости p 1, p 2, …. p 6 6 Spi =1 i=1 Вероятность последовательности выпадения значений P[5, 3, 2] = p 1 p 3 p 2 2. Случайные последовательности (аминокислоты или нуклеотиды) q 1, q 2, . qn – вероятности символов в последовательности Вероятность последовательности P(q 1 q 2…. qn) = П qi

Условные, совместные и полные вероятности Две кости D 1 и D 2. Одна кость – честная, другая - нечестная P(i|Dj) – вероятность выпадения i при условии, что была выбрана кость j P(Dj) – вероятность выбора кости P(i, Dj)=P(i|Di)P(Dj) условная вероятность совместная вероятность или в общем виде - P(X, Y)=P(X|Y) P(X) = S P(X, Y) = S P(X|Y)P(Y) Y полная вероятность Y Продемонстрировать на доске на примере пирога жизни

Вероятность и правдоподобие Вероятность (probability) и правдоподобие (likelihood) Функция правдоподобия L(Q|x) – это совместное распределение выборки из параметрического распределения, рассматриваемая как функция параметра. Сравните два вопроса: • «Какова вероятность выпадения подряд трех шестерок из трех бросков? » • «Насколько правдоподобно, что кости не шулерские, если из трех бросков выпало три шестерки? » Здесь параметр – шулерская или не шулерская кость Вероятность позволяет нам предсказывать неизвестные результаты, основанные на известных параметрах Правдоподобие позволяет нам оценивать неизвестные параметры, основанные на известных результатах. Правдоподобие – это всегда условная вероятность

Теорема Байеса и нечестное казино P(честная кость) =0. 99 P(нечестная кость) =0. 01 p 1=p 2=p 3=p 4=p 5=p 6=1/6 P 6=1/2 p 1=p 2=p 3=p 4=p 5=1/10 Как проверить, какая кость была здесь взята, честная или нет? Какова вероятность гипотезы о том, что в данном случае кость нечестная? P(3 шестерки|D нечестная) -? Эта вероятность и есть правдоподобность гипотезы

Теорема Байеса и нечестное казино Более правдоподобно, что мы выбрали честную кость, несмотря на то, что получили три шестерки

Цепи Маркова • Основное свойство – состояние системы в момент времени t+1 зависит ТОЛЬКО от состояния системы в момент t. Xt=1 Xt=2 Xt=3 Xt=4 Xt=5

Пример с погодой • дождь сегодня дождь завтра prr = 0. 4 • дождь сегодня нет дождя завтра prn = 0. 6 • нет дождя сегодня дождь завтра • нет дождя сегодня нет дождя завтра prr = 0. 8 pnr = 0. 2 Матрица переходов Стохастическая матрица 0. 6 0. 4 rain no rain 0. 2 Ряд суммируется в 1 8 0. 8

Пример с погодой 0. 6 0. 4 rain X(0)=(1, 0) X(1)=X(0)*P = (1, 0) x 0. 4 0. 6 = (0. 4 , 0. 6) 0. 2 0. 8 X(2)=X(1)*P= X(0) x P 2 = ( 1, 0) x 0. 8 no rain 0. 2 0. 4 0. 6 2 0. 28 0. 72 = (1, 0) x = (0. 28, 0. 72) 0. 2 0. 8 0. 24 0. 76 X(3) = ………………………………………………= (0. 256, 0. 744) n X(n)= X(0) x P = (1, 0) x 0. 4 0. 6 n = ……………………. = (0. 25, 0. 75) 0. 2 0. 8 Предсказание – 25% дней с дождем, 75% без дождя

Coke vs. Pepsi Если посетитель последний раз купил кока-колу, то вероятность того, что в следующий раз он опять купит кока-колу составляет 90%. Если же этот посетитель в последний раз купил пепси, то вероятность того, что в следующий раз он опять купит пепси составляет 80%. 0. 1 0. 9 0. 8 coke pepsi 0. 2 10

Coke vs. Pepsi Вопрос: исходя из того, что человек постоянно покупает пепси, какова вероятность того, что он начиная с настоящего времени два раза купит кока-колу? 0. 1 0. 9 0. 8 coke Матрица переходов: pepsi 0. 2 (это значение соответствует вероятности 1 покупки вперед) 11

Coke vs. Pepsi Вопрос: исходя из того, что человек постоянно покупает пепси, какова вероятность того, что он начиная с настоящего времени три раза купит кока-колу 12

Coke vs. Pepsi Предположим, что каждый человек один раз в неделю покупает кока-колу. Предположим, что в настоящее время 60% всех людей пьет кока-колу, и 40% пьют пепси. Какой процент людей будет пить кока-колу через три недели? Пусть (Q 0, Q 1)=(0. 6, 0. 4) начальные вероятности. кока-кола = 0 пепси = 1 13

Equilibrium (Stationary) Distribution • Предположим, что в настоящее время 60% всех людей пьет кока-колу, и 40% пьют пепси. • Какой процент людей будет пить кока-колу через 10, 1000, 10000 недель? • Для каждой недели вероятности хорошо определены. Сходятся ли они к какому-то равновесному распределению [p 0, p 1] • Если да, то должно иметь место 9 p 0+. 2 p 1 =p 0, . 8 p 1+. 1 p 0 =p 1 Решение: p 0= 2/3, p 1=1/3 14

Markov Process Coke vs. Pepsi Example (cont) Simulation: Pr[Xi = Coke] 2/3 stationary distribution 0. 1 0. 9 coke 0. 8 pepsi 0. 2 week -15 i

Равновесное (Стационарное) Распределение Является ли распределение стационарным, и является ли оно при этом единственным, определяется некоторыми свойствами процесса. Неприводимость - любое состояние достижимо из любого другого состояния Апериодичность – существует хотя бы одно состояние для которого возможен переход в самого себя. Положителная рекуррентность – для каждого состояния существует конечное число переходов. 0. 1 0. 9 0. 8 coke pepsi 16 0. 2

Равновесное (Стационарное) Распределение • Если Цепь Маркова положительно рекуррентная, то существует стационарное распределение • Если Цепь Маркова положительно рекуррентная и неприводимая, то существует единственное стационарное распределение. • Более того, если процесс был построен таким образом, что стационарное распределение было взято в качестве начального, то такой процесс является эргодическим. 17

Равновесное (Стационарное) Распределение • Пусть P – матрица переходов, а стационарное распределение – это вектор π , удовлетворяющий уравнению – Pπ = π. • В данном случае стационарное распределение π есть собственный вектор матрицы переходов, соответствующий собственному значению 1. 18

СКРЫТЫЕ Модели Маркова Hidden Markov Models

Скрытые Марковские Модели (вероятностные конечные автоматы) Очень часто у нас возникают ситуации, когда состояния не наблюдаются непосредственно. Поэтому: Hidden Markov Models (HMM) a 11 a 12 b 11 1 a 34 a 23 b 14 b 13 b 12 a 44 a 33 a 22 4 2 Наблюдаемые 3 aij вероятности переходов для состояний. bik - вероятности наблюдаемых (выходные вероятности). 20 b 11 + b 12 + b 13 + b 14 = 1, b 21 + b 22 + b 23 + b 24 = 1, etc.

Hidden Markov Models - HMM Hidden variables H 1 H 2 Hi HL-1 HL X 1 X 2 Xi XL-1 XL Observed data 21

Пример: Нечестное казино Собственно, что скрыто в данной модели? 22

Пример подбрасывания монеты Start 1/2 tail 1/2 Fair 0. 9 1/2 0. 1 tail 1/4 loaded 0. 9 3/4 head Fair/Loade d L tosses H 1 H 2 Hi HL-1 HL X 1 X 2 Xi XL-1 XL Head/Tail Вопрос1: Какова вероятность наблюдать такую последовательность (например, HHHTHTTHHT), при условии выбора данной моделиl? 23

Nucleotide frequencies in the human genome A C T G 29. 5 20. 4 20. 5 29. 6

Cp. G Островки Cp. G islands: части ДНК, обогащённые C и G q/4 A P q/4 G P Regular T q change P DNA q q P q q/4 C q/4 p/6 A (1 -P)/4 p/3 G (1 -q)/6 (1 -q)/3 p/3 P/6 C-G island 25 T C

Example: Cp. G islands • In human genome, CG dinucleotides are relatively rare – CG pairs undergo a process called methylation that modifies the C nucleotide – A methylated C mutate (with relatively high chance) to a T • Promotor regions are CG rich – These regions are not methylated, and thus mutate less often – These are called Cp. G islands 26

Cp. G Islands • We construct Markov chain for Cp. G rich and poor regions • Using maximum likelihood estimates from 60 K nucleotide, we get two models 27

Ratio Test for Cp. C islands Для конкретной последовательности X 1, …, Xn мы рассчитываем логарифм отношения правдоподобия 28

Empirical Evalation Гистограмма распределения весов, нормированных на длину. Cp. G островки – темносерые, а не. Cp. G островки – светло-серые Биты – так как логарифм по основанию 2

Finding Cp. G islands Simple Minded approach: • Pick a window of size N (N = 100, for example) • Compute log-ratio for the sequence in the window, and classify based on that Problems: • How do we select N? • What do we do when the window intersects the boundary of a Cp. G island? 30

A Different C-G Islands Model A G T C change A T Отличие скрытой от обычной G C C-G island? H 1 H 2 Hi HL-1 HL X 1 X 2 Xi XL-1 XL A/C/G/T 31

Alternative Approach • Build a model that include “+” states and “-” states маленькая вероятность перехода из одной цепи в другую • A state “remembers” last nucleotide and the type of region • A transition from a - state to a + describes a start of Cp. G island 32

Формальное определение HMM • Различаем последовательности состояний и последовательности символов • x – это последовательность символов, испускаемая моделью – Xi – это символ, испущенный в момент времени i • Пусть путь π - путь последовательности состояний. Сам путь проходит по обычной цепи Маркова. - i-ое состояние на пути - это i • Цепь характеризуется параметрами вероятности перехода между состояниями вероятность, что символ b возникает (испущен) в состоянии k, или эмиссионные вероятности

Пример: Нечестное казино p 1=p 2=p 3=p 4=p 5=p 6=1/6 • • P 6=1/2 p 1=p 2=p 3=p 4=p 5=1/10 Часто говорят, что P(x) – вероятность того, что x сгенерирован данной моделью Известно: – Структура модели – Вероятности переходов Скрыто: Что делает казино – FFFFFLLLLLLLFFFF. . . Наблюдаемые: последовательность бросков кости – 3415256664666153. . . Что нам нужно вычислить? : – Когда использовалась честная кость? – Когда использовалась нечестная кость? • Ответ представляет собой последовательность FFFFFFFLLLLLLFFF. . . 34

Имея модель, мы можем сгенерировать последовательность: первое состояние выбирается из распределения вероятностей состояний - a, • в этом состоянии наблюдение генерируется (испускается, emitted) по вероятностям e • Модель присваивает вероятность каждому объяснению наблюдений: P(326|FFL) = P(3|F)·P(F F)·P(2|F)·P(F L)·P(6|L) = 1/6 · 0. 99 · 1/6 · 0. 01 · ½ • Максимальное правдоподобие: нахождение более вероятного объяснения – Найти путь, который с наибольшей вероятностью сгенерирует наблюдаемую последовательность • Полная вероятность: вероятность, что наблюдаемая последовательность была сгенерирована HMM – Рассмотреть все пути, которые могли бы сгенерировать наблюдаемую последовательность

A “parse” of a sequence 1 1 … 1 2 2 2 … … … K K K x 1 0 1 x 2 x 3 0 … … K x. L Совместная вероятность последовательности наблюдений x и последовательности состояний π

The occasionally dishonest casino

The most probable path The most likely path * satisfies To find *, consider all possible ways the last symbol of x could have been emitted Let Then

The Viterbi Algorithm • Initialization (i = 0) • Recursion (i = 1, . . . , L): For each state k • Termination: To find *, use trace-back, as in dynamic programming

Viterbi: Example x B F L 6 2 6 1 0 0 (1/6) (1/2) = 1/12 (1/6) max{(1/12) 0. 99, (1/4) 0. 2} = 0. 01375 (1/6) max{0. 01375 0. 99, 0. 02 0. 2} = 0. 00226875 0 (1/2) = 1/4 (1/10) max{(1/12) 0. 01, (1/4) 0. 8} = 0. 02 (1/2) max{0. 01375 0. 01, 0. 02 0. 8} = 0. 08

The Viterbi Algorithm . . . k-2 k-1 states sequence k (i, k) k+1. . .

Viterbi: Traceback T( T( T(. . . T( T(i, L-1), L-2). . . , 2), 1), 0) = 0

Viterbi gets it right more often than not

Gp. C islands • (С+, G+, C+, G+) • (С-, G-, C-, G-) – меньше, чем первая, так как переход из С в G меньше в “-”состоянии, чем в “+”. • (С+, G-, C-, G+) – будет произведение маленьких вероятностей переключения туда и обратно (10 -4). Нужно найти

An HMM for Cp. G islands A: 1 C: 0 G: 0 T: 0 A: 0 C: 1 G: 0 T: 0 A: 0 C: 0 G: 1 T: 0 A: 0 C: 0 G: 0 T: 1 A+ C+ G+ T+ A- C- G- T- A: 1 C: 0 G: 0 T: 0 A: 0 C: 1 G: 0 T: 0 A: 0 C: 0 G: 1 T: 0 A: 0 C: 0 G: 0 T: 1 + Emission probabilities are 0 or 1. E. g. e. G-(G) = 1, e. G-(T) = 0 объединяем

An HMM for Cp. G islands стрелки - переходы из состояние в состояние

Алгоритм Витерби для Cp. G

Полная вероятность Для обычных цепей Маркова вероятность последовательности - Для HMM – много различных путей может приводить к наблюдению последовательности x. Вероятность, что наша модель испустит x Суммируем по всем путям Полная Вероятность Количество возможных путей экспоненциально растет с ростом длины последовательности

Полная вероятность Pr(x) может быть вычислена таким же способом, как и наиболее вероятный путь, заменив процедуру взятия максимума суммированием. Пусть Тогда и fk (i ) = ek (xi )åfr (i - 1)ark r Алгоритм просмотра вперед

Алгоритм просмотра вперед The Forward Algorithm • Инициализация (i = 0) • Рекурсия (i = 1, . . . , L): Для каждого состояния k • Завершение:

The Forward Algorithm : Probability of a Sequence Viterbi: the single most probable path Forward: sum over all paths i. e. , . . . k-2 k-1 states sequence k (i, k) k+1. . .

Апостериорная вероятность состояний • Сгенерированная последовательность известна – x 1…. . x. L • Какова вероятность того, что наблюдение xi появилось в состоянии k при данной последовательности наблюдений? Вероятность генерации всей последовательности, причем символ i сгенерирован в состоянии k Все, что сгенерировано после состояния k, зависит только от того, что сгенерировано в состоянии k

Апостериорная вероятность состояний Вероятность генерации всей последовательности, причем символ i сгенерирован в состоянии k Все, что сгенерировано после состояния k, зависит только от того, что сгенерировано в состоянии k Этот множитель вычисляется с помощью алгоритма просмотра вперед Этот множитель вычисляется с помощью алгоритма просмотра назад

Алгоритм просмотра назад

Апостериорное дешифрование Используется в добавление к дешифрованию Витерби Применяется, когда множество разных путей имеют практически ту же вероятность, что и наиболее вероятный путь.