АСП - Лекция_01.ppt
- Количество слайдов: 17
Анализ символьных последовательности различной языковой природы Мирошниченко Любовь Александровна Институт математики СО РАН luba@math. nsc. ru 1
Объект исследования: символьные последовательности различной языковой природы. – непустое конечное множество символов (алфавит); T = t 1 t 2…t. N (ti , 1 i N) – последовательность символов, цепочка символов, текст, строка, слово. Примеры: • слова, предложения, …, тексты естественного языка; • музыкальные тексты (песенные мелодии); • древнерусские церковные песнопения; • тексты программ; • ДНК, РНК (| | = 4); аминокислотные послед. (| | = 20); • порядки генов; порядки дисков политенных хромосом; • последовательность действий; • двоичные последовательности; • формальные последовательности. 2
ДНК и аминокислотные последовательности • ДНК: Σ = {A, C, G, T}, РНК: Σ = {A, C, G, U}; • Белки практически всех живых организмов построены из аминокислот всего 20 видов. 3
Polytene chromosomes Cytophotomap of arm A of the species C. piger
Пример древнерусской церковной рукописи 5
Знамена (крюки) Примеры начертаний: – крюк: e 2; – палка; – чашка: d 4 c 4 – стрела простая: f 1 (e 1…) – стрела поводная с облачком и оттяжкой: d 4 e 4 f 2. d 4 – голубчик борзый: c 4 d 4 (d 4 e 4, e 4 f 4 …) – хамила: H 4 H 4 A 2 – змийца со статьей: d 4 e 4 d 4. c 8 H 4 Примеры толкований: – стопица с очком: назад отшибнуть гортанью, вскочить и опуститься на голубчик или на скамейцу: e 4 d 4 (d 4 c 4…) – сложитие: покудрить гортанью: f 8 e 8 f 4, g 4 f 4… 6
Двознаменник 7
Кодировка песнопений из двознаменника Первый и шестой символ кода – степенные и указательные пометы • Степенные – указывают высоту распева знамен. • Указательные пометы ( – тихая, – борзая…) определяют характер исполнения распева знамен. Знамена кодируются четырехсимвольным кодом. Длительности звуков: – 1 (целая), – 2, – 4, – 8 H 4 – четвертная нота «си» малой октавы 8
Пример кодировки песнопения из двознаменника (m 0401 -c 2 Во)(v 0121 -e 2 нми)(r 0121 -e 2 зе)(r 0111 -e 2 мле) (r 0211 -e 4 d 4 и)(r 1941 -c 4 d 4 e 2 не)(p 1011 -d 1 бо)(v 0901 -c 4 e 4 и) (p 0302 -d 4 c 4 вну)/ (-0501 Td 2 e 2 ши) (*1021 -f 1 )(-0511 -d 4 e 4 гла)(#0141 -f 2 го)(-1601 Ld 4 e 4 лы) (-0901 -d 4 c 4 мо)(-1002 -d 1 я)(-1001 -c 1 )(m 0211 -c 4 H 4 воз) (-0511 -c 4 d 4 гла)/ (v 0121 -e 2 го)(r 0121 -e 2 лю)(r 0211 -e 4 d 4 бо)(-0511 -c 4 d 4 на) (v 0301 -e 2 зе)(p 1001 -d 1 мли)(v 0905 Td 2 e 2 бо)(p 0111 -d 2 жи) (p 1861 -c 2 d 1 я)(p 0201 -d 2 чю)(m 0301 -c 2 де)(-2801 -H 1 са. )/@ 9
Основные задачи анализа текста • поиск образцов; • восстановление структуры текста: выявление повторов (периодичностей, симметрий …); • сравнение последовательностей: разные определения расстояний и мер близости; • сложность текста • сегментация, фрагментация, выделение структурных единиц… 10
Формальные языки и грамматики – алфавит; T = t 1 t 2…t. N (ti , 1 i N) – строка (слово, текст) ; N = | T | – длина строки T; T[1 : p] = t 1 t 2…tp – префикс слова (1 p N), T[k : N] = tktk+1…t. N – суффикс (1 k N), T[k : p] = tktk+1…tp – подслово (1 k p N); е – пустая строка (| e | = 0); * – множество всех слов (строк) в алфавите , включая e. Язык L над – произвольное множество слов в (L *). Конкатенация языков L 1 и L 2 есть L 1 L 2 = { α β: α L 1, β L 2}. L* : итерация языка L : L 0 = {ε}, Ln = LLn 1 для n 1, 11
Порождающей грамматикой называется четверка G = ( , N, P, S), где – алфавит терминальных символов, из которых составляются «слова» языка ( L(G) *); N – алфавит нетерминальных символов (или переменных); N = ; P – конечное множество правили вывода вида , где (N )* N (N )*, (N )*; S – выделенный символ из N, называемый начальным (или исходным). Формальная грамматика позволяет получить все цепочки данного языка и только их. Формальные грамматики были введены Хомским (1956 г). Им же определена классификация грамматик в зависимости вида применяемых правил вывода (иерархия Хомского). 12
Иерархия Хомского Пусть G = ( , N, P, S) – грамматика. G называется: • праволинейной, если каждое правило из P имеет вид A αB, где A, B N и *; • праволинейная грамматика называется регулярной (или автоматной), если все ее правила имеют вид A a. B или A a, где A, B N и a • контекстно- свободной, если каждое правило из P имеет вид A α, где A N и (N )* • контекстно- зависимой (или неукорачивающейся), если каждое правило из P имеет вид β, где , β (N )* и | | ≤ | β |. • Грамматика, на которую не накладывается ни одно из указанных ограничений, называется грамматикой составляющих. Языки называются праволинейными, КС или КЗ в зависимости от того, какой грамматикой он порожден. 13
Пример формальной грамматики Пусть G = ({a, b, c}, {A, B, S}, P, S), где правила вывода P имеют вид: S AB, A ac, B b, В cb. Данная грамматика позволяет получить всего 4 вывода терминальных строк: (1) S AB a. B ab (2) S AB a. B acb (3) S AB acb (4) S AB accb L(G) = {ab, accb}. Для строки acb имеются два разных вывода. 14
Пример. Арифметические выражения = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, +, – , * , / , ( , ) } N = {ФОРМУЛА, ЗНАК, ЧИСЛО, ЦИФРА }; S = ФОРМУЛА Правила: 1. ФОРМУЛА ЗНАК ФОРМУЛА 2. ФОРМУЛА ЧИСЛО 3. ФОРМУЛА (ФОРМУЛА) 4. ЗНАК + | – | * | / 5. ЧИСЛО ЦИФРА 6. ЧИСЛО ЦИФРА 7. ЦИФРА 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 Пример вывода (12 + 5) * 3 ФОРМУЛА 1 ФОРМУЛА ЗНАК ФОРМУЛА 4 ФОРМУЛА * ФОРМУЛА 2 ФОРМУЛА * ЧИСЛО 5 ФОРМУЛА * ЦИФРА 7 ФОРМУЛА * 3 3 (ФОРМУЛА) * 3 1 (ФОРМУЛА ЗНАК ФОРМУЛА) * 3 4 (ФОРМУЛА + ФОРМУЛА) * 3 2 (ФОРМУЛА + ЧИСЛО) * 3 5 (ФОРМУЛА + ЦИФРА) * 3 7 (ФОРМУЛА + 5) * 3 2 (ЧИСЛО + 5) * 3 6 (ЧИСЛО ЦИФРА + 5) * 3 5 (ЦИФРА + 5) * 3 7 (1 2 + 5) * 3 • • 15
Конечные автоматы средство распознавания Детерминированный конечный автомат – это пятерка M = (S, , δ, s 0, F), где S – конечное множество состояний; – алфавит; δ : S S – функция переходов; s 0 S – выделенное начальное состояние; F S – множество заключительных состояний; ДКА, допускающий {ab, accb}. 0 a b 1 c 2 b 3 c 4 b 6 5 16
Формальные последовательности Последовательность Туэ - Морса Способы задания 1. итерации морфизмов. = {a 1…aq} : *→ * – морфизм, если (XY) = (X) (Y) слов X и Y. = {0 → 01, 1 → 10}. X 0 = 0, X 1 = 01, X 2 = 0110, X 3 = 01101001, X 4 = 011010010110 … 2. X[i] = 0, если число единиц в двоичной записи числа i чётно, X[i] = 1, в противном случае. 3. Итеративный способ: X[0] = 0, X[2 i] = X[i], X[2 i+1] = ((X[i] + 1) mod 2 Cвойства последовательности Туэ-Морса: 1. Отсутствуют подслова вида VVV. 2. X 2 n = Xn Xn. R : слово, полученное на чётном шаге является палиндромом. Чи сла Фибона ччи — 0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, … Последовательность Фибоначчи X 0 = 0, X 1 = 01, Xn = Xn-1 Xn-2 X 2 = 01. 0, X 3 = 010. 01, X 4 = 01001. 010, X 5 = 01001010. 01001 Морфизм: = {0 → 01, 1 → 0} 17
АСП - Лекция_01.ppt