Скачать презентацию Регулярные выражения в корпус-менеджере Ant Conc http Скачать презентацию Регулярные выражения в корпус-менеджере Ant Conc http

AntConc_RegExp_2016.ppt

  • Количество слайдов: 45

Регулярные выражения в корпус-менеджере Ant. Conc [ http: //www. antlab. sci. waseda. ac. jp/antconc_index. Регулярные выражения в корпус-менеджере Ant. Conc [ http: //www. antlab. sci. waseda. ac. jp/antconc_index. html] сайт программы:

/РЕГУЛЯРНЫЕ ВЫРАЖЕНИЯ: определение Регулярные выражения (regular expressions)|регекспы — компактная форма записи представления о коллекции /РЕГУЛЯРНЫЕ ВЫРАЖЕНИЯ: определение Регулярные выражения (regular expressions)|регекспы — компактная форма записи представления о коллекции строк (М. Лангартен). EX: s[а-я]{2}s ДЛЯ КОЛЛЕКЦИИ двухбуквенных слов (кириллица, нижний регистр) !КОДИРОВКА и ИНТЕРВАЛЫ (ниже) /Являются развитием символов-джокеров ( )

Ant. Conc: окно настройки символовджокеров. Символы-джокеры в текстовом процессоре MMS Word: <…> Reg. Exp Ant. Conc: окно настройки символовджокеров. Символы-джокеры в текстовом процессоре MMS Word: <…> Reg. Exp в TC ; виды поддерживающего Reg. Exp ПО: <…>

Какие программы поддерживают работу с регекспами? - on-line конструкторы регулярных выражений: URL: http: //gskinner. Какие программы поддерживают работу с регекспами? - on-line конструкторы регулярных выражений: URL: http: //gskinner. com/Reg. Exr/, http: //realcode. ru/regexptester/ - … - утилиты для работы с Reg. Exp; - модули работы с Reg. Exp в составе Python, Ruby, Perl.

Цели применения регулярных выражений: • Проверка соответствия фрагментов текста заданному шаблону; • Поиск коллекции Цели применения регулярных выражений: • Проверка соответствия фрагментов текста заданному шаблону; • Поиск коллекции подстрок (доступно в Ant. Conc); • Поиск по шаблону и замена на указанную строку; • Разбиение по заданным шаблоном совпадениям. (М. Лангартен)

!И у искусственных языков есть диалекты Диалекты регексп для Java, Java. Script, PCRE, Perl, !И у искусственных языков есть диалекты Диалекты регексп для Java, Java. Script, PCRE, Perl, Python, Ruby etc.

Введение в синтаксис регулярных выражений (диалект Ant. Conc) СОКРАЩЕНИЯ ДЛЯ СИМВОЛЬНЫХ КЛАССОВ . любой Введение в синтаксис регулярных выражений (диалект Ant. Conc) СОКРАЩЕНИЯ ДЛЯ СИМВОЛЬНЫХ КЛАССОВ . любой символ (кроме перевода строки) или символ точки (внутри символьного класса: [. ]) w символ «слова» (0 -9 тоже) d цифра s пробельный символ b граница слова

Введение в синтаксис регулярных выражений (диалект Ant. Conc) Определение символьных классов: • перечислением: [абвгдеёжз], Введение в синтаксис регулярных выражений (диалект Ant. Conc) Определение символьных классов: • перечислением: [абвгдеёжз], • интервалом: [а-з]. • Отрицание: знак ^ внутри квадратных скобок [ои] о или и: к[ио]т ДЛЯ кит, кот [^КЛАСС] НЕ символ о: к[^о]т ДЛЯ кит, (вторая буква любая, но не о)

!Регистр при вводе начала интервала Синонимы: • [А-Яа-яёЁ] • [А-яёЁ] !Регистр при вводе начала интервала Синонимы: • [А-Яа-яёЁ] • [А-яёЁ]

Введение в синтаксис регулярных выражений (диалект Ant. Conc) СОКРАЩЕНИЯ ДЛЯ СИМВОЛЬНЫХ КЛАССОВ И ИХ Введение в синтаксис регулярных выражений (диалект Ant. Conc) СОКРАЩЕНИЯ ДЛЯ СИМВОЛЬНЫХ КЛАССОВ И ИХ СИНОНИМЫ w символ «слова» (0 -9 тоже) ! Не синоним: [А-яЁё] d s b цифра Синонимы: пробельный символ • [0 -9] • [0123456789] !Не синоним: граница слова набрать пробел --

Введение в синтаксис регулярных выражений (диал. Ant. Conc) Квантификаторы (е -- «выражение» ): e{n} Введение в синтаксис регулярных выражений (диал. Ant. Conc) Квантификаторы (е -- «выражение» ): e{n} n вхождений е e{n, m} от n до m вхождений е e+ 1 и более вхождений e Синоним: e{1, } е* 0 и более вхождений e Синоним: e{0, } Для букв: функционально -- синоним: e{0, 100} e? 0 или 1 вхождение е Синоним: e{0, 1}

! s[A-DE-Z]+ синоним: s[A-Z]+ ! s[A-DE-Z]+ синоним: s[A-Z]+

Экранирование символов Символ слеша () применяется для экранирования служебных символов. Альтернатива: ввести экранируемый символ Экранирование символов Символ слеша () применяется для экранирования служебных символов. Альтернатива: ввести экранируемый символ в квадратных скобках. Для поиска точки: . или [. ] Для поиска квадратной скобки: [ или [[] Для поиска знака +: + или [+]

!А. Запрос: w !А. Запрос: w

Запрос: w{2, 3}. Q. Почему при таком запросе в выдачу попадают контексты с цифрами Запрос: w{2, 3}. Q. Почему при таком запросе в выдачу попадают контексты с цифрами ? Б. Разбор

Задание: создать регулярное выражение для поиска слов с дефисным написанием (в слове м. б. Задание: создать регулярное выражение для поиска слов с дефисным написанием (в слове м. б. БОЛЕЕ одного дефиса). В. Задание Содержимое тестового файла: Это тестовый файл для поиска слов с дефисом: как-то и сине-желтозелёный, Х-лучи. Число Миллера-Ингве тест. Тест ООО "Гарант-Парк-Интернет" тест. Тест АИ-тезаурус тест. Тест Санкт-Петербургский тест. Тест изд-во тест. РЕШЕНИЕ: b([а-яёА-ЯЁ]+-){1, 3}[а-яёА-ЯЁ]+b Красным выделены квантификаторы. b обозначение границы текста См. окно Ant. Conc

 В. Задание: создать регулярное выражение, сопоставимое с записью e-mail. Материал: тексты (РКТ_utf-8_txt) В. Задание: создать регулярное выражение, сопоставимое с записью e-mail. Материал: тексты (РКТ_utf-8_txt)

/Прием: анализ выдачи по ~диагностич. фрагменту 146 b(w+[. -]){0, 7}w+@(w+[. -]){0, 7}w+b /Прием: анализ выдачи по ~диагностич. фрагменту 146 b(w+[. -]){0, 7}w+@(w+[. -]){0, 7}w+b

Решение: b(w+[. -]){0, 7}w+@(w+[. -]){0, 7}w+b Разбор: b (w+[. -]){0, 7} w+ @(w+[. -]){0, Решение: b(w+[. -]){0, 7}w+@(w+[. -]){0, 7}w+b Разбор: b (w+[. -]){0, 7} w+ @(w+[. -]){0, 7}w+b

Сохранение с нулевым окном Сохранение с нулевым окном

/ «Жадные» и «ленивые» квантификаторы «Жадный» : d+ «Ленивый» : d+? / «Жадные» и «ленивые» квантификаторы «Жадный» : d+ «Ленивый» : d+?

 «Жадные» и «ленивые» квантификаторы Дан текст: «Жадные» и «ленивые» квантификаторы Дан текст: "В невисокосном году 365 дней. " Что будет найдено по рег. выражению d+?

ЗАДАНИЕ: Создайте регулярное выражение, соответствующее записи URL, данной в квадратных скобках. РЕШЕНИЕ: [http: //www[^]]+] ЗАДАНИЕ: Создайте регулярное выражение, соответствующее записи URL, данной в квадратных скобках. РЕШЕНИЕ: [http: //www[^]]+]

Текст:
Джон Ячменное Зерно Трех королей разгневал он, И было решено, Что навсегда погибнет Джон Ячменное Зерно. Задача: составить рег. выр. для поиска тегов , где указан атрибут type="person". Решение: ]*? type="person"[^>]*? > /Разбор

Создайте регулярное выражение, описывающее все URL (сюда должны входить и ссылки на размещение файлов Создайте регулярное выражение, описывающее все URL (сюда должны входить и ссылки на размещение файлов типа http: //www. file. ua/doc. pdf , http: //site. uk и т. п. ). РЕШЕНИЕ: • http: //(www)? [^s]+ ! В чем ошибка: • http: //(www)? [^s]. +

Кодировка и интервалы Для использования последовательностей букв необходимо установить правильную кодовую страницу, в которой Кодировка и интервалы Для использования последовательностей букв необходимо установить правильную кодовую страницу, в которой эти последовательности будут идти в порядке от и до указанных символов. Для русского языка это Windows-1251, ISO 8859 -5 и Юникод, так как в DOS-855, DOS-866 и KOI 8 -R русские буквы не идут одной целой группой или не упорядочены по алфавиту. Отдельное внимание следует уделять буквам с диакритическими знаками, наподобие русских Ё/ё, которые, как правило, разбросаны вне основных диапазонов символов. [WIKI]

/Содержимое тестового файла Это тестовая фраза для поиска слов с буквой Ё (например, здесь: /Содержимое тестового файла Это тестовая фраза для поиска слов с буквой Ё (например, здесь: развесёлый ЁлкинЁжиков, или просто Ёлкин).

Ср. : win-1251: [А-Я][а-яё]+ Ё[а-яё]+ Ср. : win-1251: [А-Я][а-яё]+ Ё[а-яё]+

Ё[а-яё]+ /Содержимое тестового файла: Это тестовая фраза для поиска слов с буквой Ё (например, Ё[а-яё]+ /Содержимое тестового файла: Это тестовая фраза для поиска слов с буквой Ё (например, здесь: развесёлый Ёлкин-Ёжиков, или просто Ёлкин). Q: почему не найдено слово развесёлый по регулярному выражению Ё[а-яё]+

/Файл-1 Это тестовая фраза для поиска слов с Ё: ёлка, ёжик и ёлка зелёная, /Файл-1 Это тестовая фраза для поиска слов с Ё: ёлка, ёжик и ёлка зелёная, слово "ёжик" в скобках, то да сё. /Файл-2 Это тестовая фраза для поиска слов с буквой Ё (например, здесь: развесёлый ЁлкинЁжиков, или просто Ёлкин). Задача: составить регэксп для поиска всех слов с ё в нижнем регистре.

Reg. Exp: bw*(ё+w*)+ё*b Reg. Exp: bw*(ё+w*)+ё*b

Регекспы или выражения с символами-джокерами? Выражение с символами-джокерами Регексп Словоформы на –ость (Q: словоформы Регекспы или выражения с символами-джокерами? Выражение с символами-джокерами Регексп Словоформы на –ость (Q: словоформы с дефисом? С цифрой? ) [А-яёЁ]+ость *ость или допустимо: w+ость Букво-цифровые словоформы (кириллица) НЕТ [А-яёЁ]+-d+ ДС вида «жительница + название города с суффиксоидом -град-» жительниц* *града|жительниц* *города (!выйдет также жительница города, жительница пригорода и т. д. ) bжительницw+s+[А-Я]w+(города|града)b

RE RE

Алгоритм создания ЧС для опорных элементов по маске: вариант-1 • Инструмент Concordance: создать конкорданс Алгоритм создания ЧС для опорных элементов по маске: вариант-1 • Инструмент Concordance: создать конкорданс с нулевым окном. • Tool Preferences: Concordance. Отключить показ номера контекста и имени файла • Сохранить выдачу. • Tool Preferences: Word List. Загрузить выдачу в список слов предпочтения • Инструмент Word List. Запустить (Start). При необходимости изменить параметры сортировки.

Алгоритм создания ЧС для опорных элементов по маске: вариант-2 • Инструмент Concordance: создать конкорданс Алгоритм создания ЧС для опорных элементов по маске: вариант-2 • Инструмент Concordance: создать конкорданс с нулевым окном. • Tool Preferences: Concordance. Отключить показ номера контекста и имени файла • Сохранить выдачу. • Закрыть тексты текущего корпуса. • Загрузить сохраненную выдачу. • Инструмент Word List. Запустить (Start). При необходимости изменить параметры сортировки.

!Demo Способ-3: через коллокаты (см. скринкаст) !Demo Способ-3: через коллокаты (см. скринкаст)

Q: Что будет найдено по маске? мог++ *ть|мог++ *ться|мог++ *тись може? + *ть|може? + Q: Что будет найдено по маске? мог++ *ть|мог++ *ться|мог++ *тись може? + *ть|може? + *ться|може? + *тись Q: Эта сложная маска синонимична предыдущей? мог++ *тьс? може? + *тьс? О шуме в выдаче по маскам и пределах совершенства

Проверки регулярных выражений Проверки регулярных выражений

EX, demo ТЕКСТ Пример-1 запроса: (? <="). + школьник. +(? =" name="title") В выдачу попадут заголовки со словоформами слова школьник.

" src="https://present5.com/presentation/98107152_437526403/image-42.jpg" alt=" " /> ТЕКСТ Пример-2 запроса: (? <="). +(? =" name="title") В выдачу попадут все заголовки. По аналогии создаются запросы на извлечение всех значений прочих метапараметров.

!Флаг (действует на сокращение символьного класса) ТЕКСТ content="Новости с границы"sname="topic"(? s). *контрабанд По запросу будут найдены документы с меткой рубрики «Новости с границы» , содержащие текстовый фрагмент контрабанд.

" src="https://present5.com/presentation/98107152_437526403/image-44.jpg" alt=" " /> ТЕКСТ Пример-4 запроса: content=(? i)". *праздник. *"sname="title"(? s). *ш кол По запросу будут найдены документы, в заголовке содержащие текстовый фрагмент праздник (в любом регистре) и в основном тексте содержащие текстовый фрагмент школ (в любом регистре).

" src="https://present5.com/presentation/98107152_437526403/image-45.jpg" alt=" " /> ТЕКСТ Что попадет в выдачу по запросу: (? <="). +(? =" name="topic")