Обзор ресурсов
Обзор ресурсов Информационный 22 January 2018 технологии в лингвистике
n 1. Профессиональные задачи и типы ресурсов n 2. Общие профессиональные информационные ресурсы (порталы по лингвистике, библиотеки и т. п. ) n 3. Лексикографические ресурсы n 4. Библиотеки текстов n 5. Корпуса n 6. Специализированные базы данных n 7. Специализированные программы обработки текстов Информационный технологии в 22 January 2018 лингвистике
1. Профессиональные задачи и типы ресурсов Информационный технологии в 22 January 2018 лингвистике
Наши профессиональные задачи: n изучение (освоение) некоторого языка n обучение языку n изучение языка как объекта исследования (изучение различных языковых явлений) n документация языков (документация данных языков, находящихся на грани исчезновения) n построение языковых моделей ü нам нужны доступные для анализа тексты ü нам нужны доступные словари и другие лексикографические ресурсы ü нам нужны специальные базы данных ü нам нужны специальные программы обработки текста Информационный технологии в 22 January 2018 лингвистике
Типы ресурсов n Информационные порталы n Электронные библиотеки по лингвистике и ее разделам n Электронные библиотеки нелингвистические n Специализированные лингвистические ресурсы: базы данных, корпуса, словари, энциклопедии n Специальные программы для обработки и представления материала n Электронные переводчики Информационный 22 January 2018 технологии в лингвистике
2. Общие профессиональные информационные ресурсы (порталы по лингвистике, библиотеки и т. п. ) Информационный технологии в 22 January 2018 лингвистике
Некоторые общие информационные ресурсы n http: //linguistlist. org/ - крупнейший сетевой ресурс для лингвистов всего мира n http: //www. sil. org/ - Международная организация по изучению, поддержке и документации малочисленных языков мира. Ссылки на многие лингвистические ресурсы, библиотека, программы для обработки текста, фонты и т. д. n http: //gramota. ru/ n http: //www. uow. edu. au/~dlee/CBLLinks. htm n Международная федерация переводчиков n http: //www. 7 brands. com/translation_associations_international. htm - страница с описанием ресурсов, библиотек и корпусов на английском и других языках Информационные технологии в 22 January 2018 лингвистике
Лингвистические порталы и сайты, рассылки, каталоги и т. п. n http: //uisrussia. msu. ru/linguist/index. jsp - Научно- образовательный портал "Лингвистика в России: ресурсы для исследователей" n http: //www. rvb. ru/soft/catalogue/index. html n http: //garshin. ru/linguistics/computational/index. html n http: //www. dialog-21. ru/ - ДИАЛОГ – междисциплинарная конференция, собирающий ведущих лингвистов, специалистов в области автоматической обработки языка, ведущие компании, работающие в области компьютерной лингвистики. n http: //philology. ru/ n http: //feb-web. ru/ Информационные технологии в 22 January 2018 лингвистике
Информация о народах и языках n http: //www. ethnologue. com - ресурс Летнего лингвистического института (SIL) http: //www. ethnologue. com http: //linguistics. buffalo. edu/people/faculty/dryer/database http: //www. nvtc. gov/lotw/ http: //www. uni-leipzig. de/%7 Eautotyp/ http: //ru. wikipedia. org/wiki/Языки мира http: //linguarium. iling-ran. ru/index. shtml - проект РАН - Ю. Коряков http: //starling. rinet. ru/indexru. htm - Вавилонская башня n Langue. DOC, созданного рабочей группой лингвистов- участников проекта по документированию малых языков России http: //www. philol. msu. ru/%7 Elanguedoc/rus/index. php Информационные технологии в 22 January 2018 лингвистике
Лексикографические ресурсы Информационные технологии в 22 January 2018 лингвистике
Словари и другие лексикографические ресурсы n http: //gramota. ru/ n http: //www. slovari. ru/ n http: //feb-web. ru/feb/dict. htm n http: //dict. ruslang. ru/ - словари, созданные на основе Национального корпуса русского языка n http: //dic. academic. ru/ n http: //linguistlist. org/sp/Dict. html Информационные технологии в 22 January 2018 лингвистике
Словари и другие лексикографические ресурсы n http: //lingvopro. abbyyonline. com/ru/Search/e n-ru/bag n http: //thesaurus. com/ n http: //www. visualthesaurus. com/ n http: //wordnetweb. princeton. edu/perl/webwn Информационные технологии в 22 January 2018 лингвистике
Словари и другие лексикографические ресурсы Задачи: n технологии создания словарных ресурсов n методы использования специальных лексикографических ресурсов Отдельное направление компьютерной лингвистики: n Компьютерная лексикография Информационные технологии в 22 January 2018 лингвистике
Библиотеки текстов nhttp: //feb-web. ru/ n http: //feb-web. ru/ - библиотека Мошкова n http: //www. perseus. tufts. edu/hopper/ n Английский: n http: //www. lib. lsu. edu/epubs/texts. html n http: //etext. lib. virginia. edu/collections/languages/english/ n http: //onlinebooks. library. upenn. edu/archives. html n http: //www. wmich. edu/teachenglish/subpages/literature/ar chives. htm n http: //catalog. heritage. edu/ n http: //ead. lib. virginia. edu/vivaxtf/search Информационные 22 January 2018 технологии в лингвистике
Корпуса Информационный технологии в 22 January 2018 лингвистике
Наши профессиональные задачи: n изучение (освоение) некоторого языка n обучение языку n изучение языка как объекта исследования (изучение различных языковых явлений) n документация языков (документация данных языков, находящихся на грани исчезновения) n построение языковых моделей нам нужны доступные для анализа тексты нам нужны доступные словари и другие лексикографические ресурсы нам нужны специальные базы данных нам нужны специальные программы обработки Информационный технологии в 22 January 2018 текста лингвистике
Чем может помочь компьютер? n Огромный объем текстов доступен в компьютерном виде (новостные полосы, библиотеки художественной литературы (см. Библиотеки текстов)) n Возможен доступ к достаточно большому количеству словарей в режиме on-line üЧто делать с текстами в компьютерном виде? üКак искать по тексту? => нужны корпуса 08. 02. 2008 17
Пример 1: Национальный корпус русского языка 08. 02. 2008 18
Понятие корпуса Лингвистический, или языковой, корпус те – большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. 08. 02. 2008 19
Корпус n Корпус – множество текстов, Ø отобранных исходя из некоторых принципов, Ø специально подготовленных, размеченных Ø Как правило, в корпусе с помощью специальных программ можно искать необходимые фрагменты текста по заданным параметрам (например, множество текстов одного жанра или автора, множество строчек или предложений, в которых встретилось конкретное слово или словосочетание, множество существительных в родительном падеже и т. п. ), ср. поиск страничек в Интернете по множеству ключевых слов при помощи поисковых программ. 08. 02. 2008 20
Национальный корпус n это собрание текстов в электронной форме, представляющих данный язык (на определенном этапе его существования), отображающий данный язык во всем многообразии жанров, стилей, территориальных и социальных вариантов и т. п. n Общепризнанным и образц а м и явля ю тся , частности, Британский национальный корпус (BNC), на который ориентированы и многие другие корпуса; среди славянских корпусов выделяется Чешский национальный корпус , созданный в Карловом университете Праги, n Русский национальный корпус. 08. 02. 2008 21
Корпус vs. электронная библиотека n Примеры коллекции текстов: n «библиотека Максима Мошкова» , n «Русская виртуальная библиотека» ), n «Фундаментальная электронная библиотека» русской классической литературы, ориентированная на академический режим подачи текстов, максимально точное воспроизведение авторитетных печатных изданий. 08. 02. 2008 22
Корпус vs. электронная библиотека n Чем они различаются? 08. 02. 2008 23
Национальный корпус: особенности è “Во-первых, он характеризуется представительностью, или сбалансированным составом текстов. n Это означает, что корпус содержит по возможности все типы письменных и устных текстов, представленные в данном языке (художественные разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т. п. ), и что все эти тексты входят в корпус по возможности пропорционально их доле в языке соответствующего периода. Следует иметь в виду, что хорошая представительность достигается только при значительном объеме корпуса (десятки и сотни миллионов словоупотреблений)”. Национальный корпус русского языка. Что такое корпус? http: //ruscorpora. ru/corpora-intro. html 08. 02. 2008 24
Национальный корпус: особенности Электронная библиотека vs. корпус è «Во-вторых, корпус содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). n Разметка — главная характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек» ) текстов G Библиотеки в необработанном виде для научных исследований языка пригодны очень ограниченно. Не следует забывать также, что библиотеки создаются теми, кому интересно в большей степени содержание текстов, чем их языковые качества» . Национальный корпус русского языка. Что такое корпус? http: //ruscorpora. ru/corpora-intro. html 08. 02. 2008 25
Национальный корпус: особенности Электронная библиотека vs. корпус n «Для составителей Национального корпуса такие факторы, как увлекательность или полезность книги, ее высокие художественные или научные достоинства являются важными, но не первостепенными. Национальный корпус, в отличие от электронной библиотеки, — это не собрание «интересных» или «полезных» текстов; это собрание текстов, интересных или полезных для изучения языка. А такими могут оказаться и роман второстепенного писателя, и запись обычного телефонного разговора, и типовой договор аренды и т. п. — наряду, конечно, с классическими произведениями художественной литературы» . Национальный корпус русского языка. Что такое корпус? http: //ruscorpora. ru/corpora-intro. html 08. 02. 2008 26
корпус поможет, например, n быстро, более полно и более последовательно составить словарь (лексикографическое описание интересующего нас слова, группы слов), оценить, как часто оно употребляется в том или ином своем значении n выделить множество его значений (более полное) n проверить свою формальную теорию n исследование некоторого языкового явления на большом массиве текстов может привести к неожиданным выводам, которые невозможно получить другим путем n может предоставить доказательную базу для подтверждения той или иной гипотезы n провести социолингвистические исследования (например, сравнить особенности употребления той или иной лексики мужчинами и женщинами) 08. 02. 2008 27
корпус поможет, например, n определить тенденции языковых изменений, сравнивая современные тексты с текстами, созданными в другой исторический период (например, сравнить употребление деепричастных оборотов в середине 20 в. и сейчас) n провести контент-анализ современной прессы (например, проследить, какие слова и выражения ассоциируются с понятием «власть» в тот или иной период времени или в прессе той или иной политической направленности) 08. 02. 2008 28
Пример 2: 08. 02. 2008 29
Пример 3. Частотный список лексем, построенный по некоторому тексту 08. 02. 2008 30

