Скачать презентацию СОВРЕМЕННЫЕ ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ ОСНОВНЫЕ КОМПЬЮТЕРНЫЕ КОРПУСЫ q Скачать презентацию СОВРЕМЕННЫЕ ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ ОСНОВНЫЕ КОМПЬЮТЕРНЫЕ КОРПУСЫ q

MM_20_Modern Corpora.ppt

  • Количество слайдов: 19

СОВРЕМЕННЫЕ ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ СОВРЕМЕННЫЕ ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ

ОСНОВНЫЕ КОМПЬЮТЕРНЫЕ КОРПУСЫ q 1960 -е: Брауновский корпус, (США), 1 млн. слов q 1970 ОСНОВНЫЕ КОМПЬЮТЕРНЫЕ КОРПУСЫ q 1960 -е: Брауновский корпус, (США), 1 млн. слов q 1970 -е: LOB корпус (Великобритания, Норвегия), 1 млн. q Уппсальский корпус русского языка (Швеция), 1 млн. q 1990 -е: British National Corpus, 100 млн. q Национальный корпус русского языка, 140 млн. q Oxford English corpus, 2 млрд.

БРАУНОВСКИЙ КОРПУС (BROWN CORPUS) Первый лингвистический корпус Создан в 1960 -е гг. в Брауновском БРАУНОВСКИЙ КОРПУС (BROWN CORPUS) Первый лингвистический корпус Создан в 1960 -е гг. в Брауновском университете (США) У. Френсисом и Г. Кучерой Корпус содержал около 500 текстов объемом 2000 печатных знаков каждый, написанных на американском варианте английского языка. Корпус включал морфологическую и синтаксическую разметку.

БРИТАНСКИЙ НАЦИОНАЛЬНЫЙ КОРПУС БРИТАНСКИЙ НАЦИОНАЛЬНЫЙ КОРПУС

BRITISH NATIONAL CORPUS HTTP: //WWW. NATCORP. OX. AC. UK/ HTTP: //CORPUS. BYU. EDU/BNC v BRITISH NATIONAL CORPUS HTTP: //WWW. NATCORP. OX. AC. UK/ HTTP: //CORPUS. BYU. EDU/BNC v Представительный корпус британского английского языка v По его образцу создавались многие современные корпуса различных языков. v Включает метатекстовую и частеречную разметку, характеризуется использованием полных текстов и наличием подкорпуса устной речи. v Объем корпуса – свыше 100 млн. словоупотреблений.

OXFORD ENGLISH CORPUS Самый большой из когда-либо созданных: свыше 2 млрд. словоупотреблений. Используется составителями OXFORD ENGLISH CORPUS Самый большой из когда-либо созданных: свыше 2 млрд. словоупотреблений. Используется составителями Оксфордских словарей. Содержит как письменные тексты, так и записи устной речи, датированные 2000 -2006 гг.

 КОРПУС СОВРЕМЕННОГО АМЕРИКАНСКОГО АНГЛИЙСКОГО (THE CORPUS OF CONTEMPORARY AMERICAN ENGLISH, COCA) Самый большой КОРПУС СОВРЕМЕННОГО АМЕРИКАНСКОГО АНГЛИЙСКОГО (THE CORPUS OF CONTEMPORARY AMERICAN ENGLISH, COCA) Самый большой корпус английского языка, находящийся в свободном доступе (сайт http: //corpus. byu. edu/coca/). Создан М. Дэвисом (Brigham Young University, США) в 2008 году. COCA содержит 445 млн. словоупотреблений и включает тексты с 1990 года по настоящее время. Корпус обновляется два раза в год и удобен для отслеживания динамики лингвальных изменений.

AMERICAN NATIONAL CORPUS AMERICAN NATIONAL CORPUS

AMERICAN NATIONAL CORPUS HTTP: //WWW. AMERICANNATIONALCORPUS. ORGOANC/INDEX. HTML / Создается по образцу Британского национального AMERICAN NATIONAL CORPUS HTTP: //WWW. AMERICANNATIONALCORPUS. ORGOANC/INDEX. HTML / Создается по образцу Британского национального корпуса. Планируется создание представительного корпуса объемом 100 млн. словоупотреблений. В настоящий момент готова первая версия корпуса объемом 15 млн. словоупотреблений. Представлены как письменные тексты, так и записи устной речи. Доступен для скачивания.

THE BANK OF ENGLISH (COBUILD CORPUS) HTTP: //WWW. COLLINSLANGUAGE. COM/CONTENTSOLUTIONS/WORDBANKS Постоянно пополняемый корпус английского THE BANK OF ENGLISH (COBUILD CORPUS) HTTP: //WWW. COLLINSLANGUAGE. COM/CONTENTSOLUTIONS/WORDBANKS Постоянно пополняемый корпус английского языка, характеризующийся большим объемом (524 млн. словоупотреблений). v В состав корпуса входят различные типы письменных текстов и устной речи. v Корпус включает метатекстовую разметку, а также частеречную с элементами морфологической разметку. v В общедоступной версии корпуса существует возможность выбора подкорпуса: британские книги, газеты, журналы, радиопередачи и др. v

CAMBRIDGE INTERNATIONAL CORPUS Cоздавался как база для составления учебных материалов и словарей английского языка. CAMBRIDGE INTERNATIONAL CORPUS Cоздавался как база для составления учебных материалов и словарей английского языка. Свыше 700 млн. словоупотреблений. В корпус вошли британские и американские тексты разных типов, записи устной речи носителей британского и американского вариантов английского языка. Отдельный подкорпус образуют тексты экзаменационных работ студентов из разных стран, изучающих английский язык в качестве иностранного.

МЕЖДУНАРОДНЫЙ КОРПУС АНГЛИЙСКОГО ЯЗЫКА МЕЖДУНАРОДНЫЙ КОРПУС АНГЛИЙСКОГО ЯЗЫКА

http: //www. ucl. ac. uk/english-usage/projects/ice. htm v. Отражает словоупотребление в различных вариантах английского языка http: //www. ucl. ac. uk/english-usage/projects/ice. htm v. Отражает словоупотребление в различных вариантах английского языка (23 страны). v. Каждый подкорпус включает письменные тексты разных типов и записи устной речи. v. Объем каждого национального подкорпуса – 1 млн. словоупотреблений.

НЕМЕЦКИЙ ЯЗЫК Корпус Берлинской Бранденбургской академии наук (DWDS-Corpus) http: //www. dwds. de/pages_textba/dwds_textba. ht m НЕМЕЦКИЙ ЯЗЫК Корпус Берлинской Бранденбургской академии наук (DWDS-Corpus) http: //www. dwds. de/pages_textba/dwds_textba. ht m Корпус послужил основой для Цифрового словаря немецкого языка XX в. (DWDS) Немецкая лексика онлайн (Projekt Deutscher Wortschatz) http: //wortschatz. uni-leipzig. de/ Содержит 35 млн предложений с 500 млн слов

ФРАНЦУЗСКИЙ ЯЗЫК Корпус французского языка(Corpus de Référence du Français parlé) http: //sites. univprovence. fr/delic/corpus/index. ФРАНЦУЗСКИЙ ЯЗЫК Корпус французского языка(Corpus de Référence du Français parlé) http: //sites. univprovence. fr/delic/corpus/index. html 440 000 слов, 134 фото, более 36 ч устной речи Корпус разговорного французского языка (Un corpus d’entretiens spontanés) http: //www. llas. ac. uk/resources/mb/80 Корпус содержит 95 бесед.

НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА

НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА HTTP: //WWW. RUSCORPORA. RU/ Включает следующие подкорпуса: основной; синтаксический (глубоко НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА HTTP: //WWW. RUSCORPORA. RU/ Включает следующие подкорпуса: основной; синтаксический (глубоко аннотированный); газетный; параллельный; диалектный; поэтический и др. Объем корпуса – свыше 300 млн. словоупотреблений.

КОРПУСИ УКРАЇНСЬКОЇ МОВИ Корпус мови текстів української http: //www. mova. info/corpus. aspx? l 1=20 КОРПУСИ УКРАЇНСЬКОЇ МОВИ Корпус мови текстів української http: //www. mova. info/corpus. aspx? l 1=20 9 Українськмй корпус національний http: //lcorp. ulif. org. ua/virt_unlc/