MM_20_Modern Corpora.ppt
- Количество слайдов: 19
СОВРЕМЕННЫЕ ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ
ОСНОВНЫЕ КОМПЬЮТЕРНЫЕ КОРПУСЫ q 1960 -е: Брауновский корпус, (США), 1 млн. слов q 1970 -е: LOB корпус (Великобритания, Норвегия), 1 млн. q Уппсальский корпус русского языка (Швеция), 1 млн. q 1990 -е: British National Corpus, 100 млн. q Национальный корпус русского языка, 140 млн. q Oxford English corpus, 2 млрд.
БРАУНОВСКИЙ КОРПУС (BROWN CORPUS) Первый лингвистический корпус Создан в 1960 -е гг. в Брауновском университете (США) У. Френсисом и Г. Кучерой Корпус содержал около 500 текстов объемом 2000 печатных знаков каждый, написанных на американском варианте английского языка. Корпус включал морфологическую и синтаксическую разметку.
БРИТАНСКИЙ НАЦИОНАЛЬНЫЙ КОРПУС
BRITISH NATIONAL CORPUS HTTP: //WWW. NATCORP. OX. AC. UK/ HTTP: //CORPUS. BYU. EDU/BNC v Представительный корпус британского английского языка v По его образцу создавались многие современные корпуса различных языков. v Включает метатекстовую и частеречную разметку, характеризуется использованием полных текстов и наличием подкорпуса устной речи. v Объем корпуса – свыше 100 млн. словоупотреблений.
OXFORD ENGLISH CORPUS Самый большой из когда-либо созданных: свыше 2 млрд. словоупотреблений. Используется составителями Оксфордских словарей. Содержит как письменные тексты, так и записи устной речи, датированные 2000 -2006 гг.
КОРПУС СОВРЕМЕННОГО АМЕРИКАНСКОГО АНГЛИЙСКОГО (THE CORPUS OF CONTEMPORARY AMERICAN ENGLISH, COCA) Самый большой корпус английского языка, находящийся в свободном доступе (сайт http: //corpus. byu. edu/coca/). Создан М. Дэвисом (Brigham Young University, США) в 2008 году. COCA содержит 445 млн. словоупотреблений и включает тексты с 1990 года по настоящее время. Корпус обновляется два раза в год и удобен для отслеживания динамики лингвальных изменений.
AMERICAN NATIONAL CORPUS
AMERICAN NATIONAL CORPUS HTTP: //WWW. AMERICANNATIONALCORPUS. ORGOANC/INDEX. HTML / Создается по образцу Британского национального корпуса. Планируется создание представительного корпуса объемом 100 млн. словоупотреблений. В настоящий момент готова первая версия корпуса объемом 15 млн. словоупотреблений. Представлены как письменные тексты, так и записи устной речи. Доступен для скачивания.
THE BANK OF ENGLISH (COBUILD CORPUS) HTTP: //WWW. COLLINSLANGUAGE. COM/CONTENTSOLUTIONS/WORDBANKS Постоянно пополняемый корпус английского языка, характеризующийся большим объемом (524 млн. словоупотреблений). v В состав корпуса входят различные типы письменных текстов и устной речи. v Корпус включает метатекстовую разметку, а также частеречную с элементами морфологической разметку. v В общедоступной версии корпуса существует возможность выбора подкорпуса: британские книги, газеты, журналы, радиопередачи и др. v
CAMBRIDGE INTERNATIONAL CORPUS Cоздавался как база для составления учебных материалов и словарей английского языка. Свыше 700 млн. словоупотреблений. В корпус вошли британские и американские тексты разных типов, записи устной речи носителей британского и американского вариантов английского языка. Отдельный подкорпус образуют тексты экзаменационных работ студентов из разных стран, изучающих английский язык в качестве иностранного.
МЕЖДУНАРОДНЫЙ КОРПУС АНГЛИЙСКОГО ЯЗЫКА
http: //www. ucl. ac. uk/english-usage/projects/ice. htm v. Отражает словоупотребление в различных вариантах английского языка (23 страны). v. Каждый подкорпус включает письменные тексты разных типов и записи устной речи. v. Объем каждого национального подкорпуса – 1 млн. словоупотреблений.
НЕМЕЦКИЙ ЯЗЫК Корпус Берлинской Бранденбургской академии наук (DWDS-Corpus) http: //www. dwds. de/pages_textba/dwds_textba. ht m Корпус послужил основой для Цифрового словаря немецкого языка XX в. (DWDS) Немецкая лексика онлайн (Projekt Deutscher Wortschatz) http: //wortschatz. uni-leipzig. de/ Содержит 35 млн предложений с 500 млн слов
ФРАНЦУЗСКИЙ ЯЗЫК Корпус французского языка(Corpus de Référence du Français parlé) http: //sites. univprovence. fr/delic/corpus/index. html 440 000 слов, 134 фото, более 36 ч устной речи Корпус разговорного французского языка (Un corpus d’entretiens spontanés) http: //www. llas. ac. uk/resources/mb/80 Корпус содержит 95 бесед.
НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА
НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА HTTP: //WWW. RUSCORPORA. RU/ Включает следующие подкорпуса: основной; синтаксический (глубоко аннотированный); газетный; параллельный; диалектный; поэтический и др. Объем корпуса – свыше 300 млн. словоупотреблений.
КОРПУСИ УКРАЇНСЬКОЇ МОВИ Корпус мови текстів української http: //www. mova. info/corpus. aspx? l 1=20 9 Українськмй корпус національний http: //lcorp. ulif. org. ua/virt_unlc/