ИТ в гум. исследованиях.ppt
- Количество слайдов: 59
ИТ в гуманитарных исследованиях «XXI век будет веком гуманитарных наук — или его не будет вовсе» К. Леви-Стросс (1908 - 2009) - французский этнолог, социолог, этнограф, философ и культуролог, создатель собственного научного направления в этнологии — структурной антропологии и теории инцеста (одной из концепций происхождения права и государства), исследователь систем родства, мифологии и фольклора.
Ray Kurzweil predictions: 2019
2019_2 n n Расчет орбиты Марса: И. Кеплер (1571 -1630) – 4 года; микропроцессор (2017) – 4 сек Шахматы: В феврале 1996 года, в Филадельфии, Deep Blue I проигрывает матч Г. Каспарову со счётом 2 : 4. В мае 1997 года Deep Blue II выигрывает матч у Г. Каспарова со счётом 3½ : 2½. В 21 в. чемпионы мира по шахматам с компьютером не пытаются соревноваться! Игра Го: 2016 г. программа под названием Alpha. Go победила профессионального игрока Го Покер: 2017 г. Лучшие игроки в покер один на один оказались слабее программы Libratus.
Предсказания о будущем Рэй Курцвейл – технический директор Google
Достижение сингулярности в 2045 году
2029
2029_2
2030 -е
2040 -е (л)| 2045 – singularity (п)
Из доклада Я. Л. Шрайберга, директора ГПНТБ (Судак, 2017) n n Сегодня мы переживаем 5 -ую информационную революцию. Суть 5 -й революции заключается в интеграции в едином информационном пространстве во всем мире программнотехнических средств, средств связи и телекоммуникаций, информационных запасов и запасов знаний как единой информационной телекоммуникационной инфраструктуры, в которой активно действуют юридически и физические лица, органы гос. власти и местного самоуправления. Нашу эпоху часто называют «информационной эпохой» , но никто не называет ее «эпохой знаний» . Инф-ция и знание – это не одно и то же. Чтобы инф-ция стала знанием, ее надо сначала обработать: получить, отсортировать, проанализировать, интегрировать и сохранить (Р. Чалдини, 2016 г)
Большие данные Big Data n Термин был введен в оборот в 2008 г. в спец. выпуске ж. Nature. Он отражает не столько количество чего-то, ск. переход кол-ва в качество. Если традиционные базы данных (БД) характеризуются объемами от гигабайт до терабайт, то базы Больших данных – это петабайты и экзабайты. 1 байт 8 бит 1 килобайт 1 терабайт 1024 Тб ( байт) 1 экзабайт n 1024 Гб ( байт ) 1 петабайт n 1024 байт ( байт) 1024 Пб ( байт) Объем всех данных на планете на аналоговых и цифровых носителях составляет ок. 300 экзабайт (без учета интернета). Скорость инф-ции растет на 58% в год, кол-во передаваемой инф-ции на 28%, а общие сохраняемые объемы инф-ции – на 23%. Большие данные характеризуются сл. основными параметрами: 1) объем (volume), 2) скорость (velocity), 3) разнообразие (variety), 4) достоверность (veracity), 5) изменчивость (variability).
Информационные параметры цифровой среды n n n n n >4, 7 млрд. стр. в интернете (март 2016 г); 1 млн. экзабайт инф-ции, к к-рой ежегодно добавляется 1, 1 зеттабайт (начиная с 2017 г); Объем инф-ции удвоился за последние 2 года; На данный момент проанализировано < 1% всей имеющейся в мире инф-ции; В 2012 г общий объем отсканированных данных составил 2, 8 зеттабайт, к 2020 г - будет 40 зеттабайт; В 2000 г доля инф-ции на цифровых носителях была 25%; с 2002 по 2007 (за 5 лет) она достигла 95% (!); Число пользователей интернет в мире – 2, 5 млрд человек. По индексу развития ИКТ Россия занимает 43 место в мире, но прогресс налицо * Экспертный Совет при правительстве РФ разработал Программу цифровой инфраструктуры страны (Цифровая экономика РФ), (к-рая сейчас нах. на согласовании).
Информационные технологии и образование n Университеты и вузы РФ не м. б. в стороне от Больших данных n Объем печатных, электронных фондов, доступ к полнотекстовым БД. Нац. подписка на базы Web of Science, Scopus и зарубежные полнотекстовые журналы (> 6 000 наименований) n Проект «Современная цифровая образовательная среда» Минобрнауки РФ. Сетевой «супервуз» свяжет платформы «Открытое образование» , «Лекториум универсариум» и др. n К 2025 г на открытых онлайн-курсах будет учиться до 11 млн студентов и школьников. В ближайшие 2 -3 года онлайн-курсы охватят большую часть направлений подготовки бакалавриата и магистратуры
n n Научно-образовательная среда оказалась не готова к этому информационному валу. Сегодня приходится срочно адаптироваться к реалиям современной информационной среды Если говорить о больших данных как эко-системе, то ее основными характеристиками являются: n n Методики анализа данных; Технологии сбора и обработки данных; Способы отображения и использования данных Но к 2020 г доля полезной информации в мире составит всего 35%. Лучшее техническое решение: «облачные среды» , а не собственные ресурсы для сортировки данных
Этапы информатизации общества n n n n Каждая последующая эпоха приносит все больше изобретений и научных открытий. Каждая последующая эпоха в несколько раз менее продолжительна и намного мощнее по объему чем предыдущая. 1 -ую информац. революцию от 2 -й отделяли тысячелетия. Прогресс современных IT укладывается в годы и даже месяцы. 6 -я информац. революция не за горами. Ее суть: способ сбора, организации, использования инф-ции будет определять, победите вы или проиграете. Мир движется к «Открытому доступу» (ОД) к библиотечным, музейным и архивным коллекциям. Появление ОД и оцифровки было инициировано существующими проблемами доступа к знаниям и объектам культуры
Открытый доступ, Открытая наука, открытые данные n Открытый доступ: открытый, бесплатный, постоянный, полнотекстовый, онлайновый n Открытая наука n n n Общественная доступность и возможность многократного использования научных данных; Прозрачность методологии сбора и передачи данных; Доступность и прозрачность научных публикаций; Развитие широкоформатного научного сотрудничества в т. ч. и с помощью интернета. Открытые данные: идею предложил в 2009 г. cэр Тим Бернес-Ли. Он же разработал модель открытости данных. В 2014 г в РФ открылся портал открытых данных n http: // data. gov. ru
Understanding Digital Humanities n n n Несговорова Г. П. Информационные технологии в гуманитарных исследованиях и гуманитарном образовании // В сб. : Информатика в науке и образовании Касьянов В. Н. Сер. "Конструирование и оптимизация программ" Новосибирск, 2012. С. 90 -105. Т. В. Черниговская https: //spbu. academia. edu/Tatiana. Chernigovskaya Burdick A. , Drucker J. , Lunenfeld P. , Presner T. Schnapp J. Digital Humanities. Boston: MIT press. 2012. Schnapp, J. & Presner, P. (2009) ‘Digital Humanities Manifesto 2. 0’ http: //www. humanitiesblast. com/manifesto/Manifesto_V 2. pdf Berry D. M. The computational turn: Thinking about the digital humanities // Culture Machine. 2011. Vol. 12. P. 1 -22. Understanding Digital Humanities / ed. D. M. Berry. 2012. Palgrave Mac. Millan
What is the Digital Humanities? Digital Humanities refers to new modes of scholarship and institutional units for collaborative, transdisciplinary, and computationally engaged research, teaching, and publication. Digital Humanities is less a unified field than an array of convergent practices that explore a universe in which print is no longer the primary medium in which knowledge is produced and disseminated. Digital tools, techniques, and media have expanded traditional concepts of knowledge in the arts, humanities and social sciences, n but Digital Humanities is not solely “about” the digital (in the sense of limiting its scope to the study of digital culture). Nor is Digital Humanities only “about” the humanities as traditionally understood since it argues for a remapping of traditional practices. Rather, Digital Humanities is defined by the opportunities and challenges that arise from the conjunction of the term digital with the term humanities to form a new collective singular. The opportunities include redrawing the boundary lines among the humanities, the social sciences, the arts, and the natural sciences; expanding the audience and social impact of scholarship in the humanities; developing new forms of inquiry and knowledge production and reinvigorating ones that have fallen by the wayside; training future generations of humanists through hands-on, project-based learning as a complement to classroom-based learning; and developing practices that expand the scope, enhance the quality, and increase the visibility of humanistic research. n The challenges include addressing fundamental questions such as: How can skills traditionally used in the humanities be reshaped in multimedia terms? How and by whom will the contours of cultural and historical memory be defined in the digital era? How might practices such as digital storytelling coincide with or diverge from oral or print-based storytelling? What is the place of humanitas in a networked world? n
What defines the Digital Humanities now? The computational era has been underway since World War II, but after the advent of personal computing, the World Wide Web, mobile communication, and social media, the digital revolution entered a new phase, giving rise to a vastly expanded, globalized public sphere and to transformed possibilities for knowledge creation and dissemination. Building on the first generation of computational humanities work, more recent Digital Humanities activity seeks to revitalize liberal arts traditions in the electronically inflected language of the 21 st century: a language in which, uprooted from its longstanding paper support, text is increasingly wedded to still and moving images as well as to sound, and supports have become increasingly mobile, open, and extensible. And the notion of the primacy of text itself is being challenged. Whereas the initial waves of computational humanities concentrated on everything from word frequency studies and textual analysis (classification systems, mark-up, encoding) to hypertext editing and textual database construction, contemporary Digital Humanities marks a move beyond a privileging of the textual, emphasizing graphical methods of knowledge production and organization, design as an integral component of research, transmedia crisscrossings, and an expanded concept of the sensorium of humanistic knowledge. It is also characterized by an intensified focus on the building of transferrable tools, environments, and platforms for collaborative scholarly work and by an emphasis upon curation as a defining feature of scholarly practice. n
What isn’t the Digital Humanities? n n The mere use of digital tools for the purpose of humanistic research and communication does not qualify as Digital Humanities. Nor, as already noted, is Digital Humanities to be understood as the study of digital artifacts, new media, or contemporary culture in place of physical artifacts, old media, or historical culture. On the contrary, Digital Humanities understands its object of study as the entire human record, from prehistory to the present. This is why fields such as classics and archaeology have played just as important a role in the development of Digital Humanities as has, for example, media studies. This is also why some of the major sectors of Digital Humanities research extend outside the traditional core of the humanities to embrace quantitative methods from the social and natural sciences as well as techniques and modes of thinking from the arts.
Where does the Digital Humanities come from? The roots of computational work in the humanities stretch back to 1949 when the Jesuit scholar Roberto Busa, working in collaboration with IBM, undertook the creation of an automated approach to his vast Index Thomisticus, a computer-generated concordance to the writings of Thomas Aquinas. By means of such early uses of mainframe computers to automate tasks such as word-searching, sorting, counting, and listing, scholars could process textual corpora on a scale unthinkable with prior methods that relied on handwritten or typed index cards. n Other early projects included the debut, in 1966, of Computers and the Humanities, the first specialized journal in the field. Seven years later, the Association for Literary and Linguistic Computing (ALLC ) was founded, with the Association for Computers and the Humanities (ACH) following in 1978. n By the mid-1980 s computational methods for linguistic analysis had become widespread enough that protocols for tagging digital texts were needed. This spurred the development of the Text Encoding Initiative (TEI). This important undertaking reshaped the field of electronic textual scholarship and led subsequent digital editing to be carried out in Extensible Markup Language (XML), the tag scheme of which TEI is a specialized subset. The first humanities- based experiments with database structures and hypertextual editing structured around links and nodes (rather than the linear conventions of print) date from this period, as do the many pilot projects in computational humanities in the United States sponsored by the National Endowment for the Humanities and other agencies, organizations, and foundations. n
How do the Web and other networks affect the Digital Humanities? n n n As this revolution in protocols was taking place, the explosion of personal computing in the mid-1980 s combined with the advent of the World Wide Web a decade later gave rise to a new generation of Digital Humanities work that was less text-centered and more design-driven. The desktop environment—with its graphical user interface, real-time WYSIWYG toolkit*, and evolution from command lines to icons and window-based frames—not only vastly expanded the corpus of born-digital documents but also ushered in the gradual integration of audio, video, and graphics. This integration has matured over the past decades and given Web culture its profoundly multimedial character. It also favored the enhancement of models of sharing, co-creation, publication, and community-building that have situated the Web at the center of contemporary social debates and socioeconomic processes. The concept of the Web as a public sphere that extends the physical public spaces of contemporary life has been intensified thanks to smartphones, tablets, and other ubiquitous and pervasive computing and media devices. n *What You See Is What You Get
What is ahead for the Digital Humanities? n Contemporary Digital Humanities stands not in opposition to the past, but on its shoulders. It honors the pioneering labors carried out over the past seven decades in the form of statistical processing (computational linguistics), linking (hypertext), modeling (architectural and visual displays), the creation of structured data (XML), and iterative editing and version control (for critical editions as well as analysis and creative practices), even as it seeks to move beyond repository building and editing to new synthetic practices. It is inspired by the same core conviction that animated computational humanities and early Digital Humanities pioneers: the conviction that computational tools have the potential to transform the content, scope, methodologies, and audience of humanistic inquiry
3 waves of Digital Humanities n n n first-wave digital humanities involved the building of infrastructure in the studying of humanities texts through digital repositories, text markup, etc. second-wave digital humanities expands the notional limits of the archive to include digital works, and so bring to bear the humanities’ own methodological toolkits to look at ‘born- digital’ materials, such as electronic literature (e-lit), interactive fiction (IF), web-based artefacts, and so forth. a tentative path for a third wave of the digital humanities, concentrated around the underlying computationality of the forms held within a computational medium. Indeed, we could say that third-wave digital humanities points the way in which digital technology highlights the anomalies generated in a humanities research project and which leads to the questioning of the assumptions implicit in such research, e. g. close reading, canon formation, periodization, liberal humanism, etc. We are, as Presner argues, ‘at the beginning of a shift in standards governing permissible problems, concepts, and explanations, and also in the midst of a transformation of the institutional and conceptual conditions of possibility for the generation, transmission, accessibility, and preservation of knowledge’. n
ИТ в лингвистических исследованиях
Лингвистические науки статистического цикла n n n n Математическая лингвистика Статистическая лексикография Квантитативная лингвистика (опирается на методологический инструментарий статистики), Теория информации Теория лингвистической реконструкции Комбинаторика Инженерная лингвистика Компьютерная лингвистика (использует методы программирования и представления знаний)
Квантитативная лингвистика - определение n это раздел общей лингвистики и, в частности, математической лингвистики. Квантитативная лингвистика (КЛ) занимается исследованием процесса изучения языка, его изменения и сферы применения, а также структуры естественных языков. КЛ исследует язык при помощи статистических методов; её конечная цель — сформулировать законы, по которым функционирует язык и, в конечном счете, построить общую теорию языка в виде совокупности взаимосвязанных законов функционирования языков. Специально для этой цели была создана синергетическая лингвистика (Synergetic linguistics). КЛ эмпирически основывается на результатах языковой статистики, которая, в свою очередь, может интерпретироваться как статистика языков или статистика лингвистического объекта. Эта область знаний не обязательно связана с фундаментальными научными целями. Корпусная лингвистика и компьютерная лингвистика также вносят свой вклад в КЛ, поставляя важные эмпирические данные.
Квантитативная лингвистика – мнения отечественных лингвистов Основана на применении количественных методов к изучению лингвистических объектов n Частотность принадлежит функциональной стороне системы… учет частотности любого языкового явления – полезный прием при анализе (Ярцева В. Н. ) n Анализ частотности разных типов слов в разных стилях книжной и разговорной речи помогли бы установить структурно-грамматические, а отчасти и семантические различия между стилями (академик Виноградов В. В. ) n Квантитативный подход способен охватить лишь определенный аспект языка и речи, отражающий ряд важных сторон речевой деятельности, которые невозможно обнаружить чисто качественным анализом (Марчук Ю. Н. )
Ранние концепции КЛ n относятся к древнегреческой и древнениднийской культурам. Один из исторических источников включает приложения комбинаторики к лингвистическим реалиям, другой основывается на элементарных статистических исследованиях, которые легли в основу колометрии (colometry measurement or division (as of a manuscript or a rhythmic utterance) by cola (pl. of colon) и стихометрии n n n In ancient prosody, analysis of a rhythmical period into cola or sections. Total stichometry is the practice of reporting the total number of lines in a work. Partial stichometry is the practice of including a series of numerals in the margins of a text, usually to mark every hundredth line. Some modern Jewish and Christian scholars use ‘stichometry’ as a synonym for ‘stichography, ’ which is the occasional practice in ancient scriptures of laying out texts so that each biblical or poetic verse begins on a new line)
Стохастическая природа языковых законов в квантитативной лингвистике n n В КЛ под законом понимается класс гипотез, выведенных из теоретических допущений, математически сформулированных, взаимосвязанных с другими законами в этой области и в достаточном объёме и успешно проверенных на эмпирических данных, то есть таких, которые нельзя было опровергнуть несмотря на многочисленные попытки. Reinhard Köhler пишет о законах КЛ (2005): «… можно показать, что эти свойства лингвистических элементов и отношений между ними подчиняются универсальным законам, которые могут быть сформулированы строго математически также как и законы естественных наук. Нужно иметь в виду в данном контексте, что эти законы стохастической природы; они не соблюдаются в каждом отдельном случае (в этом не было бы необходимости и возможности); они скорее определяют вероятности событий или количественные отношения изучаемых явлений. Легко найти противоположные примеры каждому из упомянутых выше примеров; тем не менее, эти случаи не нарушают соответствующих законов, поскольку вариации вокруг статистического среднего не только допустимы, но и даже необходимы; сами они квантитативно точно определяются соответствующими законами. Ситуация такая же, как и в естественных науках, которые уже давно отказались от старых детерминистских и каузальных (причинно-следственных) взглядов на мир и заменили их на статистические/вероятностные модели. »
Некоторые языковые (лингвистические) законы_1 n Распределение длин (или, в более общем виде, многокомпонентности). Исследование частот различных языковых единиц с точки зрения их длин в текстах и словарях регулярно приводит к выявлению целого ряда распределений, в зависимости от изучаемой единицы. n n n n Закон распределения длин морфов; Закон распределения длин ритмических единиц; Закон распределения длин предложений; Закон распределения длин слогов; Закон распределения длин слов; Другие языковые единицы, которые также подчиняются этому закону, — это, например, длины так называемых hrebs и речевых актов. Это же справедливо и для распределений звуков (фонов) различной длительности (долготы).
Некоторые языковые (лингвистические) законы_2 Закон Менцерата (также, в особенности в лингвистике, известный как закон Менцерата. Альтмана): размеры составляющих конструкции уменьшаются с увеличением самой изучаемой конструкции. n n Чем длиннее, например, предложение (измеренное количеством входящих в его состав придаточных предложений), тем короче входящие в его состав придаточные предложения (измеренные количеством слов), Чем длиннее слово (в слогах или морфах), тем короче слоги или слова в звуках.
Некоторые языковые (лингвистические) законы_3 n n Закон изменения языка: Процессы роста в языке (как, например, рост словаря), распространение иностранных и заимствованных слов, изменения в флективной системе и т. д. подчиняются экспоненциальному закону, известному в КЛ как закон Р. Г. Пиотровского (1977), и соответствуют моделям роста в других научных дисциплинах. Закон Пиотровского — это частный случай так называемой логистической модели. Было показано, что он затрагивает и процессы усвоения языка. Закон Ципфа: Частота слова обратно пропорциональна их рангу в списках частотности. Слова в тексте организованы в соответствии с частотой их появления в тексте, и каждому из них присвоен номер ранга и соответствующая частота. Со времен Джорджа Кингсли Ципфа предлагалось большое количество математических моделей, описывающих отношения между рангом и частотой.
Квантитативная лингвистика: примеры вклада в теорию и практику n n n n Математическая теория словообразования Кластерный анализ Кластер — группа элементов, характеризуемых общим свойством, главная цель кластерного анализа — нахождение групп схожих объектов в выборке Контент-анализ Лексико-статистический анализ Построение частотных словарей Конкордансов Создание машинных фондов лексики
Поляков В. Н. , Соловьев В. Д. Компьютерные модели и методы в типологии и компаративистике. Казань. 2006 n Кластерный анализ − множество вычислительных процедур, которые формируют либо выявляют иерархии (разбиения), лежащие в основе тех или иных совокупностей данных. Алгоритм кластеризации действует в два этапа: n n n на первом этапе вычисляется метрика (показатели сходства объектов классифицируемой совокупности), на втором этапе происходит пошаговое построение классов. Выбор способов расчета метрик обусловлен способом описания входных данных. (с. 70)
Методы математической статистики и моделирования в сравнительно-историческом языкознании n n Статистические выкладки, например, используются при установлении авторства на основе подсчета стилистических особенностей произведения (эта отрасль носит название эвристики). эвристики Теми же способами в сравнительно-историческом языкознании возможно определение приблизительной датировки произведения (памятника письменности). Этим занимается стилометрия n n Лексикостатистика на основе количественных показаний словарного состава стремится объективно констатировать наличие родства между языками, а также определить время языками их вычленения из единого праязыка. Первую попытку выразить степень родства между отдельными группами индоевропейских языков посредством этого метода сделал польский этнограф Ян Чекановский в 1927 году. Лексикостатистику начал широко применять американский языковед Моррис Сводеш в 1948 году.
Положения Сводеша n n n Основной словарный фонд всех языков изменяется медленно и с постоянной скоростью. Сохранность подобных слов, положим, за одно тысячелетие выражается приблизительно одной и той же цифрой, процент утраты также одинаков. Если нам известен процент сохранившихся генетически тождественных элементов лексического ядра у пары родственных языков, то можно вычислить время, прошедшее с того момента, как эти языки разделились.
Ссылки на лекции Вячеслва Всеволодовича Иванова Вячеслав Иванов. "Индоевропейские языки и миграции индоевропейцев" (эфир 27 сентября 2010 года) http: //www. youtube. com/watch? v=CKl. GCc 0 xhv 8 n Вячеслав Иванов. "Этрусский язык: лингвистика, археология, история" (эфир 28 сентября 2010 года) http: //www. youtube. com/watch? v=IKUUFYg. A 6 mc n Вячеслав Иванов "Языки большого города в истории человечества" (эфир 29 сентября 2010 года) n Вячеслав Иванов. "Макросемьи языков и расселение человека из Африки" (эфир 30 сентябр. Я 2010 года) http: //www. youtube. com/watch? v=7 JI 3 o. Q 4 OM 4 k n
Ссылки на лекции Андрея Анатольевича Зализняка Андрей Зализняк. "Берестяные грамоты". 2 лекции (эфир 22, 23 сентября 2010 года) http: //www. youtube. com/watch? v=7 G_QD 1603 yo n Андрей Зализняк. "Читаем "Слово о полку Игореве". 2 лекции (эфир 28, 29 апреля 2010) n http: //www. youtube. com/watch? v=zvj. Hp 8 am 3 Ig n http: //tvkultura. ru/article/show/article_id/64 599/brand_id/20898/type_id/2
Закон Ципфа n n n Закон Ципфа (Зипфа) — эмпирическая закономерность (Зипфа) распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова). Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д. f • r=c Гарвардский лингвист Джордж Ципф (George Kingsley Zipf) Ципф Zipf заметил, что частота использования n-го наиболее часто используемого слова в естественных языках приблизительно обратно пропорциональна n (то есть, рангу этого слова). Под рангом понимается порядковый номер слова в упорядоченном по убыванию частоты словнике (списке всех слов текста). Закон носит имя своего первооткрывателя — американского лингвиста Джорджа Ципфа (George Kingsley Zipf) (1902– 1950)
Полученная зависимость графически выражается гиперболой. Для разных языков, т. е. при замене одного текста другим общий характер распределения не меняется: он имеет форму гиперболической лестницы.
Следствия закона Ципфа для корпусной лингвистики n В связи с тем, что со статистической точки зрения язык содержит большое число относительно редких слов (Закон Ципфа), для исследования первых пяти тысяч наиболее частотных слов (например, убыток, извиняться) требуется корпус размером около 10 -20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов (незатейливый, сердцебиение, роиться) уже требуется корпус свыше ста миллионов словоупотреблений.
Теория вероятности в языкознании n На статистике основывается теория вероятности, вероятности которая также используется в языкознании, т. к. по имеющимся сведениям о степени частотности языковых единиц, их сочетаемости и распределению в тексте можно предугадать вероятность возникновения той или иной единицы. Данная теория применима в фонетике и особенно в синтаксисе. Состояние системы в данный момент времени определяет вероятность того, что через известный промежуток времени система будет выглядеть иной, причем эта вероятность будет зависеть от хода процесса в предшествующий период.
Теория вероятности в языкознании n На статистике основывается теория вероятности, вероятности которая также используется в языкознании, т. к. по имеющимся сведениям о степени частотности языковых единиц, их сочетаемости и распределению в тексте можно предугадать вероятность возникновения той или иной единицы. Данная теория применима в фонетике и особенно в синтаксисе. Состояние системы в данный момент времени определяет вероятность того, что через известный промежуток времени система будет выглядеть иной, причем эта вероятность будет зависеть от хода процесса в предшествующий период.
Вероятностное прогнозирование как основной механизм поддержки синхронного перевода … «Но главное дело своей жизни — обоснование роли вероятностного прогнозирования как прогнозирования основного механизма, поддерживающего синхронный перевод — Гелий Васильевич Чернов совершил. Это было новое слово в науке. Такое дается не многим. » (Павел Палажченко http: //www. pavelpal. ru/ - Мой несистематический website: лингвистика и политика. )
Дешифровка незнакомых письменностей n n n Дешифровка незнакомых письменностей базируется на формальных понятиях, с помощью которых строится исходная система знаков, применяемая при раскрытии языковых сущностей текста. Формальные определения базируются на малом наборе неопределяемых понятий и представляют собой утверждения, построенные по математическим правилам. Свойства сочетаний элементов текста проявляются в их статистических характеристиках, индивидуальной и совместной встречаемости. Фонемы, слова и др. языковые единицы выступают в тексте в качестве зависимых лингвистических событий, обусловленных контекстом, а их вероятности являются условными. Поэтому применение классического аппарата теории вероятности и статистики в лингвистике очень ограничено. В большинстве случаев лингвистический опыт характеризуется условной энтропией, определяющейся тем контекстным окружением, в котором находится данный участок текста.
n История дешифровки древних систем письма теперь вписывается между двумя именами – Жана Шампольона (1790 - 1832) (Розеттский камень (1822)) и Юрия Валентиновича Кнорозова (1922 – 1997). (1955) Ю. Кнорозов с сиамской кошкой Асей (Аспидом) в 1971 году Согласно методике дешифровки, предложенной Ю. В. Кнорозовым, предполагается, что неизвестный текст записан на некотором, пока для нас неизвестном, но естественном языке, не подвергался специальным преобразованиям типа зашифровки с целью затруднить чтение этого текста. Предполагается, что в тексте существует определенная структура связей, причем для большинства случаев связи в тексте проявляются на небольшом расстоянии и близкие по тексту элементы находятся в некотором соотношении. Поэтому основной метод – позиционная статистика. n
Лингвистическая комбинаторика (ЛК) n n ЛК – это отрасль языкознания, изучающая в рамках лингвистического времени качественные и количественные характеристики как языковых континуумов, так и входящих в них языковых элементов с целью определения возможности (нескольких возможностей или невозможности) и результатов различных видов их взаимодействия. Речь как комбинация знаков на графемном уровне позволяет строить алгоритмы, распознающие слова, выделяющие новое слово и отождествляющие искажения в отличие от новых слов. Статистико- и теоретико-информационные свойства слов как совокупности графем позволяют применять дешифровочные методы, позволяющие отличать текст на естественном языке от нетекста
Распознавание графем Слово – это последовательность символов между двумя пробелами. n Многочисленные исследования графематического уровня языка с точки зрения теории информации, статистики и теории вероятностей выявили различные особенности текстовых структур.
Примеры научных задач, направленных на выявление особенностей текстовых структур n n n Буквенный состав современной письменности Количественные закономерности, которым подчиняются тексты в своем графематическом составе Статистические законы комбинации знаков алфавита Вероятность определенных сочетаний букв Частотность слов и словосочетаний Типы слов
Древесно-стохастическое представление графематической информации и восстановление искаженных знаков текста n n Стохастическое дерево – это дерево, в узлах которого записаны элементы моделируемого объекта, а в дугах – вероятности перехода от предыдущей цепочки узлов к следующему узлу. Применительно к графематике слов в узлах записываются графемы, а в дугах – вероятности следования данной графемы за предыдущей частью полиграммы. Слова построены из определенных полиграмм, состав и количество которых определяется рядом факторов. Важнейшие из них следующие: n n фонематическая система данного языка; правила орфографии; принятая система обозначения звуков на письме Графематику слова нельзя описать аналитически и компактно. Для ее описания используется вероятностный аппарат.
Скрытый марковский процесс/ Hidden Markov Models (HMM) n Андрей Андреевич Марков n (1856 -1922 ) — русский математик, академик, внёсший большой вклад в теорию вероятностей, математический анализ и теорию чисел. n Практически все современные системы распознавания речи, обладающие достаточно мощными характеристиками (объем словаря - 1000 слов и более, многодикторские или обладающие возможностями быстрой адаптации к диктору), выполнены на основе моделирования речевого сигнала скрытым марковским процессом. ____________ HMMs может применяться во многих областях там, где целью является обнаружить последовательность данных, не наблюдаемую непосредственно (но другие данные, которые зависят от данной последовательности наблюдаемы)
n Эти статистические модели дают на выходе последовательность величин. Они применяются в распознавании речи потому, что речевой сигнал на коротком промежутке времени (10 мсек) можно приближенно представить/описать как стационарный процесс и, следовательно, речевой сигнал можно представить как сумму стационарных сигналов.
n При распознавании речи НММ выдаст последовательность n-мерных вещественных векторов (где n – небольшое целое число, напр. 10). Один вектор генерируется каждые 10 мсек. Вектора состоят из коэффициентов косинусного Преобразования Фурье, полученных в результате преобразования Фурье стационарных речевых сигналов. В каждом состоянии получается статистическое распределение, т. е. набор диагональных ковариационных кривых распределения Гаусса, дающих вероятность для каждого наблюдаемого вектора.
Вербальное описание алгоритма n In this piece of code, start_probability represents Alice's belief about which state the HMM is in when Bob first calls her (all she knows is that it tends to be rainy on average). The particular probability distribution used here is not the equilibrium one, which is (given the transition probabilities) approximately {'Rainy': 0. 57, 'Sunny': 0. 43}. The transition_probability represents the change of the weather in the underlying Markov chain. In this example, there is only a 30% chance that tomorrow will be sunny if today is rainy. The emission_probability represents how likely Bob is to perform a certain activity on each day. If it is rainy, there is a 50% chance that he is cleaning his apartment; if it is sunny, there is a 60% chance that he is outside for a walk.
Known parameters of the HMM can be written down in the Python programming language: n states = ('Rainy', 'Sunny') observations = ('walk', 'shop', 'clean') n start_probability = {'Rainy': 0. 6, 'Sunny': 0. 4} n n n transition_probability = { 'Rainy' : {'Rainy': 0. 7, 'Sunny': 0. 3}, 'Sunny' : {'Rainy': 0. 4, 'Sunny': 0. 6}, } emission_probability = { 'Rainy' : {'walk': 0. 1, 'shop': 0. 4, 'clean': 0. 5}, 'Sunny' : {'walk': 0. 6, 'shop': 0. 3, 'clean': 0. 1}, }
Представление описанной выше информации с помощью стохастического дерева
ИТ в гум. исследованиях.ppt