ЛЕКЦИЯ 3 Проектирование математического обеспечения Концептуализация и

ЛЕКЦИЯ № 3 Проектирование математического обеспечения. Концептуализация и формализация 1

Идентификация • Анализируется класс проблем, • которые предполагается решать с помощью проектируемой системы, включая данные, которыми нужно оперировать, и критерии оценки качества решений. Определяются ресурсы, доступные при разработке проекта, — источники экспертных знаний, трудоемкость, ограничения по времени, стоимости и вычислительным ресурсам. 2

Концептуализация • Формулируются базовые концепции и отношения между ними. • Определение характеристик используемых данных и лежащих в их основе структуру предметной области в терминах причинно-следственных связей, отношений частное/целое, и т. п. 3

Формализация Определение модели для представление структуры проблемной области и метода поиска решения проблемы в виде формальной системы. Выполняется оценка качества знаний (степень достоверности, неопределенности информации ), и зависимости от времени 4

Реализация процедур создания и ведения базы знаний Преобразование формализованных знаний в работающую программу создания и ведения базы знаний, причем на первый план выходит определение методов организации управления знаниями. Принимаются решения об используемых структурах данных и разбиении программы на ряд более или менее независимых модулей. 5

Тестирование (Оценка качества программных средств и знаний) Проверка работы созданного варианта системы на большом числе репрезентативных задач. В процессе тестирования анализируются возможные источники ошибок в поведении системы. Чаще всего таким источником является имеющийся в системе набор правил. Оказывается, что в нем не хватает каких-то правил, другие не совсем корректны, а между некоторыми обнаруживается противоречие. 6

Этап проектирование математического обеспечения Концептуализация и формализация 7

Проектирование математического обеспечения ИС Цель выполнения этапа проектирования ИИ: «Построение математических моделей и определение методов автоматизированного решения задач ИИ» . Содержание проектных работ 1. Постановка задач автоматизированной системы (ЗАС) на языке математического моделирования. 2. Выбор или разработка методов решения ЗАС. Разработку математического обеспечения осуществляют инженеры-математики на этапе технического проектирования. Исходные данные: функциональная структура (этап идентификации) 8

Итерационный процесс концептуализации и формализации 1. Концептуализация. 2. Выбор языка формализации (формы представления знаний). 3. Введение условных обозначений (константы, переменные, функции, отношения) 4. Построение формальной модели (выражения, уравнения. ограничения) и формальная постановка задач. 5. Классификация задачи, преобразование задачи, выбор из существующих методов или разработка метода решения задачи, оценка сложности алгоритма решения задачи. 6. Выбор и решение контрольной задачи (небольшая размерность. Представительность, наличие известных результатов, простая интерпретация результатов). 7. Проверка адекватности модели. 8. Корректировка модели (изменение языка формализации, введение дополнительных или удаление из рассмотрения факторов, 9 закономерностей, изменение метода, контрольной задачи).

Управляемый процесс Система управления x f : Y Z x (? ) Z y u: X* X Z Y (? ? ) Управляющий процесс Сбор (получение исходных данных) Обработка (получение решения) Подготовка исполнения 10

Система интеллектуального принятия решений X f : X Y Z x Z Y (Y*) U: X* X Z Y (U*: X* X Z Y*) X* Задание цели K X* U* Y Формирование правил управления 11

Задачи интеллектуальной системы: 1. Построение функции управления U*: X* X Z Y*, (приобретение знаний) 2. Определение управления y* при известной функции: y* = u*(x*, x, z) и значениях x*, x, z в текущий момент времени (принятие решений) 12

2. Выбор языка формализации (формы представления знаний) 13

ФОРМЫ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ Представление знаний – это выражение на каком-либо формальном языке свойств различных объектов и закономерностей, существенных для решения задач. Требования к формам представления знаний: однородность, простота интерпретации, простота пополнения и модификации. 14

Формы представления знаний 1. Математические модели (теория множеств, формальные теории, алгебраические модели, теория формальных грамматик …) 2. Логические модели (высказывания, предикаты первого и второго порядка) 3. Сетевые модели ( Семантические сети , фреймы, …) 4. Продукции 5. Нечеткие модели 6. Модели неявные знаний (нейронные сети) 7. Процедурные модели, алгоритмы, программы 8. ………… 15

3. Введение обозначений 16

Обозначение переменных Свойство –сторона проявление качества объекта. Атрибут, аттрибут (от лат. attribuo — придаю, наделяю), необходимое существенное, неотъемлемое свойство объекта. Например, в философии атрибут материи — движение. Признак (Sign; Indication) (Толковый словарь русского языка Ушакова) – та сторона в предмете или явлении, по которой его можно узнать, определить или описать, которая служит его приметой, знаком, «признак» употребляется как описание фактов, позволяющих сделать вывод о наличии интересующего предмета или явления. Пара метр (от др. -греч. παραμετρέω «соразмеряю» ) — величина, значения которой служат для различения элементов некоторого множества между собой, количественный показатель, характеризующий важное свойство чего-либо. Показатель - обобщенный количественный параметр явлений и процессов в единстве с их качественными характеристиками. Характеристика - описание, определение отличительных свойств, достоинств и недостатков предмета или явления. Задание: привести примеры атрибутов, признаков, параметров, показателей, 17 характеристик.

Свойства, признаки. параметры, атрибуты (переменные) Качественные Бинарные Количественные Многозначные Счетные Мерные Количественные Точность Вариация Нижняя граница Единица измерения Верхняя граница Граница Значение Вид границы 18

Классификация признаков Каждый j-ый признак (j=1, n) может принимать значение xj из множества Xj. Вид множества Xj определяет разделение признаков на качественные и количественные. Качественные признаки не поддаются непосредственному измерению и устанавливаются по наличию их свойств у объекта наблюдения (не формализованные, но интуитивно понятные ). Количественные признаки поддаются непосредственному измерению или счету. Один и тот же признак может быть выражен качественно, задан названием значения, а также количественно, если 19 использовать измерение (например, цвет).

Количественные признаки подразделяются на мерные( метрические) и счетные (меристические). Для метрических признаков: Xj = B, Xj N*, (N*= N {0}) Xj Z, Xj Q или Xj R. Варьирование значений может осуществляться непрерывно (множество Xj - бесконечно), дискретно (множество Xj – конечно или бесконечно). Для метрических признаков задается единица и точность измерения, возможные границы вариации (верхняя и нижняя границы). Счетные признаки варьируются прерывисто: Xj = B, Xj N*. 20

Области значений количественных признаков 1 2 3 4 5 6 7 8 9 10 11 12 13 1 Непрерывность н н д д ц ц ц 2 Отрицательность о о н н н 3 Бесконечность б к б к б к к 4 Бинарность N N N B N – множество натуральных чисел; N* – множество натуральных чисел и ноль; R – множество действительных чисел; Q – множество рациональных чисел; P – множество простых чисел; Z – множество целых чисел; B = {0, 1}. 21

Нормирование признаков Для нормирования вариаций значений признаков и приведения их вариации к заданному интервалу (сегменту) значений используют следующие выражение: 22

Качественные признаки Значения N качественных признаков объектов предметной области задаются в виде множества: X = {X 1, X 2, …, Xj, … XN}, где Xj – множество значений j-ого признака (j = 1, 2, …, N). Каждый признак объектов принимает значения из множества: Xj = {xj 1, xj 2, … xjl, xj Mj}, где xjl – l-е возможное значение j-го признака (l = 1, 2, …, Mj, j = 1, 2, …, N). 23

Качественный признак, принимающий два альтернативных значения, выражаемых двумя противоположными понятиями (антонимами), или выражающих наличие либо отсутствие какого-либо свойства у объекта, называют бинарным (альтернативным). 24

Четкое и нечеткое задания значений признаков Если значение признака задано нечетко (нечеткое измерение), то рассматривается степень присутствия значения признака у объекта, в форме функции : mj: Xj [0, 1]. Примером такой функции для количественного признака j при измерении значения : s ширина (размытость), xjl - ое значение признака. 25

Признак принимает качественные значения: Xk = { «Малая» , «Средняя» , «Большая» }. Эксперт считает, что значение признака: - не соответствовало малому значению; - соответствовало среднему значению; - плохо соответствовало большому значению. Считается, что задана шкала: 1. Совсем не соответствует - 0; 2. Не соответствует - 0. 2; 3. Плохо соответствует - 0. 4; 4. Не очень соответствует - 0. 6; 5. Соответствует - 0. 8; 6. Полностью соответствует - 1. Тогда отображение задается: {( «Малая» , 0. 2), ( «Средняя» , 0. 8), ( «Большая» , 0. 4)} 26

Первичные и вторичные признаки Первичные признаки (наглядные) являются сенсорными или первичными понятиями. Вторичные признаки – признаки, которые можно определить на основе наблюдаемых, первичных или вторичных признаков по известным алгоритмам. 27

Определение вторичных признаков Для определения значений вторичных признаков 1. Используют понятия: -функция, -аргумент функции, -значение функции, 2. Используют отношения: - «Является аргументом» , - «Является значением функции (результатом)» , - «Взаимная зависимость аргументов» . 28

Пример задания функций для определения вторичных признаков 1. V понятия признаки: (переменные или константы: x 1, x 2, …, xi, …, xn); 2. F понятия функции: F(x 1, x 2, …, xi-1, xi+1, …xn) = 0. Функция F должна быть разрешена относительно всех своих аргументов: x 1, x 2, …, xi-1, xi+1, …xn, т. е. должны быть определены функции: xi = fi(x 1, x 2, …, xi-1, xi+1, …xn), i=1, n. Понятия из v (v V) и F находятся в отношении взаимной зависимости , если среди аргументов F присутствует понятие v (v V). 29

Пример отношения взаимной зависимости. Плавание тела в жидкости r 2 m 5 7 r 1 3 FA S h+ 4 g P V+ V 6 8 V h- H Обозначения: P вес тела; m масса тела; g ускорение свободного падения; r плотность вещества тела, V объем тела; FA сила Архимеда; V объем подводной части тела; V+ объем надводной части тела; r 0 плотность жидкости; h высота подводной части тела; h+ высота надводной части 30 тела; h высота тела; S площадь основания тела.

Обозначения Список функций: 1. P - mg = 0; P = mg, m = P/g; g = P/m. 2. m - r. V = 0; m = r. V, r = m/V, V = m/r 3. P FA = 0; P = FA; FA = P; 4. FA V r 0 g =0; FA = V r 0 g; V = FA /(r 0 g); r 0 = FA /( V g); g = FA /( V r 0); 5. V V+ + V = 0; V = V+ + V ; V+ = V V ; V = V V+; 6. V h S = 0; V = h S; S = V / h ; h = V / S; 7. V+ h+ S = 0; V+= h+ S; S = V+ / h+; h = V+ / S; 8. H h +h+ = 0; H = h +h+; h = H h+; h+ = H h 31

Пример определения значений функции зависящей от времени 32

4. Постановка задач 33

Задача нахождения функции оптимального управления -задача аппроксимации (приобретение знаний) Пусть задана выборка в виде (x*, x, z, y), где x*, x, z – вектора значений аргументов функции, а y ‑ значение аппроксимируемой функции: y = u(x*, x, z). Задача аппроксимации функции u(x*, x, z) состоит в поиске функции u*(x*, x, z), при которой минимизируется значение погрешности при заданных (x*i, xi, zi, yi), (i = 1, m). значениях обучающей выборки: 34

Постановка задачи принятия решения Определить значение управления y* = u*(x*, x, z) при известных значениях: - x* - целевое состояние управляемого процесса; -x – состояние управляемого процесса в текущий момент времени; - z - оценках состояния внешней среды. 35

5. 1. Методы решения задач приобретения знаний 36

ИНЖЕНЕРИЯ ЗНАНИЙ Инженерия знаний (англ. knowledge engineering) — область искусственного интеллекта, связанная с разработкой экспертных систем и баз знаний. Изучает методы и средства представления, приобретения (извлечение, структурирование, формирование) и использования знаний (манипулирование знаниями). 37

Инженерия знаний (ИЗ) была определена Фейгенбаумом, и Мак Кордаком(1983) как: «Раздел (дисциплина) инженерии, направленный на внедрение знаний в компьютерные системы для решения комплексов задач, обычно требующих богатого человеческого опыта» . 38

ИНЖЕНЕР ПО ЗНАНИЯМ Инженер по знаниям (И. П. З) - Специалист, основной задачей которого является проектирование баз знаний и наполнение их знаниями о проблемной области. В процессе этой деятельности И. П. З. выбирает форму представления знаний, удобную для данной проблемной области, организует приобретение знаний из различных источников (официальные документы, учебники, монографии и т. п. ), а также в результате общения с экспертами-специалистами в данной проблемной области, формирует процедуры обработки знаний 39

Приобретение знаний (knowledge acquisition) Совокупность методов и процедур, которые применяет инженер по знаниям при заполнении им базы знаний. П. З. предполагает использование источников знаний двух типов: пассивных и активных. 40

К первым относятся официальные документы, инструкции, печатные издания, кино-фото-документы, отчеты о проведенных экспериментах, и многие другие источники, в которых содержатся сведения, факты, законы, правила важные для описания знаний о предметной области. Ко второму типу источников знаний относятся люди - специалисты (эксперты) в данной предметной области. Инженер по знаниям с помощью специальных психологических методик и инструментальных средств в 41 процессе диалога получает от экспертов необходимые

Официальное определение процесса извлечения знаний из данных, принятое на первой международной конференции по этой проблематике в Монреале в 1995 г. , таково: "нетривиальное извлечение неявного, предварительно неизвестного и потенциально полезного знания из данных", то есть знание должно быть ново, не очевидно, и некто должен быть способен использовать его. Знание - отношения между элементами данных и образцами (паттернами) из данных. 42

Все приобретенные знания для ввода в базу знаний формализуются в соответствии с требованиями той модели знаний, которая соответствует выбранному проектировщиком системы представлению знаний. 43

Извлечение знаний (knowledge elicitation). Процедура взаимодействия с источником знаний, в результате которой становится явными процесс рассуждений специалистов принятии решения и структура их представления о предметной области [Гаврилова 67]. 44

Официальное определение процесса извлечения знаний из данных, принятое на первой международной конференции по этой проблематике в Монреале в 1995 г. , таково: "нетривиальное извлечение неявного, предварительно неизвестного и потенциально полезного знания из данных", то есть знание должно быть ново, не очевидно, и некто должен быть способен использовать его. Знание - отношения между элементами данных и образцами (паттернами) из данных. 45

Формирование знаний (machine learning). Процесс анализа данных и выявления скрытых закономерностей с использованием специального математического аппарата и программных средств [Гаврилова 69] (обучение, индуктивные методы, автоматическое порождение гипотез, обучение по примерам, вывод правил по фактам). 46

Машинное обучение (англ. Machine Learning) — обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Различают два типа обучения. Обучение по прецедентам, или индуктивное обучение, основано на выявлении закономерностей в эмпирических данных. Дедуктивное обучение предполагает формализацию знаний экспертов и их перенос в компьютер в виде базы знаний. Дедуктивное обучение принято относить к области экспертных систем, поэтому термины машинное обучение и обучение по прецедентам можно считать синонимами. 47

Машинное обучение находится на стыке математической статистики, методов оптимизации и дискретной математики, но имеет также и собственную специфику, связанную с проблемами вычислительной эффективности и переобучения. Многие методы индуктивного обучения разрабатывались как альтернатива классическим статистическим подходам. Многие методы тесно связаны с извлечением информации, интеллектуальным анализом данных (Data Mining). 48

Интеллектуальный анализ данных (англ. Data Mining) — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Подразделяется на задачи классификации, моделирования и прогнозирования и другие. 49

Английский термин «Data Mining» не имеет однозначного перевода на русский язык (добыча данных, вскрытие данных, информационная проходка, извлечение данных/информации) поэтому в большинстве случаев используется в оригинале. Наиболее удачным непрямым переводом считается термин «интеллектуальный анализ данных» (ИАД). 50

Методы Data Mining разделяются на статистические (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов) и кибернетические (искусственные нейронные сети, эволюционное программирование, генетические алгоритмы, ассоциативная память, нечеткая логика, деревья решений, системы обработки экспертных знаний). Визуальные инструменты Data Mining позволяют проводить анализ данных предметными специалистами (аналитиками), не владеющими соответствующими математическими знаниями. 51

Классификация — отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов. Кластеризация — разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга. Сокращение описания — для визуализации данных, лаконизма моделей, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации. Ассоциация — поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя» (англ. market basket analysis) — вместе с пивом часто покупают орешки. Прогнозирование Анализ отклонений — Например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы. Визуализация В литературе можно встретить еще ряд классов задач. Базовыми задачами являются первые три. Остальные задачи сводятся к ним тем или иным способом. 52

1. Отбор данных. Как правило, для решения конкретной задачи нужны не все данные из хранилища данных. Сначала необходимо выбрать то их подмножество, которое будет подвергнуто анализу. 53

2. Очистка. Существуют несколько типов очистки данных (удаление дублирующих записей, исправление ошибок, добавление отсутствующей информации и т. д. ), некоторые из которых могут выполняться заранее, в то время как другие вызываются только после обнаружения загрязнения на этапах кодирования или обучения. 54

Причины ошибок Ошибки могут быть обусловлены случайностями при подготовке обучающей выборки так и неквалифицированными оценками экспертов. Необходимое условия выявление ошибок: Выявление ошибок в обучающей выборке возможно за счет наличия закономерностей присущих взаимозависимым признакам и свойствам объектов. 55

Предполагается, что по признаку j, j J для классификационного свойства l, l L существует порядок значений по их характерности для каждого свойства и этот порядок не зависит от значений других признаков. Введем на множестве значений Xj транзитивное рефлексивное и антисимметричное бинарное отношение нестрогого порядка , определяемое следующим образом: упорядоченная пара значений признака j принадлежит отношению , если первое значение более характерно для свойства l (l L) чем второе значение. Используя отношения (l L, j J) построим бинарные отношения доминирования Rl на множестве состояния объектов X. 56

Гипотеза характерности Если для некоторого состояния определено наличие некоторого свойства l (l L), то и состояние , описываемое набором значений признаков не менее характерных для этого свойства, также обладает этим свойством: 57

Ошибка при анализе выполнения гипотезы характерности возникает в одном из двух случаев: 1. Для состояния, описываемого более характерными для некоторого свойства значениями признаков, установлена меньшая степень его выраженности. 2. Для состояния, описываемого менее характерными для некоторого свойства значениями признаков, установлена большая степень его выраженности. 58

Ошибки могут быть обусловлены следующими причинами: Элемент выборки (образ объекта ) ошибочно имеет или не имеет назначенное свойство. В соответствии с гипотезой характерности одному или нескольким обработанным ранее элементам выборки ошибочно назначено свойство. Для значений признаков неправильно сформулирована гипотеза характерности. . Пусть состояние x привело к противоречию с множеством состояний Xerr. Устранение ошибок можно производить с помощью экспертного опроса. Эксперту последовательно предъявляются пары состояний x и xerr (xerr Xerr ) и поясняется в каком соотношении должны быть степени характерности свойства. После этого в соответствии с мнением эксперта производится переназначение степеней характерности свойств x или xerr и состояние x исключается из Xerr. . 59

Гипотеза характерности может не соблюдаться из-за ошибочного предположения о возможности независимого ранжирования значений признака по характерности для устанавливаемого свойства. В этом случае имеется возможность выявить и объединить зависимые признаки в один агрегированный признак, выполнив нелинейное преобразование, и использовать значения полученного признака для построения отношения характерности. 60

3. Обогащение, восстановление данных 1. Восстановление значений по умолчанию 2. Восстановление пропущенных данных 3. Объединение данных 61

Методы обработки данных с пропусками Рассмотрим множество значений X*={x} (X* X) обучающей выборки. Выделим в множестве признаков J подмножества J 1 и J 2. Подмножество J 1 включает признаки, для которых определены все значения для всех элементов обучающей выборки X*. А подмножество J 2 включает признаки, для которых не определено хотя бы одно значение в элементах обучающей выборки X*. Методы обработки данных с пропусками можно условно разбить на четыре (пересекающиеся) группы: исключение некомпетентных объектов, с заполнением, взвешивания и методы, основанные на моделировании. 62

Причины пропуска данных Причины (механизмы образования пропусков) возникновения пропусков в данных для признака j (j J 2) можно классифицировать в соответствии с зависимостью вероятности пропуска значений признака j: 1. Вероятность пропуска значений признака j зависят от самого значения признака j и от значений признаков включаемых в J 1. 2. Вероятность пропуска значений признака j не зависят от значений признака j и зависят от значений признаков включаемых в J 1. 3. Вероятность пропуска значений признака j не зависят от значений признака j и не зависят от значений признаков включаемых в J 1 (данные отсутствуют случайно – ОС, данные присутствуют случайно – ПС; отсутствуют и присутствуют случайно - ОПС). 63

Виды пропусков Пропуски могут быть управляемыми (метод двойного выбора) или неуправляемыми (цензурирование) в выборке. Пропуски могут быть связаны с отказом в ответе эксперта, высокой стоимостью измерения, обнаруженными ошибками в регистрации данных. 64

Способы заполнения пропущенных данных Способами заполнения пропущенных значений (порождение пропусков) являются: 1. Замена пропущенных выражений с помощью явных выражений (с помощью регрессии); 2. Итеративные методы подбора пропущенных значений; 3. Заполнение безусловными средними; 4. Заполнение пристрастным подбором; 5. Заполнение условными средними (метод Бака); 6. Методы, основанные на моделировании; 7. Заполнение в планировании эксперимента; 7. Заполнение в многомерном анализе; 8. Заполнение в выборочных исследованиях. 65

4. Кодирование (преобразование пространства признаков) 1. Преобразование количественных в качественные и бинарные 2. Преобразование качественных и бинарных в количественные 3. Изменение количества значений качественных признаков 4. Обобщение данных 5. Изменение единиц измерений 66

4. Кодирование. Данные в примере могут подвергаться ряду преобразований. Например, Разделить кредит по 1000. Рассуждение для этого случая такое же, как и для классов по доходу; Преобразовать информацию об автомобилях да-нет в информацию 1 -0. В приложениях обнаружения знаний иногда полезно кодировать бинарные атрибуты в один бит, поскольку это облегчает эффективное выполнение алгоритмов распознавания образцов; Преобразовать дату приобретения в число месяцев, начиная с 1990 г. Атрибут с кардинальным числом n заменяется на n бинарных атрибутов. 67

5. Обнаружение (извлечение) знаний. Этап обнаружения знаний является ядром процесса интеллектуального анализа и обработки знаний. Технология обнаружения знаний включает много методов и основана на идеи, что существует больше знаний, скрытых в данных, чем видно на поверхности. 68

В настоящее время специалисты выделяют следующие основные методы извлечения знаний : инструментальные средства запроса, статистическая техника, визуализация, интерактивная аналитическая обработка (OLAP), обучение, основанное на прецедентах (k-ближайший сосед), деревья решений, ассоциативные правила, нейронные сети, генетические алгоритмы. 69

Классификация методов извлечения знаний 1. Алгебраические методы приобретения знаний 2. Статистические методы анализа 3. Нейросетевые методы анализа и МГУА 4. Эволюционные методы анализа 5. Метод аналогий 6. Автоматизированный анализ текстов 70

71

Сущность метода экспертных оценок заключается в проведении экспертами интуитивно-логического анализа проблемы с количественной оценкой суждений и формальной обработкой результатов. Получаемое в результате обработки обобщенное мнение экспертов принимается как решение проблемы. Комплексное использование интуиции (неосознанного мышления), логического мышления и количественных оценок с их формальной обработкой позволяет получить эффективное решение проблемы. 72

Коммуникативные методы Разделяются на пассивные и активные. В пассивных методах ведущую роль играет эксперт, в активных — инженер по знаниям. При решении конкретных задач, как правило, используются как пассивные, так и активные методы. Активные методы делятся на индивидуальные и групповые. В групповых методах знания получают от множества экспертов, в индивидуальных — от единственного эксперта. Индивидуальные методы получили более широкое применение на практике по сравнению с групповыми. Пассивные коммуникативные методы включают наблюдение, анализ протоколов «мыслей вслух» , процедуры извлечения знаний из лекций. 73

Текстологические методы включают методы извлечения знаний, основанные на изучении текстов учебников, специальной литературы и документов. Текстология — это наука, целью которой является практическое прочтение текстов, изучение и интерпретация литературных источников, а также рассмотрение семиотических, психолингвистических и других аспектов извлечения знаний из текстов. . 74

М 1 — смысл, заложенный автором и основанный на его собственной модели мира; М 2 — смысл, который постигает инженер по знаниям; I — интерпретация текста, изложенного словесно; Т — словесное изложение знаний; V — результат вербализации. 75

Алгоритм извлечения знаний из текстов Простейший алгоритм извлечения знаний из текстов включает следующие шаги. 1. Составить «базовый» список литературы для ознакомления с предметной областью. 2. Выбрать текст для извлечения знаний. 3. Беглое знакомство с текстом. Провести консультации со специалистами для определения значений незнакомых слов. 4. Сформировать первую гипотезу о макроструктуре текста. 5. Внимательно прочитать текст и выписать ключевые слова и выражения, определив тем самым «смысловые вехи» . 6. Определить связи между ключевыми словами, разработать макроструктуры текста в форме графа или реферата. 7. Сформировать новое представление знаний на основании макроструктуры текста. 76