Лекция 2.0.ppt
- Количество слайдов: 48
Лекция № 2 Предварительная обработка данных 1
Этапы приобретения знаний 1. Определение целей приобретения знаний (задач и функций системы принятия решений). 2. Формирование предметной онтологии. 3. Отбор данных. 4. Очистка: устранение противоречий и Дублирований. 5. Обогащение: восстановление данных. 6. Кодирование (преобразование пространства признаков). 7. Извлечение знаний. 2
1. Цели приобретения знаний: выявить знания, закономерности предметной области для использования знаний принятии решений. Например: - определить связи между мутацией генов и заболеваниями c целью их профилактики, - причины роста инфляции с целью устранения этих причин, -зависимость прочности материала от внешних факторов: вида и амплитуды нагрузки с целью использования новых знаний в задачах проектирования и предотвращения разрушения изделий; - ………………. . . 3
Содержание работ этапа 1. Вербальное описание прикладных задач проблемной области, целей их решения и требований к точности их решения. 2. Вербальное описание целей и задач приобретения знаний. 3. Выбор формы представления извлекаемых знаний: 1. Алгебраические модели (модель дифференциального исчисления, разностные схемы, рекуррентные соотношения, регрессионные зависимости, …). 2. Статистические модели 3. Сетевые модели (семантические сети, фреймы, …) 4. Модели формальных грамматик. 5. Логическая модель (предикаты первого порядка, …. ). 6. Продукционные модели. 7. Нечеткие модели (нечеткие логические модели, гибридные нечеткие модели, …). 8. Неявные модели (нейронные сети). …………………. 4. Предварительная постановка задачи. 4
Пример постановки задачи извлечения знаний Биологические объекты являются сложными динамическими системами и характеризуются значительным количеством параметров и воздействий внешней среды. Процессы, протекающие в таких системах, носят нестационарный характер, аналитические выражения, связывающие параметры динамической системы, как правило, неизвестны и не могут быть точно установлены. Такие системы уникальны, т. е. даже аналогичные по назначению системы имеют ярко выраженные специфические свойства во многом определяющие их поведение. Продолжительность экспериментов с такими системами велика и часто соизмерима со сроком их жизни. К тому же, невозможно практически ставить «чистые» опыты, так как при проведении экспериментов оказывают влияние множество ненаблюдаемых факторов. Каждая динамическая система уникальна и имеет ярко выраженные специфические свойства. 5
Формальная модель Наиболее часто модели динамических систем представляются в виде системы дифференциальных уравнений первого порядка определенных в пространстве состояний: где x = (x 1, x 2, , …, xn) – вектор переменных, , определяющие пространство состояния ДС в момент времени наблюдения t. Системы дифференциальных уравнений можно представить в виде систем разностных уравнений. Основой математического моделирования динамических систем является модуль вычислительной сети разностного уравнения для i-ого параметра, 6 изображение которого показано на рисунке.
Xi(t+Dt) t) ADD DXi(t) Dt Dt MUL Xi(t) X 1(t) Dt t fi (x, u, t) Xn(t) t+Dt ADD X’i(t) u 1(t) um(t) 7
Постановка задачи Определить множество функциональных зависимостей fi (x, u, t) (I = 1, n) между неуправляемыми факторами x, управляемыми факторами u и скоростью изменения неуправляемыми факторов x’, которая обеспечит решение задачи диагностики множества заболеваний из множества T c заданной точностью E. 8
Построение онтологии предметной области Онтология – это формальная спецификация концептуализации, которая имеет место в некотором контексте предметной области (Gruber, 1993). Концептуализация представляет собой описание понятий, а также всю информацию, имеющую отношение к понятиям (свойства, отношения, ограничения, аксиомы, утверждения), необходимую для описания и решения задач в избранной предметной области. Концептуальная модель - система концептов и отношений предметной области. Концепт - понятие, отражающее некоторый конкретный или абстрактный объект реального мира. Формально онтология состоит из понятий (терминов, организованных в таксономию), их описаний и аксиом. Содержание концепта – совокупность отраженных в нем признаков предметов. Таксономия (от греч. taxis - расположение, строй, порядок и nómos - закон), теория классификации и систематизации сложноорганизованных областей действительности. 9
Пример онтологии верхнего уровня 10
КОНЦЕПТЫ И АТРИБУТЫ Содержание концепта – совокупность отраженных в нем признаков предметов. Характеристика – описание определенных свойств, черт или качеств объектов. Признак – это отличительная количественная или качественная характеристика объекта. Признак –когнитивный элемент, позволяющих отделять объект от других объектов. Параметр – это количественная характеристика свойства или состояния объекта и значения которого может являться признаком. Атрибут – неотъемлемое свойство объекта рассмотрения (предмета) без которого он не может 11 существовать или мыслиться.
СВОЙСТВА Свойство –сторона проявление качества объекта. Атрибут, аттрибут (от лат. attribuo — придаю, наделяю), необходимое существенное, неотъемлемое свойство объекта. Например, в философии атрибут материи — движение. Су щность (лат. Essentia) — то постоянное, что сохраняется в явлении при различных его вариациях, в том числе и временных, сердцевина бытия Признак (Sign; Indication) (Толковый словарь русского языка Ушакова) – та сторона в предмете или явлении, по которой его можно узнать, определить или описать, которая служит его приметой, знаком, «признак» употребляется как описание фактов, позволяющих сделать вывод о наличии интересующего предмета или явления. Характеристика - описание, определение отличительных свойств, достоинств и недостатков предмета или явления. Пара метр (от др. -греч. παραμετρέω «соразмеряю» ) — величина, значения которой служат для различения элементов некоторого множества между собой, количественный показатель, характеризующий важное свойство чего -либо. Показатель - обобщенный количественный параметр явлений и процессов в единстве с их качественными характеристиками. 12
Объект существующий независимо от нашего сознания внешний мир, являющийся предметом познания, практического воздействия субъекта. Предмет - объект рассмотрения. Абстрактный предмет - выделенный путем абстракции, отдельные свойства, стороны, состояния материальных объектов и отношений межу ними. Предметом могут быть и отдельное событие, и процесс, содержащий в себе ряд событий, и ситуация, включающая как различные события, так и объединяющие их процессы во всем многообразии их взаимодействий. 13
Ситуация - это обобщающее понятие для таких категорий, как событие, процесс, состояние, действие, которые представляют собой различные аспектуальные типы ситуаций. Стативные ситуации обозначают состояния и свойства, т. е. такие ситуации, которые обладают длительностью и значительной устойчивостью во времени. Стативные ситуации стабильны; они существуют, как правило, независимо от воли субъекта и не требуют специальных усилий по их поддержанию. Примерами стативных предикатов являются: 'быть высоким', 'быть мокрым', 'быть веселым', 'желать', 'спать' и др. Событие многозначный термин, обозначающий множество стабильных свойств объекта. Состояние описывает переменные свойства объекта и оно стабильно до тех пор пока над объектом не будет произведено действие, которое может привести к изменению состояния. Действие. Проявление энергии, деятельности, а также сама сила, деятельность, функционирование чего-либо, результат проявления деятельности чего-либо, влияние, воздействие. 14
Нестативные ситуации Внутри нестативных ситуаций, также существует семантическая классификация, деление на обозначения событий и обозначения процессов, а последних – на обозначения процессов предельных и непредельных 15
Событие Современное значение слова "событие" сформулировано в Малом академическом словаре русского языка. Словарь толкует это значение через синонимы - "происшествие", "явление", "случай" и "факт", подчеркивая два существенных отличия. Во-первых, событие касается не любых явлений, а только имеющих отношение к жизни человека и общества (ср. : "явление природы", но: "*событие природы"). Во-вторых, событием обозначают выдающиеся происшествия, "выходящие за рамки обычного течения жизни «. Событие - значительное явление то, что произошло. Событиями принято называть мгновенные ситуации, состоящие в переходе от одного состояния к другому, – такие, как 'упасть', 'вспыхнуть', 'проснуться', 'понять' и т. п. Слово «мгновенные» в определении событий не следует понимать буквально: физически ситуация, описываемая предикатом события, может, разумеется, занимать какой-то отрезок времени, однако с точки зрения языка события как бы не имеют длительности и сводятся к «точке» на временной оси, поскольку у них нет никакой промежуточной фазы. 16
Процессы Большой толковый словарь русского языка (издание РАН): дает следующие определение термина процесс [от лат. processus – течение] ход, развитие какого-либо явления, последовательная смена событий в развитии чего-либо. События противопоставляются процессам, основным свойством которых является как раз наличие длительности, т. е. способность занимать значительные отрезки временной оси (ср. гореть, бежать, нести, резать, открывать и т. п. ). Это свойство сближает процессы с состояниями, которые также обладают длительностью. Отличие процессов от состояний заключается прежде всего в том, что для поддержания процесса требуется некоторый постоянный приток энергии, без которого процесс продолжаться не может, а состояние длится как бы «само по себе» . Другим важным отличием является то, что состояния никогда не описывают изменений, а процессы приспособлены именно для описания различных изменений во времени. 17
Отношения Отношение взаимная связь объектов, предметов, явлений, действий, понятий, процессов, выраженная в связи соответствующих понятий. В СС могут использоваться отношения произвольной степени, связывающие произвольное количество понятий. Каждое отношения обладает рядом свойств внутренней и внешней семантикой. Семантика задается с помощью аксиом. В онтологии могут использоваться отношения произвольной степени, связывающие произвольное количество понятий. 18
Внутренняя семантика бинарных отношений, аксиомы, свойства отношений 1. Рефлексивность 2. Антитранзитивность 3. Нерефлексивность 4. Симметричность 5. Антисимметричность 6. Асимметричность 7. Несимметричность 8. Транзитивность 9. Антитранзитивность 10. Нетранзитивность 11. Эквивалентность 12. Порядок 19
Пример концептов предметной области 20
Метаболизм витамина D Кишечник Костная ткань Почки Стенки киш-ка Печень ЩЖ ПЩЖ Осажде-ние соли Мобили-зация Кровь матери Кожа МЖ Мышцы Кишечник ребенка Стенки ЩЖ Почки ПЩЖ Печень Кровь ребенка Осажде-ние соли Кожа Мышцы Мобили-зация Костная ткань 21
0. Организм женщины 1. Околоплодные воды 2. Почки плода 3. Система кровообращения плода 4. ЖКТ плода 5. Ткани плода 22
Скорости потоков (литр / сутки) СТОКИ ( ) ИСТОКИ ( + ) 0 x’ 1 u 1 V 01 2 x’ 4 x’ 5 4 5 0 V 41 V 21 x’ 2 x’ 3 3 V 51 V 10 V 32 V 03 V 23 V 14 1 2 V 53 4 5 V 14 V 21 V 43 3 V 30 V 23 V 32 V 34 V 41 V 35 V 34 V 35 V 43 V 51 23
Признаки Качественные Бинарные Количественные Многозначные Счетные Мерные Количественные Вариация Точность Единица измерения 24
Классификация признаков Каждый j-ый признак (j=1, n) может принимать значение xj из множества Xj. Вид множества Xj определяет разделение признаков на количественные и качественные. Количественные признаки поддаются непосредственному измерению или счету. Качественные признаки не поддаются непосредственному измерению и устанавливаются по наличию их свойств у объекта наблюдения. 25
Количественные признаки подразделяются на мерные( метрические) и счетные (меристические). Для метрических признаков: Xj B, Xj N, Xj N*, (N*= N {0}) Xj Z, Xj Q или Xj R Варьирование значений может осуществляться непрерывно (множество Xj - бесконечно) или дискретно (множество Xj конечно). Для метрических признаков задается единица и точность измерения, максимальное и минимальное значение. Счетные признаки варьируются прерывисто: Xj B, Xj N*. 26
Качественные признаки задаются своими значениями в виде множества: X = {x 1, x 2, …, x. N}, где xk – значение k-го признака (k = 1, 2, …, N). Значение каждого признака может меняться в зависимости от реализации может принимать значение из некоторого множества: xk = {xk 1, xk 2, …, xk. R}, где xkl – l-е возможное значение k-го признака (l = 1, 2, …, R, k = 1, 2, …, N). Если качественное значение признака задано нечетко, то рассматривается степень присутствия качественного значения у объекта, которая задается функцией принадлежности m: Xj [0, 1], признаком нечеткого события. 27
Бинарные признаки Качественный признак, принимающий два альтернативных значения, выражаемых двумя противоположными понятиями (антонимами), или выражающих наличие либо отсутствие какоголибо свойства у объекта, называют бинарным (альтернативным). 28
Преобразование качественных признаков в количественные признаки Каждое значение качественного признака может быть представлено количественным значением с помощью процедуры, определяемой функцией: s : Xj X*. Пусть наступило событие, определяемое наличием или отсутствием значения xj (xj Xj) качественного признака у рассматриваемого объекта. Введем индикаторную функцию d, которая будет принимать значение 1. если у объекта имеется значения качественного признака xj и значение 0 в противном случае. Тогда в качестве области значений X* функции s рассматривается множество B* (B*={0, 1}): s: Xj B*. 29
Первичные и вторичные признаки Первичные признаки (наглядные) являются сенсорными или первичными понятиями. Вторичные признаки – признаки, которые можно определить на основе наблюдаемых, первичных или вторичных признаков по известным алгоритмам. 30
Определение вторичных признаков Для определения значений вторичных признаков 1. Используют понятия: -функция, -Аргумент функции, -Значение функции, 2. Используют отношения: - «Является аргументом» , - «Является значением функции (результатом)» , - «Взаимная зависимость аргументов» . 31
Пример задания функций для определения вторичных признаков 1. V понятия признаки: (переменные или константы: x 1, x 2, …, xi, …, xn); 2. F понятия функции: F(x 1, x 2, …, xi-1, xi+1, …xn) = 0. Функция F должна быть разрешена относительно всех своих аргументов: x 1, x 2, …, xi-1, xi+1, …xn, т. е. должны быть определены функции: xi = fi(x 1, x 2, …, xi-1, xi+1, …xn), i=1, n. Понятия из v (v V) и F находятся в отношении взаимной зависимости , если среди аргументов F присутствует понятие v (v V). 32
Пример отношения взаимной зависимости. Плавание тела в жидкости r 2 m 5 7 r 1 3 FA S h+ 4 g P V+ V 6 8 V h- H Обозначения: P вес тела; m масса тела; g ускорение свободного падения; r плотность вещества тела, V объем тела; FA сила Архимеда; V объем подводной части тела; V+ объем надводной части тела; r 0 плотность жидкости; h высота подводной части тела; h+ высота надводной части 33 тела; h высота тела; S площадь основания тела.
Обозначения Список функций: 1. P - mg = 0; P = mg, m = P/g; g = P/m. 2. m - r. V = 0; m = r. V, r = m/V, V = m/r 3. P FA = 0; P = FA; FA = P; 4. FA V r 0 g =0; FA = V r 0 g; V = FA /(r 0 g); r 0 = FA /( V g); g = FA /( V r 0); 5. V V+ + V = 0; V = V+ + V ; V+ = V V ; V = V V+; 6. V h S = 0; V = h S; S = V / h ; h = V / S; 7. V+ h+ S = 0; V+= h+ S; S = V+ / h+; h = V+ / S; 8. H h +h+ = 0; H = h +h+; h = H h+; h+ = H h 34
Пример определения значений функции зависящей от времени 35
Отбор данных 1. Источники данных: на носителе (электронный и неэлектронный), специалист (эксперт). 2. Виды данных: знания, факты 3. Форма представления: база данных, хранилище, многомерные данные. 4. Структура предметной области (однородные, неоднородные объекты) 36
Очистка и устранение дублирований и противоречий Ошибки могут быть обусловлены случайностями при подготовке обучающей выборки так и неквалифицированными оценками экспертов. Выявление ошибок в обучающей выборке возможно за счет наличия закономерностей присущих взаимозависимым признакам и свойствам объектов. 37
Предполагается, что по признаку j, j J для классификационного свойства l, l L существует порядок значений по их характерности для каждого свойства и этот порядок не зависит от значений других признаков. Введем на множестве значений Xj транзитивное рефлексивное и антисимметричное бинарное отношение нестрогого порядка , определяемое следующим образом: упорядоченная пара значений признака j принадлежит отношению , если первое значение более характерно для свойства l (l L) чем второе значение. Используя отношения (l L, j J) построим бинарные отношения доминирования Rl на множестве состояния объектов X. 38
Гипотеза характерности Если для некоторого состояния определено наличие некоторого свойства l (l L), то и состояние , описываемое набором значений признаков не менее характерных для этого свойства, также обладает этим свойством: 39
Ошибка при анализе выполнения гипотезы характерности возникает в одном из двух случаев: 1. Для состояния, описываемого более характерными для некоторого свойства значениями признаков, установлена меньшая степень его выраженности. 2. Для состояния, описываемого менее характерными для некоторого свойства значениями признаков, установлена большая степень его выраженности. 40
Ошибки могут быть обусловлены следующими причинами: Элемент выборки (образ объекта ) ошибочно имеет или не имеет назначенное свойство. В соответствии с гипотезой характерности одному или нескольким обработанным ранее элементам выборки ошибочно назначено свойство. Для значений признаков неправильно сформулирована гипотеза характерности. . Пусть состояние x привело к противоречию с множеством состояний Xerr. Устранение ошибок можно производить с помощью экспертного опроса. Эксперту последовательно предъявляются пары состояний x и xerr (xerr Xerr ) и поясняется в каком соотношении должны быть степени характерности свойства. После этого в соответствии с мнением эксперта производится переназначение степеней характерности свойств x или xerr и состояние x исключается из Xerr. . 41
Гипотеза характерности может не соблюдаться из-за ошибочного предположения о возможности независимого ранжирования значений признака по характерности для устанавливаемого свойства. В этом случае имеется возможность выявить и объединить зависимые признаки в один агрегированный признак, выполнив нелинейное преобразование, и использовать значения полученного признака для построения отношения характерности. 42
5. Обогащение, восстановление данных 1. Восстановление значений по умолчанию 2. Восстановление пропущенных данных 43
Методы обработки данных с пропусками Рассмотрим множество значений X*={x} (X* X) обучающей выборки. Выделим в множестве признаков J подмножества J 1 и J 2. Подмножество J 1 включает признаки, для которых определены все значения для всех элементов обучающей выборки X*. А подмножество J 2 включает признаки, для которых не определено хотя бы одно значение в элементах обучающей выборки X*. Методы обработки данных с пропусками можно условно разбить на четыре (пересекающиеся) группы: исключение некомпетентных объектов, с заполнением, взвешивания и методы, основанные на моделировании. 44
Причины пропуска данных Причины (механизмы образования пропусков) возникновения пропусков в данных для признака j (j J 2) можно классифицировать в соответствии с зависимостью вероятности пропуска значений признака j: 1. Вероятность пропуска значений признака j зависят от самого значения признака j и от значений признаков включаемых в J 1. 2. Вероятность пропуска значений признака j не зависят от значений признака j и зависят от значений признаков включаемых в J 1. 3. Вероятность пропуска значений признака j не зависят от значений признака j и не зависят от значений признаков включаемых в J 1 (данные отсутствуют случайно – ОС, данные присутствуют случайно – ПС; отсутствуют и присутствуют случайно - ОПС). 45
Виды пропусков Пропуски могут быть управляемыми (метод двойного выбора) или неуправляемыми (цензурирование) в выборке. Пропуски могут быть связаны с отказом в ответе эксперта, высокой стоимостью измерения, обнаруженными ошибками в регистрации данных. 46
Способы заполнения пропущенных данных Способами заполнения пропущенных значений (порождение пропусков) являются: 1. Замена пропущенных выражений с помощью явных выражений (с помощью регрессии); 2. Итеративные методы подбора пропущенных значений; 3. Заполнение безусловными средними; 4. Заполнение пристрастным подбором; 5. Заполнение условными средними (метод Бака); 6. Методы, основанные на моделировании; 7. Заполнение в планировании эксперимента; 7. Заполнение в многомерном анализе; 8. Заполнение в выборочных исследованиях. 47
Кодирование (преобразование пространства признаков) 1. Преобразование количественных в качественные и бинарные 2. Преобразование качественных и бинарных в количественные 3. Изменение количества значений качественных признаков 4. Обобщение данных 5. Изменение единиц измерений 48
Лекция 2.0.ppt