Современные технологии интеллектуальной обработки информации
Современные технологии интеллектуальной обработки информации 1
Разновидности автоматизированных систем Автоматизированные системы Системы поддержки операционной обработки принятия решений (СППР) информации (СОД) предназначены для используются для обработки автоматизации повседневных данных, их анализа и задач предоставления результатов (учет доходов и расходов лицу, принимающему бюджета, движения денежных управленческие решения(ЛПР). средств, клиентов, договоров, заказов, взаиморасчетов, запасов и пр. ) Типичным примером системы операционной обработки информации является широко известная « 1 С Бухгалтерия» . 2
Транзакционные(учетные) системы n Транзакция – это множественное, взаимосогласованное, логически непротиворечивое изменение информации в базе данных. q Взаимосогласованное означает, что все изменения, произошедшие в 1 части согласованы с изменениями в другой части БД. q Непротиворечивое – т. е. в любой момент времени можно сказать, завершилась транзакция или нет. Можно сказать, что Транзакция переводит систему из одного определенного состояния в другое определенное состояние
Нетранзакционный режим A B A n Недостаток – низкая надежность. q Если происходит какой либо сбой, база данных находится в состоянии незаконченности (логически противоречива): часть БД находится в состоянии А, часть – в состоянии B. q Завершается в ручную
Режим транзакции B А B’ А’ B’ A’ Шаги транзакции: 1) Фиксация А 2) Копирование А – А’ 3) Изменение А’ – В’ 4) Копирование В’ – В 5) Завершение транзакции (отказываемся от А, фиксируем В), можно этот шаг назвать «фиксация В»
Технологии аналитической обработки информации СППР Data Mining Data Warehouse OLAP Средства технология Хранилищ интеллектуальной технология оперативной данных аналитической обработки данных 6
Хранилище данных (ХД) предметно ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки принятия решений. 7
Свойства хранилища данных n Предметная ориентированность. Хранилище данных организовано вокруг основных предметов (или субъектов) организации (например, клиенты, товары и продажи), а не вокруг прикладных областей деятельности (выписка счета клиенту, контроль товарных запасов и продажа товаров). Это свойство отражает необходимость хранения данных, предназначенных для принятия решений, а не обычных оперативно прикладных данных. n Интегрированность. Смысл этой характеристики состоит в том, что оперативно прикладные данные обычно поступают из разных источников, часто имеют несогласованное представление одних и тех же данных. Для предоставления пользователям обобщенного представления данных необходимо создать интегрированный источник, обеспечивающий согласованность хранимой информации. 8
Свойства хранилища данных n Привязка ко времени. Данные в хранилище привязаны к некоторому моменту или промежутку времени. Привязанность хранилища данных ко времени следует из большой протяженности того периода, за который была накоплена сохраняемая в нем информация, из связи временных отметок со всеми сохраняемыми данными, а также из того факта, что хранимая информация фактически представляет собой набор моментальных снимков состояния n Неизменяемость. Это означает, что данные не обновляются в оперативном режиме, а лишь регулярно пополняются за счет информации из оперативных систем обработки. При этом новые данные никогда не заменяют прежние, а лишь дополняют их. Таким образом, база данных хранилища постоянно пополняется новыми данными, последовательно интегрируемыми с уже накопленной информацией. 9
Сравнительные характеристики систем операционной обработки и хранилищ данных. Система операционной обработки Хранилище данных Предназначена для обработки транзакций Предназначена для проведения анализа Содержит текущие данные Содержит исторические данные Хранит подробные сведения Хранит подробные сведения, а также частично и значительно обобщенные данные Данные являются динамическими Данные в основном являются относительно статическими Повторяющийся способ обработки данных Нерегламентированный, неструктурированный и эвристический способ обработки данных Высокая интенсивность обработки транзакций Средняя и низкая интенсивность обработки транзакций Предсказуемый способ использования данных Непредсказуемый способ использования данных Ориентирована на прикладные области Ориентирована на предметные области Поддержка принятия повседневных решений Поддержка принятия стратегических решений Обслуживает большое количество работников Обслуживает относительно малое количество (уровень исполнителей) работников (уровень руководителей) 10
Типичная архитектура хранилища данных 11
Источники данных для ХД n Данные из систем операционной обработки. Могут также содержаться в иерархических и сетевых базах данных первого поколения. n Данные различных подразделений, сохраняемые в специализированных файловых системах и в реляционных базах данных. n Закрытые данные, которые хранятся на рабочих станциях и закрытых серверах. n Внешние системы, например Internet, коммерчески доступные базы данных или базы данных, принадлежащие поставщикам или клиентами организации. 12
Пример интеграции информации
Программные компоненты ХД n Менеджер загрузки выполняет все операции, связанные с извлечением и загрузкой данных в хранилище. Эти операции включают простые преобразования данных, необходи мые для их подготовки к вводу в хранилище. n Менеджер хранилища выполняет такие операции, как анализ непротиворечивости и очистка данных; преобразование и перемещение исходных данных из временного хранилища в основные таблицы хранилища данных; создание индексов и представлений для базовых таблиц; денормализация данных; обобщение данных; резервное копирование и архивирование данных n Менеджер запросов решает задачи обеспечения доступа пользователей к требуемой информации, разграничение и контроль доступа к данным 14
Программные компоненты ХД n Средства доступа к данным конечного пользователя. Основным назначением хранилища данных является предоставление конечным пользователям информации, необходимой им для принятия стратегических решений. n Инструменты доступа к данным можно разбить на пять основных групп: q инструменты создания отчетов и запросов; q инструменты разработки приложений; q инструменты информационной системы руководителя (Executive Information System — EIS); q инструменты оперативной аналитической обработки (OLAP инструменты) q инструменты разработки данных.
Разновидности данных в ХД n Детальные данные - все детальные данные, описанные в схеме базы данных. В большинстве случаев детальные данные хранятся не на оперативном уровне, а в виде информации, обобщенной до следующего уровня детализации. Например, платежные банковские документы определены в реальном времени (день, месяц, год, час, минута, секунда). n Частично и глубоко обобщенные данные - все данные, предварительно обработанные менеджером хранилища с целью их частичного или глубокого обобщения (агрегат данных). Например, данные по доходам бюджета могут обобщаться (агрегироваться) по месяцам. 16
Пользовательские инструменты доступа к данным n традиционные инструменты создания запросов и отчетов и инструменты разработки приложений; n инструменты информационной системы руководителя (Executive Information System — EIS); n инструменты оперативной аналитической обработки (OLAP инструменты) n средства Data Mining 17
Классификация инструментов по уровню возможностей анализа или получаемых знаний Инструменты доступа к Уровни получаемых знаний данным Язык запросов и генерации Поверхностный отчетов Оперативная Неглубокий аналитическая обработка Data mining Скрытый 18
Проблемы разработки хранилищ данных n Недооценка ресурсов, необходимых для загрузки данных n Скрытые проблемы источников данных n Отсутствие требуемых данных в имеющихся архивах или различные структуры данных n Гомогенизация данных n Высокие требования к ресурсам n Владение данными n Сложное сопровождение n Долговременный характер проектов 19
Витрина данных подмножество хранилища данных, которое поддерживает требования отдельного подразделения или деловой сферы организации. 20
Требования к СУБД для ХД n Высокая производительность загрузки данных n Возможность обработки данных во время загрузки n Наличие средств управления качеством данных n Высокая производительность запросов n Широкая масштабируемость по размеру (до терабайт) n Масштабируемость по количеству пользователей n Возможность организации сети хранилищ данных n Наличие развитых средств администрирования хранилища n Расширенный набор средств запросов n Широкий набор функциональных средств доступа и анализа данных 21
Базовые программные средства для ХД Business Intelligence программные средства, функционирующие в рамках предприятия и обеспечивающие функции доступа и анализа информации, которая находится в хранилище данных, а также обеспечивающие принятие правильных и обоснованных управленческих решений. В СУБД «SQL Server 2005» корпорация Microsoft разработала совершенно новую среду — Business Intelligence Development Studio.
Объекты и атрибуты для анализа Атрибуты Код Возрас Семейное Дохо Клас клиента т положение д с 18 Single 125 1 22 Married 100 1 30 Single 70 1 Объект 4 32 Married 120 1 ы 5 24 Divorced 95 2 6 25 Married 60 1 7 32 Divorced 220 1 8 19 Single 85 2 9 22 Married 75 1 10 40 Single 90 2 23
Шкалы и размерности виды Измерение процесс присвоения чисел характеристикам изучаемых объектов согласно определенному правилу. Шкала правило, в соответствии с которым объектам присваиваются числа. Пять типов шкал измерений: q номинальная, q порядковая, q интервальная, q относительная q дихотомическая. Относительные и интервальные шкалы являются числовыми. 24
Номинальная шкала, содержащая только категории; данные в ней не могут упорядочиваться, с ними не могут быть произведены никакие арифметические действия n Пример шкалы: профессии, город проживания, семейное положение. n Применимы только операции: равно (=), не равно (). 25
Порядковая шкала (ordinal scale) шкала, в которой числа присваивают объектам для обозначения относительной позиции объектов, но не величины различий между ними. n Измерения в порядковой шкале содержат информацию только о порядке следования величин, но не позволяют сказать "насколько одна величина больше другой", или "насколько она меньше другой". n Пример такой шкалы: номер студента в рейтинге успеваемости (1 й, 23 й, и т. д. ), при этом неизвестно, насколько один студент успешней другого, известен лишь его номер в рейтинге. n Применимы только операции: равно (=), не равно (), больше (>), меньше (<). 26
Интервальная шкала (interval scale) шкала, разности между значениями которой могут быть вычислены, однако их отношения не имеют смысла. n Эта шкала позволяет находить разницу между двумя величинами, обладает свойствами номинальной и порядковой шкал, а также позволяет определить количественное изменение признака. n Пример шкалы: возраст от 35 до 39 лет, от 40 до 45. Нельзя сказать, что второй диапазон во столько то раз выше. n Применимы операции: равно (=), не равно (), больше (>), меньше (<), операции сложения (+) и вычитания ( ). 27
Относительная шкала, в которой есть определенная точка отсчета и возможны отношения между значениями шкалы. Пример шкалы: цена на картофель в супермаркете выше в 1, 2 раза, чем цена на рынке. Для этой шкалы применимы операции: равно (=), не равно (), больше (>), меньше (<), операции сложения (+) и вычитания ( ), умножения (*) и деления (/). 28
Дихотомическая шкала, содержащая только две категории. n Пример такой шкалы: пол (мужской и женский). 29
Использования разных шкал для измерений свойств различных объектов Множество измерений свойств различных объектов Номер Профессия Средний бал Образование объек (номинальная (интервальная (порядковая та шкала) 1 слесарь 22 среднее 2 ученый 55 высшее 3 учитель 47 высшее 30
Транзакционные данные представляют собой особый тип данных, где каждая запись, являющаяся транзакцией, включает набор значений. 31
Моментальная модель хранения данных В системах операционной обработки используются только моментальные снимки данных. Снимок данных — это представление данных в определенный момент времени (предыдущие значения атрибутов замещаются новыми) Такая модель не обеспечивает хранения истории изменений. 32
Событийная модель или статусная модель В хранилищах данных используется событийная модель или статусная модель, обеспечивает хранение истории. Событийная модель используется для моделирования данных о наступлении событий в определенные моменты времени. Хорошо подходит для моделирования транзакций, таких как: продажи, финансовые транзакции, складские операции и т. д. 33
Статусные модели виды Используется для моделирования состояния объектов во времени. Три способа моделирования изменяющихся во времени статусов: n непрерывная модель — для хранения промежутков времени используется одно поле даты. Дата начала следующего периода совпадает с датой окончания предыдущего; n начало и конец — для хранения промежутков времени используется два поля — дата начала и дата окончания периода действия статуса; n начало и длительность — для хранения промежутков времени используется одно поле даты (дата начала) и поле длительности периода. 34
Статусная модель "начало и конец" Большее распространение при создании статусных моделей получил способ "начало и конец" 35
Статусная и событийная модели модель хранения данных n Статусная и событийная модели являются взаимно дополняющими. n Путем преобразований из одной можно получить другую. Например, зная остаток на счете на определенный момент и историю транзакций в событийной модели, можно восстановить все статусы счета (остатки на счете) в периоды между транзакциями. n И наоборот, имея статусную модель остатков на счете, можно вычислить события (т. е. транзакции), которые происходили со счетом в начале (конце) каждого периода. 36
Модели данных в ХД, измерения и факты В ХД часто используются понятия размерностей (также измерений) и фактов. Размерность — это признак, в разрезе которого можно получать, фильтровать, группировать и отображать информацию о фактах. Примеры размерности: n Клиент n Продукт n Время n География n Сотрудник Размерности, как правило, имеют многоуровневую иерархическую структуру. Например, размерность ВРЕМЯ может иметь следующую структуру: ГОД, КВАРТАЛ, МЕСЯЦ, ДЕНЬ. 37
Факты и измерения Факты — это величины, обычно числовые, хранящиеся в таблице фактов и являющиеся предметом анализа. Примеры фактов: объем операций, количество проданных единиц товара и т. д. Факты индексируются или определяются размерностями. Например, количество проданных единиц товара зависит от продукта, клиента, времени и места (География). Факты могут быть аддитивными, полуаддитивными и неаддитивными. Аддитивность определяет возможность суммирования факта вдоль определенной размерности (или говорят по иерархии). 38
Разновидности фактов аддитивноть суммировать и группировать вдоль Аддитивные факты можно всех размерностей на любых уровнях иерархии. Полуаддитивный факт — это факт, который можно суммировать вдоль определённых размерностей, и нельзя — вдоль других. Пример: остаток на счете. Данную величину нельзя суммировать вдоль размерности ВРЕМЯ. Неаддитивные факты вообще нельзя суммировать. Пример неаддитивного факта — отношение (например, выраженное в процентах). 39
Модели данных ХД: "звезда" и "снежинка". n. Схема "звезда" — характеризуется наличием таблицы фактов, окруженной связанными с ней таблицами размерностей. Избыточность данных и высокая по сравнению с нормализованными структурами производительность. n Схема «снежинка» хотя бы одно измерение (таблица размерностей) содержится в нескольких связанных таблицах. Сокращает избыточность в таблицах размерностей. 40
Схема "звезда" 41
Схема «снежинка» 42
Таблицы покрытия используются с целью моделирования сочетания размерностей, для которых отсутствуют факты. Например, нужно найти количество категорий продуктов, которые сегодня ни разу не продавались. Таблица фактов продаж не может ответить на данный вопрос, поскольку она регистрирует только факты продаж. Для того чтобы модель позволяла отвечать на подобные вопросы, нужна дополнительная таблица фактов (которая, по сути дела, не содержит фактов), которая и называется таблицей покрытия. 43
Метаданные (Metadata) это данные о данных (составе данных, содержании, статусе, происхождении, местонахождении, качестве, форматах и формах представления, условиях доступа, приобретения и использования, авторских, имущественных и смежных с ними правах на данные и др. ) Применяются при управлении хранилищем, содержат информацию, необходимую для его настройки и использования. Различают бизнес-метаданные и оперативные метаданные. Бизнес-метаданные содержат бизнес термины и определения, принадлежность данных и иногда правила оплаты услуг хранилища. Оперативные метаданные это информация, собранная во время работы хранилища данных. Происхождение перенесенных и преобразованных данных, статус использования данных (активные, архивированные или удаленные), данные мониторинга, такие как статистика использования, сообщения об ошибках и т. д. 44
Data Mining(DM) или добыча знаний n Data Mining процесс поиска в данных скрытых закономерностей (шаблонов информации). n Data Mining это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей. n Data Mining это процесс обнаружения в сырых данных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. n Data Mining это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для использования. Качественное отличие Data Mining от традиционных статистических методов анализа, которые ориентированы на проверку заранее сформулированных гипотез. 45
Примеры задач DM Банковское дело n Классический пример применения Data Mining в банковском деле решение задачи определения возможной некредитоспособности клиента банка. n Задача привлечения новых клиентов банка возможно провести классификацию на "более выгодных" и "менее выгодных" клиентов. После определения наиболее выгодного сегмента клиентов банку есть смысл проводить более активную маркетинговую политику по привлечению клиентов именно среди найденной группы. n Задачи сегментации клиентов Разбивая клиентов при помощи инструментов Data Mining на различные группы, банк имеет возможность сделать свою маркетинговую политику более целенаправленной, а потому – эффективной. n Задача управления ликвидностью банка. Прогнозирование остатка на счетах клиентов. n Задача выявления случаев мошенничества с кредитными карточками.
Примеры задач DM Страхование n Информация, полученная в результате сегментации клиентов на группы, используется для определения групп клиентов. В результате страховая компания может с наибольшей выгодой и наименьшим риском предлагать определенные группы услуг конкретным группам клиентов. n Задача выявление мошенничества решается путем нахождения некого общего стереотипа поведения клиентов мошенников. Электронная коммерция n В сфере электронной коммерции Data Mining применяется для формирования рекомендательных систем и решения задач классификации посетителей Web сайтов. Такая классификация позволяет компаниям выявлять определенные группы клиентов и проводить маркетинговую политику в соответствии с обнаруженными интересами и потребностями клиентов.
Примеры задач DM Промышленное производство n комплексный системный анализ производственных ситуаций; n краткосрочный и долгосрочный прогноз развития производственных ситуаций; n выработка вариантов оптимизационных решений; n прогнозирование качества изделия в зависимости от некоторых параметров технологического процесса; n обнаружение скрытых тенденций и закономерностей развития, прогнозирование производственных процессов; n обнаружение скрытых факторов влияния; n обнаружение и идентификация ранее неизвестных взаимосвязей между производственными параметрами и факторами влияния; n анализ среды взаимодействия производственных процессов и прогнозирование изменения ее характеристик; n выработку оптимизационных рекомендаций по управлению производственными процессами.
Примеры задач DM Маркетинг и торговля n поиск временных закономерностей (для определения часто встречающихся наборов товаров, которые покупатели покупают одновременно). n сегментация потребителей для определения групп или категорий клиентов, знание которых способствует успешному продвижению товаров. n методы и алгоритмы поиска ассоциативных правил для определения необходимых объемов запасов товаров на складе.
Примеры задач DM Фондовый рынок n прогнозирование будущих значений финансовых инструментов и индикаторов по их прошлым значениям; n прогноз тренда (будущего направления движения рост, падение, флэт) финансового инструмента и его силы (сильный, умеренно сильный и т. д. ); n выделение кластерной структуры рынка, отрасли, сектора по некоторому набору характеристик; n динамическое управление портфелем; n прогноз волатильности; n оценка рисков; n предсказание наступления кризиса и прогноз его развития; n выбор активов и др.
Примеры задач DM Исследования для правительства n По данным аналитического отчета Главного контрольного управления американского Конгресса, правительственные ведомства США участвуют приблизительно в двухстах проектах на основе анализа данных (Data Mining), собирающих разнообразную информацию о населении. n Более ста из этих проектов направлены на сбор персональной информации (имена, фамилии, адреса e mail, номера соцстрахования и удостоверений водительских прав), и на основе этой информации осуществляют предсказания возможного поведения людей. n Предварительная стоимость одной из систем составляет более 10 млрд. долларов, разработчик комплекса компания Accenture.
Проблемы технологии Data Mining n. Процесс реализации технологии Data Mining на практике оказывается более сложным, чем часто ожидается. n Успешный Data Mining проект требует понимания сути деятельности, знания данных и инструментов, а также процесса анализа данных. n Технология не может заменить аналитика, а всего лишь дает ему мощный инструмент для облегчения и улучшения его работы. n Различные инструменты Data Mining имеют различную степень "дружелюбности" интерфейса и требуют определенной квалификации пользователя. n Программное обеспечение должно соответствовать уровню подготовки пользователя. n Успешный анализ требует качественной предобработки данных. По утверждению аналитиков и пользователей баз данных, процесс предобработки может занять до 80% процентов всего Data Mining процесса. 52
Основные используемые в DM понятия и определения Генеральная совокупность вся совокупность изучаемых объектов, интересующая исследователя. Выборка (sample) часть генеральной совокупности, определенным способом отобранная с целью исследования и получения выводов о свойствах и характеристиках генеральной совокупности. Параметры числовые характеристики генеральной совокупности. Статистики числовые характеристики выборки. 53
Основные используемые в DM понятия и определения Гипотеза предположение относительно параметров совокупности объектов, которое должно быть проверено. Пример гипотезы: между показателями продолжительности жизни и качеством питания есть связь. целью исследования может быть объяснение изменений продолжительности жизни. Зависимая переменная (продолжительность жизни) изменяется в зависимости от некоторых причин (качество питания, образ жизни, место проживания и т. д. ), которые являются независимыми переменными. Зависимая переменная в одной гипотезе может быть независимой в другой. Переменная изначально не является зависимой или независимой. Она становится таковой после формулировки конкретной гипотезы. 54
Задачи Data Mining n Классификация n Кластеризация n Ассоциация n Последовательность n Прогнозирование n Определение отклонений или выбросов n Оценивание n Анализ связей n Визуализация 55
Задачи Data Mining n Классификация - обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных классы; по этим признакам новый объект можно отнести к тому или иному классу. n Кластеризация является логическим продолжением идеи классификации и заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы. n Ассоциация - поиск закономерности между связанными событиями в наборе данных. Поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно. n Последовательность позволяет найти временные закономерности между транзакциями. Задача последовательности подобна ассоциации, но ее целью является установление закономерностей не между одновременно наступающими событиями, а между событиями, связанными во времени 56
Задачи Data Mining n Прогнозирование на основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей. n Определение отклонений или выбросов обнаружение и анализ данных, наиболее отличающихся от общего множества данных, выявление так называемых нехарактерных шаблонов. n Оценивание сводится к предсказанию непрерывных значений признака. n Анализ связей нахождение зависимостей в наборе данных. n Визуализация - создание графического образа анализируемых данных. Для решения задачи визуализации используются графические методы, показывающие наличие закономерностей в данных. 57
Два этапа Data Mining n создание модели (поиск зависимостей, набор правил и др. ) на основе информации в хранилище данных n использование модели для поступающих новых данных. 58
Пример: клиенты туристического агентства в базе данных разделены на два класса Код клиента Возраст Семейное Доход Класс положение 1 18 married 25 1 2 22 no 100 2 3 30 no 70 2 4 32 married 120 1 5 24 married 15 2 6 25 no 22 2 7 32 no 50 1 8 19 married 45 2 9 22 no 75 2 10 40 married 90 1 59
Создание модели В результате применения некоторого алгоритма по имеющимся данным выбираются наиболее значимые атрибуты (значение дохода и семейного положения клиента) и формируется набор правил, по которым на основании значений дохода и семейного положения клиент относится к тому или другому классу. 60
Использование модели При появлении нового клиента созданная модель может использоваться для его классификации и направления ему соответствующего рекламного материала. Информация о новых клиентах также заносится в базу данных и на ее основе модель может далее корректироваться 61
Задача классификации клиентов n Приведенный пример задачи классификации относится к стратегии обучения с учителем (все объекты тренировочного набора данных заранее отнесены к одному из предопределенных классов) n Набор исходных данных (или выборка данных) это данные в хранилище (в рассмотренном примере приведенная таблица). n Набор исходных данных разбивают на два множества: обучающее и тестовое n Обучающее множество данных включает данные в хранилище, использующиеся для обучения (конструирования) модели. Содержит входные и выходные (целевые) значения примеров. Выходные значения предназначены для обучения модели. n Тестовое множество также содержит входные и выходные значения примеров. Известные выходные значения используются для проверки работоспособности модели. 62
Классификация n Классификация упорядоченное по некоторому принципу множество объектов, которые имеют сходные классификационные признаки (одно или несколько), выбранных для определения сходства или различия между этими объектами. n Под классификацией будем понимать отнесение объектов (наблюдений, событий) к одному из заранее известных классов. n Задачей классификации также называют предсказание категориальной зависимой переменной (номинальная шкала) на основе выборки непрерывных и/или категориальных переменных. 63
Классификация виды n Бинарной классификации зависимая переменная может принимать только два значения (например, да или нет, 0 или 1). n Множество классов для зависимой переменной (зависимая переменная может принимать значения из некоторого множества предопределенных классов). Например, необходимо предсказать, какую марку автомобиля захочет купить клиент. n Классификация может быть одномерной (по одному признаку) и многомерной (по двум и более признакам). 64
Методы классификации Принцип классификации на основе линейной регрессии. В данной двумерном примере выражение регрессии имеет вид A*X + B*Y. При выполнении для параметров объектов условия > A*X + B*Y, объекты принадлежат одному классу (выше прямой линии на рисунке), в противном случае – другому классу. В общем случае, вместо линейной регрессии можно использовать любое математическое выражение (закон). 65
Методы классификации «деревья решений» Бинарное дерево представления правил в иерархической последовательной структуре на основе ответов «Да» или «Нет» . Элементы дерева решений: Корень дерева ("Солнечно? «), Внутренний узел дерева или узел проверки ("Температура воздуха высокая? ", "Идет ли дождь? «), Ветвь дерева (случаи ответа "Да", "Нет «), Лист, конечный узел дерева (узел решения или вершина: "Играть", "Не играть «) 66
Методы классификации «деревья решений» Внутренние узлы дерева (возраст, наличие недвижимости, доход и образование) являются атрибутами расщепления. Конечные узлы дерева, или листы - метки класса, являющиеся значениями зависимой категориальной переменной "выдавать" или "не выдавать" кредит. Каждая ветвь дерева, идущая от внутреннего узла, отмечена предикатом расщепления (Доход > 200). Предикат расщепления может относиться лишь к одному атрибуту расщепления (Доход) данного узла. Особенность предикатов расщепления: каждая запись использует уникальный путь от корня дерева только к одному узлу решению. Критерий расщепления –объединенная информация об атрибутах расщепления и предикатах расщепления в узле. 67
Методы классификации «деревья решений» n Результат работы алгоритмов конструирования деревьев решений легко интерпретируется пользователем (правила из базы данных извлекаются на естественном языке Если Возраст > 35 и Доход > 200, то выдать кредит). n Алгоритм конструирования дерева решений не требует от пользователя выбора входных атрибутов (независимых переменных). На вход алгоритма можно подавать все существующие атрибуты, алгоритм сам выберет наиболее значимые среди них, и только они будут использованы для построения дерева. n Хорошая точность. n Требуют значительно меньше времени, чем при использовании других методов (имеются масштабируемые алгоритмы для построения деревьев решения на сверхбольших базах данных). n Разработаны специальные процедуры для создания оптимальные деревья ( «подходящих размеров» ). 68
Кластеризация - разбиение объектов на группы, но классы объектов изначально не предопределены. Кластерный анализ не требует априорных предположений о наборе данных, позволяет анализировать показатели различных типов данных, но переменные должны измеряться в сравнимых шкалах. Кластерный анализ опирается на предположение, что рассматриваемые признаки объекта в принципе допускают желательное разбиение пула (совокупности) объектов на кластеры. Объекты, которые по значениям X и Y "похожи" друг на друга, принадлежат к одной группе (кластеру); объекты из разных кластеров не похожи друг на друга. 69
Кластеризации (продолжение) Критерием схожести и различия кластеров является расстояние между точками на диаграмме рассеивания (мера близости). Несколько способов определения меры расстояния между кластерами (меры подобия) . Наиболее распространенный способ вычисление евклидова расстояния между точками i и j в пространстве, когда известны их координаты X, Y и Z Кроме евклидова расстояния, используются и другие меры сходства называемые также метриками или функциями расстояний. 70
Кластеризации (продолжение) Математические характеристики кластера: n Центр кластера среднее геометрическое место точек в пространстве переменных. n Радиус кластера максимальное расстояние точек от центра кластера. n Спорный объект это объект, который по мере сходства может быть отнесен к нескольким кластерам (невозможно при помощи математических процедур однозначно отнести объект к одному из двух кластеров перекрытие кластеров). Объект относится к кластеру, если расстояние от объекта до центра кластера меньше радиуса кластера. Если это условие выполняется для двух и более кластеров, объект является спорным. Неоднозначность данной задачи может быть устранена экспертом или аналитиком. n Размер кластера радиус кластера или среднеквадратичное отклонение объектов для этого кластера. 71
Кластеризации (продолжение) Выбор масштаба в кластерном анализе имеет большое значение. Нормирование переменных - преобразование значения всех переменных к единому диапазону значений (отношение этих значений к некой величине, отражающей определенные свойства конкретного признака). Два способа нормирования: n деление исходных данных на среднеквадратичное отклонение соответствующих переменных; n вычисление коэффициента важности, или веса, который бы отражал значимость соответствующей переменной. В качестве весов могут выступать экспертные оценки, полученные в ходе опроса экспертов специалистов предметной области. Нормированные переменные умножаются на соответствующие веса и позволяют получать расстояния между точками в многомерном пространстве с учетом неодинакового веса переменных. 72
Кластеризации (продолжение) Методы кластерного анализа : q Иерархические; q Неиерархические (Итеративные методы). Иерархическая кластеризация состоит в последовательном объединении меньших кластеров в большие (агломеративные методы) или разделении больших кластеров на меньшие (дивизимные методы). Не требует предварительных предположений относительно числа кластеров Иерархические методы кластерного анализа используются при небольших объемах наборов данных. 73
Кластеризации (продолжение) Итеративные методы итеративное дробление исходной совокупности (в процессе деления новые кластеры формируются до тех пор, пока не будет выполнено правило остановки). Необходимо иметь гипотезу о наиболее вероятном количестве кластеров. Используются при большом количестве наблюдений. 74
Общие проблемы кластеризации n Сложность выбора характеристик, на основе которых проводится кластеризация. Необдуманный выбор приводит к неадекватному разбиению на кластеры. n Сложность выбора метода кластеризации. Процедура выбора метода: рассматривают несколько априори различных между собой групп и перемешивают их представителей между собой случайным образом. Далее проводится кластеризация для восстановления исходного разбиения на кластеры. Доля совпадений объектов в выявленных и исходных группах является показателем эффективности работы метода. n Проблема выбора числа кластеров. Если нет никаких сведений относительно возможного числа кластеров, необходимо провести ряд экспериментов и, в результате перебора различного числа кластеров, выбрать оптимальное их число. n Проблема интерпретации результатов кластеризации. Форма кластеров в большинстве случаев определяется выбором метода объединения. Конкретные методы стремятся создавать кластеры определенных форм, даже если в исследуемом наборе данных кластеров на самом деле нет. 75
Задача ассоциации Ассоциация - поиск закономерности между связанными событиями в наборе данных. Целью поиска ассоциативных правил является нахождение закономерностей между связанными событиями в базах данных. Примеры бизнес-приложений: розничная торговля (анализ потребительской корзины; прогнозирование спроса, тенденции покупательского поведения), сегментация клиентов (выявление общих характеристик клиентов компании, выявление групп покупателей), анализ Web логов. Регистрируя все бизнес операции, торговые компании накапливают информацию о транзакциях (транзакция множество событий, которые произошли одновременно) наборов товаров, купленных покупателем за один визит. На основе имеющейся базы данных можно найти закономерности между событиями (покупками). 76
Задача ассоциации (продолжение) Ассоциативное правило имеет вид: "Из события A следует событие B". Основными характеристиками ассоциативного правила являются поддержка (обеспечение набора) и достоверность правила. Поддержка - количество или процент транзакций, содержащих определенный набор данных. Достоверность правила вероятность того, что из события A следует событие B (А, В – виды товара). Правило "Из A следует B" справедливо с достоверностью c, если c% транзакций из всего множества, содержащих набор элементов A, также содержат набор элементов B. Достоверность правила "из покупки молока следует покупка печенья" равна 75%, т. е. 75% транзакций, содержащих товар А, также содержат товар B. TID Приобретенные покупки 100 Хлеб, молоко, печенье 200 Молоко, сметана 300 Молоко, хлеб, сметана, печенье 400 Колбаса, сметана 500 Хлеб, молоко, печенье, сметана 77
Задача ассоциации (продолжение) n Проблемы: n При помощи использования алгоритмов поиска ассоциативных правил можно получить все возможные правила с различными значениями поддержки и достоверности. Необходимо ограничивать количество правил заранее установленными минимальными и максимальными значениями поддержки и достоверности. n Если значение поддержки правила слишком велико, то будут найдены правила очевидные и хорошо известные. n Слишком низкое значение поддержки приведет к нахождению очень большого количества правил, которые, возможно, необоснованны или неочевидны для аналитика. n Необходимо определить такой интервал, "золотую середину", который с одной стороны обеспечит нахождение неочевидных правил, а с другой их обоснованность. 78
Задачи Data mining Прогнозирование. Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается найти шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем. Регрессионный анализ используется в том случае, если отношения между переменными могут быть выражены количественно в виде некоторой комбинации этих переменных. Полученная комбинация далее используется для предсказания значения, которое может принимать целевая (зависимая) переменная, вычисляемая на заданном наборе значений входных (независимых) переменных. В простейшем случае для этого используются стандартные статистические методы, такие как линейная регрессия. 79
Визуализация n В результате использования визуализации создается графический образ данных (графики, схемы, гистограммы, диаграммы и т. д. ). n Применение визуализации позволяет в процессе анализа данных увидеть аномалии, структуры, линии тренда, скопления точек и др. и помогает аналитику намного быстрее определить закономерности и прийти к нужному решению. 80
Визуализация (продолжение) 81
Визуализация (продолжение) n штриховка, построение доверительных интервалов и областей (например, эллипсов), n создание мозаичных структур, спектральных плоскостей 82
Примеры использования методов интеллектуального анализа данных в финансовых приложениях и маркетинговом анализе Приложение (организация) Описание FALCON (HNC Software, Inc. ) Инструментальное средство для оперативного выявления злоупотреблений с кредитными карточками; более 100 организаций-пользователей отмечают сокращение числа нарушений на 20 -30%. Классификатор дебиторских счетов Выявление счетов потенциально платежеспособных дебиторов (Internal Revenue Service) на основе анализа больших объемов архивных данных по уплате налогов. Повышение качества архивной Выявление закономерностей (в виде правил вывода) в финансовой информации архивных финансовых данных для использования в (Lockheed) моделях прогнозирования, системах поддержки принятия решений по инвестированию и т. д. Верификация данных по курсам валют Система выявления ошибок в оперативно поступающих (Reuters) данных по курсам валют. С помощью нейронных сетей и индуктивного вывода правил строятся приблизительные прогнозы, которые сравниваются с поступающими данными. Большие отклонения рассматриваются как возможные ошибки. 83
Примеры использования методов интеллектуального анализа данных в финансовых приложениях и маркетинговом анализе Прогнозирование Анализ архивных данных по сделкам с недвижимостью и невыплат в сделках с выявление паттернов, соответствующих проблемным сделкам, недвижимостью (Leeds) заканчивающимся невыплатами. Выявленные закономерности используются для оценки риска при заключении новых сделок. Маркетинговые Определение характеристик типичных покупателей продукции исследования (Dickinson компании для выявления новых потенциальных клиентов Direct) (профилирование клиентов). Маркетинговые Выявление основных сегментов рынка и наиболее благоприятных исследования (Reader's подмножеств, а также исследование зависимостей между Digest Canada) основными показателями и характеристиками сегментов. Установка лотерейных Объединение методов ИАД с географическим анализом для автоматов (Automated определения наилучших мест для установки лотерейных автоматов Wagering, Inc. ) в штате Флорида. Выявление Анализ демографической базы данных, содержащей информацию о потенциальных 14000 реальных и потенциальных клиентов, позволил за 90 секунд покупателей получить 3 довольно надежных индикатора для прогноза спроса на автомобильных стерео продукцию и услуги компании. Аналогичные результаты были систем (Washington Auto получены в результате традиционного исследования, Audio, Inc. ) выполненного одной из консалтинговых компаний, причем это исследование обошлось фирме на порядок дороже, чем автоматизированная система интеллектуального анализа данных. 84
Системы Data mining n Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. n Обилие методов и алгоритмов, реализованных в различных действующих системах Data Mining. n Многие системы интегрируют в себе сразу несколько подходов. 85
Система Poly. Analyst Предназначена для анализа хранилищ данных и извлечения из сырых данных практически полезных знаний. Модули системы: q Поиск законов q Поиск Зависимостей q Модуль многопараметрической линейной регрессии q Модуль Классификации q Модуль Дискриминации q Модуль Кластеризации q Модуль Poly. Net Predictor Разработчик системы Poly. Analyst российская компания Megaputer Intelligence или "Мегапьютер". 86
Система Poly. Analyst (продолжение) n Исходные данные: информацию по 400 автомобилям (средний пробег на единицу объема топлива, количество цилиндров у каждого автомобиля, объем цилиндра, мощность в лошадиных силах, вес, время разгона до скорости 100 миль в час, год выпуска, место выпуска, модель). 87
Система Poly. Analyst (продолжение) n 1. Преобразование данных путем задания правил: age = 82 Year. n 2. «Линейная Регрессия» автоматический выбор наиболее значимых независимых переменных и статистически верная оценка значимости полученных результатов. Наиболее подходит для пользователей, не являющихся специалистами в статистике. Задается только целевой параметр (средний пробег на единицу объема топлива) 88
Система Poly. Analyst (продолжение) 3. «Поиск Зависимостей» n Нечеткие и слабые функциональные зависимости ( «Мягкий» алгоритм) n Помогает выявить аномальные записи. n Компактные и сильно связанные области в данных ( «Жесткий» алгоритм) n На выявленных областях проводится анализ данных для получения более точных и значимых зависимостей 89
Система Poly. Analyst (продолжение) 90
Система Poly. Analyst (продолжение) 4. «Поиск Законов» позволяет получить математическую зависимость целевого параметра от других параметров. n Задается только целевой параметр. n Стандартная ошибка меньше, чем давала линейная модель. 91
Система Poly. Analyst (продолжение) n 5. Кластеризация «Жесткий» алгоритм ищет компактные и сильно связанные области в данных. n Определяет параметры, дающие наилучшую кластеризацию. 92
Система Poly. Analyst (продолжение) 5. Кластеризация «Мягкий» алгоритм позволяет обнаруживать нечеткие и слабые функциональные зависимости. Определяет параметры, дающие наилучшую кластеризацию. 93
Система Poly. Analyst (продолжение) 6. «Дискриминация» Вариант классификации, но не требует наличия переменной «Да/Нет» (принадлежность записи к классу). Три типа классификации: n «Поиск законов» , n «Линейная регрессия» , n «Polynet Predictor» . 94
Система Poly. Analyst (продолжение) 6. «Дискриминация» n Полученное правило может быть применено к другим таблицам. n Получим переменную «Да/Нет» ( « 1/0» ) n (принадлежность записи к классу). 95
Система Poly. Analyst (продолжение) 7. «Классификация» Необходимо наличие переменной, принимающей значение «Да/Нет» (принадлежность записи к классу). Задается целевой переменой. Три типа классификации: n «Поиск законов» , n «Линейная регрессия» , n «Polynet Predictor» . 96
Нейронные сети n Область применения нейронных сетей: многопараметрические процессы, характеризующиеся набором параметров, связанных неизвестной функциональной зависимостью. n Процессы в экономике являются многопараметрическими. Day Gold Yen DM Pound Dow. Ave NYVol 1 365 145 4, 1 0, 623 2650 75, 62 368 147 4, 1 0, 584 2620 56, 34 370 150 3, 9 0, 614 2635 98, 22 4 365 150 3, 9 0, 605 2634 43, 76 5 372 147 3, 8 0, 595 2590 52, 33 8 366 146 4, 3 0, 583 2588 61, 08 9 373 148 4, 1 0, 573 2576 63, 54 10 375 150 3, 9 0, 566 2630 48, 22 11 381 150 3, 8 0, 546 2633 35, 27 12 380 150 3, 7 0, 555 2648 48, 71 97
Нейронные сети (продолжение) Нейронные сети строятся по принципам организации и функционирования их биологических аналогов. Элементарным преобразователем в нейронных сетях является искусственный нейрон. 98
Нейронные сети (продолжение) Синапсы осуществляют связь между нейронами, умножают входной сигнал на число, характеризующее силу связи (вес синапса). Сумматор выполняет сложение сигналов, поступающих по синаптическим связям от других нейронов, и внешних входных сигналов. Нелинейный преобразователь реализует нелинейную функцию одного аргумента выхода сумматора. Эта функция называется функцией активации или передаточной функцией нейрона. 99
Нейронные сети (продолжение) Математическая модель нейрона: n wi вес синапса, i=1. . n b значение смещения n s результат суммирования n xi компонент входного вектора (входной сигнал), i=1. . n, n число входов нейрона n y выходной сигнал нейрона n f нелинейное преобразование (функция активации). 100
Технологии интеллектуальной обработки.ppt
- Количество слайдов: 100

