Технологии интеллектуальной обработки.ppt
- Количество слайдов: 144
Современные технологии интеллектуальной обработки информации 1
Разновидности автоматизированных систем Автоматизированные системы операционной обработки информации (СОД) предназначены для автоматизации повседневных задач (учет доходов и расходов бюджета, движения денежных средств, клиентов, договоров, заказов, взаиморасчетов, запасов и пр. ) Системы поддержки принятия решений (СППР) используются для обработки данных, их анализа и предоставления результатов лицу, принимающему управленческие решения(ЛПР). Типичным примером системы операционной обработки информации является широко известная « 1 С Бухгалтерия» . 2
Транзакционные(учетные) системы n Транзакция – это множественное, взаимосогласованное, логически непротиворечивое изменение информации в базе данных. q q Взаимосогласованное означает, что все изменения, произошедшие в 1 части согласованы с изменениями в другой части БД. Непротиворечивое – т. е. в любой момент времени можно сказать, завершилась транзакция или нет. Можно сказать, что Транзакция переводит систему из одного определенного состояния в другое определенное состояние
Нетранзакционный режим A B B A n Недостаток – низкая надежность. q q Если происходит какой либо сбой, база данных находится в состоянии незаконченности (логически противоречива): часть БД находится в состоянии А, часть – в состоянии B. Завершается в ручную
Режим транзакции B А А’ B’ B’ A’ Шаги транзакции: 1) 2) 3) 4) 5) Фиксация А Копирование А – А’ Изменение А’ – В’ Копирование В’ – В Завершение транзакции (отказываемся от А, фиксируем В), можно этот шаг назвать «фиксация В»
Технологии аналитической обработки информации СППР Data Mining Средства интеллектуальной обработки данных Data Warehouse OLAP технология Хранилищ данных технология оперативной аналитической обработки данных 6
Хранилище данных (ХД) предметно ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки принятия решений. 7
Свойства хранилища данных n Предметная ориентированность. Хранилище данных организовано вокруг основных предметов (или субъектов) организации (например, клиенты, товары и продажи), а не вокруг прикладных областей деятельности (выписка счета клиенту, контроль товарных запасов и продажа товаров). Это свойство отражает необходимость хранения данных, предназначенных для принятия решений, а не обычных оперативно прикладных данных. n Интегрированность. Смысл этой характеристики состоит в том, что оперативно прикладные данные обычно поступают из разных источников, часто имеют несогласованное представление одних и тех же данных. Для предоставления пользователям обобщенного представления данных необходимо создать интегрированный источник, обеспечивающий согласованность хранимой информации. 8
Свойства хранилища данных n Привязка ко времени. Данные в хранилище привязаны к некоторому моменту или промежутку времени. Привязанность хранилища данных ко времени следует из большой протяженности того периода, за который была накоплена сохраняемая в нем информация, из связи временных отметок со всеми сохраняемыми данными, а также из того факта, что хранимая информация фактически представляет собой набор моментальных снимков состояния n Неизменяемость. Это означает, что данные не обновляются в оперативном режиме, а лишь регулярно пополняются за счет информации из оперативных систем обработки. При этом новые данные никогда не заменяют прежние, а лишь дополняют их. Таким образом, база данных хранилища постоянно пополняется новыми данными, последовательно интегрируемыми с уже накопленной информацией. 9
Сравнительные характеристики систем операционной обработки и хранилищ данных. Система операционной обработки Хранилище данных Предназначена для обработки транзакций Предназначена для проведения анализа Содержит текущие данные Содержит исторические данные Хранит подробные сведения, а также частично и значительно обобщенные данные Данные являются динамическими Данные в основном являются относительно статическими Повторяющийся способ обработки данных Нерегламентированный, неструктурированный и эвристический способ обработки данных Высокая интенсивность обработки транзакций Средняя и низкая интенсивность обработки транзакций Предсказуемый способ использования данных Непредсказуемый способ использования данных Ориентирована на прикладные области Ориентирована на предметные области Поддержка принятия повседневных решений Поддержка принятия стратегических решений Обслуживает большое количество работников (уровень исполнителей) Обслуживает относительно малое количество 10 работников (уровень руководителей)
Типичная архитектура хранилища данных 11
Источники данных для ХД n n Данные из систем операционной обработки. Могут также содержаться в иерархических и сетевых базах данных первого поколения. Данные различных подразделений, сохраняемые в специализированных файловых системах и в реляционных базах данных. Закрытые данные, которые хранятся на рабочих станциях и закрытых серверах. Внешние системы, например Internet, коммерчески доступные базы данных или базы данных, принадлежащие поставщикам или клиентами организации. 12
Пример интеграции информации
Программные компоненты ХД n Менеджер загрузки выполняет все операции, связанные с извлечением и загрузкой данных в хранилище. Эти операции включают простые преобразования данных, необходи мые для их подготовки к вводу в хранилище. n Менеджер хранилища выполняет такие операции, как анализ непротиворечивости и очистка данных; преобразование и перемещение исходных данных из временного хранилища в основные таблицы хранилища данных; создание индексов и представлений для базовых таблиц; денормализация данных; обобщение данных; резервное копирование и архивирование данных n Менеджер запросов решает задачи обеспечения доступа пользователей к требуемой информации, разграничение и контроль доступа к данным 14
Программные компоненты ХД n n Средства доступа к данным конечного пользователя. Основным назначением хранилища данных является предоставление конечным пользователям информации, необходимой им для принятия стратегических решений. Инструменты доступа к данным можно разбить на пять основных групп: q q q инструменты создания отчетов и запросов; инструменты разработки приложений; инструменты информационной системы руководителя (Executive Information System — EIS); инструменты оперативной аналитической обработки (OLAP инструменты) инструменты разработки данных.
Разновидности данных в ХД n Детальные данные - все детальные данные, описанные в схеме базы данных. В большинстве случаев детальные данные хранятся не на оперативном уровне, а в виде информации, обобщенной до следующего уровня детализации. Например, платежные банковские документы определены в реальном времени (день, месяц, год, час, минута, секунда). n Частично и глубоко обобщенные данные - все данные, предварительно обработанные менеджером хранилища с целью их частичного или глубокого обобщения (агрегат данных). Например, данные по доходам бюджета могут обобщаться (агрегироваться) по месяцам. 16
Пользовательские инструменты доступа к данным n n традиционные инструменты создания запросов и отчетов и инструменты разработки приложений; инструменты информационной системы руководителя (Executive Information System — EIS); инструменты оперативной аналитической обработки (OLAP инструменты) средства Data Mining 17
Классификация инструментов по уровню возможностей анализа или получаемых знаний Инструменты доступа к данным Уровни получаемых знаний Язык запросов и генерации отчетов Поверхностный Оперативная аналитическая обработка Неглубокий Data mining Скрытый 18
Проблемы разработки хранилищ данных n n n n Недооценка ресурсов, необходимых для загрузки данных Скрытые проблемы источников данных Отсутствие требуемых данных в имеющихся архивах или различные структуры данных Гомогенизация данных Высокие требования к ресурсам Владение данными Сложное сопровождение Долговременный характер проектов 19
Витрина данных подмножество хранилища данных, которое поддерживает требования отдельного подразделения или деловой сферы организации. 20
Требования к СУБД для ХД n n n n n Высокая производительность загрузки данных Возможность обработки данных во время загрузки Наличие средств управления качеством данных Высокая производительность запросов Широкая масштабируемость по размеру (до терабайт) Масштабируемость по количеству пользователей Возможность организации сети хранилищ данных Наличие развитых средств администрирования хранилища Расширенный набор средств запросов Широкий набор функциональных средств доступа и анализа данных 21
Базовые программные средства для ХД Business Intelligence программные средства, функционирующие в рамках предприятия и обеспечивающие функции доступа и анализа информации, которая находится в хранилище данных, а также обеспечивающие принятие правильных и обоснованных управленческих решений. В СУБД «SQL Server 2005» корпорация Microsoft разработала совершенно новую среду — Business Intelligence Development Studio.
Объекты и атрибуты для анализа Атрибуты Код клиента Возрас т Семейное положение Дохо д Клас с 1 Single 125 1 2 Объект ы 18 22 Married 100 1 3 30 Single 70 1 4 32 Married 120 1 5 24 Divorced 95 2 6 25 Married 60 1 7 32 Divorced 220 1 8 19 Single 85 2 9 22 Married 75 1 10 40 Single 90 2 23
Шкалы и размерности виды Измерение процесс присвоения чисел характеристикам изучаемых объектов согласно определенному правилу. Шкала правило, в соответствии с которым объектам присваиваются числа. Пять типов шкал измерений: q q q номинальная, порядковая, интервальная, относительная дихотомическая. Относительные и интервальные шкалы являются числовыми. 24
Номинальная шкала, содержащая только категории; данные в ней не могут упорядочиваться, с ними не могут быть произведены никакие арифметические действия n Пример шкалы: профессии, город проживания, семейное положение. n Применимы только операции: равно (=), не равно (). 25
Порядковая шкала (ordinal scale) шкала, в которой числа присваивают объектам для обозначения относительной позиции объектов, но не величины различий между ними. n Измерения в порядковой шкале содержат информацию только о порядке следования величин, но не позволяют сказать "насколько одна величина больше другой", или "насколько она меньше другой". n Пример такой шкалы: номер студента в рейтинге успеваемости (1 й, 23 й, и т. д. ), при этом неизвестно, насколько один студент успешней другого, известен лишь его номер в рейтинге. n Применимы только операции: равно (=), не равно (), больше (>), меньше (<). 26
Интервальная шкала (interval scale) шкала, разности между значениями которой могут быть вычислены, однако их отношения не имеют смысла. n Эта шкала позволяет находить разницу между двумя величинами, обладает свойствами номинальной и порядковой шкал, а также позволяет определить количественное изменение признака. n Пример шкалы: возраст от 35 до 39 лет, от 40 до 45. Нельзя сказать, что второй диапазон во столько то раз выше. n Применимы операции: равно (=), не равно (), больше (>), меньше (<), операции сложения (+) и вычитания ( ). 27
Относительная шкала, в которой есть определенная точка отсчета и возможны отношения между значениями шкалы. Пример шкалы: цена на картофель в супермаркете выше в 1, 2 раза, чем цена на рынке. Для этой шкалы применимы операции: равно (=), не равно (), больше (>), меньше (<), операции сложения (+) и вычитания ( ), умножения (*) и деления (/). 28
Дихотомическая шкала, содержащая только две категории. n Пример такой шкалы: пол (мужской и женский). 29
Использования разных шкал для измерений свойств различных объектов Множество измерений свойств различных объектов Номер объек та Профессия (номинальная шкала) Средний бал (интервальная шкала) Образование (порядковая шкала) 1 слесарь 22 среднее 2 ученый 55 высшее 3 учитель 47 высшее 30
Транзакционные данные представляют собой особый тип данных, где каждая запись, являющаяся транзакцией, включает набор значений. 31
Моментальная модель хранения данных В системах операционной обработки используются только моментальные снимки данных. Снимок данных — это представление данных в определенный момент времени (предыдущие значения атрибутов замещаются новыми) Такая модель не обеспечивает хранения истории изменений. 32
Событийная модель или статусная модель В хранилищах данных используется событийная модель или статусная модель, обеспечивает хранение истории. Событийная модель используется для моделирования данных о наступлении событий в определенные моменты времени. Хорошо подходит для моделирования транзакций, таких как: продажи, финансовые транзакции, складские операции и т. д. 33
Статусные модели виды Используется для моделирования состояния объектов во времени. Три способа моделирования изменяющихся во времени статусов: n непрерывная модель — для хранения промежутков времени используется одно поле даты. Дата начала следующего периода совпадает с датой окончания предыдущего; n начало и конец — для хранения промежутков времени используется два поля — дата начала и дата окончания периода действия статуса; n начало и длительность — для хранения промежутков времени используется одно поле даты (дата начала) и поле длительности периода. 34
Статусная модель "начало и конец" Большее распространение при создании статусных моделей получил способ "начало и конец" 35
Статусная и событийная модели модель хранения данных n n n Статусная и событийная модели являются взаимно дополняющими. Путем преобразований из одной можно получить другую. Например, зная остаток на счете на определенный момент и историю транзакций в событийной модели, можно восстановить все статусы счета (остатки на счете) в периоды между транзакциями. И наоборот, имея статусную модель остатков на счете, можно вычислить события (т. е. транзакции), которые происходили со счетом в начале (конце) каждого периода. 36
Модели данных в ХД, измерения и факты В ХД часто используются понятия размерностей (также измерений) и фактов. Размерность — это признак, в разрезе которого можно получать, фильтровать, группировать и отображать информацию о фактах. Примеры размерности: n Клиент n Продукт n Время n География n Сотрудник Размерности, как правило, имеют многоуровневую иерархическую структуру. Например, размерность ВРЕМЯ может иметь следующую структуру: ГОД, КВАРТАЛ, МЕСЯЦ, ДЕНЬ. 37
Факты и измерения Факты — это величины, обычно числовые, хранящиеся в таблице фактов и являющиеся предметом анализа. Примеры фактов: объем операций, количество проданных единиц товара и т. д. Факты индексируются или определяются размерностями. Например, количество проданных единиц товара зависит от продукта, клиента, времени и места (География). Факты могут быть аддитивными, полуаддитивными и неаддитивными. Аддитивность определяет возможность суммирования факта вдоль определенной размерности (или говорят по иерархии). 38
Разновидности фактов аддитивноть суммировать и группировать вдоль Аддитивные факты можно всех размерностей на любых уровнях иерархии. Полуаддитивный факт — это факт, который можно суммировать вдоль определённых размерностей, и нельзя — вдоль других. Пример: остаток на счете. Данную величину нельзя суммировать вдоль размерности ВРЕМЯ. Неаддитивные факты вообще нельзя суммировать. Пример неаддитивного факта — отношение (например, выраженное в процентах). 39
Модели данных ХД: "звезда" и "снежинка". Схема "звезда" — характеризуется наличием таблицы фактов, окруженной связанными с ней таблицами размерностей. Избыточность данных и высокая по сравнению с нормализованными структурами производительность. n Схема «снежинка» хотя бы одно измерение (таблица размерностей) содержится в нескольких связанных таблицах. Сокращает избыточность в таблицах размерностей. n 40
Схема "звезда" 41
Схема «снежинка» 42
Таблицы покрытия используются с целью моделирования сочетания размерностей, для которых отсутствуют факты. Например, нужно найти количество категорий продуктов, которые сегодня ни разу не продавались. Таблица фактов продаж не может ответить на данный вопрос, поскольку она регистрирует только факты продаж. Для того чтобы модель позволяла отвечать на подобные вопросы, нужна дополнительная таблица фактов (которая, по сути дела, не содержит фактов), которая и называется таблицей покрытия. 43
Метаданные (Metadata) это данные о данных (составе данных, содержании, статусе, происхождении, местонахождении, качестве, форматах и формах представления, условиях доступа, приобретения и использования, авторских, имущественных и смежных с ними правах на данные и др. ) Применяются при управлении хранилищем, содержат информацию, необходимую для его настройки и использования. Различают бизнес-метаданные и оперативные метаданные. Бизнес-метаданные содержат бизнес термины и определения, принадлежность данных и иногда правила оплаты услуг хранилища. Оперативные метаданные это информация, собранная во время работы хранилища данных. Происхождение перенесенных и преобразованных данных, статус использования данных (активные, архивированные или удаленные), данные мониторинга, такие как статистика использования, сообщения об ошибках и т. д. 44
Data Mining(DM) или добыча знаний n n Data Mining процесс поиска в данных скрытых закономерностей (шаблонов информации). Data Mining это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей. Data Mining это процесс обнаружения в сырых данных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Data Mining это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для использования. Качественное отличие Data Mining от традиционных статистических методов анализа, которые ориентированы на проверку заранее сформулированных гипотез. 45
Примеры задач DM Банковское дело n Классический пример применения Data Mining в банковском деле решение задачи определения возможной некредитоспособности клиента банка. n Задача привлечения новых клиентов банка возможно провести классификацию на "более выгодных" и "менее выгодных" клиентов. После определения наиболее выгодного сегмента клиентов банку есть смысл проводить более активную маркетинговую политику по привлечению клиентов именно среди найденной группы. n Задачи сегментации клиентов Разбивая клиентов при помощи инструментов Data Mining на различные группы, банк имеет возможность сделать свою маркетинговую политику более целенаправленной, а потому – эффективной. n Задача управления ликвидностью банка. Прогнозирование остатка на счетах клиентов. n Задача выявления случаев мошенничества с кредитными карточками.
Примеры задач DM Страхование n n Информация, полученная в результате сегментации клиентов на группы, используется для определения групп клиентов. В результате страховая компания может с наибольшей выгодой и наименьшим риском предлагать определенные группы услуг конкретным группам клиентов. Задача выявление мошенничества решается путем нахождения некого общего стереотипа поведения клиентов мошенников. Электронная коммерция n В сфере электронной коммерции Data Mining применяется для формирования рекомендательных систем и решения задач классификации посетителей Web сайтов. Такая классификация позволяет компаниям выявлять определенные группы клиентов и проводить маркетинговую политику в соответствии с обнаруженными интересами и потребностями клиентов.
Примеры задач DM Промышленное производство n n n n n комплексный системный анализ производственных ситуаций; краткосрочный и долгосрочный прогноз развития производственных ситуаций; выработка вариантов оптимизационных решений; прогнозирование качества изделия в зависимости от некоторых параметров технологического процесса; обнаружение скрытых тенденций и закономерностей развития, прогнозирование производственных процессов; обнаружение скрытых факторов влияния; обнаружение и идентификация ранее неизвестных взаимосвязей между производственными параметрами и факторами влияния; анализ среды взаимодействия производственных процессов и прогнозирование изменения ее характеристик; выработку оптимизационных рекомендаций по управлению производственными процессами.
Примеры задач DM Маркетинг и торговля n n n поиск временных закономерностей (для определения часто встречающихся наборов товаров, которые покупатели покупают одновременно). сегментация потребителей для определения групп или категорий клиентов, знание которых способствует успешному продвижению товаров. методы и алгоритмы поиска ассоциативных правил для определения необходимых объемов запасов товаров на складе.
Примеры задач DM Фондовый рынок n n n n прогнозирование будущих значений финансовых инструментов и индикаторов по их прошлым значениям; прогноз тренда (будущего направления движения рост, падение, флэт) финансового инструмента и его силы (сильный, умеренно сильный и т. д. ); выделение кластерной структуры рынка, отрасли, сектора по некоторому набору характеристик; динамическое управление портфелем; прогноз волатильности; оценка рисков; предсказание наступления кризиса и прогноз его развития; выбор активов и др.
Примеры задач DM Исследования для правительства n n n По данным аналитического отчета Главного контрольного управления американского Конгресса, правительственные ведомства США участвуют приблизительно в двухстах проектах на основе анализа данных (Data Mining), собирающих разнообразную информацию о населении. Более ста из этих проектов направлены на сбор персональной информации (имена, фамилии, адреса e mail, номера соцстрахования и удостоверений водительских прав), и на основе этой информации осуществляют предсказания возможного поведения людей. Предварительная стоимость одной из систем составляет более 10 млрд. долларов, разработчик комплекса компания Accenture.
Проблемы технологии Data Mining Процесс реализации технологии Data Mining на практике n n n оказывается более сложным, чем часто ожидается. Успешный Data Mining проект требует понимания сути деятельности, знания данных и инструментов, а также процесса анализа данных. Технология не может заменить аналитика, а всего лишь дает ему мощный инструмент для облегчения и улучшения его работы. Различные инструменты Data Mining имеют различную степень "дружелюбности" интерфейса и требуют определенной квалификации пользователя. Программное обеспечение должно соответствовать уровню подготовки пользователя. Успешный анализ требует качественной предобработки данных. По утверждению аналитиков и пользователей баз данных, процесс предобработки может занять до 80% процентов всего Data Mining процесса. 52
Основные используемые в DM понятия и определения Генеральная совокупность вся совокупность изучаемых объектов, интересующая исследователя. Выборка (sample) часть генеральной совокупности, определенным способом отобранная с целью исследования и получения выводов о свойствах и характеристиках генеральной совокупности. Параметры числовые характеристики генеральной совокупности. Статистики числовые характеристики выборки. 53
Основные используемые в DM понятия и определения Гипотеза предположение относительно параметров совокупности объектов, которое должно быть проверено. Пример гипотезы: между показателями продолжительности жизни и качеством питания есть связь. целью исследования может быть объяснение изменений продолжительности жизни. Зависимая переменная (продолжительность жизни) изменяется в зависимости от некоторых причин (качество питания, образ жизни, место проживания и т. д. ), которые являются независимыми переменными. Зависимая переменная в одной гипотезе может быть независимой в другой. Переменная изначально не является зависимой или независимой. Она становится таковой после формулировки конкретной гипотезы. 54
Задачи Data Mining n n n n n Классификация Кластеризация Ассоциация Последовательность Прогнозирование Определение отклонений или выбросов Оценивание Анализ связей Визуализация 55
Задачи Data Mining n n Классификация - обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных классы; по этим признакам новый объект можно отнести к тому или иному классу. Кластеризация является логическим продолжением идеи классификации и заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы. Ассоциация - поиск закономерности между связанными событиями в наборе данных. Поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно. Последовательность позволяет найти временные закономерности между транзакциями. Задача последовательности подобна ассоциации, но ее целью является установление закономерностей не между одновременно наступающими событиями, а между событиями, связанными во времени 56
Задачи Data Mining n n n Прогнозирование на основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей. Определение отклонений или выбросов обнаружение и анализ данных, наиболее отличающихся от общего множества данных, выявление так называемых нехарактерных шаблонов. Оценивание сводится к предсказанию непрерывных значений признака. Анализ связей нахождение зависимостей в наборе данных. Визуализация - создание графического образа анализируемых данных. Для решения задачи визуализации используются графические методы, показывающие наличие закономерностей в данных. 57
Два этапа Data Mining n создание модели (поиск зависимостей, набор правил и др. ) на основе информации в хранилище данных n использование модели для поступающих новых данных. 58
Пример: клиенты туристического агентства в базе данных разделены на два класса Код клиента Возраст Семейное положение Доход Класс 1 18 married 25 1 2 22 no 100 2 3 30 no 70 2 4 32 married 120 1 5 24 married 15 2 6 25 no 22 2 7 32 no 50 1 8 19 married 45 2 9 22 no 75 2 10 40 married 90 1 59
Создание модели В результате применения некоторого алгоритма по имеющимся данным выбираются наиболее значимые атрибуты (значение дохода и семейного положения клиента) и формируется набор правил, по которым на основании значений дохода и семейного положения клиент относится к тому или другому классу. 60
Использование модели При появлении нового клиента созданная модель может использоваться для его классификации и направления ему соответствующего рекламного материала. Информация о новых клиентах также заносится в базу данных и на ее основе модель может далее корректироваться 61
Задача классификации клиентов n n n Приведенный пример задачи классификации относится к стратегии обучения с учителем (все объекты тренировочного набора данных заранее отнесены к одному из предопределенных классов) Набор исходных данных (или выборка данных) это данные в хранилище (в рассмотренном примере приведенная таблица). Набор исходных данных разбивают на два множества: обучающее и тестовое Обучающее множество данных включает данные в хранилище, использующиеся для обучения (конструирования) модели. Содержит входные и выходные (целевые) значения примеров. Выходные значения предназначены для обучения модели. Тестовое множество также содержит входные и выходные значения примеров. Известные выходные значения используются для проверки работоспособности модели. 62
Классификация n Классификация упорядоченное по некоторому принципу множество объектов, которые имеют сходные классификационные признаки (одно или несколько), выбранных для определения сходства или различия между этими объектами. n Под классификацией будем понимать отнесение объектов (наблюдений, событий) к одному из заранее известных классов. n Задачей классификации также называют предсказание категориальной зависимой переменной (номинальная шкала) на основе выборки непрерывных и/или категориальных переменных. 63
Классификация виды n n n Бинарной классификации зависимая переменная может принимать только два значения (например, да или нет, 0 или 1). Множество классов для зависимой переменной (зависимая переменная может принимать значения из некоторого множества предопределенных классов). Например, необходимо предсказать, какую марку автомобиля захочет купить клиент. Классификация может быть одномерной (по одному признаку) и многомерной (по двум и более признакам). 64
Методы классификации Принцип классификации на основе линейной регрессии. В данной двумерном примере выражение регрессии имеет вид A*X + B*Y. При выполнении для параметров объектов условия > A*X + B*Y, объекты принадлежат одному классу (выше прямой линии на рисунке), в противном случае – другому классу. В общем случае, вместо линейной регрессии можно использовать любое математическое выражение (закон). 65
Методы классификации «деревья решений» Бинарное дерево представления правил в иерархической последовательной структуре на основе ответов «Да» или «Нет» . Элементы дерева решений: Корень дерева ("Солнечно? «), Внутренний узел дерева или узел проверки ("Температура воздуха высокая? ", "Идет ли дождь? «), Ветвь дерева (случаи ответа "Да", "Нет «), Лист, конечный узел дерева (узел решения или вершина: "Играть", "Не играть «) 66
Методы классификации «деревья решений» Внутренние узлы дерева (возраст, наличие недвижимости, доход и образование) являются атрибутами расщепления. Конечные узлы дерева, или листы - метки класса, являющиеся значениями зависимой категориальной переменной "выдавать" или "не выдавать" кредит. Каждая ветвь дерева, идущая от внутреннего узла, отмечена предикатом расщепления (Доход > 200). Предикат расщепления может относиться лишь к одному атрибуту расщепления (Доход) данного узла. Особенность предикатов расщепления: каждая запись использует уникальный путь от корня дерева только к одному узлу решению. Критерий расщепления –объединенная информация об атрибутах расщепления и предикатах расщепления в узле. 67
Методы классификации «деревья решений» n n n Результат работы алгоритмов конструирования деревьев решений легко интерпретируется пользователем (правила из базы данных извлекаются на естественном языке Если Возраст > 35 и Доход > 200, то выдать кредит). Алгоритм конструирования дерева решений не требует от пользователя выбора входных атрибутов (независимых переменных). На вход алгоритма можно подавать все существующие атрибуты, алгоритм сам выберет наиболее значимые среди них, и только они будут использованы для построения дерева. Хорошая точность. Требуют значительно меньше времени, чем при использовании других методов (имеются масштабируемые алгоритмы для построения деревьев решения на сверхбольших базах данных). Разработаны специальные процедуры для создания оптимальные деревья ( «подходящих размеров» ). 68
Кластеризация - разбиение объектов на группы, но классы объектов изначально не предопределены. Кластерный анализ не требует априорных предположений о наборе данных, позволяет анализировать показатели различных типов данных, но переменные должны измеряться в сравнимых шкалах. Кластерный анализ опирается на предположение, что рассматриваемые признаки объекта в принципе допускают желательное разбиение пула (совокупности) объектов на кластеры. Объекты, которые по значениям X и Y "похожи" друг на друга, принадлежат к одной группе (кластеру); объекты из разных кластеров не похожи друг на друга. 69
Кластеризации (продолжение) Критерием схожести и различия кластеров является расстояние между точками на диаграмме рассеивания (мера близости). Несколько способов определения меры расстояния между кластерами (меры подобия). Наиболее распространенный способ вычисление евклидова расстояния между точками i и j в пространстве, когда известны их координаты X, Y и Z Кроме евклидова расстояния, используются и другие меры сходства называемые также метриками или функциями расстояний. 70
Кластеризации (продолжение) Математические характеристики кластера: n Центр кластера среднее геометрическое место точек в пространстве переменных. n Радиус кластера максимальное расстояние точек от центра кластера. n Спорный объект это объект, который по мере сходства может быть отнесен к нескольким кластерам (невозможно при помощи математических процедур однозначно отнести объект к одному из двух кластеров перекрытие кластеров). Объект относится к кластеру, если расстояние от объекта до центра кластера меньше радиуса кластера. Если это условие выполняется для двух и более кластеров, объект является спорным. Неоднозначность данной задачи может быть устранена экспертом или аналитиком. n Размер кластера радиус кластера или среднеквадратичное отклонение объектов для этого кластера. 71
Кластеризации (продолжение) Выбор масштаба в кластерном анализе имеет большое значение. Нормирование переменных - преобразование значения всех переменных к единому диапазону значений (отношение этих значений к некой величине, отражающей определенные свойства конкретного признака). Два способа нормирования: n деление исходных данных на среднеквадратичное отклонение соответствующих переменных; n вычисление коэффициента важности, или веса, который бы отражал значимость соответствующей переменной. В качестве весов могут выступать экспертные оценки, полученные в ходе опроса экспертов специалистов предметной области. Нормированные переменные умножаются на соответствующие веса и позволяют получать расстояния между точками в многомерном пространстве с учетом неодинакового веса переменных. 72
Кластеризации (продолжение) Методы кластерного анализа : q Иерархические; q Неиерархические (Итеративные методы). Иерархическая кластеризация состоит в последовательном объединении меньших кластеров в большие (агломеративные методы) или разделении больших кластеров на меньшие (дивизимные методы). Не требует предварительных предположений относительно числа кластеров Иерархические методы кластерного анализа используются при небольших объемах наборов данных. 73
Кластеризации (продолжение) Итеративные методы итеративное дробление исходной совокупности (в процессе деления новые кластеры формируются до тех пор, пока не будет выполнено правило остановки). Необходимо иметь гипотезу о наиболее вероятном количестве кластеров. Используются при большом количестве наблюдений. 74
Общие проблемы кластеризации Сложность выбора характеристик, на основе которых проводится кластеризация. Необдуманный выбор приводит к неадекватному разбиению на кластеры. n Сложность выбора метода кластеризации. Процедура выбора метода: рассматривают несколько априори различных между собой групп и перемешивают их представителей между собой случайным образом. Далее проводится кластеризация для восстановления исходного разбиения на кластеры. Доля совпадений объектов в выявленных и исходных группах является показателем эффективности работы метода. n Проблема выбора числа кластеров. Если нет никаких сведений относительно возможного числа кластеров, необходимо провести ряд экспериментов и, в результате перебора различного числа кластеров, выбрать оптимальное их число. n Проблема интерпретации результатов кластеризации. Форма кластеров в большинстве случаев определяется выбором метода объединения. Конкретные методы стремятся создавать кластеры определенных форм, даже если в исследуемом наборе данных кластеров на самом деле нет. n 75
Задача ассоциации Ассоциация - поиск закономерности между связанными событиями в наборе данных. Целью поиска ассоциативных правил является нахождение закономерностей между связанными событиями в базах данных. Примеры бизнес-приложений: розничная торговля (анализ потребительской корзины; прогнозирование спроса, тенденции покупательского поведения), сегментация клиентов (выявление общих характеристик клиентов компании, выявление групп покупателей), анализ Web логов. Регистрируя все бизнес операции, торговые компании накапливают информацию о транзакциях (транзакция множество событий, которые произошли одновременно) наборов товаров, купленных покупателем за один визит. На основе имеющейся базы данных можно найти закономерности между событиями (покупками). 76
Задача ассоциации (продолжение) Ассоциативное правило имеет вид: "Из события A следует событие B". Основными характеристиками ассоциативного правила являются поддержка (обеспечение набора) и достоверность правила. Поддержка - количество или процент транзакций, содержащих определенный набор данных. Достоверность правила вероятность того, что из события A следует событие B (А, В – виды товара). Правило "Из A следует B" справедливо с достоверностью c, если c% транзакций из всего множества, содержащих набор элементов A, также содержат набор элементов B. Достоверность правила "из покупки молока следует покупка печенья" равна 75%, т. е. 75% транзакций, содержащих товар А, также содержат товар B. TID Приобретенные покупки 100 Хлеб, молоко, печенье 200 Молоко, сметана 300 Молоко, хлеб, сметана, печенье 400 Колбаса, сметана 500 Хлеб, молоко, печенье, сметана 77
Задача ассоциации (продолжение) n n n Проблемы: При помощи использования алгоритмов поиска ассоциативных правил можно получить все возможные правила с различными значениями поддержки и достоверности. Необходимо ограничивать количество правил заранее установленными минимальными и максимальными значениями поддержки и достоверности. Если значение поддержки правила слишком велико, то будут найдены правила очевидные и хорошо известные. Слишком низкое значение поддержки приведет к нахождению очень большого количества правил, которые, возможно, необоснованны или неочевидны для аналитика. Необходимо определить такой интервал, "золотую середину", который с одной стороны обеспечит нахождение неочевидных правил, а с другой их обоснованность. 78
Задачи Data mining Прогнозирование. Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается найти шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем. Регрессионный анализ используется в том случае, если отношения между переменными могут быть выражены количественно в виде некоторой комбинации этих переменных. Полученная комбинация далее используется для предсказания значения, которое может принимать целевая (зависимая) переменная, вычисляемая на заданном наборе значений входных (независимых) переменных. В простейшем случае для этого используются стандартные статистические методы, такие как линейная регрессия. 79
Визуализация n В результате использования визуализации создается графический образ данных (графики, схемы, гистограммы, диаграммы и т. д. ). n Применение визуализации позволяет в процессе анализа данных увидеть аномалии, структуры, линии тренда, скопления точек и др. и помогает аналитику намного быстрее определить закономерности и прийти к нужному решению. 80
Визуализация (продолжение) 81
Визуализация (продолжение) n n штриховка, построение доверительных интервалов и областей (например, эллипсов), создание мозаичных структур, спектральных плоскостей 82
Примеры использования методов интеллектуального анализа данных в финансовых приложениях и маркетинговом анализе Приложение (организация) Описание FALCON (HNC Software, Inc. ) Инструментальное средство для оперативного выявления злоупотреблений с кредитными карточками; более 100 организаций-пользователей отмечают сокращение числа нарушений на 20 -30%. Классификатор дебиторских счетов (Internal Revenue Service) Выявление счетов потенциально платежеспособных дебиторов на основе анализа больших объемов архивных данных по уплате налогов. Повышение качества архивной финансовой информации (Lockheed) Выявление закономерностей (в виде правил вывода) в архивных финансовых данных для использования в моделях прогнозирования, системах поддержки принятия решений по инвестированию и т. д. Верификация данных по курсам валют (Reuters) Система выявления ошибок в оперативно поступающих данных по курсам валют. С помощью нейронных сетей и индуктивного вывода правил строятся приблизительные прогнозы, которые сравниваются с поступающими данными. Большие отклонения рассматриваются как возможные ошибки. 83
Примеры использования методов интеллектуального анализа данных в финансовых приложениях и маркетинговом анализе Прогнозирование невыплат в сделках с недвижимостью (Leeds) Анализ архивных данных по сделкам с недвижимостью и выявление паттернов, соответствующих проблемным сделкам, заканчивающимся невыплатами. Выявленные закономерности используются для оценки риска при заключении новых сделок. Маркетинговые исследования (Dickinson Direct) Определение характеристик типичных покупателей продукции компании для выявления новых потенциальных клиентов (профилирование клиентов). Маркетинговые исследования (Reader's Digest Canada) Выявление основных сегментов рынка и наиболее благоприятных подмножеств, а также исследование зависимостей между основными показателями и характеристиками сегментов. Установка лотерейных автоматов (Automated Wagering, Inc. ) Объединение методов ИАД с географическим анализом для определения наилучших мест для установки лотерейных автоматов в штате Флорида. Выявление потенциальных покупателей автомобильных стерео систем (Washington Auto Audio, Inc. ) Анализ демографической базы данных, содержащей информацию о 14000 реальных и потенциальных клиентов, позволил за 90 секунд получить 3 довольно надежных индикатора для прогноза спроса на продукцию и услуги компании. Аналогичные результаты были получены в результате традиционного исследования, выполненного одной из консалтинговых компаний, причем это исследование обошлось фирме на порядок дороже, чем автоматизированная система интеллектуального анализа данных. 84
Системы Data mining n n n Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. Обилие методов и алгоритмов, реализованных в различных действующих системах Data Mining. Многие системы интегрируют в себе сразу несколько подходов. 85
Система Poly. Analyst Предназначена для анализа хранилищ данных и извлечения из сырых данных практически полезных знаний. Модули системы: q q q q Поиск законов Поиск Зависимостей Модуль многопараметрической линейной регрессии Модуль Классификации Модуль Дискриминации Модуль Кластеризации Модуль Poly. Net Predictor Разработчик системы Poly. Analyst российская компания Megaputer Intelligence или "Мегапьютер". 86
Система Poly. Analyst (продолжение) n Исходные данные: информацию по 400 автомобилям (средний пробег на единицу объема топлива, количество цилиндров у каждого автомобиля, объем цилиндра, мощность в лошадиных силах, вес, время разгона до скорости 100 миль в час, год выпуска, место выпуска, модель). 87
Система Poly. Analyst (продолжение) n 1. Преобразование данных путем задания правил: age = 82 Year. n 2. «Линейная Регрессия» автоматический выбор наиболее значимых независимых переменных и статистически верная оценка значимости полученных результатов. Наиболее подходит для пользователей, не являющихся специалистами в статистике. Задается только целевой параметр (средний пробег на единицу объема топлива) 88
Система Poly. Analyst (продолжение) 3. «Поиск Зависимостей» n n Нечеткие и слабые функциональные зависимости ( «Мягкий» алгоритм) Помогает выявить аномальные записи. Компактные и сильно связанные области в данных ( «Жесткий» алгоритм) На выявленных областях проводится анализ данных для получения более точных и значимых зависимостей 89
Система Poly. Analyst (продолжение) 90
Система Poly. Analyst (продолжение) 4. «Поиск Законов» позволяет получить математическую зависимость целевого параметра от других параметров. n Задается только целевой параметр. n Стандартная ошибка меньше, чем давала линейная модель. 91
Система Poly. Analyst (продолжение) n n 5. Кластеризация «Жесткий» алгоритм ищет компактные и сильно связанные области в данных. Определяет параметры, дающие наилучшую кластеризацию. 92
Система Poly. Analyst (продолжение) 5. Кластеризация «Мягкий» алгоритм позволяет обнаруживать нечеткие и слабые функциональные зависимости. Определяет параметры, дающие наилучшую кластеризацию. 93
Система Poly. Analyst (продолжение) 6. «Дискриминация» Вариант классификации, но не требует наличия переменной «Да/Нет» (принадлежность записи к классу). Три типа классификации: n «Поиск законов» , n «Линейная регрессия» , n «Polynet Predictor» . 94
Система Poly. Analyst (продолжение) 6. «Дискриминация» n Полученное правило может быть применено к другим таблицам. n Получим переменную «Да/Нет» ( « 1/0» ) n (принадлежность записи к классу). 95
Система Poly. Analyst (продолжение) 7. «Классификация» Необходимо наличие переменной, принимающей значение «Да/Нет» (принадлежность записи к классу). Задается целевой переменой. Три типа классификации: n «Поиск законов» , n «Линейная регрессия» , n «Polynet Predictor» . 96
Нейронные сети n n Область применения нейронных сетей: многопараметрические процессы, характеризующиеся набором параметров, связанных неизвестной функциональной зависимостью. Процессы в экономике являются многопараметрическими. Day Gold Yen DM Pound Dow. Ave NYVol 1 365 145 4, 1 0, 623 2650 75, 62 2 368 147 4, 1 0, 584 2620 56, 34 3 370 150 3, 9 0, 614 2635 98, 22 4 365 150 3, 9 0, 605 2634 43, 76 5 372 147 3, 8 0, 595 2590 52, 33 8 366 146 4, 3 0, 583 2588 61, 08 9 373 148 4, 1 0, 573 2576 63, 54 10 375 150 3, 9 0, 566 2630 48, 22 11 381 150 3, 8 0, 546 2633 35, 27 12 380 150 3, 7 0, 555 2648 48, 71 97
Нейронные сети (продолжение) Нейронные сети строятся по принципам организации и функционирования их биологических аналогов. Элементарным преобразователем в нейронных сетях является искусственный нейрон. 98
Нейронные сети (продолжение) Синапсы осуществляют связь между нейронами, умножают входной сигнал на число, характеризующее силу связи (вес синапса). Сумматор выполняет сложение сигналов, поступающих по синаптическим связям от других нейронов, и внешних входных сигналов. Нелинейный преобразователь реализует нелинейную функцию одного аргумента выхода сумматора. Эта функция называется функцией активации или передаточной функцией нейрона. 99
Нейронные сети (продолжение) Математическая модель нейрона: n n n wi вес синапса, i=1. . n b значение смещения s результат суммирования xi компонент входного вектора (входной сигнал), i=1. . n, n число входов нейрона y выходной сигнал нейрона f нелинейное преобразование (функция активации). 100
Нейронные сети (продолжение) Алгоритм работы: n n n нейрон получает набор (вектор) входных сигналов. в теле нейрона оценивается суммарное значение входных сигналов. каждый вход характеризуется некоторым весовым коэффициентом, определяющим важность поступающей по нему информации (нейрон не просто суммирует значения входных сигналов, а вычисляет скалярное произведение вектора входных сигналов и вектора весовых коэффициентов). нейрон формирует выходной сигнал, интенсивность которого зависит от значения вычисленного скалярного произведения. Если оно не превышает некоторого заданного порога, то выходной сигнал не формируется вовсе нейрон «не срабатывает» . 101
Нейронные сети (продолжение) Персептрон - один слой искусственных нейронов, соединенных с помощью весовых коэффициентов с множеством входов. На входы подаются входные сигналы, поступающие далее по синапсам на нейроны, которые образуют единственный слой этой сети. x 1, x 2… известные значения, y 1, y 2 определяемые значения На выходах сети формируются выходные сигналы 102
Нейронные сети (продолжение) Геометрическая иллюстрация n Работа персептронов сводится к классификации (обобщению) входных сигналов, принадлежащих n мерному гиперпространству, по некоторому числу классов. Нейронная сеть - это алгоритм, использующий уравнение линейного неравенства (линейного фильтра), с помощью которого можно причислить исследуемый объект к тому или иному классу или, наоборот, исключить его. n n Каждая полученная область является областью определения отдельного класса. Математически это разбиение гиперпространства гиперплоскостями (геометрически плоскость описывается линейным уравнением). 103
Нейронные сети (продолжение) n Процесс функционирования нейронной сети зависит от величин синаптических связей (значения wij). Обучение сети - для заданной структуры сети, соответствующей какой-либо задаче, необходимо найти оптимальные значения всех весовых коэффициентов для некоторого набора известных значений входов и выходов (обучающие примеры). n n Обучение нейронной сети является задачей многомерной оптимизации, для решения которой используются существующие оптимизационные методы. От качества обучения зависит способность сети решать поставленные перед ней задачи во время функционирования. 104
Нейронные сети (продолжение) Алгоритм обучения: n ШАГ 1. Задать исходные значения весовых коэффициентов (случайные значения). n ШАГ 2. Подать на входы один из входных векторов, которые сеть должна научиться различать, и вычислить ее выход (поочередно в случайном порядке предъявляются все возможные входные вектора). n ШАГ 3. Если выход правильный, перейти на шаг 4. Иначе модифицировать веса по некоторому правилу. n Шаг 4. Цикл с шага 2, пока сеть не перестанет ошибаться. К сожалению, нельзя заранее определить число итераций, которые потребуется выполнить, а в некоторых случаях и гарантировать полный успех. 105
Нейронные сети (продолжение) n n n В многослойных сетях нейроны объединяются в слои. Слой содержит совокупность нейронов с едиными входными сигналами. Число нейронов в слое может быть любым и не зависит от количества нейронов в других слоях. Определение числа скрытых слоев и числа нейронов в каждом слое для конкретной задачи является неформальной задачей. Нейроны, определенным образом соединены друг с другом и с внешней средой с помощью связей, определяемых весовыми коэффициентами. Внешние входные сигналы подаются на входы нейронов входного слоя, а выходами сети являются выходные сигналы последнего слоя. 106
n n n Алгоритм обратного распространения ошибки итеративный градиентный алгоритм обучения, который используется с целью минимизации среднеквадратичного отклонения текущих от требуемых выходов многослойных нейронных сетей с последовательными связями. На каждом шаге алгоритма на вход сети поочередно подаются все обучающие примеры, реальные выходные значения сети сравниваются с требуемыми значениями, и вычисляется ошибка. Значение ошибки, а также градиента поверхности ошибок используется для корректировки весов, после чего все действия повторяются. Процесс обучения прекращается либо когда пройдено определенное количество шагов обучения, либо когда ошибка достигнет некото рого определенного малого уровня, либо когда ошибка перестанет уменьшаться. Недостаток на каждой итерации происходят изменения значений параметров сети, улучшающие работу лишь с одним примером обучающей выборки. Такой подход существенно уменьшает скорость обучения. 107
Нейронные сети (продолжение) Проблемы: n В процессе обучения большие положительные или отрицательные значения весов могут сместить рабочую точку на сигмоидах нейронов в область насыщения. n Малые величины производной от логистической функции могут привести к остановке обучения. n Применение метода градиентного спуска не гарантирует нахождения глобального минимума целевой функции. n Приращения весов и, следовательно, скорость обучения для нахождения экстремума должны быть бесконечно малыми, однако в этом случае обучение будет происходить неприемлемо медленно. n Слишком большие коррекции весов могут привести к постоянной неустойчивости процесса обучения. 108
Нейронные сети (продолжение) n n n Проблемы обобщения и переобучения нейронной сети: Обобщение способность нейронной сети делать точный прогноз на данных, не принадлежащих исходному обучающему множеству Переобучение чрезмерно точная подгонка, которая имеет место, если алгоритм обучения работает слишком долго, а сеть слишком сложна для такой задачи или для имеющегося объема данных. Сети с большим числом весов моделируют более сложные функции и, следовательно, склонны к переобучению. Сети же с небольшим числом весов могут оказаться недостаточно гибкими, чтобы смоделировать имеющиеся зависимости. 109
Переобучение сети
Нейронные сети (продолжение) n n n Более сложная сеть дает меньшую ошибку, но это может свидетельствовать не о хорошем качестве модели, а о переобучении сети. Используется тестовая кросс проверка резервируется часть обучающей выборки, которая используется для независимого контроля результата в ходе алгоритма. По мере обучения сети ошибка обучения убывает, как и ошибка на тестовом множестве. Если же тестовая ошибка перестала убывать или даже стала расти, то сеть начала слишком близко аппроксимировать данные (переобучилась) и обучение следует остановить. Следует уменьшить число скрытых элементов и/или слоев, ибо сеть является слишком мощной для данной задачи. Если обе ошибки (обучения и кросс проверки) не достигнут достаточного малого уровня, то переобучения, не произошло, а сеть, напротив, является недотаточно мощной для моделирования имеющейся зависимости. 111
Нейронные сети (продолжение) n n n Количество скрытых нейронов сильно зависит от количества фактов обучающей выборки. Если обучающая выборка мала, а количество нейронов велико, то сеть начинает "запоминать" факты (переобучение). Обратная ситуация может привести к тому, что сеть никогда не обучится. Для решения задачи о количестве нейронов в скрытом слое и размере обучающей выборки предлагается следующая методика. Количество обучающих фактов F: Количество скрытых нейронов H: 2 * ( I + H + O ) < = F < = 10 * ( I + H + O ), где: I - количество входов сети, H - количество спрятанных нейронов, O - количество выходов сети. F / 10 - I - O < = H < = F / 2 - I - O, где: I - количество входов сети, F - количество фактов обучающей выборки, O - количество выходов сети. 112
Нейронные сети (продолжение) Этапы решения практических задач с использованием нейронных сетей: 1) Определение проблемы и выбор вектора параметров (кривая доходности, цена отсечения первичного аукциона, показатель целесообразности реструктуризации инвестиционного портфеля, точки перелома тренда и т. п. ). 2) Определение и подготовка исходных данных: желательно как можно сильнее сжать диапазон целевого параметра. При значительной величине вводимого параметра резко снижается точность представления величины. Чтобы избежать потерь в точности и огрубления результата, желательно все параметры представлять в виде их первой разности. 3) Преобразования и анализ исходных данных (масштабируемость данных, преобразование качественных данных в числовые, проверка коррелируемости, анализ периодичности). 4) Задание структуры сети 5) Обучение сети (динамическое сокращение ошибки обучения, контроль "здоровья" сети, включение шумов в обучающий процесс, изменение порядка набора обучающих фактов). 6) Использование сети 113
Нейронные сети (продолжение) n Наиболее известные универсальные нейросетевые программные системы: q q q n Neuro. Solutions ( Neuro. Dimension, Inc), Process Advisor (AI Ware, Inc), Neuro. Shell 2 (Ward System Group), Neural. Works Professional (Neural. Ware, Inc), Brain. Maker Pro (California Scientific Software). Нейросетевые программные системы для решения задач прогнозирования временных рядов и ориентированные на финансовых работников: q q Neuro Builder 2001, Neuro. Shell Day Trader, Bio. Comp Profit, Neuro. Scalp. Пакет фирмы “The Math. Works” MATLAB также предоставляет пользователям возможность работы с нейронными сетями (модуль “Neural Network Toolbox”). 114
Программный пакет Brain. Maker Professional n n Net. Maker - программа подготовки и анализа исходных данных Brain. Maker- программа построения, обучения и запуска нейросетей Набор средств для анализа исходных данных и оптимизации процесса обучения: n n n n n входные и выходные данные могут быть представлены в числовом, символьном видах, а также в виде растровой картинки предусмотрена функция построения графиков данных предусмотрена функция принудительной установки максимальной и минимальной величин для расчета функции масштабирования предусмотрена специальная функция для перемешивания фактов. можно провести графический частотный анализ данных и визуальный корреляционный анализ двух параметров предусмотрена функция постепенного снижения коэффициента скорости обучения предусмотрена функция визуального контроля за распределением весов нейронной сети. позволяет добавлять шумы к обучающим, тестовым и рабочим фактам специальная утилита позволяет проводить прогностический анализ кластерных данных (результаты соревнований по группам, поиск наилучшего варианта по результатам группового тестирования и т. п. ), т. е. решать задачи кластеризации. 115
Оперативная аналитическая обработка n В основе модели OLAP лежит понятие (OLAP) гиперкуба, или многомерного куба данных, в ячейках которого хранятся анализируемые (числовые) данные. n В многомерной модели измерения (dimensions) соответствуют осям куба, а анализируемые переменные (measures) или показатели – индивидуальным ячейкам куба. n Многомерная модель позволяет делать плоские срезы куба данных и поворачивать его нужной гранью любым удобным нам образом. n Используя многомерную модель, аналитик может легко получить представление данных в соответствии с собственными интересами. 116
OLAP (продолжение) n Каждое измерение включает направления агрегирования данных, состоящие из последовательных уровней обобщения, где каждый вышестоящий уровень соответствует большей степени агрегации данных по соответствующему измерению ( «иерархия» ). Измерение Время может включать два направления консолидации – «год – квартал – месяц – день» и «неделя – день» . n Одно измерение может также содержать несколько иерархий. Отдельные иерархии одного измерения задают разные схемы агрегирования анализируемых показателей. Операция спуска (drilling down) соответствует движению от высших ступеней консолидации к низшим. Операция подъема (rolling up) означает движение от низших уровней к высшим. Указанные механизмы агрегирования и дезагрегирования по всем заданным иерархиям в каждом из измерений автоматически поддерживаются реализующими OLAP базовыми программными средствами, обеспечивая широкие возможности анализа данных. 117 n n n
OLAP (продолжение) n n На основе имеющихся показателей можно получить другие, но не путем хранения их в базе, а путем выполнения автоматического пересчета, когда пользователям эти данные понадобятся. Такие показатели называют формулами или вычисляемыми показателями. 118
OLAP (продолжение) Примеры запросов: n Какие изменения претерпела моя чистая прибыль по сравнению с тем же месяцем прошлого года? n Какие изменения претерпели мои показатели в сравнении с усредненным значением за последние три месяца? n Какова будет тенденция рынка в ближайшие 12 месяцев? Эти запросы в многомерной базе реализуются достаточно просто. В реляционных базах такие запросы потребуют очень ресурсоемких формулировок. 119
OLAP (продолжение) Пример гиперкуба для бюджетного процесса n Факт доходы в доходную часть бюджета может определяться: n q q n датой поступления платежа (время), кодом дохода (классификатор доходов), плательщик данного платежа признаком вида расчета (денежный, безденежный и т. д. ): ПОЛУЧЕННАЯ СУММА = f(ВРЕМЯ, КОД ДОХОДА, ПЛАТЕЛЬЩИК, ВИД РАСЧЕТА) 120
OLAP (продолжение) n Атрибуты ВРЕМЯ, КОД ДОХОДА, ПЛАТЕЛЬЩИК и ВИД РАСЧЕТА являются ключами показателя ПОЛУЧЕННАЯ СУММА (четыре измерения и четырехмерный куб) n Выбирая для анализа конкретные значения перечисленных параметров (значения измерений), соответственно определяются значения показателя. 121
OLAP (продолжение) Одно измерение может содержать несколько иерархий. Отдельные иерархии одного измерения задают разные схемы агрегирования анализируемых показателей. В рамках этого общего классификатора (измерения) "Интегрированный классификатор расходов", используются различные расходные иерархии: n «Классификатор видов расходов (КВР)” n «Классификатор функциональных статей расходов (КФСР)" n «Классификатор экономических статей расходов (КЭСР)» n «Классификатор ведомственной структуры расходов (КВСР)» n «Классификатор целевых статей расходов (КЦСР)» . Расходы бюджета, соответствующие элементам структуры каждого классификатора, определяются суммированием статей расходов входящих элементов нижнего уровня. При дезагрегировании укрупненные статьи расходов бюджета раскладываются по входящим элементам нижнего уровня. 122
OLAP (продолжение) Существуют объективные ограничения на количество и состав вводимых измерений и показателей. Аналитик заинтересован в расширении состава измерений, которые используются в создаваемой аналитической системе (чем больше измерений существует в OLAP системе, тем больше возможностей для анализа информации с разных точек зрения). Большое количество измерений затрудняет анализ, делая его плохо интерпретируемым. Практически в используемых OLAP системах по указанной причине применяется до 10 измерений. Организация данных в реляционных базах данных, на основе которых формируются кубы, может влиять на возможность формирования тех или иных измерений в аналитической OLAP – системе. Необходимо наличие исходных данных. 123
OLAP (продолжение) Примеры OLAP кубов: n Продажи (Время, Категория товара, Товар, Регион, Продавец, Покупатель, Сумма, Количество) n Маркетинг (Время, Образование, Профессия, Доходы, Пол, Возраст, Регион, Категория товара, Товар, Сумма, Количество) n Движение денежных средств (Время, Подразделение, Нал безнал, Контрагент, Банк, Бизнес операция, Валюта, Сумма) n Бухгалтерские счета (Время, Подразделение, Счет, Признаки, Входящий актив, Входящий пассив, Дебет, Кредит, Исходящий актив, Исходящий пассив) 124
OLAP (Архитектура OLAP – системы) Базовые средства: Microsoft Analysis Services и Oracle Express 6. 3. 125
OLAP - Система «Бюджет-Аналитик» (надстройка над комплексом «Бюджет КС» ). Назначение: оперативное получение информации об исполнении бюджета в разрезах видов доходов и расходов бюджета, видов счетов, плательщиков и получателей бюджетных средств, периодов времени, месторасположения плательщиков и получателей бюджетных средств, распределения поступлений по уровням бюджетов, бюджетных и внебюджетных фондов Состав комплекса: n Модуль анализа бюджета; n Модуль загрузки данных; n Модуль «Диспетчер пользователей и ролей» ; n Модуль установки базы данных. 126
OLAP (продолжение) Измерения: n n n n "Время" справочник временных периодов. "Вышестоящая организация" справочник вышестоящих организаций. "ИМНС" справочник инспекций министерства по налогам и сборам. "Классификатор доходов" классификатор доходов бюджета. "ОКАТО" справочник административно территориальных единиц. "ОФК" справочник органов казначейства. "Проводки" справочник проводок. "Расходы бюджета" классификатор расходов бюджета. "Счета бюджета" справочник бюджетных счетов. "Счета" справочник счетов корреспондентов. "Тип даты" справочник типов даты. "Уровни бюджета и фонды" справочник уровней бюджета и фондов. "Корреспонденты" справочник корреспондентов. 127
OLAP (продолжение) Показатели (примеры): n Лимиты финансирования по кварталам n Роспись по кварталам n Поступления на балансовые счета n Поступление финансирования n Возврат финансирования n Поступления n Нарастающий итог по лимитам финансирования поквартальным с начала года n Нарастающий итог по поступлениям доходов с начала года Всего ~ 70 показателей. 128
OLAP (продолжение) Гиперкубы: n n n n n Доходная часть Лимиты и роспись по кварталам Остатки на балансовом счете Остатки на лицевых счетах Расходная часть Реестровое финансирование Роспись и лимиты по месяцам Финансирование корреспондентов 129
Инструменты анализа
Инструмент отбора данных «Селектор» n Для управления выбором данных существует специальный инструмент селектор. n Этот инструмент может быть вызван нажатием кнопки на панели инструментов или командой "Выбор данных" в меню "Работа с данными" или во всплывающем меню.
Инструмент отбора данных 1) Список «Кубы» позволяет «Селектор» выбрать необходимый пользователю куб данных. 2) В окне «Выбор данных» имеются следующие инструменты выбора данных для анализа: 1) «Список» , 2) «Выбор по исключению» , 3) «Выбор лучших/худших» , 4) «Выбор по уровню» , 5) «Поиск по совпадению» , 6) «Сортировка» .
Инструмент «Список» позволяет выбрать конкретный набор значений измерения из множества доступных
Инструмент «Поиск по совпадению • Инструмент «Совпадения» позволяет выбрать конкретный набор значений измерения из множества доступных по совпадающим символам в рассматриваемой иерархии • Раскрывающийся список "Условие поиска" определяет то, как будет сравниваться значение измерения с заданным набором символов. Список содержит элементы: • содержит проверка на любое вхождение; • начиная с - проверка начальных символов; • заканчивая - проверка конечных символов; • точное совпадение - проверка на точное совпадение;
Инструмент «Выбор по уровню» позволяет выбрать конкретный набор значений измерения по заданному уровню рассматриваемой иерархии.
Инструмент «Выбор по исключению» позволяет выбрать значения измерения в заданной иерархии на основе задания условия(ий) на значение анализируемого показателя(ей).
Инструмент «Выбор лучших/худших» . Инструмент «Выбор лучших/худших» позволяет выбрать задаваемое количество значений измерения в заданной иерархии на основе высших или низших значений анализируемого показателя.
Инструмент «Сортировка» . Инструмент «Сортировка» позволяет сортировку выбираемых значений измерения.
Инструмент «панель измерения» Грань страниц колонок Грань строк • Вызов панели измерения осуществляется выбором одноименного пункта «Панель измерений» контекстного (всплывающего) меню • Панель измерений служит для настройки отображения на плоскости экрана (принтера) пространства координат многомерного куба. • Область панели измерений разбивается на три части: грань страниц, грань строк и грань колонок, каждая из которых может включать в себя одно или несколько измерений и показатели
Агрегирование/Дезагрегирование данных. • Диаграмма позволяет производить агрегирование или дезагрегирование данных в соответствии с заложенной иерархией измерения. • Для дезагрегирования данных необходимо щелкнуть левой кнопкой мыши на том измерении, которое будет дезагрегировано, и выбрать из всплывающего меню пункт «Вниз по иерархии»
Агрегирование/Дезагрегирование данных. • Таблица позволяет производить агрегирование или дезагрегирование данных в соответствии с заложенной иерархией измерения. • Для дезагрегирования данных необходимо щелкнуть правой кнопкой мыши на том измерении, которое будет дезагрегировано, и выбрать из всплывающего меню пункт «Вниз по иерархии»
Цветовое кодирование • Цветовое кодирование позволяет настроить отображение информации разными цветами с учетом пороговых значений (например для выделения «болевых точек» ). • Для вызова окна «Цветовое кодирование» необходимо из меню «Таблица» выбрать команду «Цветовое кодирование» .
Цветовое кодирование
. Сохранение выборки (среза) Для удобства работы пользователь может в любой момент сохранить выбранный срез данных для использования его в дальнейшем. Сохраненный срез данных включает в себя выбранные значения по всем измерениям, выбранные показатели и текущий тип диаграммы. . Для сохранения среза данных необходимо в меню «Работа с задачей» выбрать команду: «Срезы данных Сохранить» или на панели инструментов нажать кнопку
Технологии интеллектуальной обработки.ppt