ISM_lekzia6_02_04_2012.ppt
- Количество слайдов: 63
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Анализ внешних маркетинговых данных в Microsoft Query Кубы OLAP и сводные таблицы OLAP (от online analytical processing) является широко распространенным способом анализа информации из корпоративных баз данных. OLAP представляет собой совокупность концепций, принципов и требований, лежащих в основе программных средств, созданных с целью облегчить анализ многомерных данных. При этом данные организуются иерархическим образом и хранятся в так называемых «кубах» . MS Query позволяет создавать OLAP-кубы из данных текущего запроса. В Calc их поддержка пока не реализована. Основное назначение OLAP-анализа — поддержка деятельности маркетологов-аналитиков по проверке возникающих гипотез с помощью построения отчетов по 1 произвольным запросам пользователей.
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Анализ внешних маркетинговых данных в Microsoft Query Кубы OLAP и сводные таблицы OLAP-куб (т «гиперкуб» ) представляет собой структуру, содержащую так называемые «измерения» или «размерности» (dimensions) и «меры» (measures). Рис. 1. Представление данных в виде куба 2
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Анализ внешних маркетинговых данных в Microsoft Query Кубы OLAP и сводные таблицы Измерения представляют собой описательные данные, составляющие оси многомерного куба. В демонстрационной БД Sell к измерениям могут быть отнесены: • месяцы, • товарные группы, • магазины, • марки. Конечно, термин «куб» весьма условен, так количество элементов в различных измерениях у него может быть различным. 3
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Анализ внешних маркетинговых данных в Microsoft Query Кубы OLAP и сводные таблицы Меры (в терминологии Excel — «поля данных» ) представляют собой суммируемые (агрегируемые) количественные данные, рассчитываемые по полям БД, к которым необходимо применить процедуры статистического анализа. Применительно к БД Sell это могут быть • суммы, • средние, • максимальные значения, • минимальные значения, • количество значений по полям ЦЕНА, • количество значений по полям ДОХОД. 4
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Анализ внешних маркетинговых данных в Microsoft Query Кубы OLAP и сводные таблицы Над гиперкубом могут выполняться следующие операции: • разрезание (slice); • вращение (rotate); • консолидация (drill up); • детализация (drill down). Смысл операции разрезания (среза) заключается в том, что формируется подмножество многомерного массива данных, соответствующее одному или нескольким элементам каких-либо измерений. Суть анализа состоит в извлечении из многомерного куба обычных двумерных таблиц. Такая операция называется «разрезанием» куба, т. е. аналитик исследует измерения куба по интересующим его позициям. 5
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Анализ внешних маркетинговых данных в Microsoft Query Кубы OLAP и сводные таблицы Операция вращения изменяет расположение измерений, представленных в отчете или на диаграмме. Она может сводиться к перестановке местами полей строк, полей столбцов и полей страниц в сводной таблице. Также вращением куба будет являться и рассмотрение куба по новому, ранее не отображенному в отчете измерению. Консолидация означает переход от детального представления данных к агрегированному. Детализация означает обратный переход. Так, переход от отчета по кварталам к помесячному отчету будет примером операции детализации. Переход от статистики по отдельным магазинам к сводной статистике по регионам — пример операции консолидации. 6
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Анализ внешних маркетинговых данных в Microsoft Query Кубы OLAP и сводные таблицы OLAP-куб Преимущества: 1. Данные запрашиваются из базы данных всего один раз — при построении куба 2. Экономия времени на обновлении отчетов 3. Уменьшение нагрузки на сервер корпоративной базы данных Недостатки: 1. В куб не попадают последние изменения данных 2. Куб OLAP может занимать весьма большой объем дискового пространства, заметно превышающий даже объем исходных данных. 7
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Анализ внешних маркетинговых данных в Microsoft Query Кубы OLAP и сводные таблицы Способы создания OLAP-кубов: 1. в многомерных БД, управляемых специализированными OLAP-серверами; 2. на основе локальных многомерных хранилищ данных путем создания файла, данные в котором организованы специальным способом. MS Query позволяет создавать локальные OLAP-кубы (сохраняемые в файлах с расширением *. cub) и описания кубов (сохраняемые в файлах *. oqy), которые используются для их пересчета на основе исходной БД. 8
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Анализ внешних маркетинговых данных в Microsoft Query Кубы OLAP и сводные таблицы 1. 2. 3. 1. 2. 3. 4. 5. Алгоритм работы : получение данных в виде плоской таблицы или в виде результата выполнения SQL запроса в MS Query; преобразование данных в многомерный куб; отображение построенного куба при помощи сводной таблицы или диаграммы в Excel. Предварительная подготовка данных: Необходимо вызвать MS Query и создать новый запрос на базе таблиц sales, marks и shops. Связать эти таблицы внутренними объединениями. Рассчитать дополнительное поле ДОХОД Вывести в результирующую таблицу поля: ДАТА, ЦЕНА, СКИДКА, ДОХОД, «ТОВАРНАЯ ГРУППА» , КЛИЕНТ, МАГАЗИН, РЕГИОН, ТИП, МАРКА, СТРАНА. 9 Сохранить запрос.
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Анализ внешних маркетинговых данных в Microsoft Query Кубы OLAP и сводные таблицы Выполним команду меню Файл+ «Создать куб OLAP» . После этого запустится «Мастер куба OLAP» (рис. 2) Рис. 2. Мастер куба OLAP 10
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Анализ внешних маркетинговых данных в Microsoft Query Кубы OLAP и сводные таблицы На 1 шаге мастера определяется, какие поля исходных данных будут использоваться в качестве мер (полей данных). Рис. 3. Первый шаг мастера куба OLAP 11
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Анализ внешних маркетинговых данных в Microsoft Query Кубы OLAP и сводные таблицы На 2 шаге мастера остальные поля организуются в измерения размерности и уровни, задаются имена измерений и уровней. Рис. 4. Второй шаг мастера куба OLAP 12
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Анализ внешних маркетинговых данных в Microsoft Query Кубы OLAP и сводные таблицы На 3 шаге мастера выберем вариант создания куба в виде отдельного файла, содержащего все данные куба Рис. 5. Третий шаг мастера куба OLAP 13
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Анализ внешних маркетинговых данных в Microsoft Query Кубы OLAP и сводные таблицы Построим сводную таблицу Рис. 6. Сводная таблица на базе куба 14
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Анализ внешних маркетинговых данных в Microsoft Query Кубы OLAP и сводные таблицы Названия измерений и мер куба отображаются в списке полей сводной таблицы и обозначаются пиктограммами разного вида Рис. 7. Выбор полей сводной таблицы 15
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Анализ внешних маркетинговых данных в Microsoft Query Кубы OLAP и сводные таблицы Использование сводных таблиц и диаграмм с OLAP-данными имеет следующие отличия от обычной работы со сводными таблицами: 1. Excel получает доступ только к обобщенным данным, которые передаются ему из OLAP-куба. При этом все итоговые значения рассчитываются предварительно, до вызова Excel, поэтому повышается эффективность работы. 2. Ограничиваются возможности выбора средств анализа в самом Excel. В результате пользователь попадает в зависимость от реализованных аналитических способностей OLAP-сервера и, прежде всего, не может изменить итоговые функции, применяемые к полям данных. 3. Недоступно отображение исходных данных на отдельном листе, так как они физически отсутствуют в OLAP-кубе. 4. Нельзя создавать вычисляемые поля. 16
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Анализ внешних маркетинговых данных в Microsoft Query Кубы OLAP и сводные таблицы Если необходимо изучить более подробные данные, связанные с иерархией конкретного элемента для отображаемого измерения, то после двойного щелчка над ячейкой с этим элементом отображается следующий уровень иерархии 17
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Анализ внешних маркетинговых данных в Microsoft Query Кубы OLAP и сводные таблицы Можно создать сводную таблицу на базе куба, отразив в ней статистику продаж по регионам 18
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Анализ внешних маркетинговых данных в Microsoft Query Кубы OLAP и сводные таблицы Как и у любой другой технологии, у OLAP есть свои принципиальные недостатки. При работе с OLAP пользователь должен точно знать, какую информацию он намеревается получить из БД. Поэтому для отчета об объемах продаж — это адекватное средство, а вот для исследования структуры клиентской базы, когда требуется выделить группы клиентов, не имея априорно четкого определения этих групп, OLAP подходит в меньшей степени. 19
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 1. Компьютерные системы распознавания создаются для решения сложных практических задач, в частности, таких, когда необходимо правильно отнести тестируемый объект к определенному классу из нескольких, с которыми умеет работать данная система. Такие задачи называются задачами классификации, и в самом простом случае в них различаются два класса (обычно обозначаемых A и B, или A и не. А). В частности, для задач именно такого типа создаются банковские скоринговые системы, которые призваны помочь эксперту принять решение, выдавать или не выдавать кредит. 20
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 1. Компьютерные системы распознавания Алгоритмическую основу подобных компьютерных систем составляет решающее правило, на вход которого подаются значения признаков рассматриваемого объекта, а результатом применения правила является компьютерный диагноз — ответ, к классу А или к классу В следует данный объект отнести. В некоторых системах допускается ответ, означающий отказ от классификации конкретного объекта ( «нельзя отнести ни к А, ни к В» ). В других системах такой отказ неприемлем и непременно должен быть получен однозначный ответ (либо А, либо В). 21
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 1. Компьютерные системы распознавания Формально решающее правило может быть представлено в виде ЕСЛИ Ψ(X), ТО X→А, ИНАЧЕ X→B. Для построения решающего правила необходимо пройти основные этапы: 1. этап сбора данных (примеров) и формирования материала обучения; 2. этап обучения с использованием какого-либо вычислительного метода; 3. этап тестирования на материале контроля (контрольных примерах). 22
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 1. Компьютерные системы распознавания Допустим, мы собрали достаточную статистику по невозврату выданных кредитов. Про каждого заемщика уже достоверно известно — выплатил он кредит или нет. Подавая на вход решающего правила формализованные данные заемщика (пол, возраст, размер дохода и его источники, кредитную историю и т. д. ), можно сравнить рекомендацию компьютерной системы ( «выдавать» или «не выдавать» ) с известным результатом. Весьма вероятно, что для части контрольных примеров компьютерный диагноз будет не совпадать с истинным - компьютерная рекомендация «выдавать» для некредитоспособного и рекомендация «не выдавать» для 23 надежного клиента.
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 1. Компьютерные системы распознавания Рассмотрим задачу Credit распознавания благонадежных и неблагонадежных заемщиков более подробно. Исходные данные хранятся в файле credit. xls. 24
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 1. Компьютерные системы распознавания В файле credit. xls собрано C = 999 записей, отражающих возврат или невозврат ранее выданных кредитов. В качестве признаков описания заемщиков используются: возраст, пол, семейный статус, количество иждивенцев, подтвержденный документами месячный доход (в рублях), опыт работы (в годах), срок проживания в данном городе (в годах), рыночная стоимость недвижимости (в усл. ед. ), ежемесячный платеж по кредиту (в рублях). Отметим, что 7 признаков из 9 — количественные (непрерывные), а оставшиеся 2 — Пол и Состоит в браке — дискретные (в них занесены нечисловые значения). Пропущенных данных в таблице нет. 25
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 1. Компьютерные системы распознавания В столбце J приведен известный результат: был ли кредит возвращен вовремя (Нет или Да). Таким образом формируются класс A (назовем его Дефолт) и класс B (назовем его Норма). Рассчитать в Excel количество записей с определенным значением поля можно несколькими способами: вызовом функции CЧЁТЕСЛИ, через построение сводной таблицы, с помощью функции ПРОМЕЖУТОЧНЫЕ. ИТОГИ. 26
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов Всего в таблице приведены данные о P = 507 неблагонадежных заемщиках и о N = 492 благонадежных. Пусть построены решающие правила, позволяющие диагностировать объекты, т. е. для каждой записи можно получить компьютерный диагноз Норма или Дефолт. Таблица сопряженности для оценки кредитоспособности Истинный диагноз Результат компьютерного теста Диагноз D 1 «Дефолт» Диагноз D 2 «Норма» Класс А «Дефолт» TP FN Класс В «Норма» FP TN 27
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов Использованные обозначения: TP (true positive) — истинноположительные диагнозы, т. е. число правильно поставленных диагнозов Дефолт; TN (true negative) — истинноотрицательные диагнозы, т. е. число правильно поставленных диагнозов Норма; FP (false positive) — ложноположительные диагнозы, т. е. число благонадежных клиентов, которым ошибочно рекомендовано не выдавать кредит; FN (false negative) — ложноотрицательные диагнозы, т. е. число случаев, когда кредит рекомендовано выдать, а клиент оказался неблагонадежным. 28
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов Гиподиагностикой (пропуском цели) будем считать ситуацию неоправданной выдачи кредита, а гипердиагностикой (ложной тревогой) — необоснованное отклонение заявки. Для оценки одного частного правила будем рассчитывать показатели точности и полноты. Точность Acc в нашем примере вычисляется как количество оправданно отклоненных заявок, деленное на общее количество случаев, когда правило R выдавало рекомендацию отклонить заявку: Acc = PR /(PR + NR). Полнота Comp равна (так как R прогнозирует невозвраты) отношению верных предсказаний дефолта к их общему числу: Comp = PR /P. 29
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов Для иллюстрации расчетов этих показателей перейдем в Excel и скопируем лист с исходными данными. На созданной копии попробуем определить «правило» : «если доход клиента меньше среднего и при этом клиент не имеет в собственности недвижимости, то кредит выдавать не следует» . Формализуем это правило в виде формулы в столбце K, который озаглавим как Прогноз Нет будем интерпретировать как предсказание дефолта по кредиту, и соответственно ответ Да — как рекомендацию выдать кредит. 30
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов 31
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов Для удобства построим сводную таблицу. «Количество по полю Пол» позволяет получить число клиентов. 32
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов Рассчитаем полноту придуманного правила. Оно описывает 278 из 507 случаев невозвратов, т. е. полнота составляет Comp = 54, 8%. Рассчитаем точность правила. Оно применялось 356 раз, из них дало верный результат в 278 случаях. Таким образом Acc = 278/356 = 78, 1%. Для оценки обобщенного решающего правила целесообразно использовать характеристики чувствительности и специфичности. 33
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов В рассматриваемой задаче чувствительность Sens — это доля невозвратов, верно распознанных с помощью компьютерного правила, по отношению к общему числу невозвратов: Sens = TP/(TP + FN). Специфичность Spec — доля благонадежных заемщиков, признанных таковыми и по результатам теста: Spec = TN/(TN + FP). Общая точность вычисляется как Acc = (TN + TP)/(P + N). Компьютерная система классификации может быть рекомендована для практического внедрения лишь в том случае, если она одновременно обеспечивает такие значения точности, чувствительности, специфичности, которые признаются достаточными в автоматизируемой задаче. 34
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов Проиллюстрируем эти определения. Реализуем еще одно «правило» : ЕСЛИ доход клиента >12000 ТО кредит выдается ( «Да» ) ИНАЧЕ ЕСЛИ клиент старше 25 лет, состоит в браке и выплаты по кредиту не превысят 40% от месячного дохода ТО кредит выдается ( «Да» ) ИНАЧЕ отказать в кредите ( «Нет» ). Формула, эмулирующая такая правило, может быть такой: =ЕСЛИ(E 2>12000; "Да"; ЕСЛИ(И(A 2>25; C 2="Да"; I 2<=0, 4*E 2); "Да"; "Нет")) 35
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов Результатом вычислений будет сводная таблица. 36
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов Оценим, высоки ли подобные значения показателей. Для этого сравним этот результат с выставлением компьютерного диагноза посредством генератора случайных чисел. Используем функцию Excel СЛЧИС, которая возвращает равномерно распределенное случайное число в интервале [0; 1). Положим, что когда функция вернула значение большее или равное 0, 5, то будем трактовать его как диагноз Нет, а если меньше — то как Да. уже останется неизменным. 37
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов Оценим, высоки ли подобные значения показателей. Для этого сравним этот результат с выставлением компьютерного диагноза посредством генератора случайных чисел. Используем функцию Excel СЛЧИС, которая возвращает равномерно распределенное случайное число в интервале [0; 1). Положим, что когда функция вернула значение большее или равное 0, 5, то будем трактовать его как диагноз Нет, а если меньше — то как Да. уже останется неизменным. 38
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов Сводная таблица для оценки случайного ответа 39
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов Если же мы знаем, что доля неблагонадежных заемщиков в материале обучения чуть выше половины (а именно 50, 75%), то можно модифицировать выражение для случайной генерации ответа, выдавая ответ Нет, если случайное число больше, чем 0, 4925. Таким образом, общая точность, чувствительность и специфичность, полученная на примере со вторым решающим правилом, существенно выше, чем эти показатели, получаемые при случайной генерации ответа. 40
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов Если же мы знаем, что доля неблагонадежных заемщиков в материале обучения чуть выше половины (а именно 50, 75%), то можно модифицировать выражение для случайной генерации ответа, выдавая ответ Нет, если случайное число больше, чем 0, 4925. Таким образом, общая точность, чувствительность и специфичность, полученная на примере со вторым решающим правилом, существенно выше, чем эти показатели, получаемые при случайной генерации ответа. 41
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов Допустим, что при реализации компьютерного распознавания допущена ошибка и теперь компьютерный тест любой объект относит в группу Дефолт. 42
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов Результаты расчетов: Из TP = 507; FN = 0; FP = 492; TN = 0 можно получить, что Sens = 100%; Spec = 0%; Acc = 50, 8%. Итак, достигнуто максимально возможное значение чувствительности (100% — т. е. выявляются все невозвраты), что отнюдь не является достаточным показателем качества этого «правила» . Причина в том, что оно обладает нулевой специфичностью, т. е. кредиты при следовании такому правилу вообще никому выданы не будут. 43
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов Очевидно, что при прогнозировании вероятности невозврата банковского кредита гипердиагностика/ложная тревога (FP, «отказать в кредите благонадежному клиенту» ) менее существенна, чем гиподиагностика/пропуск цели (FN, «выдать кредит ненадежному заемщику» ). Поэтому для оценки качества Q построенных решающих правил привлекаются штрафы за ошибки Sf. alarm и Smiss. Отказы от диагноза (условно ответ «не знаю, выдать или отказать» ) также влияют на качество классификации Q, уменьшая долю совпадающих ответов. Величины штрафов, как и прежде, выбираются из сопоставления возможных последствий ошибок. 44
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов Определим величины штрафов за пропуск цели и ложную тревогу, соответственно, Smiss = 5, Sf. alarm = 1. Т. е. необоснованную выдачу кредита мы считаем в 5 раз более существенной, чем неверное решение отказаться от кредитования клиента. Подсчитаем суммарные потери от ошибок диагностики (Total cost of errors) для результата со вторым правилом : SL = FP·Sf. alarm + FN·Smiss = 77· 1+130· 5 = 727 единиц. При этом удельные потери на объект (Average cost (per record)) Sav= SL/(N+P) ≈ 0, 73. 45
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов Сравним полученные значения с ожидаемыми потерями при отсутствии компьютерного теста, т. е. при выдаче всех 507 сомнительных кредитов: SLapr = 507· 5 = 2535. Удельные ожидаемые потери (Expected average cost (per record)) составили бы Savapr = 2, 5. Видно, что потери от ошибок теста ниже априорных потерь. Этот оправдывает применение такого диагностического теста в сравнении с ситуацией, когда базовым решением было бы выдавать все запрошенные кредиты. Если же базовым решением было бы не выдавать кредитов в неопределенных ситуациях, то в этом случае ожидаемые потери составили бы SLapr = 492· 1 = 492. При такой базовой стратегии данный компьютерный тест оказывается неприемлемым. 46
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 2. Критерии оценки результатов При отсутствии какой-либо стандартной стратегии принятия решений следует сравнить два варианта: ошибочного распознавания всех объектов из класса А и всех объектов из класса B. Далее выбирается минимальное значение ожидаемых потерь, которое и соотносится с результатами компьютерного тестирования. Если бы установлены иные штрафы, допустим, такие Smiss = 1, Sf. alarm = 3, то априорные потери составили бы SLapr = 507 единиц, а потери от ошибок при тестировании SL = 104+ 182· 3 = 648 единиц. В этом случае оказалось бы, что такой компьютерный тест увеличивает суммарный риск, а потому непригоден на практике. 47
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 3. Логистическая регрессия (ЛР) — вариант множественной регрессии, назначение которой состоит в выявлении вида связи между несколькими независимыми переменными x(j) (факторами) и зависимой переменной y (откликом). Общий вид регрессионных моделей можно представить как y = f(x(1); x(2); … x(k)). Наиболее часто используется линейная регрессия y = a 1 x(1) + a 2 x(2) +. . . akx(k)+ a 0. 48
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 3. Логистическая регрессия применяется в тех случаях, когда отклик является переменной, которая может принимать только два значения: 0 / 1, Да / Нет. С помощью ЛР можно оценивать вероятность того, что для конкретного объекта наступит интересующее событие. ЛР в последние годы активно применяется в так называемом скоринге — для расчета рейтинга потенциальных заемщиков и управления кредитными рисками. 49
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 3. Логистическая регрессия Можно ли использовать привычный линейный регрессионный анализ для такого прогнозирования? При существующей форме исходных данных в задаче Credit — нет, так как отклик y и два фактора x(2) и x(5) представляют собой дискретные признаки с текстовыми значениями. Необходимо перекодировать данные: • поле Благонадежный заемщик, значения Нет и Да соответственно в 0 и 1; • поле Пол, значения женский и мужской соответственно в 1 и 2; • поле Состоит в браке, значения Да и Нет соответственно в 2 и 1. 50
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 3. Логистическая регрессия Отметим общее невысокое качество модели: коэффициент детерминированности около 0, 5 и 4 незначимых признака из 9. Помимо этого следует отметить и еще одну проблему: в модели никак не учитывается бинарная природа отклика. И если предсказываемое значение 0, 1, очевидно, соответствует дефолту, а 0, 9 — возврату кредита, то, как можно убедиться, модель допускает предсказание и таких значений как – 0, 18 или 1, 47, выпадающих из интервала [0; 1]. 51
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 3. Логистическая регрессия По справочной системе Excel можно изучить, на что влияют параметры поиска решения. Для первого запуска используем вариант с параметрами по умолчанию. 52
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 3. Логистическая регрессия 53
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 3. Логистическая регрессия После завершения поиска ячейки A 2: J 2 будут содержать коэффициенты ЛР, а в столбце K для каждого объекта будет выведено значение вероятности Pi 54
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 3. Логистическая регрессия Результат расчетов 55
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 3. Логистическая регрессия Далее необходимо для каждого варианта TP/FN/FP/TN подсчитать количество объектов, а также коэффициентов чувствительности (=O 4/(O 4+O 3)) и специфичности (=O 2/(O 2+O 5)) и построить точечную диаграмму, отложив по оси X значения hj и выведя два ряда данных Sens(hj) и Spec(hj). 56
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 3. Логистическая регрессия Идеальная модель обладала бы стопроцентными чувствительностью и специфичностью. Однако оказывается, что повышение чувствительности практически всегда приводит к снижению специфичности и наоборот) Поэтому необходимо найти компромисс: подобрать такие параметры классификатора, при которых одновременно достигаются достаточно высокие значения как чувствительности, так и специфичности. В случае логистической регрессии подбор сводится к нахождению оптимального порога отсечения hopt. 57
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 3. Логистическая регрессия Могут быть сформулированы различные критерии выбора hopt. 1). Заранее декларируется желаемый уровень чувствительности модели (допустим, 90%). Определяется интервал h, на котором чувствительность окажется не ниже этого уровня. Из этого интервала выбирается hopt, при котором достигается максимальная специфичность. На построенной диаграмме определим hopt = 0, 5 (Sens = 90, 3%, Spec = 87, 0%). 2). Критерий максимальной суммарной чувствительности и специфичности приводит к hopt = 0, 4 (Sens = 86, 6%, Spec = 91, 3%). 58
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 3. Логистическая регрессия 3). Требование баланса между чувствительностью и специфичностью означает подбор такого порога, при котором минимален модуль разности Sens(hj) – Spec(hj). В нашем случае это hopt = 0, 45 (Sens = 88, 6%, Spec = 88, 6%), что на 14% и 4% лучше, чем для придуманного правила. 59
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 4. ROC-анализ ROC-кривая (от Receiver Operator Characteristic) используется для графического представления результатов бинарной классификации при машинном обучении. Рассчитаем массив 100% –Spec(hj), отложим его по оси абсцисс, а Sens(hj) — по оси ординат. Построим точечную диаграмму. 60
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 4. ROC-анализ Для идеального классификатора ROC-кривая будет проходить через верхний левый угол, что соответствует ситуации, когда при отсутствии ложноположительных примеров (100% специфичность) достигается и 100% чувствительность, т. е. ошибки отсутствуют. В большинстве практических задач такая идеальная ситуация недостижима. Однако чем ближе кривая к верхнему левому углу, тем выше прогностическая сила модели, тем модель лучше. Напротив, чем ближе кривая к диагональной прямой y = x, тем менее эффективна модель. 61
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 4. ROC-анализ Визуальная оценка ROC-кривых информативна при сравнении моделей: кривая, расположенная выше и левее, свидетельствует о лучшей предсказательной способности. Другим методом сравнительной оценки эффективности разных моделей является вычисление площади под ROC-кривыми. Эта характеристика AUC (от Area Under Curve) может варьироваться от 0, 5 (бесполезный классификатор) до 1, 0 (идеальная модель). 62
Лекция № 6 (02. 04. 2012) Информационные системы маркетинга Автоматизация кредитного скоринга 4. ROC-анализ Иногда используется экспертная шкала для значений AUC Диапазон 0, 9 -1, 0 0, 8 -0, 9 0, 7 -0, 8 0, 6 -0, 7 <0, 6 Интерпретация отличное очень хорошее среднее неудовлетворительное Полученный результат (~0, 95) позволяет очень высоко оценить качество модели. 63


