039b74901f2ebe23187eb0ee0752f424.ppt
- Количество слайдов: 68
® IBM Software Group DB 2 DWE 在电信业数据挖掘中的应用 软件部 张 英 yingzswg@cn. ibm. com © IBM Corporation
IBM Software Group Agenda § 数据挖掘方法论及挖掘项目的调优 § 电信业数据挖掘主题 § DB 2 DWE及其Mining特性介绍 2
® IBM Software Group 数据挖掘方法论及挖掘项目的调优 © IBM Corporation
IBM Software Group 不同的角度看数据挖掘 § 业务的角度--数据挖掘是啤酒和尿 布的佳话 § 专家的角度--数据挖掘是算法的集 合 § 厂商的角度--数据挖掘是软件解决 方案 § 数据挖掘是方法论--是三者的结合, 在特定的业务背景下,采用软件建立 起一系列数据挖掘的流程 § DWE提供了平台, 基于DWE很容易实 现挖掘应用 4
IBM Software Group 数据挖掘方法论 § 实际 程中指导项目实施的方法 4 每一阶段的目标、采用方法、输出结果形式 4 人员安排、方法、时间进度安排等 § 实施数据挖掘方法论所要达到的目的 4 针对不同行业的数据挖掘方法论是挖掘项目开展的标准和指南指南 4 控制数据挖掘 程项目中的风险,确保项目的成功实施,提供了保障 5
IBM Software Group 价值、行为为导向的数据挖掘方法论 § 挖掘主题确定 § 数据调查与收集 § 构建挖掘宽表 § 数据探索与处理 § 构建挖掘模型 § 挖掘模型的分析与升华 § 营销策略的制定、执行与评估 6
IBM Software Group 挖掘主题确定 Ø 分析对象:神州行?、全球通?、动 感地带? 、固话、小灵通、公话… Ø 挖掘模式:客户分群?流失预测?交 叉销售?欺诈识别?… Ø 挖掘主题是否符合公司当年的营销战 略?是否可以解决当前面临问题? 7
IBM Software Group 数据调查与收集 §用户及客户的基本信息变量 4客户身份信息、联系方式、产品拥有情况,用户竣 时间、入网 时长、服务开通情况、优惠套餐信息、客户服务信息(投诉、咨 询、催缴情况)等。 §价值变量 4基本通话费用、月均国内长途费用、月租费、 GPRS使用费、SMS 费用、MMS费用、WAP费用、优惠费用、新业务、信息费和卡类、 结算费用、缴欠费费用等。 § 行为变量 4时长、次数、发话不同号码数、时长集中度(当月、近三月、近 六月)、次数集中度(当月、近三月、近六月)、拨打 10086次数、 WAP次数、SMS次数、缴费方式、欠费次数等。 8
IBM Software Group 构建挖掘宽表 数据仓库/PDM 1 数据仓库原表 2 基础表数据 3 基础表数据集市 中间表模块 4 宽表 5 客户分群 宽表一 挖掘建模表 中间表模块库 流失预测 宽表二 9
IBM Software Group 数据探索与处理 § 检查有效性 4 检查以下项目:数据分布、 丢失值 4 无效值、 非正常值、 相关性检查 4 通过可视化统计查看 具很方便地发现数据中非正常、缺失、无效值 ü OK 数据有 质量可 能有问 题!! 10
IBM Software Group 构建挖掘模型 11
IBM Software Group 构建挖掘模型 12
IBM Software Group 挖掘模型的分析与升华 13
IBM Software Group 挖掘模型的分析与升华 将分群数学刻画,转化为营销学中可以理解的特征刻画。局部/整体特 征刻画法-通过对比每一类的分布和全部样本的分布来刻画每一类样本 的特征。 14
IBM Software Group 营销策略的制定、执行与评估 § 确定营销目标群 4 预测打分的方式 4 循环调优的方法确定目标群体 § 营销渠道、流程设计 4 确定营销渠道、渠道组合 4 营销单派发、流转、报表、考核 数据挖掘营销派单流程 § IT支撑的开发 4 软件开发 4 营销脚本设计 § 营销策略执行与评估 4 选择合适营销时段 4 及时统计营销成功率 15
IBM Software Group 数据挖掘项目的调优 § 数据挖掘项目的成功需要不断地优化挖掘流程 4 营销流程调优 4 挖掘建模流程调优 4 数据准备流程调优 § 营销流程的调优 4 目标客户群的调整 4 套餐定价/组合的更改 4 更改营销渠道与流程 4 根据不同生活习惯的人群选择外呼的时段 16
IBM Software Group 挖掘建模流程调优 § 挖掘建模数据集的划分 4合理的数据采样、分层采样、随即采样、顺序采样,处理小概率事件 4训练集、测试集、校验集合 4模型训练数据、测试数据采用相同的尺度变换 § 算法调优 4根据数据分布特性选择不同的算法 4避免盲目追求算法精度、选择合适学习率、避免模型过拟合 4模型校验集用于最大化模型泛化能力 4不平衡样本的算法及类别权值确定,必要时改变挖掘模式 § 两个定理 4“奥卡姆剃刀”定理--简单就是最好的 4“没有免费午餐”定理 4“丑小鸭”定理 17
IBM Software Group 分群过程中的建模流程调优 § 群体数目确定 4 群体数目奇数为佳,一般为 5 -9个左右,加减 2进行调整 4 如需减少群体数目,加入总量变量,减少分量变量,减少相似度阈值 4 增加群体数目,减少总量变量,增加分量变量,加大相似度阈值 4 如果某类包含个体数量超过50%,考虑进行迭代分群 § 输入变量的调整 4 变量取值大部分为 0或其他固定值的变量不建议使用 4 多个聪明变量之间相互重叠导致类别相互重叠时,增加变量个数 4 排除业务上有重叠的变量,如夜间通话时长和打折时段通话时长 § 算法调优 4 K-Means 孤立点敏感、群体重叠、差别大时效果差;局部最优;可扩展性好,大数据集 4 Kohonan 结果对样本次序有关、初始参数值的选择 4 DBSCAN 可以发现任意形状边界,处理孤立点、需要更多的内存、I/O消耗 4 Distribution-Based Cluster 可以自动发现群体个数,孤立点不敏感 4 Neural Cluster 有时候会陷入局部最优解 4 SVC可以自动确定群体个数,任意形状边界群,复杂性和字段数无关 18
IBM Software Group 数据准备流程调优 § 数据调优增加数据质量 4数据探索:发现数据中的异常点,了解数据分别模式 4处理缺失值,属性变换,离散值变连续值 4 解决数据分布不一致的问题,[0 -1]变换、Z变换 4从业务角度看,无意义的变量不建议做挖掘模型的输入变量 § 变量之间的相关性 4发现输入样本的变量之间的相关性 4变量之间耦合性强的变量不建议选取 § 设计派生变量 4尽量反映动态的特性,加入时长、趋势、占比、集中度 4派生变量要适当,总量和分量、占比变量不宜同时出现 19
IBM Software Group 传统的数据挖掘方法面临的挑战 u 孤立点 u 局部极值 u 过拟合 u 欠学习 u “维度灾难“ u “黑箱模型” u …… K-means Nerual 20
IBM Software Group 数据挖掘中的新方法—Support Vector Machine(SVM) 结构风险 经验风险 SVM具有以下独有的特点: u 解决局部极值问题-求解二次优化,得到全局最优解, u 解决非线性难题-将复杂的非线性问题转变为线性求解; u 解决小样本学习难题-基于小样本统计学习理论; u 解决海量数据难题-理论上复杂度与样本维数无关; u 解决欠学习、过学习难题-同时优化算法复杂性和学习精度; 21
® IBM Software Group 电信业中的数据挖掘主题 © IBM Corporation
IBM Software Group 电信业中的挖掘主题 u 客户分群 u 客户流失预测 u 客户欺诈识别 u 客户价值分析 u 交叉销售 u 事件营销 u 新产品、业务潜在客户预测 23
IBM Software Group 数据挖掘贯穿于整个客户生命周期模型中 潜在客户 获得: 顾客特征 目标市场 市场细分 关联分析 预测: 流失预测 成熟客户 维持: 交叉销售 市场细分 客户忠诚和保持 客户价值分析 客户受益分析 欺诈识别 新客户 24
IBM Software Group 电信业中的数据挖掘主题 Ø客户分群 § 对客户群体进行划分,了结客户群体的构成; § 针对不同客户群的特征,开发不同的营销策略,建立针对性的主 动营销体系; Ø客户流失预测 § 识别近期可能发生流失的客户名单; § 发现流失客户的共同特征,采取措施进行挽留; Ø交叉销售 § 分析移动通信各类业务之间的关联; § 开发各类业务的套餐捆绑策略; 25
IBM Software Group 电信业中的数据挖掘主题 Ø 客户欺诈检测 § 识别可能发生的欺诈行为、异常行为 § 异常行为发生前采取措施进行预防 Ø 客户价值分析 § 客户信用等级的评定 § 客户价值及风险分析 Ø 事件营销 § 捕捉客户各种行为,识别可能的营销机会 § 为渠道系统提供及时的营销建议 Ø 新产品、业务潜在客户的预测 § 预测可能使用新业务的客户,为市场人员提供清单 § 开发针对新业务使用人员的营销策略 26
IBM Software Group 客户分群 n n 电信运营商面临巨大客户群,每个客户需求不一样; “一对一”营销模式; 最大化组间差异性,最小化组内差异性; 了解客户的构成,发现客户的需求,提高营销的针对性。 27
IBM Software Group 客户流失预测模型 Ø 客户流失预测背景 u 客户流失率高, 移动每月2. 2%, 每年损失将近 27%客户; u 吸引新客户成本高,吸引新客户/保留现有客户= 6 -8倍。 Ø 客户流失预测内容 u 明确哪些客户近期内最有可能流失; u 确定可能流失的客户中公司需要保留那些客户; u 哪些因素造成了客户的流失; u 开发客户保持策略防止这些客户的流失。 28
IBM Software Group 客户流失预测模型 客户流 失可能 性 客户呼叫行 为趋势 现有客户中那些存在 呼叫 频率 呼叫 模式 近期内流失的风险? 优惠时 段呼叫 次数 白天呼 叫次数 客户满 意度 呼 叫 时 长 来电 次数 服务 质量 竞争对手 营销策略 客户 类型 客户服 务质量 呼叫 质量 接通率 中断呼 叫次数 语音 质量 29
IBM Software Group 客户欺诈预测模型 Ø 为了减少因电信欺诈和恶意欠费造成的巨大损失,大多采取行政防 范和技术防范两大类防范措施。 Ø 行政防范:电信运营商采用行政手段进行清缴用户欠费的做法。这 在一定程度上起到了积极的作用,具体的做法有: u 通过客户的详细资料来盯住客户; u 采用预付费的方式; u 通过法律措施; u 采用舆论手段来监督。 Ø 技术防范:行政防范不能做到及时防范,往往在损失出现后才进行 清缴,清缴 作量大, 对忠诚用户的感情是一种伤害。国内外许多 通信运营商开始关注采用技术手段防范电信欺诈问题。 30
IBM Software Group 客户欺诈预测模型 Ø 消费行为异常监控 § 平时话费正常,突然变成低话费或 0次户; § 话费波动异常,话费突然大量增加; § 话务量上升、收入反而下降; Ø 不法行为的监控 § 同一身份证开通多个号码,长时间拨打国外声讯台; § 使用 200卡长时间、大量拨打他网用户; § 群发短信诈骗; 采用数据挖掘防欺诈技术,建立实时的监控模型,最大限度防止 欺诈行为发生。 31
IBM Software Group 客户欺诈预测模型 客户欺诈识别的数据挖掘主题: Ø 超额长途费用欺诈 Ø 他网结算欺诈 Ø 非法提供公话服务 Ø 盗打声讯电话欺诈 Ø 后付费小灵通欺诈 Ø 欠费分析 Ø 。。。 32
IBM Software Group 客户欺诈预测模型 超额长途费用欺诈 Ø 境外分子勾结境内分子利用voip技术、通过互联网、语音网关将呼入 的国际长途落地,然后转接到世界各地 § 从消费现象上看,某合同号之前无任何话费,突然某天产生的国 际长话呼叫次数或话费很高; § 从营业受理记录看,客户同时申请安装多部同址固定电话,并开 通国际长话权限,并且后付费(同一合同号); § 客户可能同时申请包月电信宽带(网通宽带); 33
IBM Software Group 客户欺诈预测模型 非法提供公话服务 Ø 有些用户以假身份证开通一批固定电话, 以超低价格非法提供公用电 话服务, 过一段时间就换一个地方故伎重演, 给电信公司造成很大的损失, 这些用户的特征为: § 以住宅用户名义申请安装电话; § 电话使用频繁, 通话量比较大; § 费用很高; § 呼叫目的地比较分散,几乎没有相同的被叫地; § 一般在同个地方安装多个电话; § IP和直拨长途情况都很多; 34
IBM Software Group 客户欺诈预测模型 客户欺诈识别的数据挖掘方法: Ø 决策数归纳法 常用的决策数算法如C 4. 5、C 5等。 Ø 孤立点检测方法 孤立点检测有基于距离的方法和基于偏差的方法两种。 35
IBM Software Group 客户欺诈预测模型 采用数据挖掘技术,根据以上现象构建客户欺诈的决策数模型,对现有 的某类业务的客户群进行实时监控,及时识别可能的欺诈行为 客户欺 诈可能 性 客户呼叫 行为趋势 那些客户会发生 欺诈行为呢? 呼叫 频率 呼叫 模式 优惠时 段呼叫 次数 白天 呼叫 次数 客户信 誉度 呼叫 时长 来电 次数 客户 性质 交费 方式 客户行 为准则 客户平均 通信费用 交费及 时性 污点 行为 36
IBM Software Group 客户欺诈预测模型 采用孤立点检测的数据挖掘方法,直接从现有客户群中,寻找异常的客 户, 37
IBM Software Group 客户欺诈预测模型应用 数据仓库 中的表 支撑系统 数据提取 数据过滤 数据预处 理 客户信用 评分模型 欺诈识别 建模 源系统 数据交换 平台 生成欺诈 评分文件 防欺诈处 理 告警 渠道、客 服系统 38
IBM Software Group 客户价值分析模型 客户对企业的价值是不尽相同的,帕累托的80/20法则:公司 80%的赢利只来自其 20%的客户。 u 客户价值分析:评估客户的价值,使得企业能够找到最为宝贵 的客户资源,发现最具价值的客户,以便于能够有的放矢的开展 营销,有效利用定价策略,针对性地实施战略。 u 39
IBM Software Group 客户价值分析模型 客户价值 当前价值 客户收益 80. 7% 客户成本 ARPU值 61. 2% 呼出通话时长 20. 9% 57. 4% 网外呼入时长 7. 1% 19. 3% 客户忠诚度 74. 6% 19. 6% 客户信用度 在网时长 呼入通话比例 长话的呼出通 话时长 10. 8% 潜在价值 80. 4% 忙时集中度 42. 6% 36. 6% 离网概率 19. 0% 历史欠费的次 数 新业务的 费用比例 16. 2% 100% 业务的开 通数量 15. 1% 异网IP呼 出时长 6. 0% 呼入的不 同号码数 25. 4% 7. 1% 40
IBM Software Group 交叉销售模型 §关联规则挖掘: §从数据集中寻找有趣的、关联和相关性、频繁出现的模式; §A:区间通话 §B:宽带 §C:彩铃 §D:一号双机 §E:小灵通 41
IBM Software Group 交叉销售模型-- 产品--产品的正关联与负关联 七彩铃音 一号 双机 来电 显示 11808 一号通 ADSL 星级家庭 42
IBM Software Group 交叉销售模型 用户-产品关联 七彩铃音 ADSL 一号双机 11808 星级家庭 一号通 来电显示 43
IBM Software Group 交叉销售模型-产品业务关联关系 根据产品业务关联性评分表,形成某一产品与其他产品关联关系图,以 形象说明本产品与其他产品之间的关联关系(正相关或是负相关)及其 关联性强弱。 一号双机关联评分表 相关性强 相关性弱 替代性强 正 向 关 联 考虑产品 捆绑销售 负 向 关 联 客户取消 产品时作 为替补品 44
IBM Software Group 新产品、业务的潜在客户预测 Ø 预测可能使用新业务的客户,为市场人员提供清单 使用新业务的人员有那些共同的特征? 那些客户可能是Push. Mail的客户? 那些客户是blackbery业务的客户? 目前客户中有那些可能是未来 3 G业务的潜在客户? Ø 开发针对新业务使用人员的营销策略 如何根据这些特征制定营销策略? 45
IBM Software Group 事件监控和事件营销 Ø 数据挖掘中经常为找不到合适的对象而烦恼,经常打进 10086的客户 也许就是最佳的营销对象 Ø 套餐到期等能够自动去触发营销事务比如套餐续约提示,适合该用 户的其他业务 Ø 用户取消某些业务,触发营销事务,自动推荐其他替代产品 Ø 客户来电抱怨信号不好,经常错过一些关键电话,根据挖掘预先设 定的规则,推荐来电助手业务 Ø… 46
IBM Software Group 电信业其他数据挖掘主题 客户维度 业务维度 挖掘模式维度 公众客户 本地业务 客户分群 商业客户 长途业务 客户流失 大客户 无线业务 欺诈检测 政企客户 宽带业务 交叉销售 家庭客户 增值新业务 价值分析 个人客户 电话卡业务 信用等级评估 47
® IBM Software Group DB 2 DWE & Mining Feature © IBM Corporation
IBM Software Group DWE v 9 概念架构 解决方案模板(Basel II、REDW) § 集成的、供基于 DB 2 数据仓库的分 析使用的平台 § 组件化的架构 Design Studio (Eclipse) Admin Console (Web) § 共享 具和元数据 § 共享运行时基础设施 § 基于 Web 的嵌入式分析 数据仓库 具 挖掘 OLAP 分析 报表 § 集成的数据建模、OLAP 、数据 挖掘、仓库 具 BI 平台(共享基础设施,Websphere) 支持 Linux、Unix 及 Windows 的 DB 2 UDB 49
IBM Software Group DWE Intelligent Miner 挖掘特征 u u u u Data explore in DWE Design Studio Data mining functions in DWE Administration console Intelligent Miner Easy Mining Intelligent Miner™ Modeling Intelligent Miner Scoring Intelligent Miner Visualization Miningblox 50
IBM Software Group 探索自己的数据 § Design Studio 提供了数据 探索的各种 具 4单变量分析 4二元分析 4多变量分析 Miningblox 51
IBM Software Group 数据挖掘 使用Predictive Analytics提高业务洞察力 § 扩展的洞察力 “Easy Mining”算法 4关联 § 我的数据中存在哪种项关系(“规则”)? § [Beer => Diapers] …单一事务 4次序 § 我的数据中存在哪种连续模式? § [Love] => [Marriage] => [Baby Products] …连续事务 4聚集 § 我的数据中存在哪些群组? § …客户资源集、存储资源源 4分类 § 如何预测我的数据中各个类别的值? § …病人是否受到粗鲁的对待、是否受到伤害、是否感受不到 业务分析 DB 2 Warehouse 关爱? Extracted Information 4预测 § 如何预测我的数据中的数值? § …客户对改进做出反应的可能性有多大? § …每个客户本年度的消费是多少? Assimilated Information Data Selected Warehouse Data Select Transform Mine Assimilate 统计与数据挖掘 作台 52 § 使用DB 2可以直接、可扩展、实时的记录数据 52
IBM Software Group 数据探索组件提供数据构 成和数据质量的概况 数据挖掘 在通用的数据仓库项目 中集成数据模型,ETL, 数据挖掘 交互的流编辑器:支持单步执行, 在ETL中使用的相关SQL转换能 直接在挖掘中被重用 嵌入到客户应用界面 53
IBM Software Group 执行一个挖掘任务: 四种方式执行一个挖掘任务 Bld. Task Modeling DWE Mining Editor Settings Data. Spec Data Mining. Data DB 2 Easy Mining Procedures SQL Stored Procedures Mining. Blox 应用程序 Model 54
IBM Software Group 挖掘结果的可视化 § Stand-alone program § Java applet on web page § Design Studio DB 2 Model 55
IBM Software Group Scoring: 应用挖掘模型到一个新的数据 New Data OLAP Result Model Scoring DB 2 DWE Mining Editor Easy Mining Procedures SQL UDFs DB 2 CLP Batch scoring Single-record scoring Real-time scoring User Application 56
IBM Software Group Data Mining Scoring 支持内嵌的实时数据挖掘 客户资料 通知客户服务 采取挽留措施 发生变化 Customer profile 1 New Scores Trigger for existing customer 2 Scoring New score triggers Risk management if high risk , take action NOW 3 DB 2 外部事件 业务规则 Invokes EAI Messaging 活动 57
IBM Software Group Mining. Blox DWE 9. 1. 2 新特性 § Mining. Blox特性 4 扩展了ABX的应用,实现了完全基于web 的数据挖掘流程 4 提供了基于Web的挖掘任务管理、挖掘 分析、结果可视化 4 在Design. Studio 中通过Wizard生长 Miningbox的模版应用 4 复杂的可视化效果图都可以在ABX中实 现 § Mining. Blox好处 4 Miningblox扩展了挖掘结果的受众 4 实现了挖掘建模的客户端零安装 4 任何人都可以通过浏览器执行挖掘任务, 查分析挖掘结果 4 在Design Studio集成开发环境中,使用应 用向导,轻松执行挖掘任务 58
IBM Software Group Mining. Blox标签库 Data Input Form • Select. Blox • Member. Select. RDBBlox Submit input form Task Execution • Mining. Task. Blox • Unique. IDBlox Show results Mining results Task Administration • Task. Data. Blox • Association. Model. Blox • Classification. Model. Blox • Clustering. Model. Blox • Regression. Model. Blox • Sequence. Model. Blox • Visualizer. Button. Blox • Visualizer. View. Blox • Cluster. Visualizer. Link. Blox • Cluster. Scorer. Blox • Cluster. Summary. Blox • Gains. Chart. Blox • Univariate. Statistic. Blox 59
IBM Software Group A Miningblox 应用包括 执行挖掘流 管理挖掘任务 显示、分析挖掘结果 60
IBM Software Group Execute Mining flow § Miningblox 允许一般用户变换挖掘应用的参数,建立一个好的模型,不需要专业的挖 掘技术人员支持. 61
IBM Software Group Task Management § 管理正在执行的、执行完的挖掘任务列表 § 挖掘任务可以被取消、删除、克隆、监控 § 允许不同等级用户浏览挖掘结果 62
IBM Software Group Data Analysis § Miningblox提供丰富的挖掘结果可视化浏览 具 来分析挖掘结果、分析 挖掘模型。 § 所有挖掘可视化图,都可以以applets 的方式嵌入到客户web 应用的blox 中去 63
IBM Software Group Improve Alphablox Data Analysis using Miningblox Tags § Alphablox tags 能够和 Miningblox tags能够结合起来,为用户提供定制化 的报表。. 64
IBM Software Group How to create a Miningblox application § 采用Mining. Blox扩展现有的 Web/Alphablox应用 § DWE Design. Studio为你的挖 掘任务提供了向导去建立 Miningblox 模版,简化挖掘流 程 § 很容易以这些模版为基础,实 现挖掘任务 65
IBM Software Group Customizable Tags in a Miningblox application § § Change the original JSP File in the deployed. WAR file, and simply refresh the page Minimize Development Complexity § <iminer: visualizer id="sqmd 5" width="950" height="620" > § <iminer: sequence. Model name="Retail. Sequences. Model" data. Source. Name="ABX_DWEMBLOX" /> § </iminer: visualizer> 66
IBM Software Group 总结 数据挖掘方法论及其调优 电信数据挖掘主题 DWE组件Mining特性 67
IBM Software Group 68
039b74901f2ebe23187eb0ee0752f424.ppt