Скачать презентацию Data Mining Concepts and Techniques Slides for Скачать презентацию Data Mining Concepts and Techniques Slides for

2af56cb525f4f3b17ac0beb16a2d382b.ppt

  • Количество слайдов: 50

Data Mining: Concepts and Techniques — Slides for Textbook — — Chapter 1 — Data Mining: Concepts and Techniques — Slides for Textbook — — Chapter 1 — (Modified by Yuchen Fu) Department of Computer Science and Technology Soochow University [email protected] edu. cn 15 三月 2018 Data Mining: Concepts and Techniques 1

Data Mining: Concepts and Techniques 15 三月 2018 Data Mining: Concepts and Techniques 2 Data Mining: Concepts and Techniques 15 三月 2018 Data Mining: Concepts and Techniques 2

Reference Book 15 三月 2018 Data Mining: Concepts and Techniques 3 Reference Book 15 三月 2018 Data Mining: Concepts and Techniques 3

Chapter 1. Introduction(引言) n Motivation: Why data mining? (数据挖掘的发展动力) n What is data mining? Chapter 1. Introduction(引言) n Motivation: Why data mining? (数据挖掘的发展动力) n What is data mining? (什么是数据挖掘) n Data Mining: On what kind of data? (在什么数据上进行数据挖掘) n Data mining functionality(数据挖掘的方法) n Are all the patterns interesting? (数据挖掘的模式) n Classification of data mining systems(数据挖掘系统的分类) n Major issues in data mining(数据挖掘的主要研究方向与问题) 15 三月 2018 Data Mining: Concepts and Techniques 4

Necessity Is the Mother of Invention (需要是发明之母) n Data explosion problem(数据爆炸问题) n Automated data Necessity Is the Mother of Invention (需要是发明之母) n Data explosion problem(数据爆炸问题) n Automated data collection tools and mature database technology lead to tremendous amounts of data accumulated and/or to be analyzed in databases, data warehouses, and other information repositories(自动数据收集 具和成熟的 数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中待分 析) n We are drowning in data, but starving for knowledge! (我们拥有丰富的数据,但却犯 有用的信息) n Solution: Data warehousing and data mining(解决方法:数据仓库与数据挖掘) n Data warehousing and on-line analytical processing(数据仓库和联机分析处理) n Miing interesting knowledge (rules, regularities, patterns, constraints) from data in large databases(在大量的数据中挖掘感兴趣的知识(规则、规律、模式、约束)) 15 三月 2018 Data Mining: Concepts and Techniques 5

Evolution of Database Technology 数据库技术的演变 n 1960 s: n n 1970 s: n n Evolution of Database Technology 数据库技术的演变 n 1960 s: n n 1970 s: n n n RDBMS, advanced data models (extended-relational, OO, deductive, etc. ) (关系数据库系统、 高级数据模型(扩展的关系模型、面向对象数据模型、演绎数据模型等)) Application-oriented DBMS (spatial, scientific, engineering, etc. )(面向应用的数据库系统(空 间数据库、时序数据库、 程数据库等等)) 1990 s: n n Relational data model, relational DBMS implementation(关系数据模型) 1980 s: n n Data collection, database creation, IMS and network DBMS(数据收集) Data mining, data warehousing, multimedia databases, and Web databases(数据挖掘、数据 仓库、多媒体数据库和Web数据库) 2000 s n Stream data management and mining(流数据的管理与挖掘) n Data mining with a variety of applications(基于各种应用的数据挖掘) n Web technology and global information systems(Web技术和整合的信息系统) 15 三月 2018 Data Mining: Concepts and Techniques 6

What Is Data Mining? 什么是数据挖掘? n Data mining (knowledge discovery from data) (数据挖 掘(从数据中发现知识)) What Is Data Mining? 什么是数据挖掘? n Data mining (knowledge discovery from data) (数据挖 掘(从数据中发现知识)) n Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) patterns or knowledge from huge amount of data (从大量数据中挖掘哪些令人感兴趣的、 有用的、隐含的、先前未知的和可能有用的模式和知识。) n n Data mining: a misnomer? (数据挖掘不是一个精确的用词) Alternative names(数据挖掘的替换词) n 15 三月 2018 Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc. (数 据库中的知识挖掘(KDD),知识提炼、数据/模式分析,数据考 古,数据捕捞,信息收获等等) Data Mining: Concepts and Techniques 7

What Is Data Mining? 什么是数据挖掘?(2) n Watch out: Is everything “data mining”? (并非所 有的东西都是“数据挖掘”) What Is Data Mining? 什么是数据挖掘?(2) n Watch out: Is everything “data mining”? (并非所 有的东西都是“数据挖掘”) n n 15 三月 2018 (Deductive) query processing. (查询处理) Expert systems or small ML/statistical programs(专家 系统和小型的数学计算/统计程序) Data Mining: Concepts and Techniques 8

Why Data Mining? —Potential Applications 为什么要进行数据挖掘?——潜在的应用 n Data analysis and decision support(数据分析与决策支持) n Market Why Data Mining? —Potential Applications 为什么要进行数据挖掘?——潜在的应用 n Data analysis and decision support(数据分析与决策支持) n Market analysis and management(市场分析与管理) n Target marketing, customer relationship management (CRM), market basket analysis, cross selling, market segmentation(目标市场、客户 关系管理(CRM)、市场占有量分析、交叉销售、市场分割) n Risk analysis and management(风险分析与管理) n Forecasting, customer retention, improved underwriting, quality control, competitive analysis(风险预测、客户保持、保险业的改良、 质量控制、竞争分析) n Fraud detection and detection of unusual patterns (outliers)(欺骗检测与异常模 式的监测(孤立点)) 15 三月 2018 Data Mining: Concepts and Techniques 9

Why Data Mining? —Potential Applications 为什么要进行数据挖掘?——潜在的应用(2) n Other Applications(其他应用) n Text mining (news group, Why Data Mining? —Potential Applications 为什么要进行数据挖掘?——潜在的应用(2) n Other Applications(其他应用) n Text mining (news group, email, documents) and Web mining(文本挖掘(新闻组、电子邮件、文档)和web 挖掘) n Stream data mining(流数据挖掘) n DNA and bio-data analysis(DNA和生物数据挖掘) 15 三月 2018 Data Mining: Concepts and Techniques 10

Market Analysis and Management 数据挖掘应用——市场分析和管理(1) n Where does the data come from? (数据从哪儿来?) n Market Analysis and Management 数据挖掘应用——市场分析和管理(1) n Where does the data come from? (数据从哪儿来?) n n Target marketing(目标市场) n n n Credit card transactions, loyalty cards, discount coupons, customer complaint calls, plus (public) lifestyle studies(信用卡交易,会员卡,商家 的优惠卷,消费者投诉电话,公众生活方式研究) Find clusters of “model” customers who share the same characteristics: interest, income level, spending habits, etc. (构建一系列的“客户群模型”, ,这些顾客具有相同特征: 兴趣爱好,收入水平,消费习惯,等等) Determine customer purchasing patterns over time(确定顾客的购买模式) Cross-market analysis(交叉市场分析) n 15 三月 2018 Associations/co-relations between product sales, & prediction based on such association(货物销售之间的相互联系和相关性,以及基于这种联系 上的预测) Data Mining: Concepts and Techniques 11

Market Analysis and Management 数据挖掘应用——市场分析和管理(1) n Customer profiling(顾客分析) n What types of customers buy Market Analysis and Management 数据挖掘应用——市场分析和管理(1) n Customer profiling(顾客分析) n What types of customers buy what products (clustering or classification)( 哪类顾客购买那种商品(聚类分析或分类预测) ) n Customer requirement analysis(客户需求分析) n identifying the best products for different customers(确定适合不同顾客 的最佳商品) n predict what factors will attract new customers(预测何种因素能够吸引新 顾客) n Provision of summary information(提供概要信息) n multidimensional summary reports(多维度的综合报告) n statistical summary information (data central tendency and variation)(统 计概要信息(数据的集中趋势和变化) 15 三月 2018 Data Mining: Concepts and Techniques 12

Corporate Analysis & Risk Management (公司分析和风险管理) n Finance planning and asset evaluation(财务计划) n n Corporate Analysis & Risk Management (公司分析和风险管理) n Finance planning and asset evaluation(财务计划) n n n Resource planning(资源计划) n n cash flow analysis and prediction(现金流转分析和预测) cross-sectional and time series analysis (financial-ratio, trend analysis, etc. ) (交叉区域分析和时间序列分析(财务资金比率,趋势分析等等)) summarize and compare the resources and spending(总结和比较资源 和花费) Competition(竞争) n n n 15 三月 2018 monitor competitors and market directions (对竞争者和市场趋势的监控) group customers into classes and a class-based pricing procedure(将顾 客按等级分组和基于等级的定价过程) set pricing strategy in a highly competitive market(将定价策略应用于竞 争更激烈的市场中) Data Mining: Concepts and Techniques 13

Fraud Detection & Mining Unusual Patterns (欺诈行为检测和异常模式的发现) n n Approaches: Clustering & model construction Fraud Detection & Mining Unusual Patterns (欺诈行为检测和异常模式的发现) n n Approaches: Clustering & model construction for frauds, outlier analysis(方法: 对欺骗行为进行聚类和建模,并进行孤立点分析) Applications: Health care, retail, credit card service, telecomm. (应用: 卫生保健、零售业、信用卡服务、电信等) n n n Auto insurance: ring of collisions(汽车保险: 相撞事件的分析) Money laundering: suspicious monetary transactions(洗钱: 发现可疑的货 币交易行为) Medical insurance(医疗保险) n n 15 三月 2018 Professional patients, ring of doctors, and ring of references(职业病 人,医生以及相关数据分析) Unnecessary or correlated screening tests(不必要的或相关的测试) Data Mining: Concepts and Techniques 14

Fraud Detection & Mining Unusual Patterns (欺诈行为检测和异常模式的发现)(2) n Telecommunications: phone-call fraud(电信: 电话呼叫欺骗行为) n n Fraud Detection & Mining Unusual Patterns (欺诈行为检测和异常模式的发现)(2) n Telecommunications: phone-call fraud(电信: 电话呼叫欺骗行为) n n Retail industry(零售产业) n n Analysts estimate that 38% of retail shrink is due to dishonest employees(分析师估计有38的零售额下降是由于雇员的不诚实 行为造成的) Anti-terrorism(反恐怖主义) n 15 三月 2018 Phone call model: destination of the call, duration, time of day or week. Analyze patterns that deviate from an expected norm (电话呼叫模型: 呼叫目的地,持续时间,日或周呼叫次数. 分析 该模型发现与期待标准的偏差) 《2004 美国联邦政府会计总署报告》显示,美国政府部门积极 参与或正在筹划的数据挖掘项目为 199个,其中 14个项目明确用 于抓捕恐怖分子和预防恐怖袭击。 Data Mining: Concepts and Techniques 15

Other Applications n Sports(体育竞赛) n n Astronomy(天文学) n n IBM Advanced Scout analyzed NBA Other Applications n Sports(体育竞赛) n n Astronomy(天文学) n n IBM Advanced Scout analyzed NBA game statistics (shots blocked, assists, and fouls) to gain competitive advantage for New York Knicks and Miami Heat(美国 NBA的29个球队中,有25个球队使用了IBM分析机构的数据挖掘 具,通过分析每 个对手的数据(盖帽、助攻、犯规等数据)来获得比赛时的对抗优势。) JPL and the Palomar Observatory discovered 22 quasars with the help of data mining (JPL实验室和Palomar天文台就曾经在数据挖掘 具的帮助下发现了22颗新 的恒星) Internet Web Surf-Aid(网上冲浪) n 15 三月 2018 IBM Surf-Aid applies data mining algorithms to Web access logs for marketrelated pages to discover customer preference and behavior pages, analyzing effectiveness of Web marketing, improving Web site organization, etc. (通过将数 据挖掘算法应用于网络访问日志,从与市场相关的网页中发现消费者的偏爱和行为, 分析网络行销的有效性,改善网络站点组织。这就是新兴的WEB挖掘研究) Data Mining: Concepts and Techniques 16

Data Mining: A KDD Process 数据挖掘:数据库中的知识挖掘 n Data mining—core of knowledge discovery process(数据挖掘—— 知识挖掘的核心) Data Mining: A KDD Process 数据挖掘:数据库中的知识挖掘 n Data mining—core of knowledge discovery process(数据挖掘—— 知识挖掘的核心) Pattern Evaluation 模式评估 Data Mining 数据挖掘 Task-relevant Data 任务相关数据 Selection Data Warehouse 选择 数据仓库 Data Cleaning 数据清洗 Data Integration(数据集成) Databases(数据库) 15 三月 2018 Data Mining: Concepts and Techniques 17

Steps of a KDD Process 知识挖掘的步骤 n Learning the application domain(了解应用领域) n n relevant Steps of a KDD Process 知识挖掘的步骤 n Learning the application domain(了解应用领域) n n relevant prior knowledge and goals of application(了解相关的知 识和应用的目标) Creating a target data set: data selection(创建目标数据 集: 选择数据) Data cleaning and preprocessing: (may take 60% of effort!)(数据清理和预处理: (这个可能要占全过程60%的 作量)) Data reduction and transformation(数据缩减和变换) n 15 三月 2018 Find useful features, dimensionality/variable reduction, invariant representation. (找到有用的特征,维数缩减/变量缩减,不变量的 表示。) Data Mining: Concepts and Techniques 18

Steps of a KDD Process(2) 知识挖掘的步骤 n Choosing functions of data mining(选择数据挖掘的功能) n n Steps of a KDD Process(2) 知识挖掘的步骤 n Choosing functions of data mining(选择数据挖掘的功能) n n Choosing the mining algorithm(s)(选择挖掘算法) Data mining: search for patterns of interest(数据挖掘: 寻 找感兴趣的模式) Pattern evaluation and knowledge presentation(模式评估 和知识表示) n n summarization, classification, regression, association, clustering. ( 数据总结,分类模型数据挖掘,回归分析,关联规则挖掘,聚类分 析等. ) visualization, transformation, removing redundant patterns, etc. ( 可视化,转换,消除冗余模式等等) Use of discovered knowledge(运用发现的知识) 15 三月 2018 Data Mining: Concepts and Techniques 19

Data Mining and Business Intelligence 数据挖掘和商业智能 Increasing potential to support business decisions 支持商业智能的潜能不 断增长 Data Mining and Business Intelligence 数据挖掘和商业智能 Increasing potential to support business decisions 支持商业智能的潜能不 断增长 Making Decisions 决策支持 Data Presentation数据表示 Visualization Techniques(可视化技术) Data Mining(数据挖掘) Information Discovery(信息发现) Data Exploration(数据探索) End User 最终用户 Business Analyst 商业分析 Data Analyst 数据分析 Statistical Analysis, Querying and Reporting (统计分析,查询和报告) Data Warehouses / Data Marts(数据仓库/数据集市) OLAP, MDA(在线分析处理、多维分析) Data Sources(数据源) DBA Paper, Files, Information Providers, Database Systems, OLTP 15 三月 2018 Data Mining: Concepts and Techniques 20

Architecture: Typical Data Mining System 体系结构:典型数据挖掘系统 Graphical user interface 图形用户界面 Pattern evaluation 模式评估 Data Architecture: Typical Data Mining System 体系结构:典型数据挖掘系统 Graphical user interface 图形用户界面 Pattern evaluation 模式评估 Data mining engine 数据挖掘引擎 Database or data warehouse server 数据库或数据仓库服务器 Data cleaning & data integration Databases 15 三月 2018 Knowledge-base Filtering Data Warehouse Data Mining: Concepts and Techniques 21

Data Mining Systems & Tools See www. kdnuggets. com n Oracle: Darwin n IBM: Data Mining Systems & Tools See www. kdnuggets. com n Oracle: Darwin n IBM: Intelligence Miner n SAS: Enterprise Miner n Business Objects n SPSS: Clementine n Xchange: e-CRM n Microsoft: SQL Server 2000/2005 n … … 15 三月 2018 Data Mining: Concepts and Techniques 22

Major Player: Oracle n n E- and I-business Integration with databases Oracle 9 i Major Player: Oracle n n E- and I-business Integration with databases Oracle 9 i and Darwin (DM Suite) Application-oriented tools n 15 三月 2018 Clickstream Analysis, Oracle Personalization Data Mining: Concepts and Techniques 23

15 三月 2018 Data Mining: Concepts and Techniques 24 15 三月 2018 Data Mining: Concepts and Techniques 24

Major Player: IBM n n n Generic tools Intelligent Miner for data Intelligent Miner Major Player: IBM n n n Generic tools Intelligent Miner for data Intelligent Miner for text 15 三月 2018 Data Mining: Concepts and Techniques 25

15 三月 2018 Data Mining: Concepts and Techniques 26 15 三月 2018 Data Mining: Concepts and Techniques 26

15 三月 2018 Data Mining: Concepts and Techniques 27 15 三月 2018 Data Mining: Concepts and Techniques 27

Data Mining: On What Kinds of Data? (数据挖掘:在何种数据上挖掘?) n Relational database(关系数据库) n Data warehouse(数据仓库) Data Mining: On What Kinds of Data? (数据挖掘:在何种数据上挖掘?) n Relational database(关系数据库) n Data warehouse(数据仓库) n Transactional database(事务数据库) n Advanced database and information repository(高级数据库系统和信息库) n Object-relational database(面向对象数据库和对象一关系数据库) n Spatial (空间数据库) n Temporal data and Time-series data(时间数据库和时间序列数据库) n Stream data(流数据) n Multimedia database(多媒体数据库) n Heterogeneous and legacy database(异种数据库和遗产(legacy)数据库) n Text databases & WWW(文本数据库和万维网(WWW) ) 15 三月 2018 Data Mining: Concepts and Techniques 28

空间数据库 n n 空间数据库是指在关系型数据库(DBMS)内部对地理 信息进行物理存储。空间数据库中存储的海量数据 包括对象的空间拓扑特征、非空间属性特征以及对 象在时间上的状态变化。 常见的空间数据库数据类型 n n 地理信息系统(G IS) 遥感图像数据 医学图像数据 空间数据库 n n 空间数据库是指在关系型数据库(DBMS)内部对地理 信息进行物理存储。空间数据库中存储的海量数据 包括对象的空间拓扑特征、非空间属性特征以及对 象在时间上的状态变化。 常见的空间数据库数据类型 n n 地理信息系统(G IS) 遥感图像数据 医学图像数据 数据挖掘技术的应用: 通过空间分类和空间趋势分 析,引入机器学习算法,对有用模式进行智能检索 15 三月 2018 Data Mining: Concepts and Techniques 29

时间数据库和时间序列数据库 n n 时间数据库和时间序列数据库都存放与时间有关的 数据。时间数据库通常存放包含时间相关属性的时 间。时间序列数据库存放随时间变化的值序列。 对时间数据库和时间序列数据库的数据挖掘,可以 通过研究事物发生发展的过程,有助于揭示事物发 展的本质规律,可以发现数据对象的演变特征或对 象变化趋势。 15 三月 2018 Data 时间数据库和时间序列数据库 n n 时间数据库和时间序列数据库都存放与时间有关的 数据。时间数据库通常存放包含时间相关属性的时 间。时间序列数据库存放随时间变化的值序列。 对时间数据库和时间序列数据库的数据挖掘,可以 通过研究事物发生发展的过程,有助于揭示事物发 展的本质规律,可以发现数据对象的演变特征或对 象变化趋势。 15 三月 2018 Data Mining: Concepts and Techniques 30

流数据 n n 与传统的数据库技术中的静态数据不同,流数据是 连续的、有序的、变化的、快速的、大量的数据输 入的数据。 主要应用场合 n n n 网络监控 网页点击流 股票市场 流媒体…等等 流数据 n n 与传统的数据库技术中的静态数据不同,流数据是 连续的、有序的、变化的、快速的、大量的数据输 入的数据。 主要应用场合 n n n 网络监控 网页点击流 股票市场 流媒体…等等 与传统数据库技术相比,流数据在存储、查询、访 问、实时性的要求等方面都有很大区别。 15 三月 2018 Data Mining: Concepts and Techniques 31

多媒体数据库 n n 多媒体数据库实现用计算机管理庞大复杂的多媒体 数据,主要包括包括图形(graphics), 图象(image)、 声音(audio)、视频(video)等等,现代数据库技术一 般将这些多媒体数据以二进制大对象的形式进行存 储。 对于多媒体数据库的数据挖掘,需要将存储和检索 技术相结合。目前的主要方法包括构造多媒体数据 立方体、多媒体数据库的多特征提取和基于相似性 的模式匹配。 15 多媒体数据库 n n 多媒体数据库实现用计算机管理庞大复杂的多媒体 数据,主要包括包括图形(graphics), 图象(image)、 声音(audio)、视频(video)等等,现代数据库技术一 般将这些多媒体数据以二进制大对象的形式进行存 储。 对于多媒体数据库的数据挖掘,需要将存储和检索 技术相结合。目前的主要方法包括构造多媒体数据 立方体、多媒体数据库的多特征提取和基于相似性 的模式匹配。 15 三月 2018 Data Mining: Concepts and Techniques 32

面向对象数据库和对象一关系数据库 n n n 而向对象数据库是而向对象技术和数据库技术结合的产物, 该技术对数据以对象的形式进行存储,并在这个基础上实现 了传统数据库的功能,包括持久性、并发控制、可恢复性、 一致性和查询数据库的能力等。 对象一关系数据库基于对象一关系模型构造,该模型通过处 理复杂对象的丰富数据类型和对象定位等功能,扩充关系模 型。 而向对象数据库和对象一关系数据库中的数据挖掘会涉及一 些新的技术,比如处理复杂对象结构、复杂数据类型、类和 子类层次结构、构造继承以及方法和过程等等。 面向对象数据库和对象一关系数据库 n n n 而向对象数据库是而向对象技术和数据库技术结合的产物, 该技术对数据以对象的形式进行存储,并在这个基础上实现 了传统数据库的功能,包括持久性、并发控制、可恢复性、 一致性和查询数据库的能力等。 对象一关系数据库基于对象一关系模型构造,该模型通过处 理复杂对象的丰富数据类型和对象定位等功能,扩充关系模 型。 而向对象数据库和对象一关系数据库中的数据挖掘会涉及一 些新的技术,比如处理复杂对象结构、复杂数据类型、类和 子类层次结构、构造继承以及方法和过程等等。 15 三月 2018 Data Mining: Concepts and Techniques 33

异构数据库和历史(Legacy)数据库 n n 历史数据库是一系列的异构数据库系统的集合,包 括各同种类的数据库系统,像关系数据库、网络数 据库、文件系统等等。 有效利用历史数据库的关键在于实现不同数据库之 间的数据信息资源、硬件设备资源和人力资源的合 并和共享。 对于异构数据库系统,实现数据共享应当达到两点 : 一是实现数据库转换; 二是实现数据的透明访问。 WEB 异构数据库和历史(Legacy)数据库 n n 历史数据库是一系列的异构数据库系统的集合,包 括各同种类的数据库系统,像关系数据库、网络数 据库、文件系统等等。 有效利用历史数据库的关键在于实现不同数据库之 间的数据信息资源、硬件设备资源和人力资源的合 并和共享。 对于异构数据库系统,实现数据共享应当达到两点 : 一是实现数据库转换; 二是实现数据的透明访问。 WEB SERVICE技术的出现有利一于历史数据库数据 的重新利用。 15 三月 2018 Data Mining: Concepts and Techniques 34

文本数据库和万维网 n n 文本数据库存储的是对对象的文字性描述。 文本数据库的分类 n n n 无结构类型(大部分的文本资料和网页) 半结构类型(XML数据) 结构类型(图书馆数据) 万维网(www)可以被看成最大的文本数据库 数据挖掘内容 n 文本数据库和万维网 n n 文本数据库存储的是对对象的文字性描述。 文本数据库的分类 n n n 无结构类型(大部分的文本资料和网页) 半结构类型(XML数据) 结构类型(图书馆数据) 万维网(www)可以被看成最大的文本数据库 数据挖掘内容 n n 15 三月 2018 内容检索 WEB访问模式检索 Data Mining: Concepts and Techniques 35

Data Mining Functionalities 数据挖掘的主要方法 n Concept description: Characterization and discrimination(概念/类描述: 特性化和区分) n n Association Data Mining Functionalities 数据挖掘的主要方法 n Concept description: Characterization and discrimination(概念/类描述: 特性化和区分) n n Association (correlation and causality)(关联分析) n n n Generalize, summarize, and contrast data characteristics, e. g. , dry vs. wet regions(归纳,总结 和对比数据的特性。比如: 对每个月来网站购物超过 5000元的顾客的描述: 40一50岁,有正常职 业,信用程度良好。) 发现数据之间的关联规则,这些规则展示属性 - 值频繁的在给定的数据中所一起出现的条件。广 泛的用于购物篮或事务数据分析。 Diaper àBeer [0. 5%, 75%] Classification and Prediction(分类和预测) n Construct models (functions) that describe and distinguish classes or concepts for future prediction(通过构造模型(或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。) n n n 15 三月 2018 E. g. , classify countries based on climate, or classify cars based on gas mileage(比如: 按气 候将国家分类,按汽油消耗定额将汽车分类) Presentation: decision-tree, classification rule, neural network(导出模型的表示: 判定树、分类 规则、神经网络) Predict some unknown or missing numerical values(可以用来预报某些未知的或丢失的数字值) Data Mining: Concepts and Techniques 36

Data Mining Functionalities (2) 数据挖掘的主要方法 n Cluster analysis(聚类分析) n Class label is unknown: Group Data Mining Functionalities (2) 数据挖掘的主要方法 n Cluster analysis(聚类分析) n Class label is unknown: Group data to form new classes, e. g. , cluster houses to find distribution patterns(将类似的数据归类到一 起,形成一个新的类别进行分析。) n Maximizing intra-class similarity & minimizing interclass similarity( 最大化类内的相似性和最小化类间 的相似性) 15 三月 2018 Data Mining: Concepts and Techniques 37

Data Mining Functionalities (3) 数据挖掘的主要方法 n n n Outlier analysis(孤立点分析) n Outlier: a data Data Mining Functionalities (3) 数据挖掘的主要方法 n n n Outlier analysis(孤立点分析) n Outlier: a data object that does not comply with the general behavior of the data(孤立点: 一些与数据的一般行为或模型不一致的孤立数据) n Noise or exception? No! useful in fraud detection, rare events analysis(通 常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事 件进行孤立点分析而得到结论。) Trend and evolution analysis(趋势和演变分析) n 描述行为随时间变化的对象的发展规律或趋势 n Trend and deviation: regression analysis(趋势和偏差: 回归分析) n Sequential pattern mining, periodicity analysis(序列模式匹配: 周期性 分析) n Similarity-based analysis(基于类似性的分析) Other pattern-directed or statistical analyses(其他定向模式或统计分析) 15 三月 2018 Data Mining: Concepts and Techniques 38

Are All the “Discovered” Patterns Interesting? 所有模式都是有趣的吗? n Data mining may generate thousands of Are All the “Discovered” Patterns Interesting? 所有模式都是有趣的吗? n Data mining may generate thousands of patterns: Not all of them are interesting(数 据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的) n n Suggested approach: Human-centered, query-based, focused mining Interestingness measures(模式兴趣度的度量) n A pattern is interesting if it is easily understood by humans, valid on new or test data with some degree of certainty, potentially useful, novel, or validates some hypothesis that a user seeks to confirm(一个模式是有趣的,如果(1)它易于被人理解; (2)在某种程度上,对于新的或 测试数据是有效的; (3)具有潜在效用; (4)新颖的; (5)符合用户确信的某种假设) n Objective vs. subjective interestingness measures(模式兴趣度的客观和主观度 量) n Objective: based on statistics and structures of patterns, e. g. , support, confidence, etc. (客观 度量: 基于所发现模式的结构和关于它们的统计,比如: 支持度、置信度等等) n Subjective: based on user’s belief in the data, e. g. , unexpectedness, novelty, actionability, etc (主观度量: 基于用户对数据的判断。比如: 出乎意料的、新颖的、可行动的等等. ) 15 三月 2018 Data Mining: Concepts and Techniques 39

Can We Find All and Only Interesting Patterns? 能够产生所有有趣模式并且仅产生有趣模式? n Find all the interesting Can We Find All and Only Interesting Patterns? 能够产生所有有趣模式并且仅产生有趣模式? n Find all the interesting patterns: Completeness(找出所有有趣的模式: 数据挖掘算法的完全性 问题) n Can a data mining system find all the interesting patterns? (数据挖掘系统能够产生所有有趣的 模式吗? ) n n n Heuristic vs. exhaustive search(试探搜索vs. 穷举搜索) Association vs. classification vs. clustering(关联vs. 分类vs. 聚类) Search for only interesting patterns: An optimization problem(只搜索有趣的模式: 数据挖掘算法 的最优化问题) n Can a data mining system find only the interesting patterns? (数据挖掘系统可以仅仅发现有趣 的模式吗? ) n Approaches(方法) n First general all the patterns and then filter out the uninteresting ones. (首先生成所有模 式然后过滤那些无趣的. ) n Generate only the interesting patterns—mining query optimization(仅仅生成有趣的模式— —挖掘查询优化) 15 三月 2018 Data Mining: Concepts and Techniques 40

Data Mining: Confluence of Multiple Disciplines 数据挖掘:多个学科的融合 Database Systems Machine Learning Algorithm 15 三月 Data Mining: Confluence of Multiple Disciplines 数据挖掘:多个学科的融合 Database Systems Machine Learning Algorithm 15 三月 2018 Statistics Data Mining Visualization Other Disciplines Data Mining: Concepts and Techniques 41

Data Mining: Classification Schemes 数据挖掘系统的分类 n General functionality(一般功能) n n n Descriptive data mining(描述性的数据挖掘) Data Mining: Classification Schemes 数据挖掘系统的分类 n General functionality(一般功能) n n n Descriptive data mining(描述性的数据挖掘) Predictive data mining(预测性的数据挖掘) Different views, different classifications(不同的视角,不 同的分类) n Kinds of data to be mined(根据所挖掘的数据库类型分类) n Kinds of knowledge to be discovered(根据挖掘的知识类型分类) n Kinds of techniques utilized(根据挖掘所用的技术分类) n Kinds of applications adapted(根据数据挖掘的应用分类) 15 三月 2018 Data Mining: Concepts and Techniques 42

Multi-Dimensional View of Data Mining (数据挖掘的多维视角) n Data to be mined(根据所挖掘的数据库分类) n Relational, data Multi-Dimensional View of Data Mining (数据挖掘的多维视角) n Data to be mined(根据所挖掘的数据库分类) n Relational, data warehouse, transactional, stream, objectoriented/relational, active, spatial, time-series, text, multi-media, heterogeneous, legacy, WWW(关系数据库, 事务数据库, 流式数据, 面 向对象数据库, 对象关系数据库, 数据仓库, 空间数据库, 时态数据库, 文本数 据库, 多媒体数据库, 异构数据库, 历史数据库, WWW) n Knowledge to be mined(根据所挖掘的知识类型) n n 15 三月 2018 Characterization, discrimination, association, classification, clustering, trend/deviation, outlier analysis, etc. (特征分析, 区分, 关联分析, 分类聚类, 孤立点分析/演变分析, 偏差分析等等. ) Multiple/integrated functions and mining at multiple levels(多种 方法的集成和多层挖掘) Data Mining: Concepts and Techniques 43

Multi-Dimensional View of Data Mining (数据挖掘的多维视角) n Techniques utilized(根据挖掘所用的技术) n Database-oriented, data warehouse (OLAP), Multi-Dimensional View of Data Mining (数据挖掘的多维视角) n Techniques utilized(根据挖掘所用的技术) n Database-oriented, data warehouse (OLAP), machine learning, statistics, visualization, etc. ( 面向数据库的挖掘、数据仓库 、OLAP、机器学习、 统计学、可视化等等. ) n Applications adapted(根据挖掘所用的应用) n Retail, telecommunication, banking, fraud analysis, biodata mining, stock market analysis, Web mining, etc. ( 金融, 电信, 银行, 欺诈分析, DNA分析, 股票市场, Web 挖掘等等. ) 15 三月 2018 Data Mining: Concepts and Techniques 44

Major Issues in Data Mining n Mining methodology(挖掘方法) n n n Mining different kinds Major Issues in Data Mining n Mining methodology(挖掘方法) n n n Mining different kinds of knowledge from diverse data types, e. g. , bio, stream, Web(在不同的数据类型中挖掘不同类型的知识,e. g 生物数据,流式数据,Web数据) Performance: efficiency, effectiveness, and scalability(性能: 效率, 有效性,和可伸缩性) Pattern evaluation: the interestingness problem(模式评估: 兴趣度 问题) n Incorporation of background knowledge(背景知识的合并) n Handling noise and incomplete data(处理噪声和不完全数据) n n 15 三月 2018 Parallel, distributed and incremental mining methods(并行,分布 式和增量挖掘算法) Integration of the discovered knowledge with existing one: knowledge fusion(新发现知识与已有知识的集成: 知识融合) Data Mining: Concepts and Techniques 45

Major Issues in Data Mining(2) n User interaction(用户交互) n n Data mining query languages Major Issues in Data Mining(2) n User interaction(用户交互) n n Data mining query languages and ad-hoc mining(数据挖掘查询语 言和特定的数据挖掘) Expression and visualization of data mining results(数据挖掘结果 的表示和显示) Interactive mining of knowledge at multiple levels of abstraction( 多个抽象层的交互知识挖掘) Applications and social impacts(应用和社会因素) n n 15 三月 2018 Domain-specific data mining & invisible data mining(特定域的数 据挖掘&不可视的数据挖掘) Protection of data security, integrity, and privacy(数据安全,完整 和保密的保护) Data Mining: Concepts and Techniques 46

Summary(小结) n n n Data mining: discovering interesting patterns from large amounts of data(数据挖掘: Summary(小结) n n n Data mining: discovering interesting patterns from large amounts of data(数据挖掘: 从 大量数据中发现有趣模式) A natural evolution of database technology, in great demand, with wide applications(一 个数据库技术的自然演化,需求大,应用广泛) A KDD process includes data cleaning, data integration, data selection, transformation, data mining, pattern evaluation, and knowledge presentation(知识发现过程包括数据清 理,数据集成,数据选择,数据变换,数据挖掘,模式评估和知识表示) Mining can be performed in a variety of information repositories(可以在多种信息存储 中进行数据挖掘) Data mining functionalities: characterization, discrimination, association, classification, clustering, outlier and trend analysis, etc. (数据挖掘功能包括: 发现概念/类描述,关联, 分类,预测,聚类,趋势分析,偏差分析和类型性分析,等. ) n Data mining systems and architectures(数据挖掘系统和体系结构) n Major issues in data mining(数据挖掘的主要问题) 15 三月 2018 Data Mining: Concepts and Techniques 47

A Brief History of Data Mining Society n 1989 IJCAI Workshop on Knowledge Discovery A Brief History of Data Mining Society n 1989 IJCAI Workshop on Knowledge Discovery in Databases (Piatetsky. Shapiro) n n Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) 1991 -1994 Workshops on Knowledge Discovery in Databases n Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) n 1995 -1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD’ 95 -98) n n Journal of Data Mining and Knowledge Discovery (1997) 1998 ACM SIGKDD, SIGKDD’ 1999 -2001 conferences, and SIGKDD Explorations n More conferences on data mining n 15 三月 2018 PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), etc. Data Mining: Concepts and Techniques 48

Where to Find References? n KD Nuggets: http: //www. kdnuggets. com n Data mining Where to Find References? n KD Nuggets: http: //www. kdnuggets. com n Data mining and KDD (SIGKDD: CDROM) n n n Conferences: ACM-SIGKDD, IEEE-ICDM, SIAM-DM, PKDD, PAKDD, etc. Journal: Data Mining and Knowledge Discovery, KDD Explorations Database systems (SIGMOD: CD ROM) n n n Conferences: ACM-SIGMOD, ACM-PODS, VLDB, IEEE-ICDE, EDBT, ICDT, DASFAA Journals: ACM-TODS, IEEE-TKDE, JIIS, J. ACM, etc. AI & Machine Learning n n n Conferences: Machine learning (ML), AAAI, IJCAI, COLT (Learning Theory), etc. Journals: Machine Learning, Artificial Intelligence, etc. Statistics n Conferences: Joint Stat. Meeting, etc. n Journals: Annals of statistics, etc. 15 三月 2018 Data Mining: Concepts and Techniques 49

Recommended Reference Books n R. Agrawal, J. Han, and H. Mannila, Readings in Data Recommended Reference Books n R. Agrawal, J. Han, and H. Mannila, Readings in Data Mining: A Database Perspective, Morgan Kaufmann (in preparation) n U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996 n U. Fayyad, G. Grinstein, and A. Wierse, Information Visualization in Data Mining and Knowledge Discovery, Morgan Kaufmann, 2001 n J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2001 n D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining, MIT Press, 2001 n T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer-Verlag, 2001 n T. M. Mitchell, Machine Learning, Mc. Graw Hill, 1997 n G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991 n S. M. Weiss and N. Indurkhya, Predictive Data Mining, Morgan Kaufmann, 1998 n I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 2001 15 三月 2018 Data Mining: Concepts and Techniques 50