
201304028975.ppt
- Количество слайдов: 63
第三讲 统计数据的整理和展示 统计数据 的整理 排序 统计分组 频数分布编制 统计数据 的展示 统计表 统计图 目录
一、 统计数据的整理 统计搜集到的大量资料是分散的,不系统的,只能说 明各个单位的特征和属性,必须按照科学的原则加以 整理,使之条理化和系统化,成为便于储存和传递的、 反映总体特征的数据。 排序 就是把定量数据按从大到小或从小到大的顺序排列, 把定性数据按习惯的文字顺序排列,便于我们研究其 条理。
统计分组 对于定性数据就是依据属性的不同将数据划分成若干 组,对于定量数据就是依据属性数值的不同将数据划 分成若干组。 组内同质性,组间差异性。
频数分布编制 分组的关键 变量的选择,选择与研究的问题有关的 变量 。 组限的确定。应遵循穷尽和互斥原则 。 定性数列编制:组限的确定一般比较简单 。 如人口按性别分组、企业按所有制分组等 分为单项数列和组距数列两种形式。 定量变 量编制: 单项数列:即变量的一个取值为一组,适用于离散 型变量,并且变量的取值较少。 组距数列:即每一组有一个上限值和一个下限值所 形成的区间,适用于连续性变量,或离散型变量且 变量的取值较多的情况。
注意以下三个方面的问题 1. 确定组数 n=1+3. 322 lg. N 美国学者Sturges 2. 确定组距:组距为上限与下限之差。组距(一般取 5和10的 倍数)=全距/组数 等距数列-数据分布均匀。 异距数列-数据分布不均匀。 3. 确定组 限 应能把现象的不同类型划分出来 。 要考虑到数据是连续性变量还是离散型 变量[a, b)。 无法确定实际数据的取值范围,或者数 据中存在极端数值,可采用开口组 的形 式。 4. 确定组中值 :(上限+下限)/ 2 ,开口组 怎么办?
二、统计数据的展示 当统计数据比较多时,就应该制作表格或者图形进行来 展示,使数据的重要特性能从表格或者图形中直观地反 映出来,这样可提高分析数据和解释数据的效率。 统计表 是把统计数据用表格的形式展示出来。 调查 表 类型: 按作用分 汇总 整理表 计 算分析表 按数据所属 的时间 分 截面数据表 时间序列表
按分组变量 的多少分 单变量分组表 多变量分组表 有平行形式 交叉形式 统计图形通常可比统计表格更生动地描述数据。 类型: 饼图是以整个圆的360度代表全部数据的总和, 按照各类组所占的百分比(频率),把一个“ 饼”切割为各个扇形。适用于定性数据。 50家门店 按区域分 组的饼图
饼图举例 经贸大学学生在食堂就餐看中因素结构图
饼图举例
条形图 中,每一分类组 表示成一个条,条的长 度代 表了这 个组 中所含数据的频 数或频 率。适用于定性 数据。 50家门店数按区 域分组的条形图 50家门店按区域并按 人数分组的分段比例条形 图
条形图举例
条形图举例
直方图 与条形图 相似,是在每个分组 区间 上绘 制一 个长 条形而产 生的图 形,它可以用来描述已表示成频 数或频 率的数据。适用于定量数据。 对于异距数列,以组 距为宽,以频数密度 为高来绘制 直方图。
滨河职 当前年薪的频数分布表 年薪 20000以下 20000 -40000 -60000 -80000 -100000 -120000以上 合计 频数 33 337 57 33 9 4 1 474 相对频数(%) 6. 96 71. 1 12. 03 6. 96 1. 9 0. 84 0. 21 100
直方图(Histogram)
折线图可以在直方图基础上,将每个长方形的顶端中 点用折线连接而成,或用组中值与频数(或频率)求 坐标点连接而成 。
频数多边形
上证综合指数的趋势 • 2000年 6月—— 2007年 8月上证综合指数
北京 1985 -2006年在岗职 年平均 资
某企业季销售额的趋势图
曲线图当变量的取值非常多,变量数列的组数无限增 多时,折线便趋于一条平滑的曲线,这是一种概括描 述变量数列分布特征的理论曲线。 枝叶图是探索性数据分析中的一种方法,也是对一批 数据进 行组织 整理的很有价值 的一个 具,可用以了 解一批数据中由所有观测值 构成的数据的取值 范围 是如何分布的。
滨河男性职 年薪的箱索图 异 常 值 ( 用 *表 示 ) 该 值 大 于 Q 3+ 3(Q 3 Q 1) ( 50725+ 3× 22675)= 118750 异常值(用O表示): 该 值 大 于 Q 3+ 1. 5(Q 3 Q 1) 50725+1. 5× 22675 = 84737. 5
枝叶图
Describing the Relationship between two variables: Scatter Diagrams(散点图) Positive linear relationship No relationship Negative nonlinear relationship This is a weak linear relationship. A non linear relationship seems to fit the data better. Negative linear relationship Nonlinear (concave) relationship
20个企业销售额及广播广告费支出的散点图
第四讲 数据的描述性分析 本章将讨论 的是数据的集中趋势 、离散趋势 及其形态 的测 度。 主 要 内 容 一、集中趋势的测定 二、离散趋势的测定 三、数据的形态测定
数值描述 % x
一、集中趋势的测定—平均数 概念 表明同类现象在一定时间、地点、条件下所达到的一 般水平,是总体内某个变量大小各异的观察值的代表 性数值。也是对变量分布集中趋势的测定。 数据集中区 变量x
常用的几种平均数 概 念 计算 公 式 1. 算术平均数 一个变量 简单: () 的所有观 察值相加, 再除以观 加权: 察值的个 数 特 点 优点:①容易理解 便于计算 ②灵敏度高 ③稳定性好 ④ 和 缺点:①易受极值 影响 ②在偏斜分布和 U形分布中, 不具有代表性
权数解释 权数(Weighted),是分布数列中的频数或频率。 对求平均数具有权衡轻重的作用,是影响平均数变动 的两个因素之一(另一因素是变量值)。 (2) (3) (1) =5 =4. 75 =5 X 4 5 6 频数 频率(%) X 10 20 10 合计 40 25. 0 4 50. 0 5 25. 0 6 100. 0 合计 频数 频率(%) X 20 40 20 80 25. 0 4 50. 0 5 25. 0 6 100. 0 合计 频数 频率(%) 20 10 10 80 50. 0 25. 0 100. 0 频率分布变了,均值也变。因此,严格地说, 权数应指频率。
简单算术平均数 • 公式: • 适用情况 1. 资料未分组 2. 每一个标志值的作用相同
加权算术平均数 • 定义: 将各变量值分别乘以代表该变量值 重要程度的权数, 然后用此乘积之和除以 权数之和, 所得的商为 加权算术平均数. • 公式:
应用举例:对公司及主要竞争 对手进行竞争能力评估
未加权的竞争能力评估(1=很弱,10=很强) 关键成功因 素/度量 A公司 对手1 对手2 对手3 对手4 产品质量 8 5 10 1 6 公司声誉和 形象 8 7 10 1 6 创造能力 2 10 4 5 1 技术技能 10 1 7 3 8 经销网络 9 4 10 5 1 新产品创新 9 4 10 5 1 资金实力 5 10 7 3 1 成本地位 5 10 3 1 4 客户服务能 力 5 7 10 1 4 整体竞争能 力评价 61 58 71 25 32
加权的竞争能力评估 关键成功 因素/度量 权重 A公司 对手1 对手2 对手3 对手4 产品质量 0. 1 8 5 10 1 6 公司声誉 和形象 0. 1 8 7 10 1 6 创造能力 0. 1 2 10 4 5 1 技术技能 0. 05 10 1 7 3 8 经销网络 0. 05 9 4 10 5 1 新产品创 新 0. 05 9 4 10 5 1 资金实力 0. 1 5 10 7 3 1 成本地位 0. 35 5 10 3 1 4 客户服务 能力 0. 15 5 7 10 1 4 整体竞争 能力评价 1. 0 6. 2 8. 2 7. 00 2. 10 2. 90
常用的几种平均数 概 念 2. 几何平均数 几个变量 值连乘积 ( ) 的n次根 计算 公 式 简单: 加权: 特 点 优点:灵敏度高 ②受极值影响小 于 和 ③适宜于各比率 之积为总比率的变 量求平均 缺点: ①有“ 0”或负 值时不能计算 ②偶数项数列只 能用正根
几何平均数适用于比例和速度等 相对数的平均计算.
几何平均数的应用
常用的几种平均数 概 念 3. 中位数 (Me) 是一种位 置平均数 , 数据按 大小顺序 排列,处 于数据序 列中间位 置的数值 就是中位 数 计算 公 式 上限公式: 下限公式: 特 点 优点:①容易 理解, ②不受极值影 响 ③适宜于开口 组资料和些不 能用数字测定 的事物 缺点:①灵敏 度和计算功能 差 ②间断数Me
集中趋势指标2 --中位数(Median)
常用的几种平均数 概 念 4. 众数 (Mo) 计算 公 式 是一种位 上限公式: 置平均数, 是一批数 据中出现 次数最多 下限公式: 的那个数 值. 通常 只用于定 性数据或 离散型的 定量数据。 特 点 优点:①容易 理解, ②不受极值影 响 缺点:①灵敏 度和计算功能 差 ②稳定性差 ③具有不唯一 性
集中趋势指标3 --众数(Mode) • 出现次数最多的那个变量值 • 是一个常用的集中趋势指标 • 它不受极端值的影响 • 并非所有的数列都存在众数
众数的不唯一性 s无众数 原始数据: 一个众数 原始数据: 10 5 9 12 6 6 5 9 8 5 5 多于一个众数 原始数据: 25 28 28 36 42 42 8
位置平均数与算术平均数的关系 1. 众数适用于所有的定性数据和定量数据 中位数适用于定性数据中的定序数据和定量数据 算术平均数只适用于定量数据 2. 定量数据: 若是钟形分布,三种集中趋势指标一般 都 可适用。而对J形分布,反J形分布和U形分布,中位数 和算术平均数没有任何意义。 3. 在确定集中趋势指标的过程中,算术平均数比中位 数和众数使用了更多的数据信息 。 4. 对于钟形分布且数据量很大时,三种集中趋势指标有 如下三种数量关系:
f f f X (对称分布) 2 1 X 正偏态分布(右) 12 负偏态分布(左) X
应用平均指标的原则 1.必须是同质的量方可平均; 2.总平均数与组平均数结合分析; 3.集中趋势与离散趋势结合分析
三、离散趋势的测定 概念 标志变异指标是反映变量分布离散趋势、与平均 指标相匹配的指标。 作用 (1)反映变量分布的离散趋势; (2)是对平均数的代表性程度的量度; (3)是对事物发展均衡性的量度。
离散趋势指标 全距 反映变量 数列分散 程度的指标 方差 标准差 变异系数
概 念 计 算 特 点 1.全距 (R) 优点:容易理解, R=最大值-最小值 数列中最大值 计算方便 R=最大组的上限与最小值之差 缺点:不能反映全 最小组的下限 部数据分布状况 2.四分 位差 是一批数据中 的第三四分位 数与第一四分 位数之差的二 分之一 (M 3 - M 1)/2 在反映数据的离 散程度方面比全 距较为准确,但 仍显粗略
全距 • • 全距=最大值-最小值 原始资料: 17 16 21 18 13 16 12 11 顺序排列: 11 12 13 16 16 17 18 21 全距=21 -11=10 *注意:全距只考虑了两个值的距离,如 果数列中存在极端值,它会片面地夸大 数列的分散程度。
四分位数 • 把一组数据按从小到大(或从大到小) 的次序排成一个数列,将这个数列分成 4 个部分,每个部分包含数目相等的数据, 各部分数据分界点上的数据值叫做四分 位数。 • 第一个四分位数Q 1之前包括了25%的数 据,第二个四分位数Q 2即中位数,中位 数之前包括了50%的数据,第三个四分 位数Q 3之前包含了75%的数据。
四分位差 • 舍去数列中数值最高的25%数据和数值 最低的25%的数据,求出中间 50%的数 据中最大数据与最小数据的数值差,即 四分位差。 • 四分位差表明有50%的样本值在分布在 这一区间内,用Q 代表四分位差,计算 公式为:
概 念 计 3.平均绝对 各标志值与 简单: 均值离差绝 差 (MAD) 对值的算术 加权: 平均 4.方差 (σ2 s 2) 和 标准差(σ s) 简单: 所有观察值 与平均数离 差 平 方 平 均 加权: 数的平方根, 亦称均方差。 标准差的平 方即为方差。 算 特 点 优点:反映全部 数据分布状况 缺点:取绝对值 数字上 不尽合理 优点:反映全部 数据分布状况, 数字上合理。 缺点:受计量单 位和平均水平影 响,不便于比较
SPSS输出结果 2009年上市公司的有关指标
概 念 5.变异 系数 (Vσ) 标准差与 均值之商, 是无量 纲的 计 算 特 点 两列数据的分布进行离 散程度的比较,当它们 的平均数不等、计量单 位不同时则应消除平均 数不同和计量单位不可 比的影响。此时就需要 用离散系数这种相对数 来是测定离散趋势 方差(σ2)和标准差(σ)是应用最广的标志变异指标
变异系数应用举例
四、数据的形态测定 偏度: 是测定数据分布的偏斜程度的指标. 。 定义M=∑(X-A)k/n为变量X关于A的k阶矩。 • 当A=0,即以原点为中心,上式称为“K阶原点矩”。 一阶原点矩M 1=∑(X-0)1/n=∑X/n K=1,2,3时,有: 二阶原点矩M 2=∑(X-0)2/n=∑X 2/n 三阶原点矩M 3=∑(X-0)3/n=∑X 3/n • 当A= ,即以 为中心,上式称为“K阶中心矩”。 K=1,2,3时,有: 一阶中心矩 二阶中心矩 三阶中心矩
所以,m 3可以测定偏度。为消除量纲,转变为系数, 再除以σ3。 <0负偏态 =0对称分布 >0正偏态 峰度:是用来反映数据分布曲线顶端的尖峭或扁 平程度的指标。 <3平顶曲线 =3正态曲线 >3尖顶曲线 注:在EXCL等软件中输出的峰度是在此基础上 再减 3。
五数概括 :即最小值 xmin 、最大值 xmax 、第一 四分位数M 1、中位数Me和第三四分位数M 3 五个数之间的关系,确定数据分布形态的方法: 数据是完全对称 : 最小值 xmin到中位数的距离等于中位数到最大值 xmax的距离 。 从xmin到M 1的距离等于M 3到xmax的距离。 数据是不对 称 : 右 偏 从xmax到中位数的距离大于中位数到xmin的距离。 分 布 从M 到x 的距离大于从从x 到M 的距离。 3 max min 1
左 偏 从xmin到中位数的距离大于中位数到xmax的距离。 分 布 从x 到M 的距离大于M 到x 的距离。 min 1 3 max 箱索图 : 是基于五数概括的图 示方式,使得集中趋 势 、离散趋势 和偏态 更为 直观 。
图 直方图 频数多边形 趋势图 箱索图
数值描述 中心趋势 离散趋势 平均数 全距 中位数 方差 众数 标准差 变异系数
201304028975.ppt