1. 首页
  2. 文档大全

快速学习基础统计

上传者:5**** 2022-05-25 22:46:00上传 PPTX文件 1.90MB
快速学习基础统计_第1页 快速学习基础统计_第2页 快速学习基础统计_第3页

《快速学习基础统计》由会员分享,可在线阅读,更多相关《快速学习基础统计(69页珍藏版)》请在文档大全上搜索。

1、 基 础 统 计一、统计基本概念二、统计抽样三、描述性统计 3.1 统计基本术语 3.2 数据的图示方法 3.3 正态分布四、推论统计 4.1 点估计 4.2 区间估计 4.3 假设检验 4.4 方差分析 4.5 相关分析和回归分析五、总结目录n 统计资料:指通过统计工作而得到的各项数字资料以及与之相联系的信息的总程,是统计工作的成果。n统计学是研究如何搜集、整理、分析反映事物总体信息的数字资料,并以此为依据,对总体特征进行推断的原理和方法。()一、统计基本概念现代统计的涵义包括三个方面:统计工作、统计资料和统计学。n统计工作:是运用科学的方法,对社会、经济以及自然现象的总体数量特征进行收集、

2、整理和分析的活动过程。n 总体:包含所研究的全部个体(数据)的集合。n 样本:从总体中抽取的一部分个体的集合。样本中个体的数量称为样本容量。二、统计抽样抽样样本样本总体总体总体参数均值:标准差:样本统计量均值:标准差:xs统计推论u统计抽样n 抽样:从欲研究的全部个体中抽取一部分个体的过程。为什么使用抽样?p收集所有的数据通常是不现实的;p有时收集数据是破坏性过程,成本太高;p可以用相对少量的数据作出合理的结论。n 总体抽样:确定总体的特性简单随机抽样:按随机原则直接从总体中抽取样本,且每个单元都有同等的机会被抽到。例如:抽签法、计算机随机抽取法。 分层抽样:按照一定的标识加以分层,然后在各层

3、中用简单随机抽样抽取样本。抽样方法统计抽样n 系统抽样:帮助我们了解过程的实情和状况系统抽样法:总体中所有单位按照一定的顺序排列,在规定的范围内抽取固定数量的单元作为初始单元,然后按照事先规定好的规则确定其他样本单元。统计抽样n 简单随机抽样抽样方法每个单元都有相同被选择的概率把总体层化成许多组,在每个组里任意选择n 分层抽样n 系统抽样总体抽样系统抽样n 系统分组抽样每隔n个单元或固定时间间隔,选择一个每隔n个单元或固定时间间隔抽取一组n 样本的特性可以从两方面进行描述:一是数据的中心位置;二是数据的分散程度。三、描述性统计数据的中心位置数据的中心位置均值某组观测值的算术平均值中位数按大小顺

4、序排列的数据组中点位置对应的数值众数出现频次最高的数值数据的分散程度数据的分散程度极差样本中最大值与最小值的差方差度量样本中围绕均值波动的大小标准差度量样本中围绕均值波动的大小,xeM0MR2ss2ss3.1 描述性统计n 均值 :某组观测值的算术平均值。其中 为观测值,n 为样本容量。1231.1nniixxxxxxnnixx例:检查6颗钢珠的直径分别为:15、15.8、15.2、15.1、15.9、14.7 钢珠的平均直径= =15.28统计基本术语15+15.8+15.2+15.1+15.9+14.76n 中位数 :按大小顺序排列的数据组中点位置对应的数值。样本容量n为奇数的数据组,中位

5、数等于中点位置的数值;样本容量n为偶数的数据组,中位数等于中间两个数的平均值。其中 为有序样本(1)/2( /2)( /2 1)/2nennxMxx(n为奇数) (n为偶数)eM12,.,.,inxxxx统计基本术语数据组一:1、 2、 3、 4、 5、6、7 中位数为“4”数据组二:1、 2、 3、 4、 5、 6 中位数为 “3.5”例:2437866565629861出现频次最多的数据为“6”,出现5次。统计基本术语n 众数 :出现频次最高的数值。0M例:数据组n 极差 R:样本中最大值与最小值的差。 极差R=最大值最小值极差R=8-1=7统计基本术语例: 数据组25716548统计基本

6、术语n 偏差:每个数据与所在数据组均值的差。偏差偏差= X均值均值()iXu2()iXu2()iXu2()iXuN2()iXuN偏差偏差的平方偏差平方和方差标准差Xi-均值Xun 标准差:度量数据围绕均值波动的大小,用每个观察值与均值距离平方和的平均数表示,值越大说明数据越分散。21()1niixxsn统计基本术语总体标准差:21()NiixuN样本标准差s:统计基本术语例:计算下列样本的标准差: 数据组:1、2、3 均值为2 样本容量n=321222()11 221.0niixxsn() (2-2) (3-2)供应商钢珠直径115.015.815.215.115.914.714.815.51

7、5.615.3215.115.315.015.615.714.814.514.214.914.9315.215.015.315.615.114.914.114.615.815.2415.915.215.014.914.814.515.115.515.515.5515.115.015.314.714.515.515.014.714.614.2n 对五个钢珠的供应商提供的钢珠直径进行抽查测量,得到以下五个样本,请计算各样本的统计量:Minitab计算样本统计量统计基本术语n Minitab操作结果展示: 样本1的均值最大为15.29,样本5的均值最小为14.86; 从样本标准差中可以看出样本5的波

8、动最小,样本3波动最大。Minitab计算样本统计量统计基本术语20151050C C1 13 3箱线图箱线图n 箱线图用于归纳数据分布的信息,显示分布的统计概况。该图可以显示数据组的最小值、第一四分位数、中位数、第三四分位数、最大值,可以粗略的看出数据是否具有对称性、分布的分散程度等信息。第三四分位数Q3:在该组数据第 位置处的数。第一四分位数Q1:在该组数据第 位置处的数。游离点:超出上限(或下限)的观测值,有异常值的嫌疑:上限=Q3+1.5(Q3-Q1)下限=Q1-1.5(Q3-Q1)中位数最大值最小值1*4n3*4n3.2 数据的图示方法n 箱线图的用法: 中位数,可根据中位数判断数据

9、分布是否有偏; 方块长度,根据箱体的长度可以确定观测值的散布程度,箱体越长数据分布越分散; 根据游离点判断是否存在异常值。数据的图示方法例:某零部件在生产模具改变后各抽取一组样本测定其尺寸:例:某零部件在生产模具改变后各抽取一组样本测定其尺寸: 对比改进后与改进前的零件尺寸情况。对比改进后与改进前的零件尺寸情况。改变前5.11 5.13 7.47 6.55 6.92 4.52 5.88 6.52 5.33 5.44改变后4.57 4.43 4.88 4.75 4.46 5.05 3.69 4.09 4.61 4.26改变前箱体大于改变后的箱体长度,改变前箱体大于改变后的箱体长度,改变前的数据的

10、分散性比改变后的稍大。改变前的数据的分散性比改变后的稍大。 两组数据没有出现游离的异常值。两组数据没有出现游离的异常值。数据的图示方法改变后改变前87654数数据据5.445.336.525.884.526.926.557.475.135.114.264.614.093.695.054.464.754.884.434.57改改变变前前, , 改改变变后后 的的箱箱线线图图数据的图示方法n 直方图 常用于了解数据的分布情况,这种展示方法使我们较容易的看到数据的分散程度和中心位置,并与要求的分布进行比较。16.015.615.214.814.414.0121086420频频率率均值15.08标准差

11、0.4409N50n 制作方法:以频数(或频率)为纵坐标,数据观测值为横坐标,以组距为底边,数据观测值落入各组的频数(或频率)为高,画出一系列矩形,这样就得到频数(或频率)直方图。1、确定极差:极差(R) =最大值(Max)-最小值(Min)2、确定分组:组数K = 1+3.32logn,n为数据个数3、确定组距:4、将落入各组的数据汇总,得出直方图。/hR K数据的图示方法组数选择参照表:16.015.615.214.814.414.0121086420频频率率均值15.08标准差0.4409N50数据的图示方法形 态可 能 原 因正常型过程正常离岛型混入其它小量群体有特殊原因存在偏峰型规格

12、偏近于零作业员作业特殊习性已全检筛选过高原型及峭壁型已全检筛选过测量仪器精度不足双峰型有两种不同群体混入过程中途有调整正态分布曲线3.3 正态分布n 正态分布是质量管理中最常遇到的连续分布。正态分布的概率密度函数特点:中间高、两边低、左右对称,延伸到无穷。210-1-220151050C1C1频频率率均值-0.03974标准差0.9740N100C1 的直方图C1 的直方图正态 3210-1-29080706050403020100C2C2频频率率均值-0.03592标准差0.9557N1000C2 的直方图C2 的直方图正态 22() /21( )2x up xeuu正态分布u0.41.02

13、.5n 正态分布的参数:位置参数 u,决定曲线的中心位置。形状参数,决定曲线的分布形状。n u=0且=1的特殊正态分布称为标准正态分布,记为N(0,1)。4.1 点估计n 在正态分布中均值、方差、标准差称为总体的参数。在实际问题中,这些参数都是未知,需要选取适当的统计量作为未知参数的估计,用于估计未知参数的统计量称为点估计。n 正态均值的点估计: 样本均值的估计优于中位数的估计。n 正态方差的点估计: n 正态标准差的点估计: ( 是与样本容量有关的常数) uxeuM2Rd4sc24dc和22s4.2 区间估计n 区间估计:在点估计的基础上给出总体参数估计的区间范围,该区间通常由样本统计量加减

14、估计误差得到,也称为置信区间。a/2*xZna/2*sxZn总体方差已知的情况总体方差未知的情况,用样本方差代替n 总体均值的区间估计:n 置信水平:总体参数落在样本统计值某一区间内的概率。常用置信水平的 值(查表)置信水平aa/268 .2%0.320.16195%0.050.0251.9695.4%0.0460.023299.7%0.0030.00153a/2Za/2Z区间估计示例例:已知某种灯的寿命服从正态分布,现需要知道该批灯的寿命平均例:已知某种灯的寿命服从正态分布,现需要知道该批灯的寿命平均值,从这批灯中随机抽取值,从这批灯中随机抽取1616个,测得其使用寿命(单位:个,测得其使用

15、寿命(单位:h h)如下:)如下:1510145014801460152014801490146014801510153014701500152015101470n Minitab输出结果:该批灯具平均使用寿命的95%置信区间为(1476.8,1503.2)h。例例1 1:某:某零件安装孔直径均值为零件安装孔直径均值为0.13mm0.13mm。某日在生产的产品中抽查。某日在生产的产品中抽查1010件,其观察值为件,其观察值为(单位(单位mm)mm):发现发现平均直径(平均直径(0.136mm0.136mm)稍有变化,如果标准差不变,)稍有变化,如果标准差不变,试问生产是否正常?试问生产是否正常

16、?0.1120.1300.1290.1520.1380.1180.1510.1280.1580.1424.3 假设检验均值变化了,生产发生变化了吗?假设检验例例2 2:在:在改进了工艺前后,各测量了若干钢条的抗剪强度,数据如下:改进了工艺前后,各测量了若干钢条的抗剪强度,数据如下:计算均值:计算均值:改进后:改进后:改进前:改进前:是否可认为改进工艺后钢条平均抗剪强度有提高?是否可认为改进工艺后钢条平均抗剪强度有提高?改进后:改进后:525531518533546524521533545540改进前:改进前:5215255335255175145265191531.60u 2522.50u 改

17、进后改进前550540530520510数数据据改改进进前前, , 改改进进后后 的的箱箱线线图图改进后有改进后有提高吗?提高吗?均值增加了,措施有明显的效果吗?例3.通过以往大规模调查,已知某地正常成年男子脉搏均数为72.1次/分。为研究某山区正常成年男子的脉搏特征,某医生在该地某山区随机调查36名正常成年男子,求得其脉搏均数为74.3次/分,标准差为5.4次/分,可否认为该山区成年男子的脉搏总体均数与一般成年男子的脉搏总体均数不同?是否相同?假设检验n 假设检验亦称为显著性检验,是判断样本指标与总体指标或样本指标与样本指标之间的差异有无显著性意义的一种统计方法。它是一种数学验证,它可以确定

18、事情的结果是偶然发生的还是真的发生了实质性的变化。n原理: 假设检验的基本思想是反证法和小概率的思想。n反证法思想:首先提出假设(由于未经检验是否成立, 所以称为无效假设),用适当的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,拒绝它;如果可能性大,还不能认为它不成立。n 只有两种可能出现的结果:没有变化,结果上的不同是由自然波动引起的H0:假设没有变化有变化,结果上的不同很有可能是由这个变化造成的H1:假设有变化原假设备择假设n当一件事情的发生只有两种可能A和B,为了肯定其中的一种情况A,但又不能直接证实A,这时否定另一种可能B,则间接的肯定了A。例如:法官判定一个人是否

19、犯罪,首先是假定他“无罪”(H0),然后通过侦察寻找证据,如果证据充分则拒绝 “无罪”的假定(H0),判嫌疑人有罪;否则只能暂且认为“无罪”的假定(H0)成立。n 通常来说,我们用95%的置信度证明结果是否发生了变化,这样出错的机会为5%。n“p”值表示了犯错的概率:如果“p”值小于 0.05,拒绝原假设,我们就认为有了实质的改变;如果“p”值大于0.05,不能拒绝原假设,我们就认为没有实质的变化(因为出错的机会太大了)。假设检验假设检验判断假设检验假设检验指导特性数据变量数据比率检验均值检验方差检验单样本t双样本t方差分析单方差双方差单比率双比率假设检验假设检验单样本t检验(例1)检验结果:

20、检验结果:H0: =0.13H1: 0.13结论:p=0.2560.05,不能拒绝原假设,孔径均值与0.13无显著差别。假设检验双方差检验(例2)H0: H1: 22122212/1/1检验检验结果:结果:结论:结论:p=0.2110.05,没有充足的证据拒,没有充足的证据拒绝原假设,因此可认为改进前后绝原假设,因此可认为改进前后总体方差相等。总体方差相等。提示:首先在=0.05的显著性水平上检验改进前后的总体方差是否相等,若可以认为相等的话,再在=0.05的显著性水平上进一步检验改进后均值是否增大。假设检验双样本t检验(例2)H0:H1:1212检验检验结果:结果:结论:p=0.0180.6

21、,不是已经超过六成不是已经超过六成了吗?了吗?例:小学生近视比例日益增加,现随机抽取了例:小学生近视比例日益增加,现随机抽取了500500位小学生进行视力检测,位小学生进行视力检测,其中有其中有310310位近视,那么是否可以认为小学生近视比例已经超过六成?位近视,那么是否可以认为小学生近视比例已经超过六成?(取(取=0.05=0.05)假设检验单比率假设检验结论:p=0.1930.05,不能拒绝原假设。虽然抽样数据近视比例超过六成,但是总体并没有显著超过六成。检验结果:检验结果:H0: p0 0.6H1: p0 0.6假设检验单比率假设检验例:在例:在A A、B B两条不同生产线生产某种零件

22、,从各自生产的零件中分别随机两条不同生产线生产某种零件,从各自生产的零件中分别随机抽取抽取100100件,其中件,其中A A中有中有6 6件不合格品,件不合格品,B B中有中有1010件不合格品,能否判断合格件不合格品,能否判断合格率与生产线有关?率与生产线有关?假设检验双比率假设检验检验结果:检验结果:H0: pA = pBH1: pA pB结论:p=0.2960.05,不能拒绝原假设,两条生产线生产零件的合格率没有差别,合格率与生产线无关。假设检验双比率假设检验例:装配一个部件时可以采用不同的方法,所关心的问题是哪个方法的效率更高。劳例:装配一个部件时可以采用不同的方法,所关心的问题是哪个

23、方法的效率更高。劳动效率可以用平均装配时间来反映。现各抽取动效率可以用平均装配时间来反映。现各抽取1212件产品,分别记录装配时间(单位:件产品,分别记录装配时间(单位:分钟)如下:分钟)如下:假设检验练习甲方法313429323538343029323126乙方法262428293029322631293228n有时,我们会遇到需要比较多个总体均值的问题,比如:例:现有四条生产线生产同一种型号的垫片,为了解不同生产线垫片的断裂强度有无明例:现有四条生产线生产同一种型号的垫片,为了解不同生产线垫片的断裂强度有无明显差异,现从每条生产线随机抽取显差异,现从每条生产线随机抽取5 5个垫片测其断裂强

24、度,测得数据如表所示,问:生产个垫片测其断裂强度,测得数据如表所示,问:生产线的不同是否会对断裂强度造成影响,即四条生产线生产的垫片的平均断裂强度是否相线的不同是否会对断裂强度造成影响,即四条生产线生产的垫片的平均断裂强度是否相同。同。生产线1234断裂强度86.593.488.694.39287.993.293.385.290.688.89287.985.592.789.28688.490.992.54.4 方差分析单因子方差分析在这个问题中,我们需要比较一个因子(生产线)四个水平(在这个问题中,我们需要比较一个因子(生产线)四个水平(K=4K=4)的均值问题,运用假)的均值问题,运用假设检

25、验的方法两两比较,需要进行设检验的方法两两比较,需要进行6 6次验证。次验证。方差分析单因子方差分析问:四条生产线生产的垫片的平均断裂强度是否相同?转换为统计检验012341:(1,2,3,4)iHuuuuHu i不全相等当 H0 不真时,表明在不同水平下响应的均值有显著差异,此时称因子是显著的,否则因子是不显著的。432194939291908988878685数数据据1 1, , 2 2, , 3 3, , 4 4 的的箱箱线线图图n 变差来源方差分析总变差组间差组内差单因子方差分析总变差包含: 组内差变差只由随机因素造成。 组间差变差由因子的不同水平带来。方差分析总变差组内差组间差+=如

26、果比值大,则组间差比组内差明显,组与组之间有显著差异小,则组内差比组间差明显,组与组之间没有显著差异n 检验原理:单因子方差分析组间差总变差方差分析单因子方差分析示例分析前述断裂强度问题。方差分析单因子方差分析示例结果判断: p=0.0410.05,表明温度对垫片断裂强度没有显著影响;因子“生产线”对应的p=0.0280时两个变量之间具有正相关;r0.7,p0.05,拒绝原假设,两变量确实是线性相关的。分析分析结果结果:相关分析相关分析和回归分析一元线性回归相关分析和回归分析 选择模型,拟合方程,并判断方程的有效性。两变量之间为线性关系, , (为残差,即实际观测值与拟合值之差)。 yaxb2

27、52015105025020015010050温温度度X X产产量量Y YS13.8293R-Sq90.3%R-Sq(调整)89.1%回归95% 预测区间拟拟合合线线图图产量Y = 60.00 + 5.000 温度X一元线性回归相关分析和回归分析拟合模型的判断: 回归项对应的p0.05时,认为回归方程是有意义的。 R-Sq=90.3%,表明在其他条件稳定的情况下温度的变化能解释90.3%的产量变差。不同拟合模型的比较:n s:残差的标准差,95%预测区间是以回归线为中心正负2s的区间范围(即y2s),s越小说明模型拟合越好。n (即R-Sq)值越接近于1,代表模型拟合越好。n (即R-Sq调整

28、),与 越接近,说明模型拟合越好。2R2adjR2R一元线性回归相关分析和回归分析 回归系数的显著性检验。一元线性回归相关分析和回归分析一元线性回归相关分析和回归分析0 :01:0HaHa0 :01:0HbHb常量和温度的系数对应的p值均小于0.05,拒绝原假设,证明常量和温度的系数都不为0,变量对于y是有意义的。对常量和温度的系数分别进行检验:温度X 系数:常数: 残差分析一元线性回归相关分析和回归分析如果模型确实能反映数据情况,则残差应满足:(1)具有时间独立性(2)来自稳定受控总体(3)对输入因子的所有水平有相等的总体方差(4)符合正态分布,2(0,)30150-15-309990501

29、01残残差差百百分分比比N10AD0.326P 值 0.45520015010020100-10-20拟拟合合值值残残差差20100-10-203210残残差差频频率率1098765432120100-10-20观观测测值值顺顺序序残残差差正正态态概概率率图图与与拟拟合合值值直直方方图图与与顺顺序序产产量量Y Y 残残差差图图一元线性回归残差与拟合值的散点图,考察残差是否保持等方差性。横轴表示预测y值,纵轴表示残差;残差不随预测值的增加呈现趋势性变化,该图上的点应该随机地在水平轴上下无规则波动;若该图存在明显的“喇叭”或“漏斗”形,表明对于y的线性模型与数据拟合不好,建议对y做变换加以解决(例

30、如:y 取对数、取平方根、取倒数等)若残差与自变量x的散点图出现明显的弯曲趋势,应考虑增加x的高阶项。相关分析和回归分析30150-15-30999050101残残差差百百分分比比N10AD0.326P 值 0.45520015010020100-10-20拟拟合合值值残残差差20100-10-203210残残差差频频率率1098765432120100-10-20观观测测值值顺顺序序残残差差正正态态概概率率图图与与拟拟合合值值直直方方图图与与顺顺序序产产量量Y Y 残残差差图图一元线性回归按观测顺序的残差图,考察残差值时间的独立性。水平轴表示观测顺序,纵轴表示残差值;该图中不应有一直上升、一

31、直下降等趋势,如果该种趋势存在,说明数据观测过程中受到某个未知的因素的影响,应该分析试验过程,找出此因素并加以控制。相关分析和回归分析30150-15-30999050101残残差差百百分分比比N10AD0.326P 值 0.45520015010020100-10-20拟拟合合值值残残差差20100-10-203210残残差差频频率率1098765432120100-10-20观观测测值值顺顺序序残残差差正正态态概概率率图图与与拟拟合合值值直直方方图图与与顺顺序序产产量量Y Y 残残差差图图一元线性回归相关分析和回归分析残差的正态概率图和直方图,考察残差的正态性。残差应呈现正态分布,正态检验

32、的p值应大于0.05;直方图供辅助检查残差的分布情况。散点图散点图相关分相关分析析选择模选择模型、拟型、拟合方程,合方程,判断方判断方程有效程有效性性回归系回归系数检验数检验残差分残差分析析回归分析步骤相关分析和回归分析五、总结统计统计描述性统计描述性统计位置:位置:、Me、M0分散程度:分散程度:R、 2、 推论统计推论统计估计估计点估计点估计区间估计区间估计检验检验计数型计数型计量型计量型回归分析:得到量化关系回归分析:得到量化关系图形图形箱线图箱线图直方图直方图单单P、双、双P均值:单均值:单T、双、双T、方差分析、方差分析方差:单因子、双因子方差:单因子、双因子方差分析:多样本均值是否方差分析:多样本均值是否有差异有差异


文档来源:https://www.renrendoc.com/paper/212400229.html

文档标签:

下载地址