1. 首页
  2. 文档大全

统计软件应用课程设计

上传者:2****5 2022-06-13 11:31:48上传 DOCX文件 280.79KB
统计软件应用课程设计_第1页 统计软件应用课程设计_第2页 统计软件应用课程设计_第3页

《统计软件应用课程设计》由会员分享,可在线阅读,更多相关《统计软件应用课程设计(19页珍藏版)》请在文档大全上搜索。

1、Monte Carlo 在线性回归中的简单应用班级:1324001姓名:徐萍萍学号:201320400118指导老师:闫霏霏电话号码:2016年4月17日摘要:本文针对确定运动员的耗氧量与其他一些因素的关系数据,在SAS中进行回归分析得到对数据拟合较好的线性模型。再用Monte Carlo随机过程产生残差项并代入线性方程中,分别假定残差项不符合均值为零、正态分布、异方差三大假设,从而检验回归理论。关键字:蒙特卡罗、多元线性回归、残差项基本假设问题重述:在运动生理学的研究中,为了确定运动员的耗氧量与其他一些因素的关系,在一个实验中对31个人测量了年龄(age),体重(weight),跑完1.5英

2、里用的时间(runtime),静态时的心率(rstpulse),跑动时的心率(runpulse),跑步时的最大心率(maxpulse),每公斤体重每分钟的耗氧量(oxy)。实测数据(oxy.txt)见下表,试以oxy为因变量,估计该变量对于问题中所有其他变量的直线回归方程。并用Monte Carlo验证回归理论中残差项三大基本假设。(数据在附录中)第1章 、基本理论一、蒙特卡罗方法蒙特卡罗(Monte Carlo)方法概述 蒙特卡罗方法又称统计模拟法、随机抽样技术,是一种随机模拟方法,以概率和统计理论方法为基础的一种计算方法,是使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。将所求解

3、的问题同一定的概率模型相联系,用电子计算机实现统计模拟或抽样,以获得问题的近似解。为象征性地表明这一方法的概率统计特征,故借用赌城蒙特卡罗命名。蒙特卡罗方法的基本原理 由概率定义知,某事件的概率可以用大量试验中该事件发生的频率来估算,当样本容量足够大时,可以认为该事件的发生频率即为其概率。因此,可以先对影响其可靠度的随机变量进行大量的随机抽样,然后把这些抽样值一组一组地代入功能函数式,确定结构是否失效,最后从中求得结构的失效概率。蒙特卡罗法正是基于此思路进行分析的。设有统计独立的随机变量Xi(i=1,2,3,k),其对应的概率密度函数分别为fx1,fx2,fxk,功能函数式为Z=g(x1,x2

4、,xk)。 首先根据各随机变量的相应分布,产生N组随机数x1,x2,xk值,计算功能函数值 Zi=g(x1,x2,xk)(i=1,2,N),若其中有L组随机数对应的功能函数值Zi0,则当N时,根据伯努利大数定理及正态随机变量的特性有:结构失效概率,可靠指标。蒙特卡罗方法的收敛性设所求的量是随机变量的数学期望E(x),那么Monte Carlo方法通常使用随机变量的简单子样的算术平均值,即 作为所求量X的近似值。由柯尔莫哥罗夫(Kolmogorov)大数定理可知,即当N充分大时,有成立的概率等于1,亦即可以用作为所求量X的估计值。根据中心极限定理,如果随机变量的标准差不为零,那么Monte Ca

5、rlo方法的误差为式中,为正态差,是与置信水平有关的常量。Monte Carlo方法的收敛速度的阶为,误差是由随机变量的标准差S和抽样次数N决定的。二、多元线性回归模型多元线性回归模型的一般形式 设随机变量y与一般变量的线性回归模型为: 记为式中,是P+1个未知参数,称为回归常数,称为回归系数。y称为被解释变量(因变量),是P个可以精确测量并控制的一般变量,称为解释变量(自变量)。P=1时,式即一元线性回归模型;P2时,我们就称式为多元线性回归模型。是随机误差,与一元线性回归一样,对随机误差我们常规定:称 为理论回归方程。 对一个实际问题,如果我们获得n组观测数据,则线性回归模型式可表示为:写

6、成矩阵形式为: 记位式,式中 X是一个阶矩阵,称为回归设计矩阵或资料矩阵。在实验设计中X的元素是预先设定并可以控制的,人的主观因素可作用其中,因而称X为设计矩阵。多元线性回归模型的基本假定 回归方程式有如下基本假定:解释变量x1,x2,xp是确定性变量,不是随机变量,且要求rank(X)=p+1n.这里的rank(X)=p+1n,表明设计矩阵X中的自变量列之间不相关,样本量的个数应大于解释变量的个数,X是一满秩矩阵。随机误差项具有零均值和等方差,即 这个假定常称为高斯-马尔柯夫条件。,即假设观测值没有系统误差,随机误差项的平均值为零。随机误差项的协方差为零,表明随机误差项在不同的样本点之间是不

7、相关的(在正态假定下即为独立的),不存在序列相关,并且有相同的精度。正态分布的假设条件为:对于多元线性回归的矩阵模型式,这个条件可表示为:第二章、模型建立一、SAS中线性回归过程 这里在SAS软件中,对问题中数据(oxy.txt)做多元线性回归,运行程序如下:I:libname ep e:saslx;run; data ep.oxys; infile e:sasdtoxy.txt;input age weight oxy runtime rstpulse runpulse maxpulse ;proc reg;model oxy= age weight runtime rstpulse run

8、pulse maxpulse;run;II:proc stepwise data=ep.oxys;*逐步回归法;model oxy=runtime age weight runpulse maxpulse rstpulse;run;quit; 首先用程序I做回归分析,得输出结果。从输出结果(图一)中可知: 方差分析中F=22.43,P0.0001回归方程显著。但应注意所检验的统计假设是六个自变量的系数都为零。若拒绝该假设则表示至少有一个系数不为零,即至少有一个自变量对因变量oxy的影响是有意义的。所以,此时不能说所有自变量对oxy的影响都有统计意义。 决定系数R-square=0.8487,表

9、示所得回归防城对数据的线性拟合很好。它的平方根为因变量oxy与6个自变量的复相关系数。 Parameter Estimates部分是检验常数项或自变量系数等于零的假设。由检验结果可知,当显著水平为0.05,体重weight(p=0.1869)和休息时的心率rstpulse(p=0.7473)这两个变量应删除。一般来说,某个自变量是否对因变量有统计意义,不仅决定于这个变量本身,还跟回归方程中同时存在的其他自变量有关。若把对因变量无统计意义的自变量留在回归方程,会增大参数估计或误差,因此这些变量应剔除。 由以上分析可知,应采用逐步回归法STEPWISE过程,即采用II中程序。在逐步回归过程的结果表

10、中,可以看到引进变量的顺序、每一步引进的变量对R-square的贡献和总的R-square的变化,C(P)值的变化及引进每个变量时的检验概率。其中C(P)值最小的最后那个模型为最适合的回归模型。最后得估计每公斤体重每分钟耗氧量(oxy)的线性方程为:y=0.27051x1-0.34811x2-2.76758x3-0.19773x4+98.14789其中x1、x2、x3、x4依次代表maxpulse、runpulse、runtime、age,体重weight和休息时的心率rstpulse被剔除。图一二、蒙特卡罗方法回归检验 由Monte Carlo思想,由正态随机数产生误差项e代入线性方程中,方


文档来源:https://www.renrendoc.com/paper/212623325.html

文档标签:

下载地址