第9章一元线性回归

《第9章一元线性回归》由会员分享,可在线阅读,更多相关《第9章一元线性回归(56页珍藏版)》请在文档大全上搜索。
1、第9章 一元线性回归9.1 变量间关系的度量变量间关系的度量 9.2 一元线性回归一元线性回归9.3 利用回归方程进行估计和预测利用回归方程进行估计和预测9.4 残差分析残差分析9.1 9.1 变量间关系的度量变量间关系的度量一.一.变量间的关系变量间的关系二.二.相关关系的描述与测度相关关系的描述与测度三.三.相关系数的显著性检验相关系数的显著性检验变量间关系之函数关系1.是一一对应的确定关系;2.设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x
2、 称为自变量,y 称为因变量;变量间关系之相关关系(correlation)1.变量间关系不能用函数关系精确表达;2.一个变量的取值不能由另一个变量唯一确定;3.当变量 x 取某个值时,变量 y 的取值可能有几个;相关关系的描述之散点图(scatter diagram)yyyy-M-d用散点图描述变量间的关系(例题分析)【例例9-1】为研究销售收入与广告费用支出之间的关系,某医药管理部门随机抽取20家药品生产企业,得到它们的年销售收入和广告费用支出(万元)的数据如下。绘制散点图描述销售收入与广告费用之间的关系。 yyyy-M-d散点图(销售收入和广告费用的散点图)相关关系的测度之相关系数(co
3、rrelation coefficient)1.对变量之间关系密切程度的度量;2.对两个变量之间线性相关程度的度量称为简单相关系数;3.若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 ;4.若是根据样本数据计算的,则称为样本相关系数,记为 r;相关系数 (计算公式) 样本相关系数的计算公式:或展开为:2222nxyxyrnxxnyy 简写的离差平方和22211222111111()1()1()()nnxxiiiiinnyyiiiiinnnxyiiiiiiiiiLxxxxnLyyyynLxxyyx yxyn其中:相关系数(取值及其意义)1. r 的取值范围是 -1,1;2. |r|=
4、1,为完全相关:ur =1,为完全正相关ur =-1,为完全负正相关3. r = 0,不存在线性线性相关关系;4. -1r0,为负相关; 0r1,为正相关;5. |r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切(0.8-0.5-0.3)。相关系数的显著性检验(检验的步骤)1.检验两个变量之间是否存在线性相关关系;2.采用R.A.Fisher提出的 t 检验;3.检验的步骤为:n提出假设:H0: ;H1: 0n 计算检验的统计量:n 确定显著性水平,并作出决策; 若P值,不拒绝H022 (2)1ntrt nryyyy-M-d相关系数的显著性检验(例题分析)【例例9-3】检验销售收入与
5、广告费用之间的相关系数是否显著 (0.05)1.提出假设:H0: ;H1: 02.计算检验的统计量:3. 用Excel中的【TDIST】函数得双尾P=2.743E-090.05,拒绝H0,销售收入与广告费用之间的相关系数显著 。20.9306 20210.78910.9306tyyyy-M-d相关系数的显著性检验(SPSS输出结果)9.2 9.2 一元线性回归一元线性回归一.一.一元线性回归模型一元线性回归模型二.二.参数的最小二乘估计参数的最小二乘估计三.三.回归直线的拟合优度回归直线的拟合优度四.四.显著性检验显著性检验什么是回归分析?(Regression)1.是分析变量之间关系的基本方
6、法;2.就是从一组样本数据出发,确定变量之间的数学关系式;3.对该关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著;4.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。一元线性回归1.涉及一个自变量的回归;2.因变量y与自变量x之间为线性关系; 被 预 测 或 被 解 释 的 变 量 称 为 因 变 量(dependent variable),用y表示; 用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x表示 ;3.因变量与自变量之间
7、的关系用一线性方程来表示。一元线性回归模型1.描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型;回归模型;2.一元线性回归模型可表示为: y = b b + + b b1 1 x + + y 是 x 的线性函数(部分)加上误差项; 线性部分反映了由于 x 的变化而引起的 y 的变化; 误差项 是随机变量; 反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异性b0 和 b1 称为模型的参数;yyyy-M-d一元线性回归模型(基本假定) 1.因变量y与自变量x之间具有线性关系;2.在重复抽样中,x的取值是确定的,即假
8、定x是非随机的,而假定y是随机的;3.误差项 满足:l正态性正态性。 是一个服从正态分布的随机变量,且期望值为0,即 N(0 , 2 ) 。对于一个给定的 x 值,y 的期望值为E(y)=b0+ b1x;l方差齐性方差齐性。对于所有的 x 值, 的方差一个特定的值2 ;l独立性。独立性。独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关;对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关。回归方程 (regression equation)1.描述 y 的平均值或期望值如何依赖于 x 的方程称为回回归方程;归方程;2.一元线性回归方程的形式如
9、下: E( y ) = b b0+ b b1 x估计的回归方程(estimated regression equation)统计量 和 代替参数 和 估计的估计的回归方程;回归方程;参数 和 是其中: 是估计的回归直线在 y 轴上的截距, 是直线的斜率,它表示对于一个给定的 x 的值, 是 y 的估计值,也表示 x 每变动一个单位时, y 的平均变动值 。参数的最小二乘估计(method of least squares)1. 使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即:2. 用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小;0b1b最