《华北理工卫生统计学实验指导12相关与回归.docx》由会员分享,可在线阅读,更多相关《华北理工卫生统计学实验指导12相关与回归.docx(6页珍藏版)》请在课桌文档上搜索。
1、实验十二:相关与回归【目的要求】1 .掌握直线相关系数与回归系数的意义、计算及应用2 .掌握相关系数与PI归系数假设检验的方法3 .熟悉相关系数与回归系数的区别与联系4 .熟悉回归方程的建立及应用5 .了解相关与回归分析应用中的注意事项【案例分析】案例1:对某省不同地区水质的碘含量及其甲状腺肿的患病率作了调查后得到下表数据,发现不同地区的甲状腺肿的患病率的高低与本地区水质的碘含量有关。于是利用Pearson积差相关系数的计算公式,把碘含量视为变量X,把甲状腺肿的患病率视为因变量Y,计算出相关系数,得r=-0.712,经检验P0.002,据此认为甲状腺肿的患病率与水质的碘含量之间有负相关关系,请
2、讨论:1、该资料是何种类型?2、题中分析方法是否正确?为什么?若不正确,应当搜集哪些资料?如何分析?某省不同地区水质碘含量与甲状腺肿患病率地区碘含量(ugL)患病率(%)地区碘含量(ugL)患病率(%)11.040.5107.76.322.037.7118.07.132.539.0128.09.043.520.0138.34.053.522.0148.54.064.037.4158.55.474.431.5168.84.784.515.61724.50.094.621.0案例2:现有一份170例某病患者的治疗效果资料,按年龄和疗效两种属性交叉分类,结果如表1。作者进行了独立性卡方检验,得到卡方
3、值为23.582,自由度是4,拒绝两种属性分类相互独立的零假设;进一步计算PearSOn列联系数为0.35,表明疗效和年龄间存在一定关联性。有人认为这种方法不太好,他计算了患者年龄与疗效的秩相关系数,计算过程见表2。表1170例某病患者的治疗效果资料患者年龄ii+秩次P好转治愈(岁)无效185322057(1+57)/2=291830381078(58+135)/2=96.55015101035(136+170)/2=153合计50804017014535秩次q(1+50)/2(51+130)/2(131+170)/2=150.514535=25.5=90.5表2某病170例不同年龄患者与疗效
4、年龄X秩次PP2疗效Y秩次qq2人数fpq1825.5650.25无效298415739.51825.5650.25好转96.59312.25302460.750.05,认为三个实验组的钙调素含量差异无统计学意义;(2)以各组的染毒剂量和钙调素的组均值计算的相关系数(厂-0.9996,p 0时,散点图中散点的分布形态为() 散点完全在一条直线上散点完全在一条直线上,且随X增大,y也增大散点分布大致呈直线,且随X增大,y值减小散点分布大致呈直线,且随X增大,y值增大10 .相关系数的取值范围是(-1r 0,05(v2),则可认为( A. rr2B.C.不能据此确定二者大小关系11 .若r=0.7
5、02,对r作假设检验的结果为P0.05,则()B.认为两变量有直线相关D.尚不能确定两变量有无相关关系分别计算相关系数此与n,若直接查表法的检验结果为)r0,b0B.r0C.rb=0D.r=bE.r与b符号无关17 .已知r=l,则一定有()A.SS总=SS朝B.SS=SSHC.SS=0D.b=lE.a=l18 .对含有常数项的线性回归系数作假设检验,其自由度是()A.nB.n-lC.n2D.2n-lE.2n219 .两组资料,回归系数b大的那一组()A.相关系数也大B.相关系数较小C.两变量相关较密切D.例数较多E.两组相关系数大小关系尚不能确定20 .Y=14+4X是17岁以年龄(岁)估计
6、体重(市斤)的回归方程,若体重换成国际单位公斤,则此方程()A.截距改变B.回归系数改变C.两者都改变D.两者都不改变E.以上均可21 .如果对简单线性回归模型进行假设检验的结果是不能拒绝H0,这就意味着()A.该模型有应用价值B.该模型无应用价值C.该模型求解错误D.X与Y之间一定无关E.尚无充分证据说明X与Y之间有线性关系22 .求得Y关于X的线性回归方程后,对回归系数做假设检验的目的是对()做检验。A.样本斜率B.总体斜率C.样本均数D.总体均数E.样本分布23 .在求出Y关于X变化的线性回归方程后,发现将原始数据中的某一点(Xk,yk)的横坐标值代入方程后所得的值不等于yk,则可以认为
7、()A.此现象无法解释B.此现象正常C.计算有错误D.X与Y之间呈非线性关系E.X与Y之间呈非线性关系24.对含有两个随机变量的同一批资料,既作线性相关,又作线性回归分析。对相关系数检验的t值记为L,对回归系数检验的t值记为二者之间的关系是()A.trtbB.trtbC.tr=tbD.trtbE.trtb三、判断题1 .样本相关系数小于0,则自变量与应变量的离均差乘积和也必定小于0。()2 .双变量正态分布资料不能做等级相关分析。()3 .等级相关系数的值必定介于0与1之间,值越大,表示相应的两个变量间关系越密切。()4 .单向有序列联表资料分析两个变量间的关系可以做秩相关分析。()5 .线性
8、回归模型的前提条件是:线性、独立、正态与等方差。()6 .回归系数较大,表示两变量的关系较密切。()7 .样本回归系数小于0,而且假设检验结果有统计学意义,则可以认为两变量呈负相关。()8 .由样本数据计算获得PI归方程,而且假设检验结果有统计学意义,则可以认为变量X与Y间存在因果关系。()9 .残差图可以简单而又直观地评价回归分析的前提条件是否满足()10 .双变量正态分布资料,样本回归系数小于零,可认为两变量呈负相关。()11 .对于双变量正态分布资料,同一样本的相关系数及同归系数与零的差别的统计检验结论一致。()12 .样本相关系数r=0.8,就可认为两变量相关非常密切。()13 .建立
9、了回归方程,且b有统计意义,就可认为两变量间存在因果关系。()四、思考题1 .直线同归分析中应注意哪些问题?2 .简述直线回归与直线相关的区别与联系?3 .试总结从样本数据判断总体回归关系是否成立的统计方法有哪些?【作业】1 .试就下表资料分析肾重与心重间的关系。(分别用相关分析和回归分析)(使用SPSS软件分析)10名成年男子(尸检)肾重与心重检测结果编号肾重(克)(x)心重(克)(y)编号肾重(克)()心重(克)(y)133327163403052357439736940433613288312262430532692682555269276103543502 .非典型肺炎流行期间,有人做了每日感染人数与口罩售出量的相关分析,结果相关系数为0.65,P0.0l,有统计学意义。是否可以认为口罩售出越多,感染人数越多?应该如何正确解释结果?