《统计学第一章医学统计学绪论.ppt》由会员分享,可在线阅读,更多相关《统计学第一章医学统计学绪论.ppt(71页珍藏版)》请在课桌文档上搜索。
1、2023/3/31,1,医学统计学,2023/3/31,2,授课内容及特点,本课程主要介绍统计学的基本概念,并着重讲解统计学方法在医学科研中的应用。本课程的特点是通过书中的实例,分析讲解本课程的统计方法,并掌握统计软件SPSS基本操作过程,以及理解其分析结果。,2023/3/31,3,授课目的,最终能应用SPSS统计软件,将学过的各种统计分析方法结合具体实际问题或有关的数据指标进行分析,领会各种统计数量分析过程和应用中的意义,合理地解释各种分析结果。能看懂医学文献中常见的统计分析方法、结果及其意义。毕业论文及发表的文章无明显统计缺陷和错误,2023/3/31,4,据统计:我国的医学期刊大约有
2、1000多种,其中绝大多数论文都要用到统计学知识,统计学知识应用得正确与否关系到论文的科学性与严谨性。,60年代到80年代,国外医学杂志调查结果:有统计错误的论文20%72%。1996年对4586篇论文统计(中华医学会系列杂志占6.9%),数据分析方法误用达55.7%。这一严峻的现象值得科研工作者重视。,2023/3/31,5,医学统计学的定义与内容 统计方法的几个基本概念 统计工作的基本步骤 学习中应注意的问题,第一章 绪论,2023/3/31,6,第一节 医学统计学的定义与内容,1.统计的基本含义 统计是对客观事物的数量方面进行核算和分析,是人们对客观事物的数量表现、数量关系和数量变化进行
3、描述和分析的一种计量活动。2.统计的基本特点:数量性3.统计的目的:探索客观事物的数量规律性,以便达到对客观事物的认识。,2023/3/31,7,统计学:是研究如何收集准确可靠的资料和选择正确方法进行整理分析的科学。,医学统计学:根据统计学的原理和方法,研究医学数据的收集、表达和分析的一门应用学科。,2023/3/31,8,Statistics:“a science dealing with the collection,analysis,interpretation and presentation of masses of numerical data”-Webster 国际大辞典,统计学
4、是收集、分析、解释与呈现数据资料的一门科学。,2023/3/31,9,Statistics:,The science and art of dealing with variation in data through collection,classification and analysis in such a way as to obtain reliable results(JM Last).The discipline concerned with the treatment of numerical data derived from groups of individuals(P.
5、Armitage).,2023/3/31,10,为什么要学习医学统计学?,医学研究的对象是人或生物体,具有较大的生物变异性,并受许多社会心理因素的影响。借助统计分析,可透过偶然现象认识其内在的规律性。一个科学结论,除了理论机制的阐述外,还要有一定数量的重复观察结果和合理的对照等。,2023/3/31,11,乙药是否比甲药有效?,为什么要学习医学统计学?,2023/3/31,12,要求设立具有可比性的对照组,某文献报道:用某种中草药治疗玫瑰糠疹,有效率为78%,平均疗程为3周左右。问此药治疗玫瑰糠疹的确有效吗?,玫瑰糠疹具有自然治愈的情况,一般不服药,多喝水,到3周左右有些患者也会自愈。,202
6、3/3/31,13,样本例数问题,用某药治疗某病,治疗2例均有效,能说100%有效吗?用某药治疗某病,治疗10例,其中9人有效,能说90%有效吗?“阳性”结果是否是虚假联系?“阴性”结果是否是样本含量不足?有人曾对发表在Lancet,N Engl J Med,JAMA等著名医学杂志上的71篇阴性结果的论文作过分析,发现其中有62篇(93%)可能是由于样本含量不足造成的假阴性。,2023/3/31,14,某处报导:“据统计,城市人的寿命要比农村少5年。湖北地区曾调查了90岁以上的长寿者125人,其中住在城市的占24,农村占76。可能城市的紧张生活及噪音对寿命均有影响”。你认为这个结论对不对,并说
7、明理由。,相对数的问题,15,为什么要学统计学?,1.采用统计学方法,发现不确定现象背后隐藏的规律2.用统计学思维方式考虑有关医学研究中的问题3.保证你的研究论文能通过统计学审查4.获得循证医学证据的主要手段,2023/3/31,16,学习医学统计学的用途,累计和表达经验:将积累的经验从感性认识上升到理性认识(如阑尾根部化脓及穿孔手术50例分析)。完成科研工作:如何分组?分组是否有可比性?样本含量是否足够?实验结果的误差有多大?研究结果是否可推广?研究报告如何撰写?阅读医学书刊:继续教育的需要;识别他人研究结果的可靠性。,2023/3/31,17,第二节 医学统计的基本概念,同质与变异 总体与
8、样本 抽样 误差及种类变量及其分类 概率与频率,2023/3/31,18,2023/3/31,19,2023/3/31,20,一、同质和变异(homogeneity,variation),观察单位:observationunit。由根据研究目的而确定,是统计研究中最基本的单位。同质:是指被研究指标的可控制影响因素相同或基本相同。例:研究儿童的身高:易控制的因素(性别、年龄、身高、地区,等)、不易控制的因素(遗传、营养,等)变异:同质的基础上的个体差异。如某年某地7岁男孩的身高。,2023/3/31,21,医学研究中同质的重要性,组间具有可比性是指对比组之间除对比因素外,其他特征基本相同,即所谓
9、组间均衡。组间均衡,则差异有统计学意义的结果可解释为对比因素的作用;否则,差异有统计学意义的结果不能解释为对比因素的作用,因为其他因素也可能造成组间差异。,2023/3/31,22,二、总体与样本(population and sample),总体:根据研究目的确定全部同质个体,这些个体的某项变量值。研究1999年某农村地区14岁女孩身高研究糖尿病人的血压测量值总体有三大特点:同质性 大量性 差异性,2023/3/31,23,样本sample,样本:根据随机化原则从总体中抽出有代表性的一部分观察单位。样本含量:样本包含的观察单位数 统计推断:用样本推断总体的特征,2023/3/31,24,有限
10、总体 finite population,在确定的时间、空间范围内有限个观察单位的总体。如:调查某地1999年正常成年男子的红细胞数。观察对象:该地1999年的正常成年男子;观察单位:每个人;同质:同一地区、同一年份、同一性别、同为正常人、同为男性。观察值(变量值):每个人测得的红细胞数;总体:该地1999年的正常成年男子的红细胞数。又如:暨南大学大学生近视发病率,2023/3/31,25,无限总体infinite population,无时间和空间范围限制的总体,此总体是抽象的,观察单位数是无限的。如:研究用某药治疗缺铁性贫血的疗效。同质:贫血患者、同时使用某药治疗;总体:使用该药治疗的所有
11、贫血患者的治疗效果,无时间和空间的限制。,2023/3/31,26,Target population and accessible population:,Target population:研究者最想推论的真正的群体(称为目标总体),常常是不可得,是研究者理想上的选择。Accessible population:研究者真正能将研究结果推论到的群体(称为可及总体),是研究者实际拥有的选择。target population:well suited to the research questionaccessible population:representative of the targe
12、t population and easy to study,2023/3/31,27,Target population and accessible population:,例如:计算机辅助教学对于广州地区小学一、二年级(target population)学生阅读成就的影响。而暨南大学附属小学的一二年级学生是accessible population;一二年级中10的学生是样本。,2023/3/31,28,总体与样本的关系,2023/3/31,29,推论与外部效度,推论(generalize):将某个研究的发现应用在该研究的人物或情境之外。外部效度(external validity):
13、研究结果能推论到怎样的程度,就是该研究的外部效度。总体可推论性(population generalizability):样本可以代表总体的程度,若研究结果只适用该研究所使用的样本(如样本太小),则研究发现的用处受到限制。生态可推论性(ecological generalizability):研究结果可以被延用到其它的情境或状况的程度。,2023/3/31,30,抽样:从总体中抽取样本的过程。,代表性:样本中的每一个个体必须符合总体的规定。如研究1999年某农村地区14岁女孩身高。随机性:保证总体中的每个个体有相同的机会被抽作样本。方法有:抽签、机械抽样、分层抽样、随机数字表。可靠性:实验的结
14、果要具有可重复性。由于个体之间存在差异,只有观察一定数量的个体才能揭示客观规律性。,2023/3/31,31,非随机抽样法(非概率抽样),方便抽样:依赖于可以纳入样本的可获得性的研究对象。速度快、简单。通常不能很好的代表总体目标人群。定额抽样:对人群要素的特征做了规定,并从满足这些特征的人群中抽取合适比例作为样本。花费少,简单,方便。缺乏代表性。目的抽样:基于对总体的了解以及研究的特殊目的,研究者根据对人群要素的代表性或者主要特征的判断和研究目的选择样本。滚雪球抽样:依赖于一些能将其他相关的研究对象纳入研究的信息。例如,感染HIV/AIDS的人或者吸毒的人。,2023/3/31,32,三、参数
15、与统计量,参数 parameter:总体的指标统计量 statistic:根据样本变量值计算出来的指标,2023/3/31,33,四、误差:观察值与真实值之差,随机误差:,过失误差(非系统误差),随机测量误差:,抽样误差,系统误差,非随机误差:,2023/3/31,34,各类误差含义:,系统误差:由于仪器、试剂未经校正,使观察结果倾向性的偏大或偏小所产生的误差。,过失误差:由于观察过程中不仔细造成的错误判断或记录。,随机测量误差:各种偶然因素(电压、环境温度等)的影响造成同一对象多次测定的结果不完全一样。或同一样品不同观察者之间的差异。该误差不可避免,但要控制在容许范围内。,抽样误差:在排除了
16、系统误差,控制了随机测量误差后,由于抽样过程造成的样本指标与总体指标之间的差异。该误差不可避免。原因:个体差异的存在。,2023/3/31,35,系统误差、随机测量误差准确性、精确性,2023/3/31,36,随机现象与随机事件,随机现象:在相同的条件下,重复进行试验,每次的结果未必相同,且将来的结果事前不能完全肯定。如:用相同治疗方法治疗某病的一群患者,治疗转归可能为治愈、好转、无效、死亡四种情况。如第1次治疗100例某病病人,得治愈率为70%,第2次治疗另外100例该病病人,治愈率一定会为70%吗?对一个刚人院的该病患者,治疗后究竟发生哪种结果是不确定的。随机事件:随机现象发生的结果。如某
17、病人治疗后只会发生上述四种情况中的1种。,2023/3/31,37,产生随机现象的原因:,由个体差异和偶然测量误差引起,统称随机误差随机误差不可避免,但有统计的规律性,2023/3/31,38,五、概率与频率,概率 probability:描述随机事件(可能发生也可能不发生的事件)发生可能大小的量。数值介于0与1之间波动,用P表示。将P0.05,或P0.01,称为小概率事件。表示在一次实验或观察中该事件发生的可能性很小,可视为很可能不发生。频率 frequency:重复作N次试验,M是N次试验中事件A发生的次数,则频率为:M/N。,2023/3/31,39,频率与概率的关系:,抛掷硬币的历史试
18、验记录,当样本含量较大时,可将频率作为概率的估计值,2023/3/31,40,第三节 统计资料的类型,变量 variable:观察单位的某项特征变量值 value of variable:变量的观察结果。如:研究某市某年7岁男孩的身高统计资料的类型分为三种数值变量资料分类变量资料二项分类多项分类等级资料,2023/3/31,41,变量的类型,数值变量(numerical variable):变量值表现为数值的大小,通常有度量衡单位。身高(cm)、脉搏(次/分)、血红蛋白(g%),分类变量(categorical variable):表现为互不相容的类别或属性。各类别之间无程度上的差别。如:性别
19、、血型、有效和无效。,等级资料(rank data):测量值不能准确定量,仅能大致分为几个等级。各等级之间有程度上的差别。如:化验结果按-,+,+,+等级分组。,变量间的转化:血红蛋白等。,2023/3/31,42,数值变量:numerical variable,数值变量均可通过对观察单位测量取得数值,其值一般有度量衡单位。如身长(cm)、体重(kg)、脉搏(次/分)、血压(kPa)。虽然如脉搏、白细胞计数等测量值只能是正整数,但为研究方便习惯上也视为连续变量。数值变量资料也称作计量资料,measurement data;定量资料,quantitative data。,2023/3/31,43
20、,分类变量:categorical variable,表现为互不相容的类别或属性,各类别之间无程度上的差别,分类变量的可能取值是离散的。如:性别、血型、有效和无效。分类变量资料的分析:一般先按类别汇总,然后清点各类的观察单位数,列出分类变量资料的频数表。分类变量资料称为分类资料,categorical data;或定性资料,qualitative data。,2023/3/31,44,分类变量续,无序分类(计数资料)unordered categories 变量值间没有大小、强弱、好坏等程度之分。二项分类:如性别分为男、女;虫卵化验结果分为阴性、阳性等。多项分类:如人群血型的A、B、O、AB等
21、。将无序变量的类别用数字表示,如性别:1:男性 2:女性 称为指示变量,2023/3/31,45,等级资料(有序分类)ordinal categories,变量值间有大小、强弱、好坏等程度之分。如:疗效可分为:治愈、显效、好转、无效尿蛋白化验结果分为:一、+、+、+,2023/3/31,46,各类变量间的互相转化,有序分类变量转化为数值变量:如:治愈3、显效2、好转l、无效0数值变量也可转化为分类变量:如:按血压测量值大小将血压分为:低血压、正常、高血压 或正常、异常,2023/3/31,47,第四节 统计工作的基本步骤,设计搜集资料整理资料分析资料,2023/3/31,48,一、设计(des
22、ign),医学科研设计按是否对 研究对象施加干预分为:实验设计和调查设计。所谓设计就是关于研究计划方案的制定,任一项研究,除专业设计之外,还应包括统计设计,如果设计出现错误,那么,不论用什么统计分析方法进行数据处理都无法得到正确的结论。,2023/3/31,49,实验设计必须遵循的基本原则:,随机化原则(randomization)对照原则(control)重复原则(replication),2023/3/31,50,医学论文统计设计方面存在的常见问题,组间的可比性问题对照的设立问题 只有设立除处理因素之外其他实验条件相同(或基本相同)的对照组,才能说明处理组的干预措施有无作用。样本含量的问题
23、:样本代表性问题:对象的选择与标准?医学伦理学问题:世界医学大会赫尔辛基宣言,2023/3/31,51,二、搜集资料(data collection),(一)统计数据来源渠道1.统计数据的直接来源(1)来源于为管理和研究需要而专门组织调查(2)来源于科学实验方法2.统计数据的间接来源(1)内部资料的收集业务资料:统计资料:疾病分类报表财务资料:内部积累的其他资料:如病历,X光片(2)外部资料的收集:年鉴,政府报告等,2023/3/31,52,Source of data,Primarycollect original data by the researcher him or herselfS
24、econdaryuse existing dataTertiaryuse existing studies,2023/3/31,53,(二)统计数据的收集组织形式,1.统计报表制度2.普查 3.典型调查4.重点调查5.抽样调查,2023/3/31,54,(三)数据资料的收集方法,1.直接观察法 2.报告法 3.采访法 4.邮寄法 5.电话访问6.网上调查:电子邮件法视讯会议法站点法7.计算机辅助调查(Computer Assisted Interviewing):计算机辅助的电话调查(CATI)计算机辅助的个人访问调查(CAPI)计算机辅助的填报调查(CASI),2023/3/31,55,三、
25、整理资料(data sorting),使原始数据条理化,便于进一步的计算和分析。对资料进行检查、核对设计分组:质量分组、数量分组按分组要求设计整理表。,2023/3/31,56,四、分析资料(data analysis),按设计的要求,根据研究目的和资料的类型,对整理出的基础数据作进一步的计算分析和统计处理,并用适当的统计图表表达出来,最后结合专业做出结论。,2023/3/31,57,国际通用统计软件包,SAS(Statistical Analysis System)SPSS(Statistical Package for the Social Science)BMDP(Biomedical
26、Computer Programs)GLIM(Generalised Linear Interactive Modelling)Genstat(General Statistical Program)EpilogMinitab,2023/3/31,58,学习中应注意的问题,应多联系实际,结合专业,分析评价实际工作、医学文献和医学科研中的统计问题,才能学好医学统计学。要能够应用恰当的统计方法处理各种数据,对统计公式主要了解其意义、用途和应用条件,不必深究其数学推导。,2023/3/31,59,不能仅凭表面数字上的差异就下结论,掌握医学统计学的基本知识、基本技能、基本概念和基本方法。建立逻辑思维方
27、法和提高分析问题的能力。懂得假设检验的逻辑推理,理解统计结论的概率性。,2023/3/31,60,反对伪造和篡改统计数字,掌握调查设计和实验设计的原则,培养收集、整理、分析统计资料的系统工作能力。重视原始资料的完整性和准确性,对数据处理持严肃、认真、实事求是的科学态度,反对伪造和篡改统计数字。,伪造统计数据违反科学道德,1976年New Science 杂志关于科研舞弊行为的调查(1)74%的调查表反映有不正当修改数据 的情况(2)17%拼凑实验结果(3)7%凭空捏造数据(4)2%故意曲解结果,2023/3/31,62,统计学发展简史,古典统计学、近代统计学、现代统计学统计学发展过程中出现过几
28、次重大的争论:“政治算术”与“国势学”的争论,明确了统计学的学科性质;“描述统计学”与“推断统计学”的争论,构筑了统计学的完整体系;“经典统计学”与“贝叶斯统计学”的争论,带来了统计哲学观的新变化;信念统计学与经典统计学、贝叶斯统计学的争论,使统计推断科学化问题的研究日趋深入。正是通过这些争论完善了现代统计学的思想和方法体系。,2023/3/31,63,“政治算术”与“国势学”之争,17 世纪中叶,以英国的配第(E Petty)和格朗特(J Grant)为代表创立的“政治算术”,标志着统计学的诞生。首次出现了有意识地用大量的数字资料说话,注重从数量角度探讨社会经济现象规律的活动。与“政治算术”
29、产生的时期差不多,在德国也出现了一门“统计学”“国势学”。“国势学”主要研究“国家的有关显著事项”,其主要特征是对问题的研究和阐述,基本上采用文字记述和逻辑比较,那么它之所以也被认为是统计学,在很大程度上是因为“国势学”发展到顶峰时期的代表性人物阿肯瓦尔(G Achenwall)给它起了一个新名称“STATISTIK”,2023/3/31,64,到1850 年,德国人克尼斯(G A Knies),根据当时统计学发展的实践,概括大多数人的意见,认为“国势学”尽管有统计学之名但没有统计学之实,应该仍叫“国势学”,而“政治算术”虽然没有统计学之名但有统计学之实,所以“政治算术”才称得上是统计学的真正
30、起源。统计史上,一般把克尼斯“独立科学之统计学”一文的发表,作为“政治算术”和“国势学”争论的结束。,2023/3/31,65,“描述统计学”与“推断统计学”之争,从19 世纪中后期到20 世纪前半叶,是统计学发展过程中一个非常重要的时期。一方面是兴起于生物遗传学、农业田间试验等领域的“生物统计学”的发展,另一方面是建立在“小样本”观察基础上的统计推断方法的发展。,2023/3/31,66,生物统计学的创立,是英国人高尔顿(F Galton)最早创立的,为了研究人的智力遗传和进化规律,高尔顿在伦敦开设了“人体测量研究所”,广泛招募志愿人员,采集到大量的有关人的自然属性的资料。先后出版了两本著作
31、,一本是关于人的能力及其发展问题,另一本是遗传的自然规律。在这两本书及相关的论文中,高尔顿提出了诸如“相关”、“回归”、“中位数”、“四分位数”、“四分位数差”、“百分位数”等概念和计算方法。,2023/3/31,67,皮尔逊(K Pearson)对统计学发展的贡献:,皮尔逊是高尔顿的学生,他全面继承和发展了高尔顿的统计相关与回归思想,并建立了相应的数学基础。1893年提出了标准差 1900年提出了卡方检验根据他的儿子 E 皮尔逊(E Pearson)的总结,主要体现在这么几个方面:(1)提出和研究了复相关、偏相关的问题,(2)提出了似然函数、矩估计方法,(3)导出了重要的卡方分布,(4)研究
32、了许多概率分布曲线等。高尔顿、皮尔逊为在开展生物遗传学研究的同时,提出了许多处理变异数据的统计方法,统计史上一般把他们的工作称作描述统计学。,2023/3/31,68,戈塞特(W S Gosset),自德国牧师苏歇米尔斯(J Susmilch)首倡大量观察到19 世纪末二十世纪初的大约一个半世纪里,大量观察法一直是统计认识思想的核心,并被理所当然地接受下来。最先对这一理论发起挑战的是戈塞特(W S Gosset),基于在酿酒公司多年的实验观察,戈塞特洞察到大样本统计方法并不适用于所有场合,有的时候人们还只能根据少量观察就必须做出结论经过多年的潜心研究,戈塞特终于在1908 年导出了重要的t 分
33、布,这是小样本统计推断的基石。以此为标志,统计学逐渐由描述统计学向推断统计学过度。,2023/3/31,69,费暄(R A Fisher),费暄(R A Fisher)是推断统计学的建立者,他在统计学上有着崇高的地位,对统计学的许多领域进行了深入独到的研究,开辟了方差分析、试验设计等统计学研究的理论分支,论证了戈塞特相关系数的抽样分布,提出了t 分布检验、F 分布检验、相关系数检验,并编制了相应的检验概率表。由于费暄的突出贡献,统计史上一些人把费暄所处的时期,称为“统计学的费暄时代”,2023/3/31,70,临床干预试验、以及国内的发展,1948年,英国发表了评价链霉素治疗肺结核疗效的随机对
34、照的临床试验报告,第一次采用生物统计方法进行临床干预试验。1948年,郭祖超教授(19121999)编著的医学与生物统计方法,是我国第一部医学统计方法的教科书。,Fancy statistical methods cannot rescue garbage dataFancy statistical methods can help you gain insight into your data,over and above what seems obvious on its faceYou should always worry about whether the sampled results are representative of the population,and whether your sample allows you to make inferences about the population.,A Warning!,