《心理测量学知识效度.ppt.ppt》由会员分享,可在线阅读,更多相关《心理测量学知识效度.ppt.ppt(54页珍藏版)》请在课桌文档上搜索。
1、2024/1/3,1,心理测量学知识,2024/1/3,2,第五章 心理测量学知识,第一节概述 第二节测验的常模 第三节测验的信度 第四节 测验的效度 第五节 项目分析 第六节 测验编制的一般程序 第七节 心理测验的使用,2024/1/3,3,第四节 测验的效度,第一单元 效度的概念第二单元 效度评估的方法第三单元 效度的功能第四单元 影响效度的因素。,2024/1/3,4,在心理测验中,效度是指所测量的与所要测量的心理特点之间符合的程度,或者简单地说是指一个心理测验的准确性。效度是科学测量工具最重要的必备条件,没有效度资料的测验是不能选用的。,第一单元 效度的概念,一、效度的定义,效度的定义
2、也可以通过真分数的概念和方差分析方法加以说明。我们知道,一组测验分数的:总方差真实方差误差方差 有关方差无关稳定方差误差方差 即:S2X=S2V+S2I+S2E 在测验理论中,效度被定义为在一组测量中,与测量有关的真实方差(有效方差)与总方差的比率。效度为:r2xyS2VS2X,第一单元 效度的概念,在测量理论中,信度被定义为:一组测量分数的真分数方差与总方差的比率。rxx=S2T/S2x 在测验理论中,效度被定义为:在一组测量中,与测量有关的真实方差(有效方差)与总方差的比率。效度为:r2xyS2VS2X所以,信度受随机误差影响,效度受随机误差和系统误差影响。可信的测验未必有效,有效的测验一
3、定可信。信度是效度的必要条件。,第一单元 效度的概念,2024/1/3,7,(一)效度具有相对性任何测验的效度都是对一定的目标来说的。测验只有用于与测验目标一致的目的和场合才会有效。测验不是万能的,只对特定心理属性有效。评鉴测验效度时,必须考虑其目的与功能。,第一单元 效度的概念,二、效度的性质,2024/1/3,8,(二)效度具有连续性测验效度通常用相关系数表示,它只有程度上的不同。没有“全有”“全无”的区别。评价一个测验不应该说“有效”“无效”,应该用“效度较高或较低”来评价。效度是针对测验结果的。测验效度是“测验结果”有效性程度。,第一单元 效度的概念,二、效度的性质,2024/1/3,
4、9,效度是针对测验结果的。信度是效度的必要条件而非充分条件。效度是受信度制约的。,第一单元 效度的概念,二、效度与信度的关系,信度和效度的关系可以用射击靶环来形象地说明。图1:弹着点十分分散,既不稳定也不准确,可视信度和效度均不高;图2:弹着点虽然集中,弹偏离靶心,准确性差,可视信度高但效度低;图3:弹着点全部集中在靶心,说明稳定性和准确性都好,可视信度和效度均高。,学了,就知道了!1、什么是效度?效度是指所测量的与所要测量的心理特点之间符合的程度,或者简单地说是指一个心理测验的准确性。2、信度与效度的关系?信度受随机误差影响,效度受随机误差和系统误差影响。可信的测验未必有效,有效的测验比可信
5、。信度是效度的必要条件。3、效度的性质?相对性、连续性4、用什么评价一个测验的效度?不应该说“有效”“无效”,应该用“效度较高或较低”来评价。,第一单元 效度的概念,2024/1/3,12,第四节 测验的效度,第一单元 效度的概念 第二单元 效度评估的方法第三单元 效度的功能第四单元 影响效度的因素,1974年美国心理学会发行的教育与心理测量的标准,将效度分为:内容效度、构想效度、效标效度,2024/1/3,14,(一)什么是内容效度测验题目对有关(心理)内容或行为取样的适用性,从而确定测验是否是所欲测量的行为领域的代表性取样。若测验题目是行为范围的好样本,则推论将有效;若选题有偏差,则推论将
6、无效。这种测验的效度主要与测验内容有关,所以称内容效度。考察测验对描述人的行为和特征的代表性如何?,第二单元 效度评估的方法,一、内容效度(content-related validity),如何编制有较高内容效度的心理测验?首先要对要对所欲测量的心理特性有个明确的概念,并确定哪些行为与之有关。.测验题目应是所界定的内容范围的代表性取样。必须对内容范围进行系统分析;把整个范围区分细目,对每个细目进行加权;根据权数从每个细目中做随机取样。注意:要求内容效度的测验,并不一定要求测验为同质。除非测验是用来测量某一心理特质时,则高度的同质性是需要的。,第二单元 效度评估的方法,2024/1/3,16,
7、第二单元 效度评估的方法,一、内容效度(content-related validity),(二)内容效度的估计方法:专家判断法 统计分析法 经验推测法,2024/1/3,17,专家判断法定义:请有关专家对测验题目与原定内容的符合性作出判断,看测验题目是否代表规定的内容。这个过程是一个逻辑分析的过程,所以也叫逻辑效度(logical validity)。,第二单元 效度评估的方法,一、内容效度,2024/1/3,18,专家判断法专家评定前的准备:1、定义好测验内容的总体范围,描述有关的知识与技能及所用材料的来源;2、编制双向细目表,确定内容和技能各自所占的比例,每个题目测什么内容和技能;3、制
8、定评定量表来测量测验的整个效度;最后,由每位评判者在评定量表上作出判断,获得测验内容效度的证据。,第二单元 效度评估的方法,一、内容效度,2024/1/3,19,定义:采用统计分析的方法确定内容效度。具体方法:1、计算两个评分者之间评定的一致性:这是评分者信度。两个评分者的分数是独立的,符合程度越高,内容效度越高。2、两个测验复本上得分之相关:这是复本信度。若相关低,至少有一个缺乏内容效度,相关高,则可推论有内容效度,也有例外,两个测验取样都同向偏差,出现虚假相关。3、再测法也可用于内容效度的评估:先测、学习、再测,成绩提高,说明测的是学习的知识,测验有内容效度。,第二单元 效度评估的方法,一
9、、内容效度,统计分析法,2024/1/3,20,这种效度是通过实践来检验效度。如儿童发展量表,不同年龄段的儿童得分应该随着年龄增长而增加。进行测验,分析结果,如果通过率确实随着年龄的增加而增加,就可以推测该测验有内容效度。,第二单元 效度评估的方法,一、内容效度,经验推测法,2024/1/3,21,不是普遍适用的,是根据具体情况分析得来:测验分析者和使用者定义的内容和范围相同,测验编制者报告的内容效度才有意义。有时间上的特定性:适合过去的,未必符合现在。内容效度与表面效度不同:表面效度是由外行对测验做表面上的检查确定的,它不反映测验实际测量的东西。内容效度是由够资格的专家详尽地、系统地对测验作
10、评价而建立的。编制测验时,必须考虑表面效度。如:最高行为测验要有较高的表面效度;典型行为测验要求较低的表面效度。,第二单元 效度评估的方法,一、内容效度,(三)内容效度的特性,2024/1/3,22,(一)什么是构想效度:结构效度、构思效度指测验能够测量到理论上的构想或特质的程度,即测验的结果是否能证实或解释某一理论的假设、术语或构想,解释的程度如何。构想效度的考察,要回答:1、一个测验要测量什么心理构想?2、测得怎样?3、测验分数中有多少比例的变异数来自测验所欲测之构想?,第二单元 效度评估的方法,二、构想效度(construct-related validity),2024/1/3,23,
11、1、首先,必须从某一构想的理论出发,提出关于某一心理特质的假设;2、设计编制测验,施测;3、对测验的结果采用相关、因素分析等方法进行分析,验证与理论假设的符合程度。如果假设都得到验证,则测验具有较高的结构效度。,第二单元 效度评估的方法,二、构想效度,构想效度的建立:,2024/1/3,24,(二)构想效度的估计方法 1、对测验本身的分析:通过研究测验内部结构来界定理论构想。测验的内容效度可以作为构思效度的证据:根据内容确定构思的性质。比如智力测验,分析每一个分测验所测的特性,就知道这一测验所构思的智力结构。测验的内部一致性指标可以推断测验是测量单一还是多种特质:分半信度、a系数等。分析被试者
12、对题目的反应特点也可以作为构思效度的证据:,第二单元 效度评估的方法,二、构想效度,2024/1/3,25,测验间的相互比较通过分析几个测验间的相互关系,找出共同之处,进而推断这些测验的特质是什么,确定构思效度如何。相容效度是构思效度的一个证据:一个旧测验是有效度证据的,一个新测验是没有效度证明的,两者测同一种特质。计算两种测验之间的相关。相关高,新测验所测特质与旧测验一致性就高,这一相关为相容效度。相容效度高,证明新测验构思效度高。,第二单元 效度评估的方法,二、构想效度,2024/1/3,26,区分效度是构思效度的又一个证据 一个有效的测验不但要与其他测量同一特质的测验有高相关,也要与测量
13、不同构思的测验不相关。这种相关就是区分效度系数,越低,区分度越大。但是区分度大,不能证明测量的就是要测量的结构。但是区分度低就有问题。,第二单元 效度评估的方法,二、构想效度,2024/1/3,27,通过因素分析,可以找到影响测验分数的共同因素,这种因素可能就是我们要测量的特质。从众多测验中找出构成一个大构思的不同因素:可以把因素分析得到的几个共同因素对应的各种测验组合起来构成一个新的测验,如果这些因素正是我们期望的,与原来的理论构思一致,则说明构思效度很高。因素分析在一个测验内部使用:根据理论组织题目,施测,因素分析,验证测验是否由原来的假设组成。这也是构思效度的验证方法。,第二单元 效度评
14、估的方法,二、构想效度,因素分析法也是建立构思效度的常用方法,2024/1/3,28,效标效度的研究证明:一个测验若效标效度理想,那么该测验的效标的性质、种类就可以作为分析测验构思效度的指标。首先,可以根据效标先取不同的被试分成相对照的两组,进行测验,比较两组测验成绩。测验成绩将两组有效地分开,则说明构思效度好。也可以,先测验,根据测验分数分成高、低两组,再比较被试的行为特点或心理特质,看是否与我们的理论构思吻合,吻合,说明该测验的构思效度好。心理发展变化规律也是证实构思效度的方法。,第二单元 效度评估的方法,二、构想效度,2024/1/3,29,实验法和观察法证实:观察实验前和实验后分数的差
15、异,也是验证构思效度的方法。,第二单元 效度评估的方法,二、构想效度,2024/1/3,30,定义:也叫实证效度。反映的是,测验预测个体在某种情境下行为表现的有效性程度。被预测的行为是检验效度的标准,简称效标。这种效度是看测验对效标预测得如何,所以叫效标效度。往往需要在实践中检验,也叫实证效度。根据效标资料与测验分数是否同时获得,又可分为同时效度和预测效度。两者区别:不是来源于时间,而是测验目的。同时效度与用来诊断现状的测验有关,后者与预测将来结果的测验有关。,第二单元 效度评估的方法,三、效标效度(criterion-related validity),2024/1/3,31,好的效标必须具
16、备的条件:效标必须能够最有效地反映测验的目标,即效标测量本身必须有效;效标必须具有较高的信度,稳定可靠,不随时间等因素而变化;效标可以客观地加以测量,可用数据或等级来表示;效标测量的方法简单,省时省力,经济实用。一般来讲,智力的效标:学业成绩、教师的评定。个性问卷效标:教师评定、医生诊断等。能力倾向效标:特殊课程或训练的成绩。,第二单元 效度评估的方法,2024/1/3,32,效标效度的评估方法相关法:相关法是评估效标效度最常用的方法,它是求测验分数与效标资料间的相关,这一相关系数称为效度系数。其计算方法:积差相关法:计算效度系数最常用的是积差相关法。因为通常测验分数与效标资料都是连续变量。点
17、二列相关:测验成绩是连续变量,而效度资料是真正的二分称名变量时。二列相关:测验成绩是连续变量,而效度资料也是连续变量,被人为地分为两个类别,变成二分称名变量时。Juspen多系列相关:测验分数为连续变量,效标资料为等级评定时。,第二单元 效度评估的方法,2024/1/3,33,效标效度的评估方法区分法:是检验测验分数能否有效地区分由效标所定义的团体。公式:见书363页组间平均数差异的显著性,取决于团体的大小,团体较大时,平均数的小差异,在统计上也有意义。这是没有意义的,怎么避免呢?,我们(1)分析高分组与低分组分布的重叠量,(2)或者计算每一组内得分超过(或低于)另一组平均数的人数百分比,(3
18、)或者计算两组分布的共同区的百分比。重叠量越大,说明两组分数差异越小,即测验的效度越差。,第二单元 效度评估的方法,2024/1/3,34,效标效度的评估方法命中率法:命中率法是当测验用来做取舍的依据时,用其正确决定的比例作为效度指标的一种方法。使用时,将测验分数确定一个临界分数,高于临界分数者预测其成功,低于临界分数者预测其失败。效标资料根据实际工作成绩确定一个合格标准,标准之上为成功,标准之下为失败。有4种结果:预测成功实际也成功;预测失败实际也失败(预测正确,命中)。预测成功实际失败,预测失败实际成功(预测不正确,失误)。,第二单元 效度评估的方法,2024/1/3,35,效标效度的评估
19、方法命中率的计算方法:(1)计算总命中率:Pct命中(命中失误)(2)计算正命中率:Pcp命中成功测验成功,第二单元 效度评估的方法,2024/1/3,36,学,才能知道!1、效度评估方法有哪些?内容效度、构想效度、效标效度2、什么是内容效度?测验题目对有关内容或行为取样的适用性,从而确定测验是否是所欲测量的行为领域的代表性取样。3、内容效度的评估方法?专家判断法、统计分析法、经验推测法4、统计分析法有哪些?计算评分者的一致性、复本相关、再测法。,第二单元 效度评估的方法,2024/1/3,37,不学,也知道吗?5、内容效度和表面效度的区别?表面效度是由外行对测验做表面上的检查确定的,内容效度
20、是由够资格的判断者(专家)详尽地、系统地对测验作评价而建立的。6、最高行为测验的效度要求?典型行为测验呢?要有较高的内容效度和表面效度;要求较低的表面效度。7、构想效度的的估计方法?对测验本身的分析、测验间的相互比较、效标效度的研究证明、实验法和观察法证实。8、效标效度的评估方法?相关法、区分法、命中率法,第二单元 效度评估的方法,2024/1/3,38,第四节 测验的效度,第一单元 效度的概念第二单元 效度评估的方法 第三单元 效度的功能第四单元 影响效度的因素,2024/1/3,39,效度系数的实际意义常常以决定性系数来表示,意旨相关系数的平方,它表示测验正确预测或解释的效标的方差占总方差
21、的比例。例如测验的效度是0.8,则测验的总方差中有64的方差是测验分数的方差。即测验分数正确预测的比例是64,有36无法做出正确的预测。,第三单元 效度的功能,一、预测误差,第三单元 效度的功能,另一种表达方法是估计的标准误,简写为Sest,它是指所有具有某一测验分数的被试其效度分数(Y)分布的标准差,也即预测误差大小的估计值,是对真正分数估计的误差大小。估计的标准误的计算公式:,SestSy1r2xy,r2xy代表效度系数的平方,即决定系数。Sy为效标成绩的标准差。当效标完美时(r2xy 1.00),估计标准误是0,测验分数可以完全取代效标。当测验效度为0时,估计标准误与效标分数的分布标准差
22、相等。测验无异于猜测。,第三单元 效度的功能,估计的标准误的解释:真正效标分数落在预测效标分数1 Sest的范围内,有68的可能性;真正效标分数落在预测效标分数1.96 Sest的范围内,有95的可能性;真正效标分数落在预测效标分数2.58 Sest的范围内,有99的可能性。,2024/1/3,42,如果X与Y两变量成直线相关,只要确定出两者间的回归方程,就可以从一个量预测另一个量。在测验工作中,人们感兴趣的是从测验分数预测效标成绩,因此最常用的是Y对X的回归方程。见书365,第三单元 效度的功能,二、预测效标分数,2024/1/3,43,公式 SestSy1r2xy中的1r2xy称作无关系数
23、,以K表示,K值大小表明预测源分数与效标分数无关的程度。1k可以作为预测效率的指数,用E表示:E100(1K)E值大小表明使用测验比盲目猜测能减少多少误差。例如:一个测验的效度系数为0.8,那么K 1r2xy 0.60,E40,表明预测误差为随机猜测误差的60。,第三单元 效度的功能,三、预测效率指数,您知道的!1、测验的效度是0.8,则测验的总方差中百分之多少的方差是测验分数的方差?642、真正效标分数落在预测效标分数1 Sest的范围内,有多大的可能性?1.96 Sest的范围内呢?2.58 Sest的范围内呢?68 95 993、效度系数为0.8,预测效率指数是多少?40,2024/1/
24、3,45,第四节 测验的效度,第一单元 效度的概念第二单元 效度评估的方法第三单元 效度的功能 第四单元 影响效度的因素,影响效度的因素很多,能产生随机误差和系统误差的因素都会降低测验的效度。,2024/1/3,47,测验取材的代表性、测验长度、试题类型、难度、区分度以及编排方式等,都影响效度。,第四单元 影响效度的因素,一、测验本身的因素会影响效度,2024/1/3,48,要想保证测验具有较高的效度,要做好:测验材料必须对整个内容具有代表性;测题编制时应尽量避免容易引起误差的题型(是非题);测题难度要适中,具有高度的区分度;测验长度要恰当,要有一定的测题量;测题的排列按先易后难顺序,第四单元
25、 影响效度的因素,一、测验本身的因素会影响效度,2024/1/3,49,(一)主试的影响因素测验过程、指导语、时间、评分等测验、效标获得的时间间隔影响效标效度测验的情境:(二)被试的影响因素被试在测验时的兴趣、动机、态度、反应定势等。,第四单元 影响效度的因素,二、测验实施中的干扰因素,2024/1/3,50,(一)样本团体的异质性与信度系数一样,如果其他条件相同,样本团体越同质,分数分布范围越小,测验效度越低;样本团体越异质,分数分布范围越大,测验效度越高。影响异质性的情况:(1)以选拔上的被试为样本;(2)选拔标准太高。,第四单元 影响效度的因素,三、样本团体的性质,2024/1/3,51
26、,(二)干涉变量不同性质的团体,测验效度不同。这些性质包括:年龄、性别、智力、动机等等。这些特征使测验对于不同团体有不同的预测力,测量学上称其为干涉变量。,第四单元 影响效度的因素,三、样本团体的性质,2024/1/3,52,(二)干涉变量如何确定干涉变量呢:用回归方程求得每个人的预测效标分数,与实际小表分数比较,差值大,测验中可能存在干涉变量;根据样本组成分析,找出对照组,分别计算效度,找出干涉变量对于预测团体,根据容易发现的干涉变量分成预测性高、低两组。,第四单元 影响效度的因素,三、样本团体的性质,2024/1/3,53,效标效度是以测验分数与效标测量的相关系数来表示的,所以效标性质很重
27、要。效标与测验分数之间是否是线性关系。是线性关系,才能用皮尔逊积差相关求效度系数,这是前提,否则会低估;效标测量本身的可靠性也很重要。效标测量的可靠性即效标测量信度。,第四单元 影响效度的因素,四、效标的性质,您知道了!1、效标测量本身的可靠性也很重要。效标测量的可靠性即效标测量的?信度2、效标与测验分数之间是否相关,可以用皮尔逊积差相关求效度系数,实用的前提是什么?效标与测验分数之间是否是线性关系3、样本的性质如:年龄、性别、智力、动机等特征使测验对于不同团体有不同的预测力,测量学上称其为什么?干涉变量4、如果其他条件相同,样本团体越同质,分数分布范围越小,测验效度越();样本团体越异质,分数分布范围越大,测验效度越()?低、高。,