《心理咨询师三级考试教材培训课件(心理测量学).ppt》由会员分享,可在线阅读,更多相关《心理咨询师三级考试教材培训课件(心理测量学).ppt(103页珍藏版)》请在课桌文档上搜索。
1、心理测量学知识,讲课内容,第一节概述第二节 测验的常模 第三节测验的信度 第四节 测验的效度 第五节 项目分析 第六节 测验编制的一般程序 第七节 心理测验的使用,第一节 概述,第一单元 测量与测量量表第二单元 心理测验的基本概念第三单元 心理测验的分类第四单元 纠正错误的测验观第五单元 心理测验在心理咨询中的应用第六单元 心理测验的发展史,第一单元 测量与测量量表,什么是测量测量要素测量量表,什么是测量,测量就是依据一定的法则用数字对事物加以确定。从字面上看,该定义包括三个主要的元素:事物;数字;法则。1.“事物”,指的是我们要测量的对象,更准确地说,就是引起我们兴趣的事物的属性或特征。2.
2、“数字”,是代表某一事物或事物某一属性的量。3.“法则”,代表的是测量所依据的规则和方法。,测量要素,任何测量都应该具备这样两个要素:即参照点和单位。参照点:要确定事物的量,必须有一个计算的起点,这个起点叫做参照点。绝对零点 人定的参照点即相对零点单位:是测量的基本要求,没有单位就无法进行测量 确定的意义 有相同的价值,测量量表,测量的本质是根据某一法则将事物数量化,即在一个定有单位和参照点的连续体上把事物的属性表现出来,这个连续体称为量表。量表的四种水平命名量表:代号/类别顺序量表:在顺序量表中,既无相等单位,又无绝对零点,数字仅表示等级,并不表示某种属性的真正量或绝对值。等距量表:不但有大
3、小关系,而且具有相等的单位,其数值可以相互做加、减运算,但没有绝对的零点,因此不能做乘、除运算。等比量表:是最高水平的量表,既有相等单位又有绝对零点。那么,心理测量中使用的量表一般是什么量表呢?一般说来,心理测量是在顺序量表上进行的。,8,量表的四种测量水平,第二单元 心理测验的基本概念,心理测验的定义心理测验的性质,心理测验的定义,所谓心理测验,就是依据心理学理论,使用一定的操作程序,通过观察人的少数有代表性的行为,对于贯穿在人的全部行为活动中的心理特点作出推论和数量化分析的一种科学手段。首先,心理测验测量的是人的行为。其次,心理测验在测量个别差异的时候,往往只是对少数经过慎重选择的行为样本
4、进行观察,来间接推知被试者的心理特征。第三,为了使不同的被试者所获得的分数有比较的可能性,测验的条件对所有的被试者都必须是相同的。第四,个人在测验中所得到的原始分数并不具有什么意义,只有将它与其他人的分数或常模相比较才有意义。,心理测验的性质,心理测量的间接性 迄今为止,我们还无法直接测量人的心理,只能通过测量人的外显行为,即通过测量人们对测验题目的反应来推论出他的心理特质。心理测量的相对性 我们在比较不同人之间的行为或心理特征时,没有绝对的标准,也没有绝对的零点,我们有的只是一个连续的行为序列。心理测量的客观性:1、测验的刺激是客观的2、对反应的量化是客观的3、对结果的推论是客观的,第三单元
5、 心理测验的分类,按测验的功能分类 智力测验、特殊能力测验、人格测验按测验材料的性质分类 文字测验、操作测验按测验材料的严谨程度分类 客观测验、投射测验按测验的方式分类 个别测验、团体测验按测验的要求分类最高作为测验、典型行为测验,第四单元 纠正错误的测验观,错误的测验观测验万能论测验无用论某些人格测验侵犯了个人隐私,违背民主原则测验为宿命论和种族歧视提供了心理学依据 心理测验即智力测验 正确的测验观心理测验是重要的心理学研究方法之一,是决策的辅助工具 心理测验作为研究方法和测量工具尚不完善,第五单元 心理测验在心理咨询中的应用,三种测验在心理门诊中的使用(领会)智力测验:可在求助者有特殊要求
6、时及对方有可疑智力障碍的情况下应用;人格测验:有助于治疗者对求助者人格特征的了解,以便于对其问题有更深入的理解,并可针对性地开展咨询与心理治疗工作;心理评定量表:用于检查求助者某方面心理障碍的存在与否或其程度如何。,第六单元 心理测验的发展史,科学心理测验的产生与发展现代心理测验在我国的发展,科学心理测验的产生与发展(1),首先倡导科学心理测验的学者是英国生物学家和心理学家高尔登(F.Galton),因此他的工作被视为心理测验的开端。此外,高尔登也为心理测验奠定了统计学基础。1890年,卡特尔在心理杂志上发表“心理测验与测量”一文,这是心理测验第一次出现于心理学文献中。并认为心理测验的结果应与
7、常模进行比较。1905年,比内(A.Binet)与其助手西蒙(T.Simon)研究制作了世界上第一个正式的心理测验。,科学心理测验的产生与发展(2),操作测验的发展 由于理论上的缺陷和实际上的需要,所以有操作测验的问世。团体智力测验的发展 团体测验始于第一次世界大战,在推孟的研究生欧提斯所编团体智力测验的基础上发展了陆军甲种和乙种智力测验。能力倾向测验的发展 分析个人心理品质的内部结构,为职业选拔与安置提纲依据。普通能力倾向(智力)测验也向多元化发展。人格测验的发展 测量情感或行为等非智力方面的人格因素。,现代心理测验在我国的发展,我国近代心理测验大约源于1914年前后。本世纪二、三十年代,我
8、国心理学家曾两次修订过比内-西蒙量表。1979年后,全国各地的心理学家组织起多个协作组,先后对国外的广泛采用的智力和人格测量工具进行修订。近些年来我国的心理学家正在致力于测验本土化,编制适合我国文化背景的智力测验,适应行为量表等,并已取得了初步成功。,第二节 测验的常模,第一单元 常模团体第二单元 常模的类型第三单元 常模分数的表示方法,第一单元 常模团体,常模团体的性质常模团体的条件取样的方法常模分数与常模,常模团体的性质,常模团体是由具有某种共同特征的人所组成的一个群体,或者是该群体的一个样本。它用一个标准的、规范的分数表示出来,以提供比较的基础。对测验编制者而言,常模的选择主要是基于对测
9、验将要施测的总体的认识,常模团体必须能够代表该总体。这种工作包括:确定一般总体、确定目标总体、确定样本。对测验的使用者来说,要考虑的问题是,现有的常模团体哪一个最合适。,常模团体的条件,群体的构成必须明确界定 可以用来区分和限定群体的变量是很多的,如性别、年龄、职业、文化程度、民族、地理地域、社会经济地位等。依据不同的变量确定群体,便可得到不同的常模。常模团体必须是所测群体的代表性样本当所要测量的群体很小时,将所有的人逐个测量,其平均分便是该群体的最可靠的常模。在群体较大时,因为时间和人力物力的限制,只能测量一部分人作为总体的代表,这就提出了取样是否适当的问题 样本的大小要适当总体数目小,只有
10、几十个人,则需要100%的样本。如果总体数目大,相应的样本也大,一般最低不小于30或100个。全国性常模,一般应有20003000人为宜。,取样的方法,取样即从目标总体中选择有代表性的样本简单随机抽样:在简单随机抽样中,每个人或抽样单位都有相同的机会作为常模中的一部分。系统抽样:有时在总体数目为N的情况下,若要选择K分之一的被试作为样本,则可以在抽样范围内选择每个第K个人来构成样本。分组抽样:有时总体数目较大,无法进行编号,而且群体又有多样性,这时可以先将群体进行分组,再在组内进行随机取样。分层抽样:它是先将目标总体按某种变量(如年龄)分成若干层次,再从各层次中随机抽取若干被试,最后把各层的被
11、试组合成常模样本。包括分层比例抽样和分层非比例抽样,24,分层抽样,分层比例抽样如果各层抽样的个案数ni是根据各层的个案数Ni占总体数目N的比例决定的,则:其中n是样本容量,N是目标总体数目,Ni是第i层的人数,ni是第i层该抽样的人数,比例就是Ni/N。分层非比例抽样当各层次的差异很大时,就不宜用比例抽样。因为有些层次的重要性大于其他层次,这时应该用非比例抽样方法。Si为各层调查单位的标准差 其它符号同上式。,常模分数与常模,常模分数 常模分数就是施测常模样本被试后,将被试者的原始分数按一定规则转换出来的导出分数。导出分数具有一定的参照点和单位,它实际上是一个有意义的测验量表,它与原始分数等
12、值,可以进行比较 常模常模分数构成的分布,就是通常所说的常模(norm),它是解释心理测验分数的基础。常模有一般常模与特殊常模之分,第二单元 常模的类型,发展常模百分位常模标准分常模智商的计算及意义,发展常模,发展顺序量表智力年龄年级当量,发展常模(1)/发展顺序量表,最直观的发展常模是发展顺序量表,因为它告诉人们多大的儿童具备什么能力或行为就表明其发育正常,相应能力或行为早于某年龄出现,说明发育超前,否则即为发育滞后。最早的一个范例是葛塞尔发展程序表,其中按月份显示出儿童在运动水平、适应性、语言、社会性四个方面的大致发展水平。皮亚杰的研究着重于从婴儿到十多岁儿童认知过程的发展,尤其注重某些特
13、殊概念的形成,其中最著名的工作就是对守恒概念的研究。,29,婴儿感觉运动的发展,4周,能控制眼睛运动,去追随一个对象看16周,能保持头部平衡28周,能用手抓握东西并玩弄它40周,能控制躯干、坐立或爬行52周,能控制腿脚运动、站立和行走,发展常模(2)/智力年龄,方法一:基础年龄与在较高年龄水平的题目上获得的附加月份之和。方法二:将标准化样本中每个年龄组的平均原始分数作为年龄常模。通过将原始分数与年龄常模对比,便可求得每个人的智龄。,31,智龄计算方法,已知某儿童完成比内-西蒙的测题如下:6岁以下 全部通过 7岁 通过4题 8岁 通过3题 9岁 通过2题 9岁以上 均未通过 则:智龄=6岁+42
14、(月)+32(月)+22(月)=6岁+18月=7岁6个月,发展常模(3)/年级当量,年级当量实际上就是年级量表,测验结果说明属哪一年级的水平,在教育成就测验中最常用。其表述方式常常是:某学生的算术是6年级水平,阅读是4年级水平,理解是5年级的水平等。年级量表的单位通常为10个月间隔,在一学年中假设两个月的假期在所测量目标上的发展是不重要的,因此以10个月为一个年级。例如,40(或4.0)表示四年级开始时的平均成绩,45(或4.5)表示学年中间的平均成绩。,百分位常模,百分等级指在常模样本中低于这个分数的人数百分比。百分点百分点也称百分位数,与百分等级的计算方法正好相反。百分等级是计算低于某测验
15、分数的人数百分比,而百分点则是计算处于某一百分比例的人对应的测验分数是多少。四分位数和十分位数百分位数是将量表分成100份,而四分位数是将量表分成四等份,相当于百分等级的25%、50%和75%对应的三个百分分成的四段。十分位数也可以依此类推出,1%10%为第一段,91%100%为第十段。,34,百分等级的计算,一种是未分组资料的百分等级计算,其公式为:其中R是原始分数排列顺序数,N是指总人数。例小东在30名同学中语文成绩是80分,排列第五名,则其百分等级为:百分等级为85即指,在100名被试中,语文成绩低于小东的80分的有85人。另一种是分组资料的百分等级计算,其公式为:其中x指任意原始分数,
16、l为该原始分数所在组的精确下限,fp是该分数所在组的频数,cf是指l以下的累计频数,h为分组后的组距。,35,百分位数的计算,百分位数的计算可根据直线内插法进行。例如,高考的最高分为695分,其百分等级为100,最低分为103分,百分等级为1,百分等级为80的百分位数(PP)可以用下式计算得出:所以,要想知道在全国录取20%的考生,总分数线就应该为575分。,标准分常模,标准分数是将原始分数与平均数的距离以标准差为单位表示出来的量表。因为它的基本单位是标准差,所以叫标准分数。1线性转换的标准分数 2非线性转换的标准分数对每个原始分数值计算累积百分比;在常态曲线面积表中,求出对于该百分比的标准(
17、z)分数。T分数:平均数为50,标准差为10标准九分:以5为平均数,以2为标准差标准十分:平均数为5.5,标准差为1.5;标准二十分:平均数为10,标准差为3。,智商的计算及其意义,比率智商离差智商必须指出,从不同测验获得的离差智商只有当标准差相同或接近时才可以比较,标准差不同,其分数的意义便不同(见附表)。,38,以100为平均数不同标准条件下每一IQ组距正态曲线下个案百分比,百 分 数 分 布 分组分数 SD=12 SD=14 SD=16 SD=18 130以上 0.7 1.6 3.1 5.1 120129 4.3 6.3 7.5 8.5 110119 15.2 16.0 15.8 15.
18、4 100109 29.8 26.1 23.6 21.0 9099 29.8 26.1 23.6 21.0 8089 15.2 16.0 15.8 15.4 7079 4.3 6.3 7.5 8.5 70以下 0.7 1.6 3.1 5.1 总计 100 100 100 100,第三单元 常模分数表示法,转换表表示法一个转换表显示出一个特定的标准化样组的原始分数与其相对应的等值分数百分位、标准分数、T分数或者其它任何分数。因此测验的使用者利用转换表可将原始分数转换为与其对应的导出分数,从而对测验的分数作出有意义的解释。剖面图表示法剖面图是将测验分数的转换关系用图形表示出来。从剖面图上可以很直观
19、地看出被试在各个分测验上的表现及其相对的位置。,40,转换表表示法,41,剖面图表示法,剖面图是将测验分数的转换关系用图形表示出来。从剖面图上可以很直观地看出被试在各个分测验上的表现及其相对的位置。现以韦克斯勒儿童智力量表的记录纸上的剖面图来说明。见图5-1(书346页)。,第三节 测验的信度,第一单元 信度的概念第二单元 信度的估计方法第三单元 信度与测验分数的解释第四单元 影响信度的因素,第一单元 信度的概念,信度的定义信度是指同一被试在不同时间内用同一测验(或用另一套相等的测验)重复测量,所得结果的一致程度。在测量理论中,信度被定义为:一组测量分数的真分数方差与总方差(实得分数的方差)的
20、比率。X=T+ESX2=ST2+SE2rxx=ST2/SX2=1-SE2/SX2信度的指标信度系数和信度指数 rxx=rXT2=ST2/SX2测量标准误,第二单元 信度的估计方法,重测信度 复本信度 内部一致性信度 评分者信度,信度的估计方法(1),重测信度(test-retest reliability)又称稳定性系数。它的计算方法是采用重测法,即使用同一测验,在同样条件下对同一组被试者前后施测两次测验,求两次得分间的相关系数。最适宜的时距随测验的目的、性质和被试特点而异,一般是两周到四周较宜,间隔时间最长不超过六个月。,信度的估计方法(2),复本信度(alternate-form reli
21、ability)又称等值性系数,它是以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系数,这个相关系数就代表了复本信度的高低。如果两个复本的施测相隔一段时间,则称稳定与等值系数。在计算复本信度时,应该有半数的被试先作A本再作B本,另一半被试先作B本再作A本,由此可以抵消施测顺序的效应。,信度的估计方法(3),内部一致性信度(internal consistency reliability)分半信度(split-half reliability)是在测验实施后将测验按奇、偶数分为等值的两半,并分别计算每位被试在两半测验上的得分,求出这两半分数的相关系数。分半
22、法经常会低估信度,必须修正,借以估计整个测验的信度。同质性信度(homogeneity reliability)同质性主要代表测验内部所有题目间的一致性。当各个测题的得分有较高的正相关时,不论题目的内容和形式如何,则测验为同质的。相反,即使所有题目看起来好象测量同一特质,但相关很低或为负相关时,则测验为异质的。,48,同质性信度的计算公式,库德-理查逊公式K-R20公式:适合于0、1记分的测题。K-R21公式:适合于0、1记分,难度相同的测题。克伦巴赫系数:适合于多重记分的测题,信度的估计方法(4),评分者信度(scorer reliability)随机抽取若干份测验卷,由两位评分者按评分标准
23、分别给分,然后再根据每份测验卷的两个分数计算相关,即得评分者信度。一般要求在成对的受过训练的评分者之间平均一致性达0.90以上,才认为评分是客观的。当多个评分者评定多个对象,并以等级法记分时,可采用肯德尔和谐系数作为评分者信度的估计。,第三单元 信度与测验分数的解释,解释真实分数与实得分数的相关信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的,也就是测验的总变异中真分数造成的变异占百分之几。确定信度可以接受的水平当rxx0.70时,测验不能用于对个人作出评价或预测,而且不能作团体比较;当0.70rxx0.85时,可用于团体比较;当rxx0.85时,才能用来鉴别或预测个人成绩或作为
24、。解释个人分数的意义 其一是估计真实分数的范围;其二是了解实得分数再测时可能的变化情形。这就是测量标准误的应用。比较不同测验分数的差异这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。这就是差异分数的标准误问题。,51,几种常用测验的信度系数 测验类型 信 度 低 中 高 成套成就测验 0.66 0.92 0.98 学术能力测验 0.56 0.90 0.97 成套倾向性测验 0.46 0.88 0.96 客观人格测验 0.46 0.85 0.97 兴趣测验 0.42 0.84 0.93 态度测验 0.47 0.79 0.98(根据Aiken,1985,第91页),52,测量的标准误
25、例:在一个智力测验中,某个被试的IQ为100,这是否反映了他的真实水平?如果再测一次,他的分数将改变多少?已知该智力测验的标准差为15,信度系数为0.89,则其IQ的测量标准误和可能范围为:IQ=1001.965=1009.8=90110 我们可以说,这个被试的真实IQ有95%的可能性落在90至110之间。即若再测一次,他的智商低于90、高于110的可能性不超过5%。,53,差异分数的标准误,例:某被试在韦氏成人智力测验中的VIQ=102,PIQ=108。假设言语测验和操作测验的分半信度分别为0.97和0.93。问其操作智商是否显著高于言语智商呢?首先计算出差异分数的标准误 在统计学上,经常要
26、求两个分数的差异程度达到0.05的显著水平,才能承认不是误差的影响。因此,将差异标准误(4.74)乘以1.96,结果为9.29,这表明个体在韦氏测验两半得分的差异高于大约10分时,才能达到0.05的显著水平。上述被试的差异分数108-102=6是不显著的。,第四单元 影响信度的因素,样本特征样本团体的异质性:一般而言,若获得信度的取样团体较常模总体为异质的话,往往会高估测验的信度,相反会低估测验的信度。样本团体的平均能力水平测验的长度;一般来说,在一个测验中增加同质的题目,可以使信度提高。测验的难度:通常难度的平均水平为0.50较好。测量的时间间隔,55,假设我们希望用增加测验长度的方式提高测
27、验的信度以达到某种理想值,通过斯皮尔曼-布朗公式的导出公式就可以计算出最少应增加的题数。其公式为:例如:有一个包含50个题的测验,信度为0.75,若把信度提高到0.90,应该增加多少个题目。50350=100(题),第四节 测验的效度,第一单元 效度的概念第二单元 效度评估的方法第三单元 效度的功能第四单元 影响效度的因素,第一单元 效度的概念,效度的定义效度是指所测量的与所要测量的心理特点之间的符合程度,或者简单地说是指一个心理测验的准确性.在测验理论中,效度被定义为在一组测量中,与测量目标有关的真实方差(或称有效方差)与总方差的比率.rxy2=Sv2/Sx2 SX2=ST2+SE2=SV2
28、+SI2+SE2效度的性质效度具有相对性效度具有连续性,专栏5-4 信度与效度的关系,信度是效度的必要而非充分条件效度高必然信度高,而信度高并不一定保证效度高,说明信度高只是效度高的必要条件,并不是效度高的充分条件。效度是受信度制约的信度系数与效度系数之间有这样一种关系:信度系数的平方根是效度系数的最高限度。用公式表示如下:,59,信度和效度的关系 信度和效度的关系可以用射击靶环来形象地说明。图1弹着点十分分散,既不稳定也不准确,可视信度和效度均不高;图2着点虽然集中,弹偏离靶心,准确性差,可视信度高但效度低;图3着点全部集中在靶心,说明稳定性和准确性都好,可视信度和效度均高。,60,信度对效
29、度的制约作用,SX2 SV2 SI2 SE2 ST2 因为:rxx=ST2/SX2 rxy2=SV2/SX2 而且:ST2=SV2+SI2 可得到:rxy2=(ST2-SI2)/SX2=rxx-SI2/SX2 由于SI2/SX20 故:,第二单元 效度的估计方法,内容效度构想效度效标效度,内容效度,定义:指的是测验题目对有关内容或行为取样的适用性,从而确定测验是否是所欲测量的行为领域的代表性取样。估计方法 专家判断法定义好测验内容的总体范围;编制双向细目表,确定内容和技能各自所占的比例;由每位评判者在评定量表上作出判断。统计分析法计算两个评分者之间评定的一致性(评分者信度)两个测验复本上得分之
30、相关(复本信度)再测法也可用于内容效度的评估(测验-学习-再测验)经验推测法这种效度是通过实践来检验效度内容效度与表面效度,构想效度,定义:是指测验能够测量到理论上的构思或特质的程度,即测验的结果是否能证实或解释某一理论的假设、术语或构思,解释的程度如何。估计方法 对测验本身的分析测验的内容效度测验的同质性分析被试者对题目的反应特点测验间的相互比较相容效度是构思效度的一个证据。区分效度是构思效度的又一个证据。因素分析法也是建立构思效度的常用方法。效标效度的研究证明(效标分组/分数分组,年龄变化)实验法和观察法证实(训练),效标效度,定义:又称实证效度,反映的是测验预测个体在某种情境下行为表现的
31、有效性程度。估计方法相关法:相关法是评估效标效度最常用的方法,它是求测验分数与效标资料间的相关,这一相关系数称为效度系数。区分法:分析高分组与低分组分布的重叠量。或者计算每一组内得分超过(或低于)另一组平均数的人数百分比,或者计算两组分布的共同区的百分比。重叠量越大,说明两组分数差异越小,即测验的效度越差。命中率法:命中率法是当测验用来做取舍的依据时,用其正确决定的比例作为效度指标的一种方法。,65,1.t检验的统计量2.两个分布的重叠量,66,测验命中与失误的四中情况 效标成绩 失败(-)成功(+)预测测验 成功(+)(A)失误(B)命中 失败(-)(C)命中(D)失误,第三节 效度意义的确
32、定,预测效标分数在测验工作中,人们感兴趣的是从测验分数预测效标成绩,因此最常用的是Y对X的回归方程。预测误差效度系数的实际意义常常以决定性系数来表示,意旨相关系数的平方,其表达式是rxy2,它表示测验正确预测或解释的效标的方差占总方差的比例。另一种表达方法是估计的标准误,简写为Sest,它是指所有具有某一测验分数的被试其效标分数(Y)分布的标准差,也即真正效标分数落在某一范围内有多大可能性。预测效率指数,68,回归方程:为了得到一个回归方程,必须确定a和byx这两个常数的值。,69,估计标准误的公式为:估计的标准误如同其他标准误一样解释。真正分数落在预测效标分数1.96Sest的范围内,有95
33、%的可能性,数落在预测效标分数2.58Sest的范围内,有99%的可能性。,70,预测效率指数:E值的大小表明使用测验比盲目猜测能减少多少误差。例如一个测验的效度系数为0.80,那么E=40,这表明由于测验的使用,使得我们在估计被试的效度分数时减少了40%的误差。,第四单元 影响效度的因素,测验本身的因素:测验取材的代表性、测验长度、试题类型、难度、区分度以及编排方式都会影响效度。测验实施中的干扰因素主试的影响因素被试的影响因素样本团体的性质样本团体的异质性干涉变量效标的性质效标与测验分数之间的关系是否线性相关也是需要注意的一个因素。效标测量本身的可靠性如何亦是值得考虑的一个问题。,第五节 项
34、目分析,第一单元 项目的难度第二单元 项目的区分度,第一单元 项目的难度,难度(difficulty)的定义:是指项目的难易程度。难度的计算二分法记分的项目非二分记分的项目难度水平的确定项目的难度:P值越接近于0.50,区别力越高。测验的难度如果被试样本具有代表性,对于中等难度的测验,其测验总分应该接近常态分配。对于正偏态分布,必须增加足够数量的较容易的项目;对于负偏态分布,必须增加足够数量的有较高难度的项目。,74,难度的计算,二分法记分的项目未分组资料分组资料校正通过率非二分法记分的项目,75,项目的难度,为了使测验具有更大的鉴别力,应该选择难度在0.50左右的试题比较合适。但是,在实际工
35、作中并非如此简单。如果难度都是0.50,而试题间都完全相关,则易形成“U”分布。所以在选择题目时,最好难度水平接近0.50,而各题难度在0.500.20之间变化。当测验用于选拔或诊断时,应较多地选择难度值接近录取率的项目。如选拔提高难度,诊断应降低难度。对于选择题来说,P值一般应大于概率水平。如是非题,难度应该为0.75最为合适;而对于四选一的题目,其难度约为0.63时最为合适。,76,测验分数分布的正偏态与负偏态 图1为正偏态分布,即大多数集中在低分端,说明编制的测验对于所要研究的样本团体来说偏难,因此必须增加足够数量的较容易的项目;图2为负偏态分布,即大多数集中在高分端,说明编制的测验对于
36、所要研究的样本团体来说偏易,因此必须增加足够数量的较高难度的项目;,第二单元 项目的区分度,定义:也叫鉴别力,是指测验项目对被试者的心理特性的区分能力。计算方法鉴别指数D=PH-PL相关法点二列相关:适用于一类变量为二分称名变量,另一类变量为连续变量的成对变量的相关计算。二列相关:适用于两个连续变量,但其中一个变量被人为分成两类相关法:适用于两个变量均为二分称名变量。若将测验总分按及格、不及格或录取、淘汰划分,便可计算相关系数。区分度与难度的关系,78,项目鉴别指数与评价标准,1965年,美国心理测验专家伊贝尔(L.Ebel)根据长期的经验提出鉴别指数评价项目性能的标准,见下表。鉴别指数(D)
37、项目评价 0.40以上 很好 0.300.39 良好,修改后会更佳 0.200.29 尚可,但需修改 0.19以下 差,必须淘汰,79,相关法,点二列相关二列相关 当两个变量均为连续变量时,也可用皮尔逊积差相关公式计算。相关法,80,D 的最大区分度与项目难度的关系,项目通过率 D的最大值 1.00 0 0.90 0.20 0.80 0.40 0.70 0.60 0.60 0.80 0.50 1.00 0.40 0.80 0.30 0.60 0.20 0.40 0.10 0.20 0 0,第六节 测验编制的一般程序,第一单元 测验的目标分析第二单元 测题的编写第三单元 测题的编排与组织,第一单
38、元 测验的目标分析,测验的对象测验的用途测验的目标,测验的对象,描述:在编制测验时必须明确测量对象,也就是该测验编成后要用于何种团体。如WAIS,我们不能用于儿童,而编制时也不会出1+1=?的题目,因为这样的题目对幼年儿童比较合适。要考虑的因素:年龄、文化程度、社会经济条件、文化背景、智力水平及阅读水平等。,心理测验的用途,描述:心理测验的用途就是指我们编制测验是干什么用的,是要对被试做描述,还是做诊断,抑或是选拔和预示,这一点在测验编制前就应明确。用途不同,编制测验时的取材范围及试题难度等也不尽相同。测验的分类:显示性测验:指测验题目和要测量的特征相似的测验,比如成就测验,它所反映的是被试具
39、有什么能力,能完成什么任务。预测性测验:为了预测一些没有被测量的行为的测验,即希望测验能作出对未知情况的预测。,测验的目标,描述:指编制的测验是测什么的,即测什么样的心理特征或人格特点。目标分析工作分析第一是确定哪些心理特征和行为可以使要预测的活动达到成功 第二是建立衡量被试是否成功的标准,这个标准我们称之为效标 对特定的概念下定义确定测验的具体内容,第二单元 测题的编写,搜集资料命题原则编制要领,搜集资料,已出版的标准测验最简单、最直接的方法是从已经出版的各种标准测验中选择合适的题目 理论和专家的经验理论和专家经验有时也可以作为题目的来源之一 临床观察和记录临床的观察也可以作为题目的来源,命
40、题原则(1),内容方面试题要符合测验的目的;内容取样要有代表性;题目间内容相互独立,互不牵连,对不同题目的回答不致相互影响;文字方面使用准确的当代语言,避免使用生僻的字句或词汇 语句要简明扼要,既要排除与答案无关的因素,又不能遗漏答题所依据的必要条件;最好是一句话说明一个概念,尽量少使用双重否定句 理解方面题目内容不能超出受测团体的知识水平和理解能力;答案明确,不引起争议;题目格式不要被人误解;社会敏感性方面避开社会敏感性问题,如涉及社会禁忌或个人隐私的题目不应使用。,命题原则(2),可是有些测验必须涉及这类社会敏感性问题,那么怎样鼓励被试作出真实的回答呢?菲力普(Phillips,D.L.)
41、列举了几条策略值得参考:命题时假定被试具有某种行为,使他不得不在确实没有该行为时才否定,可避免否定答案过多的倾向。命题时假定规范不一致指出该行为是常见的,虽然是违规的,编制要领,对心理测验的题目进行分类的标准很多,常见的分类是根据对被试的要求不同来分,可以分为两大类:提供型(supply)和选择型(selection)题目。提供型题目:要求被试提供答案论文题:简答题填充题选择型题目:要求被试在几个选项中选择正确答案是非题选择题匹配题,第三单元 测验的编排和组织,合成测验测验的预试信度与效度考察常模制定编写指导手册,合成测验,筛选与审定试题选择试题形式审定题目测题的编排编排原则测同一因素的放在一
42、起;同类型的测题尽可能组合在一起,可以省略对每类试题的答案说明;题目的难度排列宜逐步上升。编排方式并列直进式混合螺旋式,测验的预试,测验的预测预试对象必须和将来正式测验准备测试的对象相似预试的实施过程与情境应力求与正式测验的情况相似预试的时限可稍宽些,以搜集充分的反应资料应将被试的各种反应情形随时加以记录。项目分析确定题目的难度、区分度、备选答案的合适度等 为了检验所选出的项目的性能是否真正符合要求,通常需再选取来自同一总体的另一样本再测一次,并进行第二次项目分析,看两次分析结果是否一致,编写指导手册,测验的目的和功用。测验编制的理论背景以及测验中的材料是根据什么原则、应用什么方法选择出来的,
43、许多手册还提供选择题目的统计指标。如何实施测验的说明。测验的标准答案和记分标准。常模资料,包括常模表、常模适用的团体及对测验分数如何做解释。测验的基本特征,包括难度、鉴别力、信度、效度和因素分析的资料,以及这些资料取得的条件和情境,包括调查的样本和时间。,第七节 心理测验的使用,第一单元 主试的资格第二单元 测验的选择第三单元 测验前的准备及注意事项第四单元 测验实施的程序及要素第五单元 被试误差及控制方法第六单元 测验的评分第七单元 测验结果的报告,第一单元 主试的资格,知识结构基础知识相关专业知识专业理论知识和专业技能专业理论知识专业技能职业道德测验的保密和控制使用测验中个人隐私的保护,第
44、二单元 测验的选择,所选测验必须适合测量的目的 所选测验必须符合心理测量学的要求信度、效度如何,常模样本是否符合你的测试对象标准化测验必须经常修订,使测验内容、常模样本、分数解释更符合变化了的时代 考虑是否符合我国国情,第三单元 测验前的准备及注意事项,测验前的准备工作 预告测验 准备测验材料 熟悉测验指导语 熟悉测验的具体程序 测验中主试的职责 按照指导语的要求实施测验测验前不讲太多无关的话对于被试的反应,主试不应做出点头、皱眉、摇头等暗示性反应 对特殊问题要有心理准备 建立协调关系,第四单元 测验实施的程序及要素,指导语对被试的指导语 对主试的指导语 时限典型行为测验/最高作为测验/速度测
45、验测验的时间安排,也是影响测验结果的一个重要因素 测验的环境条件物理环境意外干扰,第五单元 被试误差及控制方法,应试技巧与练习效应应试技巧练习效应动机和焦虑因素反应定势求“快”与求“精确”反应定势喜好正面叙述的反应定势喜好特殊位置的反应定势喜好长选项的反应定势猜测的反应定势,第六单元 测验的评分,原始分数的获得及时而清楚地记录反应情况 要有一张标准答案或正确反应的表格,即记分键 将被试的反应和记分键比较,对反应进行分类 原始分数的转换,第七单元 测验结果的报告,测验分数的综合分析 把测验分数视为一个范围而不是一个确定的点 分数与他的遗传特征、测验前的学习与经验以及测验情境的关系。除了常模资料外,还应了解测验的信度、效度资料。不同测验的分数不能直接比较。以百分等级为中介线性等值报告分数的具体建议使用当事人所理解的语言。要保证当事人知道这个测验测量或预测什么。要使当事人知道他是和什么团体在进行比较。要使当事人认识到分数只是一个“最好”的估计。要使当事人知道如何运用他的分数。要考虑测验分数将给当事人带来什么心理影响。要让当事人积极参与测验分数的解释。,谢谢!,