三、标准化心理量表的基本特征
(一)取样
目前,人们尚没有办法直接测量心理特征,一般是通过测量人的各种行为表现间接地评估他们心理活动和特征。
采用测量某种心理特征的测验对一组有代表性的人群(样本)进行测试,将他们在测验中的行为反应量化,并以某种分数的形式表达,这就构成了可供比较的标准。因此,样本的代表性决定了一个心理测验的适用范围,也会影响到它的功能(这里指在前期量表开发的过程中,建立量表的常模时,必须有足够的样本量,构建某个特征测得的全部阈值范围)。取样的方法很多,有方便取样、随机取样、整群取样、分层按比例取样等,不同方法所得到的样本的代表性可能相差很大。研究者在量表编制过程中是根据自己的设想和实际条件来选择测试对象的,因此使用者在准备应用某个量表前必须充分考虑该标准用于自己将要评价的对象是否合适?(非常重要)
从理论上讲,量表和问卷都应当是标准化了的测量工具,它们的实施和计分一般都有标准化的说明。
但实际上除了人格测验、部分兴趣测验外,大部分评估态度的心理量表并不是标准化的,即它们的实际样本并不能很好地代表研制者想要测量的目标群体。因此,在使用这类量表时要注意它们的局限性,特别是在解释测验结果和进行推论时要十分谨慎。(请注意这一点)
(二)原始分与标准分
心理测验的结果通常都以分数的方式来呈现。根据一定的评分原则,对被测者的回答进行评判并给予相应的分数,这个分数就是被测者得到的原始分。未经过标准化的心理量表一般都是等级量表,由此所得到的原始分仅能表示相对高低、优次等差异,不能够进行加减处理,因为分数之间不是等距的;同一个测验不同分测验的原始分之间也不能进行比较,因为不同分测验的原始分不等距,相互之间没有可比性。比如一名被试在智力量表算术分测验中获得15分(最高分为20分),而在词汇分测验中获得40分(最高分为80分),我们无法判断该被试者哪方面的成绩更好,因为这两个测验分数的全距不同,互相没有可比性。在另一种情况下,被试者甲为16岁青年,在词汇分测验中获得40分,被试者乙为40岁中年人,在同一分测验中获得50分,我们也无法判断两名被试者谁的词汇水平更高,因为不同年龄的语言发展水平不同,他们也不具备可比性。解决这个问题的办法就是将原始分转换成标准分,使该测验由等级量表变为等距量表。
然而,在测量态度的心理量表中除了人格测验、部分兴趣测验等少数量表外,大多数心理量表都没有采用标准分来表示结果,因为发展一个标准化心理测验需要耗费大量的人力和物力。目前,国内外大多数心理量表都属于等级量表,一般用原始分的平均值和标准差来表示某群体的心理特征。当然,如果有条件,研究者应尽量发展标准化的心理测验,并且用标准分代替原始分(图1-1)
心理测验的标准分是参照渚模——即标准化样本在测验中的操作数量化结果。因此测验常模是对一个具有代表性的样本在该测验中实际的操作结果(分数)进行标准化转换而建立起来的。
标准分的形式有很多,其共同点都是基于统计学的正态分布理论衍化而来的。
1. Z分
Z分是最基本的标准分,其他形式的标准分均是在z分基础上转化而成。其公式是:
$$Z=\frac{X-\overline X}{SD}\\$$
(公式1-1)
上式中,X为某被试者在测验中所获得的原始分
\(\overline X\)为标准化样本在该测验的平均原始分
SD为标准化样本在该测验中所获原始分之标准差
从公式1-1中可以知道,Z分实际上是某一被试者在测验中的得分与标准化样本平均分的差距,在以标准化样本的标准差为单位这杆标尺上的位置。它不但可以说明被试者的操作水平在平均水平之上(Z分为正)还是之下(Z分为负),也能表明被试者与平均水平的相差程度(以相差多少个标准差来表示)。但Z分的缺点是存在负分,这在某些测验如能力测验、成就测验中使用起来不方便。下面是经过改良后的常用标椎分计算公式:
标准分=M+S(Z)
(公式1-2)
上式中:M为设计量表分的平均值
S为设计量表分的标椎差
Z为Z分
我们在智力测验中常用的离差智商便是由公式2衍变而来。一般人们将智商的平均值定在100,标准差定为15(韦氏智力量表等)或16(斯坦福一比内量表等)。如韦氏智力量表的智商公式为:
$$IQ=100+\frac{15(X-\overline X)}{SD}$$
(公式1-3)
2. T分
由Z分衍化而来的一种标准分。
$$T=50+\frac{10(X-\overline X)}{SD}$$
(公式1-4)
T分是一种使用得非常广泛的标准分,许多心理测验如明尼苏达多相人格调查表(MMPI)、艾森克个性问卷(EPQ)等都用T分来表示结果。
3. 标准10分和标准20分
也是由Z分衍化而来的一种标准分,卡特尔16种人格因素问卷(16PF)就是采用标准10分。
$$标准10分=5+\frac{1.5(X-\overline X)}{SD}$$
(公式1-5)
$$标准20分=10+\frac{3(X-\overline X)}{SD}$$
(公式1-6)
4.百分位
百分位是临床心理评估中常用的一种非标准分表示结果的方法,它比标准分更容易理解,即使没有统计学基础的人也很容易理解它的含义,许多测验特别是成就测验经常用百分位来表示被试者的操作成绩。另外,临床心理学家在一些用标准分表示操作水平的测验报告中,也常用百分位来解释被试者的操作水平,如:“某某在韦氏成人智力量表中国修订本(WAIS-RC)获得全量表智商(FIQ)为117,相当于85%的百分位……”,说明该被试者的智力水平比85%的同龄的人好。
5.划界分(cut-off score)
划界分是一种用来对被测者做出“全有”或“全无”分类的分数。在许多情况下要求个体的某些能力或心理特征必须达到一个最低资格,例如考取获得驾驶证、选拔飞行员,出于安全需要设立作业的临界点。在临床和咨询实践中,在进行治疗和行为建议的决策时,也要求同样的判断。使用这种分数的理由是:某种作业要求一些关键性的变量,这些变量的能力的缺失不能由其他变量的优秀能力来补偿;在临床和咨询实践中,这些具有特殊意义的心理特征对于诊断和治疗具有决定性的作用。
但是,运用划界分对被测者做出全或无的分类也容易产生误判,特别是那些得分接近划界分的个体容易被误判。Anastasi认为应努力减少单次测验所产生的误差,如果有可能,应当根据多次施测的一组分数来决定,而不是根据一次测验所得出的单一分数。另外,测验编制者确定划界分时通常会依据相应的理论和自己的目的选择一个适当的划界值,在减少一类误差(如假阳性)的同时,必然会增大另一类误差(如假阴性)的发生。
(三)信度(reliability)
信度即可靠性,是对测验分数测量误差的估计。通俗地讲,测验的信度指施测分数能在多大程度上反映个体的“真实分数”。
其专业的定义是:测验信度的测量即评价误差(error variance)在测验分数总方差中所占的比例。
在心理测验编制和使用过程中,影响测验分数的误差通常来源于以下几个方面。
1. 内容抽样误差
在编制一个测验时,测量同一功能的测验条目往往有很多,人们不可能全用,只能在其中抽取具有代表性的少数条目来构成测验,这样产生的误差称为内容抽样误差。
2. 时闻抽样误差
同一名主试给同一名被试在不同时间实施测验,也会产生误差,这就是时间抽样误差。
3. 评分者误差
同一份测验结果让不同的人评分,由于个人掌握的标准有差异而产生的误差。
用信度系数来表示误差的大小,信度系数在-1~+1,绝对值越大(接近1.0),表明误差越小;绝对值越小(接近0),表明误差越大。不同的测量误差可采用相应的方法来评价。
(1)分半相关
用来测量条目按难易度排列测验的内容抽样误差。通常的一种做法是将单号条目得分分为一组,双号条目得分为另一组,计算单双号得分间的相关系数。
(2) 重测相关
用来测量时间抽样误差。由于内容抽样误差也同时存在于两次测验之中,因此重测信度实际上会受到时间和内容两种抽样误差的影响。
(3) α系数
由Cronbach LJ提出的一种计算信度的方法,主要用于计算内容抽样误差和条目内容的异质性。
(4) 评分者之间一致性检验
用于测量不同评分者之间所产生的误差。
如何判断测验的信度?
目前尚没有一个大家公认的统一标准。有研究者认为:如果测验的目的是对个体进行评价,测验条目的内部一致性应当在0.8或0.85以上;如果测验的目的是用于团体评价,在0.7或0.75以上就可以了。但是也有研究者认为不能一刀切,对于智力测验的信度水平要求高些,对人格测验要求可稍低些,一般量表的要求可以低些。由于心理测量技术的发展,目前许多心理测验的信度都达到或超过了上述标准,例如智力测验总标准分(或智商)的信度一般都在0.9以上,人格测验的信度也能达到0.8-0.9水平,甚至一般心理量表的信度也能达到0.85左右。
测量标准误(standard error of measurement, SEm)又称为分数的标准误,也可以用来衡量测验的误差,其公式为:
$$SE_m=SD_t\sqrt{1-r_u}$$
(公式1-7)
上式中:SDt为测验量表分的标准差,ru为该测验的信度
例如:某一测验标准分的标准差为15,信度系数为0.95,那么该分数的测量标准误为:\(SE_m=15\sqrt{1-0.95}=3.35\)
(四)效度(validity)
效度即有效性,用于检验所编制的测验测量了什么内容?在多大程度上达到了测验的编制目的?
检验效度的方法有很多,由美国心理学会等单位联合颁布的《教育心理测验的标准》将效度测量分为3类:内容关联效度、效标关联效度和结构关联效度。
1. 内容关联效度(content-related validity)
内容关联效度用于系统评估测验的内容是否涵盖了有代表性样本的行为范围,它主要用于设计测验条目时。一般采用分析推理的方法挑选合适的条目,例如编制一种人格测验时可以查找资料、书籍上有关人格特征的描述,编成相应的条目,然后请有关专家对这些条目的恰当性做出评价和筛选。
2. 效标关联效度(criterion-related validity)
效标关联效度用来检验所编制测验是否能有效预测被试者在特定活动中的操作情况,它包括现时效度(concur-rent validity)和预测效度(predictive validity),两者的差异在于评估的目的不同,现时效度用于对目前所处状态的诊断,如“王某某患有精神分裂症吗?“;预测效度用于对未来的状态进行评估,如:“王某某将患精神分裂症吗”。许多研究者常采用与测量目的存在理论上有逻辑关系的其他心理特征量表的结果作为效标,来验证研究量表的效标关联效度。
实证效度是效标关联效度的一种,通常是选择一些重要的实际行为特征作为效标,例如学业成绩常被用来作为智力测验的效标,有经验的精神科医师的诊断和评判可作为人格问卷或精神科症状评定量表的效标,职业方面的实际成就可以作为职业兴趣、职业效能量表的效标。需要强调的是,对于咨询与治疗、教育干预、职业指导等应用领域,实证效度常常是衡量一个量表效度好坏最重要的心理测量学指标。
3. 结构关联效度(construct-related validity)
结构关联效度用于检验所编制的测验结构是否达到了设计时的构想。测量结构效度有许多方法,例如与同类测验进行比较(进行相关分析)、因素分析等。为了较全面地评价测验的结构效度,Campbell DT曾建议,在研究结构关联效度时不仅应将新测验与同类测验的结果进行比较,也要与功能不同的测验进行比较,前者称为趋同效度(convergent validi-ty),后者称鉴别效度(discriminate validity)。
4. 增强效度(incremental validity)
前面所提到的内容效度、效标效度和结构效度是评估心理测验有效性最常用的3种方法。在临床应用测验时,我们还应注意测验的增强效度。增强效度是指某些测验与其他测验或检查方法联合应用时,其准确性大大提高。研究发现将精神病人的临床资料和病史与MMPI结果结合考虑时,能提高判断的准确性,这就说明MMPI在这种场合有较好的增强效度。
无评论