跳转到主要内容

第二节 信度与效度

神经心理评估作为心理测量的一个分支,既符合心理测量的主要特点,又有自身的典型特征。因此,神经心理评估工具首先需要在其标准化方面达到测量学的统一标准,其次要根据本学科对脑-行为关系的研究,将患者所测得的数据与常模进行有意义的比较和解释。标准化是指在测验编制与实施过程中,需尽可能控制与测验无关的因素,遵循一套标准程序,包括条目编制标准化、测验实施标准化、测验的信度(测量的稳定性与可靠性)与效度(所测得结果相对测验目的而言的有效性)检验以及建立常模等。由于神经心理评估工具多应用于临床,在其标准化过程中如何保证常模的大样本与代表性,尤其是针对某类疾病个体应用的评估工具的常模代表性;以及如何在临床应用过程中通过系统培训与质控,确保测验实施过程与结果解释的标准化,是需要特别注意的两个问题。

在神经心理评估领域,建立规范的常模数据库一直是有待加强和发展的方向。没有标准化常模,我们就不可能了解某一特定群体或个人的测验分数或分数分布模式的具体异常程度。神经心理评估工具的应用范围不如智力或人格测量工具广泛,往往没有适用于不同人群的、全面的常模资料;即便有,样本量也普遍偏小,这就大大降低了其应用准确性。进行大规模的常模取样和标准化研究耗资巨大,而且随着国家人口组成的不断变化,常模资料可能会过时,导致神经心理评估工具的测量结果经常会不稳定甚至无效,这一点在基于计算机技术的评估工具中更为突出。因此,神经心理评估领域的专业工作者应当特别重视所使用的测量工具的标准化数据,在评估特定的疾病或大脑功能损害时,要注意采用包含对照组,至少是有健康对照组数据的工具,并查阅其最新的测量学研究资料,还要报告研究结果是否适用于现有的常模。

信度和效度是评价神经心理评估工具的重要指标,大多数正式发表的神经心理学测验或工具在上述可靠性和有效性方面已基本达到测量学要求。经典心理测量学理论所要求的测验信度指标包括:测验工具的跨时间稳定性(重测信度,test-retest reliability),在测验内容、题目类型、测验长度、难度和分数变异程度等方面被认为等值的两个平行测验版本间的一致性(复本信度,alternate formreliability),同一个测验内部不同条目间的一致性(内部一致性信度,internal consistency reliability),以及不同评分者所评分数的一致性(评分者间信度,inter-rater reliability or consistency)等[10]。标准化的神经心理测验通常用于对个体的评估或预测,而不仅仅是进行团体比较,因此对信度系数的要求相对较高,一般要求在0.85以上,但在具体应用时,还应当视不同的信度指标与测验类型而定。比如在神经心理评估中最受重视的信度指标——评分者间信度和重测信度,往往要求评分者间信度系数大于0.90,而重测信度系数至少在一周内不低于0.85[11]

效度指测验能够达到评估的目的,或能够测得需要测验的功能。基于经典心理测量学理论对效度的考察主要包括评估工具对所测内容的覆盖程度(内容效度,content validity),考察测验条目取样的恰当性问题;评估分数能够根据某种心理学结构来解释的程度(结构效度,construct validity),考察心理学理论框架或心理特质的抽象概念对所测行为的解释程度;以及评估工具与所测领域的“金标准”或其他同类经典测验(效标)的相关程度(效标效度,criterion-related validity),考察测验对于某类相关的特殊行为表现的预测程度[10]。这些指标可以从不同的方面来证实某种特定的神经心理评估工具的有效性高低。在神经心理评估领域,相对更重视的指标为内容效度和效标效度,一般要求效度系数最好超过0.70,如果没有达到0.60以上,则不推荐应用于神经心理评估[11]

目前在神经心理评估领域,对测量工具信度和效度的报道还是以上述基于经典心理测量学理论的信度和效度指标为主,而基于项目反应理论(IRT)等新型测量学理论的分析较少。IRT对项目的不同属性进行评估,并在受试者对项目做出反应的概率与受试者的潜在特质之间建立某种函数关系或模型,以提供对项目、测量工具及其各维度性能的更完整的描述,进一步提高神经心理评估的准确性。利用IRT研究神经心理评估的有效性,有助于选择最具代表性的项目来评估特定的认知功能,也可以帮助识别与特定缺陷相关的具有人群公平性的项目。基于IRT的信度和效度研究目前已得到初步应用,如在梅奥老年美国人常模研究,以及简易精神状态检查(mini-mental stateexamination,MMSE)中的应用,但总体来说其对神经心理评估工具的影响还相对有限。近年来发展起来的计算机自适应测试(computerized adaptive test)也是以IRT为基础,在题库建设、选题策略等方面形成新的理论和方法,能够针对每个受试者不同的能力水平匹配一套适合其水平的测验,从而节省测验时间、高效准确地估计出受试者的能力水平。应用这种方法可以将复杂样本(如神经系统疾病患者)的研究难度降到最低。我国学者也已开始采用这种新方法编制神经心理测验,如应征公民计算机自适应化拼图测验等[12]。未来,将经典和现代心理测量学理论的信度和效度指标相结合、纳入编制程序,是神经心理测验信度和效度检验发展的新方向之一。