电子邮件:partnerships@ctdaa.com
联系我们
考试分数等值的新框架

作者:谢小庆

[2016-11-10]

【摘要】对考试分数进行等值处理不仅是保证测验信度和公平性的重要环节,也是建立题库和实现计算机化自适应性考试的核心环节。由美国教育协会(ACE)和全美教育测量学会(NCME)联合组织编写的《教育测量》一书被称为教育测量领域中的“圣经”。在2006年出版的《教育测量》(第四版)中提出了一个关于考试分数等值的新框架。本文介绍了这一新框架,并结合作者多年从事考试分数等值的实践,对等值问题进行了一些讨论。

【关键词】考试,测验,等值,分数连接

目前,数量繁多的考试被广泛应用于社会的各个领域。在主要以标准参照方式进行分数解释的能力水平认证考试和职业资格考试中,分数的可比性是考试质量的重要保证。考试被作为一种尺度来对人的心理特质进行测量,因此,这种尺度应该具有稳定性。不同的考试版本之间应该具有一致性。对于同一个测量对象,不能用这个版本测量得到一个度量,用另一个版本测量却得到相差很大的另一个度量。尽管我们在命题过程中总是尽量保持考试难度的稳定性,但不同试卷之间在难度、信度、分数分布方面的差别很难完全避免的。这种差别不仅会影响到测验的质量,影响到评价标准的客观性,而且会使参加考试时间不同、使用试卷不用的考生受到不公平的对待。这样,就需要将具有不同难度、不同分数分布的试卷的分数转换到一个统一的量尺之上,采用统一的量尺对应考者进行测量。这种将一个测验的不同版本的分数统一在一个量表上的过程即等值(equating)。

20世纪80年代以来,考试分数等值问题成为国际教育与心理测量学领域的一个重要研究课题。1982年,Holland和Rubin编辑出版了第一本以等值为主题的《测验等值》的论文集。1995年,曾先后担任过全美教育测量学会(National Council on Measurement in Education,简称NCME)主席的Kolen和Brennan共同出版了《测验等值:方法和实践》一书,这是第一本关于等值的专著。近年来,每年有大量关于考试分数等值的研究报告发表。这些研究包括不同等值设计之间的比较,不同理论模型之间的比较,不同等值系数估计方法之间的比较,造成等值误差因素的分析,以及关于等值误差的估计方法等等。 (Measurement and Psychometrics)

如何实现测验等值?怎样进行等值设计?怎样进行基于经典测验理论和项目反应理论的等值数据处理?在众多的等值模型中如何进行选择?不同的等值模型适用的条件是什么?这些是今天许多考试机构共同关心的问题。

一、考试等值的新框架

在教育与心理测量领域和人力资源开发领域,《教育测量》(Educational measurement)是一部重要的参考文献。从1951年以来,已陆续出版了四版。在《教育测量》第四版的封套上写到:“从1951年ACE出版《教育测量》一书以来,它就是这一领域的圣经(bible)。”这种说法并非没有道理。《教育测量》的四个版本都是教育与心理测量领域中最优秀的专家的合作产物,它的每一章都由对相关问题最具有实力的研究者执笔,并由相关领域中最重要的研究者担任审稿人,基本反映了该领域的最新观点和最新研究成果。《教育测量》的各个版本都是教育测量领域中被引用最多的出版物。

与前几版一样,第四版的内容覆盖了效度、信度、量表和常模、等值、公平性、考试技术、考试安全、考试应用等主要问题。第四版的第六章为“连接和等值(linking and equating)”,该章的作者为Paul W Holland 和Neil J Dorans。他们提出了一个关于测验等值的新框架。图1是这一新框架的示意图。从图1可以看出,“连接(linking)”成为一个更基本的概念。测验之间的连接的包括预测(predicting)、量表化(scaling)和等值(equating)三种不同的方式。例如,我们可以根据中国汉语水平考试(HSK)的成绩来预测商业汉语考试(BCT)的成绩,HSK与BCT的连接方式是“预测”而不是“等值”,也不是“量表化”。我们把HSK(基础)、HSK(初中等)和HSK(高等)组成一个包括3级到11级的汉语水平量表,HSK(基础)与HSK(高级)的关系既不是“预测”,也不是“等值”,而是一个量表化的过程。HSK(初中等)考试每年在海内外施测多次,在不同试卷之间建立可比性的过程,即为“等值”。

图1 测验之间的连接

相当长的时间中,教育测量学家将等值分为横向等值(horizontal equating)和纵向等值(vertical equating)。在考试的平行版本之间建立联系的过程,被称为横向等值。有的时候,测验被用来建立发展量表,一组水平不同的测验被用来描述考生的发展水平。在这些不同水平的测验之间建立联系的过程被称为纵向等值。显然,这些被用于建立发展量表的测验并不是相同水平的,将之称为“等值”是不妥的。将测验之间的这类连接称为“量表化”更为合理。

(一)预测

对于两个不同的测验(如HSK与BCT),根据其中的一个测验的分数来估计另一个测验的分数,称为“预测”。图2给出了关于预测的示意图。在预测中,可以包括两种不同的计算模型。我们既可以预测另一测验的观察分数,也可以预测另一测验的真分数。当预测真分数的时候,我们考虑到观测分数仅仅是真分数的估计值,因此需要考虑到估计误差的问题。

不论是估计观察分数还是真分数,都需要通过考生的样本数据来进行估计。当测验X和测验Y的数据都来自相同的考生总体的时候,我们将这种估计称为“预测”。当考生样本来自不同的考生总体的时候,我们将这种估计称为“投射(projection)”。

图2 关于预测的示意图

在预测中最经常使用的一种数学工具是回归。需要注意到,以回归方法得到的连接关系是不对称的。例如,如果一组考生同时参加了测验X和测验Y,从考生分数数据中我们可以很容易地得到两个关于X和Y的回归方程:

Y=11.194+0.689×X

X=20.859+0.494×Y

并计算出X与Y的相关系数r=0.583。当X=44,Y=41.51,而当Y=41.51,X=41.36,而不是44。

只有当r=1的时候,二者的回归关系才是对称的。显然,在实际的考试实践中这种情况是不会出现的。

(二)量表化

量表化是将两个或多个考试放到一个统一量表上的过程。现代标准化测验诞生的一个标志性测验是法国心理学家比奈(Binet)1905年出版的《比奈智力测验》。在这个测验中,实际上已经包含了“量表化”的过程。这个测验适用于不同年龄的儿童,对不同年龄的儿童所施测的题目不同,所报告的是具有可比性的智力分数。在这个测验中,已经包含了对不同“试卷”的量表化连接。在这一新的关于量表化的框架体系内,量表化过程被划分为“构念(construct)相同”与“构念不同”两种情况。在图3中给出了这一量表化框架的示意图。量表化过程可以被划分为六种不同的模式。

1、量表系列(battery scaling)是指构念不同但考生总体相同的情况。HSK的各个分测验分别测量听、读等不同的构念,题目数量不同,原始分之间并不具有可比性。但是,各个分测验的量表分都是100分,具有相同的分布。这种量表化过程,使测量不同构念的测验分数具有了一定的可比性,我们可以根据测验分数说一个来自日本的考生“阅读水平较高,但听力水平不高”。这种量表化过程,并不能在两个分测验之间建立“预测”关系,我们并不能据此从一个考生的“听力分数”来预测他的“阅读分数”。

图3 关于量表化的示意图

2、基于假设总体的量表化(scaling on a hypothetical population,简称SHP)是指构念和考生总体都不同的情况。这种情况下的分数连接以往被称为“统计调整”(statistical moderation)。例如,高考实现“3+X”模式以后,高校招生老师经常需要在参加了不同的考试科目的考生之间进行选择。在语文、数学、外语三科之外,一个考生可能选考了物理,另一个考生可能选考了化学。这时,在物理分数与化学分数之间建立一定的可比性,对招生录取是很有帮助的。在这种情况下,物理考试与化学考试所测量的是不同的构念,分别参加物理考试和化学考试的考生也不属于同一个总体。从20世纪70年代开始,测量学者们就发展了一些统计方法,在这种情况下对考试分数进行连接。这时,通过假设一个同时参加了语文、数学、外语、物理、化学所有科目的“假设总体”,借助一定的统计推断技术,可以在物理、化学分数之间建立起一定的可比性,为高校招生提供一些参考。

3、基于锚测量的量表化(anchor scaling)也是指构念和考生总体都不同,但是两个测量之间具有共同的锚测验的情况。在高考“3+X”模式中,可以将语文、数学、外语视为一种“锚测量”,对其他的科目的分数进行连接。

4、纵向量表化(vertical scaling)是指构念相同,考试信度相同,但是考试难度不同,考生总体不同的情况。HSK的基础、初中等和高等考试之间的连接属于这种情况。不同级别的三个考试所测量的构念都是“汉语交流沟通能力”,具有相同的构念。通常也具有相似的信度。但是,测试的难度不同,所面对的考生群体也不同。

5、标定(calibration)是指构念相同,考生总体相同,具有相似的难度,但考试信度不同的情况。通常这时考试的长度不同。许多测验包含更便于施测的“简易版”。例如,国家职业汉语能力测试(ZHC)的普通版为102题,150分钟。为了更好地向一些企业、机关和学校提供服务,ZHC还具有一个60题、50分钟的“简装版”。在“简装版”中答对35题相当于在“普通版”中答对多少题?这是“简装版”使用者所关心的问题。一些统计方法可以帮助测验的开发者在“简装版”分数与“普通版”分数之间建立连接。“标定”是一个在IRT参数估计中经常使用的概念。在讨论测验之间的连接时,这一概念的含义是有区别的。

6、谐同(concordance)是指构念相同,考生总体相同,具有相似的信度和难度的情况。在许多招生和招聘的情境中,招生招聘单位会同时承认两种或两种以上相似的考试中的任何一种。例如,招生招聘单位可能同时承认“大学英语四、六级考试(CET)”成绩和“公共英语等级考试(PETS)”成绩。这两种考试可能在构念、难度、信度和考生总体方面基本相同。借助一定的统计方法,可以在两者的分数之间建立联系,这种联系,对于招生招聘人员是很有帮助的。

(三)等值

等值是对同一个考试的不同版本的分数进行连接的过程,是在构念相同、难度相同、信度相同和考生目标总体相同的情况下的分数连接。等值的目的是使两项测试分数可以互相转换。与预测和量表化相比,等值的条件最严格,是两个测验分数之间最紧密的连接方式。在图4中给出了关于等值的示意图。

多数能力水平认定考试和资格考试,都存在今年一份试卷施测于一组人、明年另一份试卷施测于另一组人的情况。影响两次考试的分数的因素有两个,一个是试卷难度变化,一个是考生能力水平的差距。难度变化是等值所关注的问题,考生能力差异是需要排除的误差因素。因此,等值过程就是排除考生能力因素的影响而确定试卷难度变化的过程。

一个合理的、有成效的等值处理需要满足的条件包括:

1、被等值的两份试卷测量相同的构念。

2、被等值的两份试卷具有相似的信度。

3、等值分数的转换应具有对称性,分数应既可以从X转换到Y,也可以从Y转换到X,二者的结果应该是一样的。

4、分数具有等价性。对于一个考生来说,参加测验X和参加测验Y应该没有区别;一个自学考试的考生,参加春节考试和秋季考试应没有区别;一个职业资格考试的考生,参加2007年的考试与参加2008年的考试应没有区别;一个HSK的考生,参加4月份的考试与参加5月份的考试应没有区别。

5、跨样本的一致性。等值的结果是一个使两个考试的原始分数可以互相转换的等值函数。这个等值函数根据特定的样本数据计算产生。在对两个考试进行等值处理时,从不同样本中计算得到的等值函数应该具有相似性。

图4 关于等值的示意图

从以上等值需要满足的五个基本条件,可以看出等值与预测、量表化的区别。通常在预测的情况下被连接的两个测验测试不同的构念。例如,我们用高考成绩来预测大学中的学习成绩。显然,高考与大学中的课程考试所测量的构念是不同的。在预测的情况下,被连接的两个测验也不能满足对称性和等价性方面的要求。在考试实践中,“预测”被大量应用于效度研究。在关于效度的预测研究中,通常会同时应用一个考试的多个不同等值版本。这时,等值与预测是两个不同的过程,等值的结果被应用于其后的预测研究。

在许多量表化过程中,被连接的两个测验所测量的构念不同,即使在测量构念相同的情况下,也不满足等价性和对称性方面的要求。例如,虽然HSK(基础)与HSK(初中等)测量相同的构念(语言交际能力),但二者面对不同的考生群体,不能满足等价性和对称性方面的要求。

二、等值数据的收集

等值包含两个基本问题:数据的收集和数据的处理。为了解决等值问题,我们首先需要通过一定的考试设计来收集等值数据,之后,需要采用一定的数学模型来处理数据,获得最终的等值函数。

等值数据收集的主要方法包括:

(一)单组设计(Single Group, SG)

一组考生先后参加两个需要连接的考试。以这种设计得到等值数据最直接,最简单,误差因素最少。SG设计需要解决的问题是怎样保证考生在参加两项考试时具有相同的动机水平。近年来,在HSK的等值中我们有时采用这种方式。我们通常会在报名时宣布,对部分考生提供一次免费的考生,先来先报,报满为止。两次考试,仅仅报告成绩较好的一次。这种方式解决了考生的动机水平问题。

(二)等组设计(Equivalent Groups,EG)

在许多关于等值的文献中,这种设计也被称为“随机组设计(random groups design)”。在这种设计中,两组考生各参加一项考试,每组考生仅仅参加一项考试。两组考生应是同一总体的两个随机样本,应具有相似的能力水平。显然,这种设计的假设是很强的,在考试实践中通常很难满足这样强的假设。如果真的满足了这种假设,等值就失去了意义。根据笔者的经验,在大规模考试中,当样本数量很大(通常应在10000人以上)的时候,这种设计可以作为一种“没有办法的办法”,对两份不同试卷的难度进行评估。在一般情况下,这种方法不应作为单独的等值设计,但可以作为其他等值设计(如共同组设计、共同题设计)的一种补充,可以对其他等值设计得到的等值结果进行验证。在等值实践中,我们很少仅仅采用一种等值数据处理方法,而是同时采用多种方法处理数据,互相参考。从1997年开始,在HSK共同题设计的等值过程中,我们总是同时计算Tucker观察分数、Levine观察分数、Levine真分数和等百分位四种模型的等值结果,互相参照。在对多种计算结果的比较选择中,EG设计的结果可以成为重要的参考依据。

(三)平衡组设计(counterbalanced,CB)

这是单组设计的一种改进方式。为了消除施测先后的顺序影响,将一组考生分为两半,一半考生先测X测验,后测Y测验,另一半考生先测Y测验,后测X测验。

(四)非等组锚题设计(Non-Equivalent groups with Anchor Test,NEAT)

也称为共同题设计或锚题设计。两组考生先后参加两个需要连接的考试,两个考试中包含一部分相同的题目。这时,不假设两组考生来自相同的总体,不假设两组考生具有相同的能力水平。NEAT是今天最常用的等值设计,也是HSK多年来所采用的主要等值设计。共同题等值的基本逻辑是,当不同的测验版本被施测于不同的考生样本时,平均分会存在差异。这时,我们不知道造成差异的原因是试卷难度方面的差别,还是考生水平方面的差别。如果两个版本之间存在共同题,我们就可以通过考生在共同题上的表现来估计两组考生的水平,排除了考生水平上的差距,平均分之间的差距就是试卷难度之间的差距。当锚题是两个测验的组成部分的时候,我们称为“内锚设计(internal anchor)”,当锚题是两个测验之外的独立部分的时候,我们称为“外锚设计(external anchor)”。

上述四种等值设计各有长处和局限。SG及其改进形式CB的数据处理简单,误差因素较少,但需要考生参加两次考试,实际中操作困难,可行性较差;EG操作最简单,但假设太强,通常难以满足;NEAT只需要考生参加一次考试,但等值结果很大程度上受到“锚题”与整个测验之间的相关的影响,当相关不高时,等值误差就会很大。在实际的等值实践中,需要综合考虑准确性和可行性,根据考试的实际应用环境,选择最适当的等值设计。

三、等值数据的处理

等值数据处理的方法很多。在各种等值数据处理方法的选择中,需要考虑的基本问题是:数据收集是基于共同组设计还是共同题设计?观察分数等值还是真分数等值?线性等值还是非线性等值?

从上世纪50年代以来,基于上述三种不同的情况,发展起了许多种不同的等值方法。

(一)等百分位(equipercentile)方法

这种方法将将两个测验版本上百分等级相同的分数界定为等值分数。最初,通过计算不同分数的百分等级就可以在两个测验分数之间建立起等值关系。今天,等百分位等值通常通过计算累积分布函数(cumulative distribution function)来实现。

(二)线性等值(linear)方法

这是基于经典测验理论之上的方法。在NEAT设计中,一组人参加了考试版本X,另一组人参加了考试版本Y。借助共同题,可以估计出全体考生在X卷和Y卷上的表现。线性等值的模型有许多,包括基于观察分数的Tucker模型和基于真分数的Levine模型。

(三)核等值(kernel)方法

2004年,Davier、Holland和Thayer三人出版了《测验等值中的核等值方法》一书,系统介绍了新的核等值方法。核等值方法是对等百分位等值和线性等值的扩展。核等值方法将分布估计、样本估计的平滑处理、分数转换等分离的技术整合到一个新的框架之中。在核等值法中,引入了考生样本特征变量,使等值过程更为精致。在核等值的框架中,线性等值是等百分位等值的一种线性近似,而等百分位等值则是核等值的一种特例。在核等值中,不是像以往等百分位等值那样运用插值方法和累积分布函数来进行平滑化处理,从而实现离散数据的连续化,而是借助“高斯——核(Gaussian kernel)”方法来实现平滑化。在等百分位等值中,试卷X的最高分只能对应于试卷Y的最高分。在核等值方法中,当试卷X较容易的时候,试卷X的最高分可能对应于试卷Y中一个低于最高分的分数。

(四)后分层等值(post-stratification equating,PSE)方法

这种方法被用于处理NEAT等值。在NEAT设计中,考生样本P参加了测验X和锚测验A,考生样本Q参加了测验Y和锚测验A。PSE方法假设P和Q构成了综合总体(synthetic population)T。在给定A的条件下,P、Q、T在测验X和测验Y上具有相同的条件分布。PSE方法根据已知数据估计T在测验X和Y上的分数分布,从而实现X和Y之间的观察分数连接。Tucker观察分数线性等值方法属于PSE方法。在核等值法中,也包含一种PSE线性等值模型。

(五)链等值(chain equating,CE)方法

与PSE方法相同,CE方法也被用于处理NEAT等值。同样,考生样本P参加了测验X和锚测验A,考生样本Q参加了测验Y和锚测验A。CE方法不估计综合总体的分数分布,而是首先将X等值到A,再将A等值到Y,从而实现X与Y之间的连接。Angoff于1971年提出的观察分数等值方法属于CE方法。在核等值法中,也包含一种CE线性等值模型。CE方法与PSE方法得到的等值结果不同。关于PSE方法,测量学者们几乎不存在分歧。关于CE方法,测量学者们的看法存在分歧,一些研究者对CE方法的合理性表示质疑。

(六)基于IRT的方法

从两个不同测验版本X和Y中估计得到的题目特征参数(区分度a,难度b和猜测度c)之间不具有可比性,据此计算得到的能力参数θ值之间也不具有可比性。为了在两个版本的得分之间建立联系,就需要借助于某种中介。这种中介可以是共同组,也可以是共同题。基于IRT的等值方法就是首先借助某种中介在两个测验版本的能力分数θ之间建立联系,继而建立观察分数之间的联系。基于IRT的等值在题库建设中非常重要。基于经典测验的等值方法可以在不同试卷的分数之间建立联系,可以建立“试卷库”,却不能在题目参数之间建立连接,不能建立“题目库”。基于IRT的等值方法,可以为题库中的每个题目标定具有可比性的题目特征参数。根据这些题目特征参数,就可以根据考生在测验中的反应模式估计出考生的能力参数θ。这样,就可以使从题库中生成的不同测验版本的分数具有可比性。

需要注意,各种等值数据的处理方法都包含或强或弱的一定假设,都仅仅适合一定的测验条件。有些假设是可以通过一定方式来检验的,有些假设不可能或很难被检验。在等值数据处理方法的选择中,需要考虑各种方法所涉及的假设,需要对测验条件进行评估,选择更适当的数据处理方法。

在我国,等值问题一直是考试研究中较薄弱的一个环节,许多重要的能力水平考试和资格认证考试都尚未实现统计等值。由于没有实现分数等值,不同时间举行的考试的成绩之间不具备可比性,评价标准或证书授予标准会受到试卷难度起伏的影响。一些水平不高的考生可能会由于运气好遇到较容易的试卷而通过考试获得相应资格,一些水平较高的考生可能会由于运气不好遇到较难的试卷而未通过考试并未能获得相应资格。这种状况,不利于提高考试的效度和信度,不仅影响到选拔效率和人员素质,而且对考生也是很不公平的。因此,加强关于等值的研究是我国教育测量研究者们所面临的迫切任务。

参考文献

[1]Angoff, W. H. (1971). Scales, norms and equivalent scores, In R. L. Thorndike (Ed.), Educational measurement (2nd ed., pp.508-600), Washington, DC: American Council on Education

[2]Brennan, R. L., ed.(2006) Educational measurement (4th edition), ACE/Praeger

[3]Davier, A. A., Holland. P. W., Thayer. D. T. (2004) The kernel method of test equating, New York: Springer.

[4]Holland, P. W., Rubin, D.B. ed. (1982) Test equating , New York: Academic Press

[5]Kolen, M. J., Brennan, R. L.(1995).Test equating, Springer-Verlag

[6]Kolen, M. J., Brennan, R. L. (2004). Test equating, linking, and scaling: Methods andpractices (2nd ed.). New York: Springer-Verlag.

[7]谢小庆:对15种测验等值方法的比较研究[J],心理学报,2000(2)。

[8]谢小庆:HSK和MHK的等值[J],考试研究,2005(1)。

(本文已发表于《考试研究》2008年2期)