1.引言
一件合格产品的问世必须经过上百道工序的锤炼、全方位品质监控体系的检测,同样地,做教育实证研究,不可缺少的一环是对研究进行“质量把关”,一项好的研究必须是稳定可靠的,多次使用获得的结果应前后一致,这是教育研究得以推广使用最基本的前提.在教育研究中,误差不可避免,但大小有所不同,我们总是尽力缩小随机误差到可接受的程度,从而使得研究结果更准确可靠.一项研究结果的稳定性和一致性如何、可靠性有多大、能在多大的程度上保证研究工具的精密是研究中最不容忽视的基本问题,这个问题即是研究的信度.不同研究的信度可能存在高低程度上的不同,教育实证研究应当追求更高的信度以保证得出研究结论的客观性、科学性和可推广性.本文将揭示信度理论的原理,从信度的理论定义走向操作定义,并作进一步细化,从平行测验的获得方法重复施测、复本替代及等值分半等得到数学教育研究中的不同信度类型,深化对信度概念的理解,以期更有效地做好数学教育定量实证研究.
2.全方位认识信度
2.1从误差角度———理论定义
对于实证取向的数学教育研究,倾向于用数据揭示现象背后的规律,从量的角度客观还原事物本来面目,然而,不可避免地在数据收集、数据处理和数据分析过程中出现错误,产生误差,影响研究结果的可靠性.“误差”一词源于自然科学研究中的物理学用语,可以借用来帮助理解信度的理论定义.在教育实证研究中,被试在某一测量属性上的真实值称为真分数(T),施测直接获得的实际值实测分数(X),两者之间的“距离”就是测量误差(E),建立误差模型X=T+E,其中,E和X是随机变量且相互独立.由于我们要考察的不是某一被试的分数,而是一组测验分数的整体特性,故将上式中的分数换成分数方差形式,即进行方差正交分解σ2X=σ2T+σ2E,信度反映了测验结果的稳定性和一致性,因此信度系数理论上可定义为一组测验真分数方差与实测方差的比值,即ρXX=σ2Tσ2X=1-σ2Eσ2X,显然该定义说明测量结果可靠程度关键在于实测分数的方差有多少是由个体真分数方差引起的,这一比例越高,随机误差的方差比例就越低,研究结果的稳定性与一致性越强,研究的信度越高,反之,研究的效度就低.从误差角度来看,要想得到信度系数,必须将真分数从实测分数中分离,所谓真分数就是没有误差的值,或者说是大量(理论上是无限的)实验结果的平均分数,在测量属性一定时,对某个特定的被试而言真分数T是一个常数,具有稳定性.然而在教育研究中,实际操作中误差不可避免,试验次数也不可能达到无限次,真分数T和随机误差都无法通过样本来计算,因而在真分数理论框架内,σ2T(或者σ2E)是未知量.就是说,不能直接使用信度的定义公式来计算信度,这是看似简单的信度却引出诸多问题的原因.因此,尽管信度的理论定义公式是基于真分数本身的,直接抓住控制误差这一本质,具有指导性的理论价值,但可操作性不强.我们有必要从不同角度研究信度的分类,将理论定义变得可操作、可计算.
2.2从相关角度———操作定义
既然真分数无法直接求解,不妨以退为进,设法找一些可以实际获得的已知量来代替信度公式中的未知量,由于实测分数是实验过程中唯一可直接获得的资料,做法是从实测分数出发来定义信度,使信度变得实际可操作.理论上看,同一组被试在两平行测验上的实测分数是相同的,然而在实际研究中,同一组被试在两平行测验上实测分数往往存在差异,这种差异正是由测量误差决定的,如果两个实测分数高度接近,可以推论测量误差很小,测量是可靠的.因而,一个合乎逻辑的想法是用两个平行测验实测分数之间的相关来定义信度,间接来推论测验控制误差的能力,该定义具有可操作性.从相关角度来看,信度是通过计算两平行测验得分的相关系数得到的,信度系数介于-1到1之间,信度系数越大,测验越可靠.如果信度为负值,说明在一个平行测验中得分高的被试在另一个平行测验中得分低,当然这种情况很少出现,信度系数一般介于0到1之间,不同目的的测验对信度系数的要求不同,例如一般标准学业成绩考试要求信度在0.90以上,标准智力考试的信度应达到0.85以上,个性考试和兴趣考试则较低,达到0.70-0.80即可.用相关法评估信度,用一个0至1之间的数,依据数值的大小刻画研究的效度高低,这种方法可操作性很强,关键点和难点就在于平行测验的获得.
2.3平行测验的获得———三种方法
要从操作层面得到测验的信度指标,就要求得两平行测验的相关性,前提是存在两组平行测验,可以说,解决信度问题的能力就取决于获得平行测验的能力.平行测验测的是同一被试属性,要求对同一足够大的被试施测后,这些实测分数的平均数和方差都相等,且所有测验与其他任一测验的相关也相等.这是按照统计学方法进行检验,在数学教育研究中,我们还应对测验内容进行分析.(1)从时间变量来看———重测信度如果一个测量工具和所测属性是稳定可靠的,那么测量结果应当不以时间为转移,前后一致.从这个角度出发,用同一测验对同一组被试在不同时间重复实测两次,测验的形式和内容相同,就得到一组平行测验,计算两次实测分数的相关系数得到测验的信度,称为重测信度.根据重测信度的高低,可以得知测验结果跨时距的稳定性程度,因此重测信度也成为稳定系数.例如,为了考察学生对学习数学的兴趣,就需要确定一定时间间隔,在使用某种教学方式前后分别对学生进行施测,考察两次实测分数之间的相关性,即求重测信度是获得平行测验最简单的方法,然而由于使用的是同一套测验,形式与内容完全一样,测验结果不可避免地受到练习和记忆的影响,加之时间间隔的确定不太容易,因此重测信度存在明显的局限性,测量误差较大.(2)从功能等值来看———复本信度为了避免使用同一测验重测带来的记忆效应和练习效应,一种自然的想法是使用两个功能相同的测验对同一组被试对象进行施测,计算两个版本得分的相关系数,这种类型信度称为复本信度.复本信度系数越高,表示两个版本的实测分数基本相同,可以相互替代;复本信度系数低,则说明两版本的实测分数不一样,不能互相替代.例如,在许多正规考试中,都会出A、B两套试卷,B卷作为备用卷,其功能在误差允许范围内与A卷是等值的.考察两个版本试卷的功能是否等同,就需要求出A卷得分与B卷得分的相关系数作为两个版本在功能上的等价程度,即复本信度.在可以被接受的信度范围内,两套试卷互为复本,相互替代,以备不时之需.实际上,复本信度的高低反映了两个互为复本的测验在效能上的等价程度,而不是直接反映一个测验本身受随机误差影响的大小.通常要求两个版本在题目内容、形式、题数、难度等方面保持一致,这样才能保证整体测验的效能类似,从而提高复本信度系数,因此复本信度也成为等值系数.然而,在教育研究中,两个测验具体的项目难以保证“平行等值性”,内容抽样和难度匹配难以做到严格等同,并且编制两份复本测验所花费的人力物力成倍地增加,成本很高.(3)从内部属性来看———内部一致性信度重测信度和复本信度都需要前后施测两次,且复本信度还需要两种形式的测题.为了减少时间和成本损耗,循着使用单一形式测验只施测一次的思路,不妨从测题内部的一致性着手考察测验的信度,这样得到的信度称为内部一致性信度或同质信度.如果测验内部各测题间相关一致性强,则认为是同质的,说明测验的所有成分都在集中力量考察同一属性,那么内部一致性信度就高;相反地,各测题相关较低,则认为测验为异质的,测验的内部一致性信度就低.内部一致性信度摆脱了传统上信度系数的定义———用两平行测验向同一组被试前后施测两次获得两批实测分数的相关性,另辟蹊径,从内部属性角度出发,用单一形式测验只施测一次求出信度系数,其原理还是使用了平行测验,具体获得平行测验的方法如下:将一个完整的测验分为等值的两半,通常是奇偶分半法,即采用题号的奇偶数作为分组标准,分别两半测验分数之间的相关,得到的信度称为分半信度.这样就实现了只用一个测验,只对被试组施测一次即可求出信度,既不必对同一项目重复施测又免去编制复本的精力,省时省力.分半法的关键是在两个半测验上使用了平行测验的原理,然而这样使得实际测验项目减少了一半,由于信度受测验长度的影响,测验越长,信度越高,因此分半信度低估了测验的信度系数,需要对其进行矫正.一般采用斯皮尔曼-布朗公式(Spearman-Brown)rXX=2rhh1+rhh进行矫正,其中rhh表示分半信度系数,rXX是测验在原长度时的信度系数估计值,使用该公式要求测验两半严格平行,即测验的平均数、标准差、项目的组间相关等高度相似时;在实际操作中如果两个分半测验的方差不等,可以采用费拉南根公式(Flanagan)rXX=21-S2a+S2bS2t和卢龙公式(Rulon)rXX=1-S2dS2t,其中S2a与S2b表示两分半测题组得分的方差,S2d为两分半测验实测分数之差的方差,S2t是整个测验的总方差.这两个公式不要求分半测验分数的方差相等,弱化了限制条件,操作性更强.然而,分半法中每种分法都会产生有微小差别的r估计量,为了克服这种弊端,研究者从方差分析的角度提出了以试题统计量为转移的信度系数求法,可避免任意两分半的误差.假设全测验有k个项目,通过考察任意两个项目之间的相关性,求得信度系数———克隆巴赫α系数=kk-11-∑S2XiS2X,其中S2Xi表示第Xi题得分的方差,S2X为测验得分的总方差,k为测题数目,克隆巴赫α系数公式是一个适用广泛的求单一形式测验信度系数的通式,构成测验的项目可以是0-1二分值记分,也可以是非二分值记分;可以是平行项目,也可以是非平行项目.如果一个测验全是以0-1二分值记分的项目组成,则上式每个项目实测分数的方差就等于用该项目上的通过率p与未通过率q的积,公式变为rXX=kk-11-∑pqS2X,称为库德-理查逊公式(KR-20),它是α系数在二分值记分方式上的特例.从分半信度到α系数和KR-20公式,这一大类单一形式测验内部一致性信度都考察测验的组成成分,直至最基本的单位即项目之间的相关性.如果它们的相关一致性强,说明测验的所有成分都集中于考察同一属性特征,这样测验的信度系数取值高,测验质量好.内部一致性信度在操作上采用了单一形式测验,但本质上仍是求取平行测验间分数的相关,因而与重测信度系数和复本信度系数一样,都是一组实现平行性要求的策略和方法.从内部属性角度考察获得平行测验的方法,还能从信度和效度两方面说明问题.它从信度与效度的关系角度提出了对测验量表内部一致性检验的思路,效度从根本上受到信度的限制,如果一个测量量表是有效的,这个量表就必须是前后一致的.重测信度、复本信度、内部一致性信度是主要的三类信度指标,用来对研究质量进行分析各有优点和特殊适用范围,严格地说,都是信度系数的大体估计值.一般地,内部一致性系数大于复本信度,复本信度大于重测信度,复本信度和重测信度两种估计方法中,属于测量误差的因素多与内部一致性信度.在具体操作中,用来估计信度的方法应当与研究的目的相吻合,有时还需把几种方法加以综合应用,贯穿统一起来,使得在真分数理论的框架下,获得对信度完整透彻的理解和运用.
3.教材寻根
数据是数学教育实证研究的命门,没有量化数据的支撑何谈研究的客观、可靠、有效、可推广.然而从“量”的角度客观还原事物本质的同时,不可避免地会产生随机误差,使得研究信度大大降低.因此无论是数学教育研究还是概率统计相关知识的中学数学教学,都会强调控制随机误差,确保所获得资料的准确性和可靠性,提高研究的信度.鉴于信度原理的复杂性,信度在中学概率统计部分的体现,远远不如方差分析、相关系数、回归分析这般明显,但教材中对信度概念的处理、信度思想的渗透在细微处可见一斑.例如教材中统计部分,用样本估计总体所提及到抽取样本,三种抽样方法往往只有“好坏之分”,而不是“对错之分”,评价抽样方法的优劣应该以样本的代表性为标准,为了使样本具有代表性,抽样规则应客观、公正,保证总体中每个单元被抽中的概率相等,因此等可能性是三种抽样方法赖以存在的前提和根本,这样的抽样结果才客观公正、不失代表性,提高了研究的信度.再如教材中概率部分,频率在大量重复试验的前提下可以近似地作为这个事件的概率,这就是频率与概率的关系,而“大量重复试验”正是为了减少随机误差,提高了研究的信度,保证了试验结果———概率的精准与合理,概率从数量上反映了随机事件发生可能性的大小.统计与概率关系密切,理性和严谨是数学学科的特点,借助概率知识,通过逻辑分析和运算过程,让三种抽样方法的“等概率性”变得有理有据,促进学生进一步体会抽样规则的科学、合理之处,减少随机误差和偶然,保证研究的高质量.
参考文献
[1]顾海根.心理与教育测量[M].北京:北京大学出版社,2008:9-20.
[2]张灵,徐章韬.微言要义之抽样方法.数学通报[J].2018(5):27-29,33.
作者:徐章韬 梁玉华 单位:华中科技大学附属中学 中师范大学数学与统计学学院
返回数学论文列表