教育技术学实验研究工具的跨时测量恒等检测

  • 投稿
  • 更新时间2021-01-21
  • 阅读量6次
  • 评分0
  • 0
  • 0

  摘要:基于跨时测量恒等视角与知识图谱分析,文章对我国教育技术学较常探讨的变量“自我效能”量表进行了工具检测,并以四川省某小学三年级的197名学生为被试,前后测时间间隔为6个月。文章采用结构方程模型的跨时测量恒等检验程序,依序针对不同恒等程度的模型进行比较,结果发现:数学自我效能量表不符合完全的度量恒等,放宽两道题项的参数限制后可达到部分的纯量恒等,但仍不及严格恒等的要求;跨时测量恒等性的结果会影响配对样本t检验的结论。基于此,文章提出建议:为了提升实验的内在效度,较长时间的实验研究应纳入工具的跨时测量恒等性检验。


  关键词:测量恒等性;实验设计;量表工具;纵向研究


  引言


  教育技术学领域有较多的研究是指向新兴技术对教育各层面的影响,因此确认事件因果关联的实验研究一直是该领域常见的研究方法[1][2]。目前,教育技术学领域的学者在实验研究方法方面的研究成果颇丰[3][4][5],但缺乏有关研究工具跨时间测量议题的探讨。从研究设计的角度来看,实验研究是在时间轴的维度下,考察被试在实验前后某一特质的变化,以此建立实验干预对该特质影响的因果关联。传统检验该特质前后差异的统计方式是方差分析(包含一般方差分析、斜方差分析与配对样本t检验),即通过计算被试在前测与后测的题项均值来进行比较,然而造成测量题项均值变化的变异来源于构念(Construct)的均值以及构念对应测量题项的测量模型两类[6][7][8][9]。在未确认测量模型不会随着时间有所波动之前,我们无法将测量题项均值的变动归因于构念(即该特质)的改变。


  Newsom[10]提到:当研究工具无法满足跨时测量恒等的条件时,采用方差分析得出的统计结果将无法保障研究结论的准确性。可见,对工具的跨时测量恒等的探讨将是提升我国教育技术学实验研究质量的关键。本研究聚焦于教育技术学实验研究工具的跨时测量恒等问题,研究步骤包括:①通过知识图谱,梳理出国内教育技术学最常使用的量表工具;②针对该量表工具进行跨时测量恒等性的检验;③按照检验结果,删除不符合恒等性条件的量表题项,并执行未删除与删除后的量表前后测均值差异显著考验,对比跨时测量恒等技术对研究结果推导所造成的影响。考虑到学生自述式量表的李克特计分形式是较常使用的测量方式,本研究的量表工具限定在此种类型。


  一文献综述


  本研究首先说明跨时测量恒等性的研究发展,聚焦于该分析的具体检验方式;随后,以知识图谱方式呈现出我国教育技术学研究常使用的量表工具,以进行后续的实证研究。


  1跨时测量恒等性的研究发展


  跨时测量恒等性的概念虽然提出已久,但直到近些年才有系统性的探讨。在2015年出版的第一本专门处理纵向数据(LongitudinalData)的结构方程模型(StructuralEquationModeling,SEM)专著中,Newsom[11]将工具的跨时测量恒等性作为分析纵向数据的基础。由于教育技术学实验研究所处理的也是纵向数据,而且研究的实施时间都在一定周期以上[12],因此格外需要注意在长时间的实验教学后,量表的后测测量模型是否与前测相同。Newsom[13]也指出,该检验的目的在于精确找出无法满足恒等性的题项,视情况将其删除,在保证测量具备恒等性的前提下,再继续进行跨时均值的比较。这说明搭配测量恒等性的检测,我们可以删除不满足恒等性的题项,然后针对剩余题项,再计算其前测与后测的均值来进行方差分析处理。这样既符合我国教育技术学者惯用的数据分析模式,又可增进研究结论的严谨性。


  归纳学者采取的SEM跨时测量恒等性检验方式,要满足恒等性成立的条件,必须通过嵌套模型的比较,从模型参数的不同限定方式来取得由宽松至严格的测量恒等证据[14][15][16][17]。由完全不恒等至完全恒等,可分成四种型态:①形貌恒等(ConfiguralInvariance),是指只有符合因子结构的相等,也就是各波时间点的测量模型要有相同的结构,但允许各参数自由估计;②度量恒等(MetricInvariance),是指在符合形貌恒等的前提下,各波时间点测量模型的因子负荷必须相等,但允许除此之外的其它参数可自由估计;③纯量恒等(ScalarInvariance),是指在满足度量恒等的前提下,外在测量指标的截距在各波时间点必须相等,也就是将各波测量指标的均值设定为相等,这是确保各波时间点的测量能测得相同的潜在构念,所获得的证据可支持测量指标与对应的构念具有稳定的关联——达到此标准,测量工具就具备了强跨时恒等性特征;④严格恒等(StrictInvariance)是指在纯量恒等的前提下,每一波测量指标的测量残差变异与共变限定为相等。


  值得注意的是,严格恒等对于随机测量残差在各时间点设定为一致,这在纵向数据的测量上是相当严苛的要求,因此在Coertjens等[18]的研究中提到,在跨时测量恒等的证据上并不要求必须达到严格恒等的程度。换言之,尽管测量工具没有达到严格恒等的条件,亦可进行纵向数据的比较。然而,此处所谓的“可以进行纵向数据的比较”是针对构念分数的比较,而非外在测量指标均值的比较。Newsom[19]指出:当以外在测量指标的数据进行各式组合(如取均值),并以此组合后的分数再进行统计分析时,严格的跨时恒等条件还是要满足。


  2国内教育技术学研究常使用的量表工具


  为了挑选本研究实证检验的自述式量表,本研究通过知识图谱的方式,筛选出国内教育技术研究中常使用的测量工具。本研究以中国知网收录的国内教育技术学CSsci期刊论文为检索范围;检索条件设定为:摘要=量表(精确),得出在摘要中出现“量表”字眼的教育技术学实证类研究论文;时间跨度设为2000~2018年。截至2018年4月28日,共检索出152篇相关文献。经人工查阅,删除3篇非实证类研究论文,最终得到有效文献149篇,绘制成知识图谱,如图1所示。图中的每个节点代表文献中所列出的关键词,可发现有三个节点的圆圈最大,分别为“学习动机”、“自我效能”及“影响因素”,其直径大小反映了关键词出现的数量。由于“影响因素”、“学习动机”均看不出具体使用的量表,唯有“自我效能”是具体的构念名称,故本研究选择自我效能的测量来进行后续的实证检验。根据Bandura等[20]的定义,自我效能是指学生对从事任务的能力知觉,一般将该构念作为学习动机理论的一环。


  二研究方法


  1研究被试


  本研究通过便利取样(ConvenienceSampling)挑选四川省一所县城小学三年级四个班级的学生为被试(n=197)。由于自我效能具有学科特定性(Subject-Specific),故本研究设定为数学学科方面的自我效能。四个班级的数学课由2名教学风格及教龄相近的教师来授课(皆为女性,年龄介于35~40岁,教龄介于10~15年)。被试在2018年的5月接受数学自我效能量表的施测,在间隔六个月后,于同年的11月接受后测。删除前后测有遗漏的被试后,最终分析人数为160名(含男生80名、女生80名)。


  2研究工具


  本研究使用的数学自我效能量表,是改编自吴静吉等[21]编制的“激励的学习策略量表”中的分量表。该量表被引用的次数达136次,是华人地区自我效能构念较常使用的测量工具。本研究以原量表的内容为基础,在文字方面进行了小幅度的修正,将量表题项的陈述情境特指为数学课。量表共有5个题项,采用李克特四点计分形式,当学生在该量表的分数越高,表示其数学自我效能程度愈高。“激励的学习策略量表”具有良好的信度与效度[22],而通过对本研究的被试进行检验,得出前、后测的Cronbach’sα值分别为0.64、0.73。前、后测的CFA(Confirmatory-Factor-Analysis)结果显示:RMSEA(Root-Mean-SquareErrorofApproximation)值依序为0.10、0.03,CFI(Comparative-Fit-Index)值依序为0.93、0.99,SRMR(Standardized-Root-Mean-Square-Residual)值依序为0.07、0.03,显示数学自我效能量表的信度与效度达到最低可接受的水平。


  3数据分析


  ①跨时测量恒等性的检验,按照形貌恒等、度量恒等、纯量恒等与严格恒等的步骤依序进行,采用LISREL8.80进行数据分析。每个步骤的限定参数模型要与先前的模型进行拟合度比较:若限定模型未较前一个模型有明显恶化,说明可继续执行下一步操作;反之,若限定模型较前一个模型的拟合度有明显恶化,则要放宽限定的参数,进行部分限定模型的程序,直到可以满足标准为止。根据Cheung等[23]提出的标准,拟合度未有明显恶化是指限定模型减去前一个模型的卡方差异显著值(p-valueofΔX2)要>0.05,以及ΔCFI要>-0.01,本研究以此作为主要的判定准则。此外,本研究也纳入ΔRMSEA与ΔSRMR的数值作为辅助判断参考,这些数值低于0.03,说明模型之间的拟合情况没有明显差异[24]。


  ②配对样本t检验。完成跨时测量恒等性的检验后,可得知数学自我效能量表中的哪些题项与潜在构念的对应会随时间而有所波动。根据Newsom[25]的建议,本研究将这些造成量表跨时测量变动的题项删除。接着通过配对样本t检验,对比全体被试(即不区分男女)、男生与女生在未删除与删除题项后的前后测均值差异结果,并采用spss22.0进行数据分析。


  三研究结果


  1描述性统计结果


  表1呈现被试在数学自我效能量表中各题的前、后测均值与标准差。在前测中,作答程度最高的题项是第二题“我确定我可以了解数学课中最困难的部分”,最低的是第四题“我有信心在数学作业和考试中表现优异”;在后测中,作答最高的依然是第二题,但最低者变为第一题“我有信心可以学会数学课所教的知识”。


  2跨时测量恒等性检验结果


  表2为不同程度跨时测量恒等的检验结果。其中,M1为形貌恒等的基准模型;M2是在M1的基础上,增加了设定前、后测因子负荷量相等的因子负荷限定模型;M3是以M2为基础,再加上设定前、后测各题项得分相等的测量指标截距限定模型;M4是以M3为基础,再加上前、后测各题项测量残差相同的测量残差限定模型。表2显示,数学自我效能量表在步骤M2就无法通过测量恒等性的检验(ΔCFI=-0.019,ΔX2的p值=0.03)。此结果表明:加上因子负荷量的限定参数后,M2的拟合情况显著恶化,需要进一步去找出哪些题项造成了测量模型无法恒等,故转为执行部分因子负荷限定的步骤。


  在部分因子负荷限定的检验结果中,发现:①放宽量表中的任何一个题项都无法满足测量恒等的条件,其中以放宽第二题限制的拟合度改善最多;②以第二题为基础,继续尝试搭配其它题项来进行检验;③经拟合度的比较,最终确认只有释放量表中的第二题与第五题才可满足部分测量恒等的条件(ΔCFI=-0.008,ΔX2的p值=0.07);④以不限定第二与第五题前、后测因子负荷量相等的方式继续进行M3检验,结果显示可通过测量恒等的检验(ΔCFI=0.007,ΔX2的p值=1.00);⑤M4的检验结果表明:加上测量指标的残差限定后,模型拟合度明显恶化。由于数学自我效能量表共5题,在放宽第二题与第五题后,仅剩下3个题项来估计潜在构念,达到一般用来估计构念的外在测量指标数量下限,故停止执行测量恒等检验的程序。总之,数学自我效能量表在本研究中取得了较强的部分跨时恒等证据,但未能达到最严格的恒等要求。


  3配对样本t检验结果


  跨时测量恒等性的检验结果表明,数学自我效能量表仅具有较强的部分跨时恒等性特征,未达到严格的跨时恒等要求。按照心理计量学的标准,在不满足严格跨时恒等的前提下,不建议进行量表均值分数的比较[26][27]。然而,本研究为了呈现跨时测量恒等技术对于研究推论所造成的影响,仍需要继续进行配对样本t检验。在删除第二题与第五题之后,研究者检验了全体被试、男生与女生在删除题项前与删除后的前、后测均值差异。表3为三个配对样本t检验结果,可以看出:全体被试及男生的前、后测差异,未删除和删除后的t值都未达显著。女生在未删除题项的前、后测差异未达显著,但删除后的t值达到显著水平(t=-2.13,p=0.04),具有小的实质效果量(d=-0.25)。可见,在纳入跨时测量恒等的检验后,在一定程度上改变了原来的统计分析结论。


  五讨论


  研究结果显示,数学自我效能量表在小学三年级学生作为被试的前、后测分析中,无法达到完全的度量恒等,放宽其中的2个题项限定后,才可达到较强的部分跨时测量恒等标准,但最终仍无法符合严格的恒等性对测量残差相等的要求。本研究通过模型拟合度的比较,得出原因是第二题与第五题导致量表无法满足完全的较强跨时测量恒等——也就是说,这两个题项在间隔6个月后,对被试的意义已有所不同。接着,本研究进一步比较全体被试、男生与女生在未删除与删除题项后的两次量表分数均值的变化,结果发现:女生的前、后测达到显著差异,与未删题前的情况有所不同,这说明该程序在一定程度上改变了原来统计检验的结论。根据绘制的知识图谱,本研究发现自我效能是我国教育技术学研究中常探讨的变量。可以想象,如果有一个教育技术学的实验研究是以该变量作为干预影响的因变量,由于该变量的量表不符合完全的跨时测量恒等条件,因此无论是否有加入对照组,一般求取量表均值差异的统计分析无法确保研究结论的精确性,这将严重影响实验的内在效度。


  事实上,本研究采用的“激励的学习策略量表”[28]具有悠久的历史,被引用超过百次,但仍无法完全满足跨时测量恒等的标准。如果连如此优良的测量工具都很难达到完全的跨时测量恒等,那么可以想象测量工具的跨时不恒等现象将会相当普遍,而且这个问题会因为实验介入时间越长而更加突出[29]。由于教育技术学的实验研究主要是教学实验,介入时间不宜太短[30],因此跨时测量恒等的技术对我国教育技术学的实验研究相当重要。基于此,本研究建议未来可以系统性地检验其它常使用的量表工具的跨时测量恒等性特征,这将是全面提升教育实验研究质量的重要工作。必须理解的是,导致测量工具跨时变动的原因有很多种,许多甚至是不明的原因[31][32]。对于教育技术学者而言,进行该工作的目的不仅在于改进量表工具的内容,更实际的效益应是删除造成测量不恒等的题项,然后继续使用惯用的传统统计分析方式,从而得到更精确的研究结论——从这个角度来看,跨时测量恒等性检验具有相当高的应用价值。


  六结论与不足


  本研究的最终结果表明,自我效能作为我国教育技术学常探讨的变量,即使采用了被广泛使用、历史悠久且具有良好信度与效度证据的量表工具,仍无法满足严格的跨时测量恒等条件。因此,若以该量表作为因变量的测量工具,进行介入时间较长的实验研究,并且使用求取均值的统计分析方式来检验被试前、后测的变化,那么得到的结论将不精确,此问题值得教育技术学者重视。在此情况下,本研究建议通过跨时测量恒等性检验,找出造成测量工具跨时变动的具体题项,再根据情况进行调整,才能执行后续的数据分析。


  需要指出的是,本研究的不足在于探讨的检验方式仅限于反映性测量模型(ReflectiveMeasurementModel)——自我效能量表即属于此种模型,而对于形成性测量模型(FormativeMeasurementModel)的构念并不适用。反映性与形成性测量模型有诸多差异,其中之一是后者无法以一般的CFA处理,必须在测量模型中另外加入一个潜在构念,以结构模型的方式来加以检验,但当依此进行跨时测量恒等检验时,情况会变得相当复杂。至于采用目前流行的偏最小平方法(PartialLeastSquares)来评价形成性测量模型,虽然可以直接处理测量模型本身,但由于不会提供模型整体拟合度,因此无法通过模型比较来取得测量恒等的证据,还有待心理计量学的发展来加以解决。