基于统计软件SPSS的试卷质量分析

　　摘要：通过介绍spss软件对考试数据进行实例分析的具体步骤，揭示了分析成绩分布、试卷难度、区分度、信度及效度等指标内涵，论述出试卷质量分析应包含的内容，总结了一套考试分析的一般模式，旨在提供可行方案和数据决策，提升教学质量监控水平的科学化。

　　关键词：SPSS；统计；难度；区分度；信度；效度

　　中图分类号：G642文献标识码：A文章编号：1009-3044（2017）17-0121-03

　　试卷作为考试的一个重要载体，是测评学生学习成绩的工具，是教学质量检验的重要手段，因而教学质量评估管理中越来越重视试卷分析，试卷质量的分析结果客观地向教与学双方提供了反馈信息，进而实现评价教育目的的实现、教学效果的好坏等一系列质量要素，今后，应该成为教学工作中重要的常规环节之一。

　　1SPSS软件简介

　　SPSS软件是StatisticalPackagefortheSocialsciences英文名称的首字母缩写，即“社会科学统计软件包”，它是目前世界上常用的三大统计分析软件（SAS、SPSS及SYSTAT）之一，是世界上最早采用图形菜单驱动界面的统计软件，其界面友好、功能强大和操作简便，能方便地从其他数据库中读入数据。

　　SPSS是一款功能强大的教育统计软件，既可以进行基本数据的统计分析，还可以进行各种推断和检验统计。

　　2试卷质量分析应用实例

　　下面数据以安徽大学公共基础课程—《程序设计基础VB》的期末考试成绩为样本，利用SPSS软件分析说明考试质量分析的模式和各项指标。

　　2.1试卷基本结构

　　本试卷（满分100分），由两部分组成：客观性试题与主观性试题，其中客观性试题共A分，占X%，主观性试题共B分，占Y%。具体情况见表1。

　　填写试卷基本结构可以发现，题量尚可，试卷题型不够丰富，填空题可以细化为一般填空和程序计算填空，客观性试题一般强调知识点考察，常见类型为：单项选择题、多项选择题、判断题和简单填空题，而主观性试题则根据学科的不同，一般设有复杂填空题、简答题、问答题、论述题和计算题等题型。

　　2.2考试分析指标的定量分析

　　2.2.1成绩数据的录入与处理

　　1）定义变量并输入数据

　　这是直接方法。启动SPSS软件后会启动Statistics数据编辑器界面，通过單击VariableView标签进人变量名编辑窗口，在Name（名称）下注明学号、姓名、各题型、总分、平时成绩和班级代码。其中，各题型、总分、平时成绩和班级代码均设置为：Numeric（数值）类型，Decimals（小数点长度）定义为0，其余各项使用默认。

　　第二步，选择数据视图，开始输入数据：从第一行第一列起直接输入相关数据，这样，每行输入一个学生的记录，各列输入数据为一个某种题型的成绩，最后一列是班级代码等。

　　最后保存扩展名为sav格式的数据文件。

　　2）直接导人外部数据，更改数据类型

　　为了更好地对数据进行共享，SPSS还可以快速打开和编辑其他格式的文件，可直接导入操作的数据文件包括：MicrosoftExcel文件（*.xls）、SAS、dBase、Stata等格式。

　　具体的操作步骤为：依次单击File→Open→Data，此时要在文件类型下拉菜单中选择AllFiles，在出现的全部文件列表中找到关联文件双击，在弹出对话框内选中其中的Read复选框（此项设置为把表格中的第一行作为变量名导人，否则第一行将作为数据导入），单击OK按钮后会打开DataEditor界面，就能显示出刚才导人的Excel文件内容。随后，也可依次单击File→Open→Save（Saveas），将当前数据存为其他格式的文件，比如sav格式，方便下次使用。

　　本文实例数据先对考试系统自动生成的xls文件格式进行数据导入，然后对变量属性作了适当修改，如图1、2所示。

　　2.2.2成绩统计的基本描述性分析指标

　　成绩统计分析的基本描述性指标主要有：学生总数、实考人数、最高分、最低分、各等级的人数分布及百分比、均值与标准差、成绩分布图等，相应的描述性统计量包括最小值（Mini-mllm）、最大值（Maximum）、频数（Frequency）、均值（Mean）、标准差（Std.）、偏度（Skewness）和峰度（Kurtosis）等。这些指标均要求按班级对试卷成绩及总评成绩进行分析。其中，均值用来描述数据集中趋势，标准差强调数据的变异性，即数据的差异量数，进而反映数据全貌。而对称、偏斜及分布陡缓程度等数据分布的结构形态及特征则由频数、偏度和峰度用来描述。

　　1）卷面成绩的集中和离散数据统计

　　打开录入后的数据表，依次单击Analyze→DescriptiveSta-tistics→Frequencies，出现频数对话框，导入要建立频数分布表和直方图的项目，同时选上Minimum、Maximum、Mean、Std.devi-ation、Skewness和Kurtosis等参数，得到表1。

　　依次单击菜单Analyze→DescriptiveStatisfics→Fre-quencies→Charts→Histo-grams→Withnormalcurve，显示出分数段分布图和直方图。直方图如图3所示。

　　一般而言，学生成绩标准差在满分的5%-10%以内属于正常。从图表中得到的统计值可以发现：①本次考试的两个班的离散程度均较大，表明学生成绩离散度太大，可能是试题的问题，也有可能是学生水平的两极分化比较严重；②学生成绩基本呈正态分布；③考生总分偏度值为-0.138和-0.648，依据偏度在数据分析中的意义，本次测试数据显示：考生所得总分相对集中于平均分左侧，即大部分考生成绩小于平均分值；④在峰度的计算中，计算结果σ<0，可知在学生成绩的正态分布图有比正态分布更长的尾部，不过盯为较小负值说明，考生成绩在平均分附近的集中度虽低于标准正态发布曲线，但也差别不大；⑤标准差1≥10，差异较大。但是结合对总分的直方图的观察，可以发现：低分段考生的成绩与平均分的差距较大，这是造成即使大多数考生的总分集中于平均分附近，最后标准差数值仍较大的主要原因。

　　2）难度指标分析P

　　对于课程考试来讲，保持合适难度是保证试卷质量的前提。

　　观测得出：总试题难度大概在0.6-0.8之间，难度值中等偏低，试题适中，相对较难。

　　3）区分度指标分析D

　　区分度（Discrimination）是指测验题目对学业水平不同的学生的区分程度或鉴别能力。区分度作为评价试题质量、筛选试题的主要指标与依据，是测验是否有效的“指示器”。该指标对于选拔性考试如高考，竞赛尤为重要。具有良好区分度的测验，实际水平高的被试应得高分，水平低的被试应得低分。区分度与难度有一定关系。

　　在工具软件环境下，我们一般求出总分与每个试题得分间的积差相关系数作为试题的区分度，可以采用皮尔逊（Pearson）相关分析来对试题进行分析，步骤为：Analyze→Correlate→Bi-variate，在弹出的BivariateCorrelations对话框中选择各种题型和总分进人Variables，然后在CorrelationCoefficients中点击Spearman，完成后得到了各个题目的区分度。如表5所示：

　　从表中数据看出，由于三种题型的Sig.（2-tailed）：p=0.000<α=0.01，相关系数值达到了0.01显著性水平，表示试题的区分功能显著。

　　4）信度指标分析

　　信度（Reliabilitv）用来反映考生稳定水平可靠性，即测验能否真实反映学生水平程度的数量化指标，是测验的必要条件。常用的有重测信度、复本信度、同质性信度、荷伊特信度和评分者信度等。

　　因为影响测验水平的因素有很多，导致信度的计算方法也不同，实际使用何种信度要依据考试目的和性质而定，从而选择其中一种或几种。

　　由于高等教育测验中绝大多数混合了客观题和主观题，所以SPSS软件中一般采用克隆巴赫（Cronbach）α系数计算信度，取值0.5左右即可达标。这种计算方法是由Cronbach于1951年提出的，不要求測验题目必须是记分型也能计算任何测验的内部一致性系数。

　　在工具软件环境下，依次运行：Analysis→Scale→Reli-ability→Analysis，出现对话框，从中选择所有题型和总分，在Items框的Model项目中单击选择Alpha模型，并选中Scaleifitemdeleted复选框，计算出该试卷的信度系数Alpha=0.757。如表6所示：

　　通常Cronbach仅系数的值在0和l之间。如果Alpha系数不超过0.6，一般认为内部一致信度不足；达到0.7-0.8时表示量表具有相当的信度，达0.8-0.9时说明量表信度非常好。对上机测试来说，信度Alpha=0.757相对信度较高；一般来说，增加试题的数量；保持所有试题的难度接近正态分布；努力提高试题的区分度；严格监考和按评分标准给分均可以提高信度。

　　5）效度分析

　　效度（Validity）是指试卷准确地测量了考试目的的欲测内容的多少，多大程度上效检了所要测定的功能或达到其测量目的。

　　具体地讲，就是覆盖面和权重在教学大纲范围内的完成情况，体现考试能力水平和反映教学大纲完成的情况有效程度。

　　公认的效度分类方法是将效度分为内容效度、结构效度、构想效度和效标关联效度。确定使用何种效度要根据测验目的而定。常用的效度检验方法是：效标关联效度法，这种方法首先是寻求一种可靠的效标，然后求出测试结果与效标的相关系数，该相关系数则为效标关联效度。

　　在工具软件环境下，依次单击：Analyze→Correlate→Bi-variate，选择总分和平时成绩字段，随后在相关系数（Correla-tionCoefficients）中选择Pearson，计算数据如表7所示。

　　2.3试卷质量控制的定性综合分析

　　1）结合统计数据，进行定性评价

　　对试卷质量分析时的定性评价应有如下几个方面内容：一是题量和题型；二是试卷语言的表述是否明确和准确（如参考答案是否正确，试卷内容是否有重复或是对后继题目有提示等，专有名词表述是否准确，选择答案设计是否均衡、排列是否科学，）；三是试卷内容的难易度；四是试卷的内容效度—覆盖面问题；五是教学重点的突出程度。

　　2）结合教学实践，进行教学反思

　　建立一个长久稳定的指标体系。通过长期分析这些指标，可以更好地客观地指导我们的教学改革。

　　检验课程设置的合理性。这些可以通过多因素变量的综合横向和纵向比较。比如同一课程不同专业的学生的成绩是否有差异，进而分专业更合理地优化我们的课程安排。再比如通过长期比较同一课程不同授课教师的成绩数据，可以分析出教师之间的差异，进而去了解他们授课方法的不同之处，取长补短，促进教师的经验交流和快速成长。

　　体现学校管理的人性化和有效的监控。通过长期分析不同课程的成绩分析，间接分析出各院系或者个别学生在校期间的不同学习阶段的学习、听课情况，发现异动，综合评价，能做到及时提醒并引导学生的学习或对学生进行有效的辅导。

　　作者：施俊