图片来源:摄图网
摘要:在新高考综合改革中,高中学业水平考试选考成绩作为高考成绩的组成部分。高考选考科目由于考生能力和题目难易度不同,原始分无法进行比较。如果各科使用标准分或者比例等级计分,虽然解决了题目难易度不同的问题,但因考生能力不同导致的计分不公问题会更加突出。为解决上述问题,提出了计分定级方式,在强假设和弱假设下分别得到选考科目的统计校准分数,然后让学科专家小组在此基础上设定专家校准值。根据选考科目在必考科目有成绩之前还是之后定级,分别给出等级赋分方法,从而解决考生选科时“避难选易”和“避强邻弱”的问题。
关键词:高考;高考改革;高中学业水平考试;学业水平标准;校准分
2017年新高考改革率先在上海市和浙江省实施,亮点之一是文理不分科“3+3”考试科目设置:统考科目3门(语文、数学、外语),选考科目3门(上海市6选3,浙江省7选3)。在计分方式上,统考科目使用原始分,每科满分150分。选考科目则先按预设比例划分等级,然后对等级赋分(以下简称“比例等级制”),上海市将选考科目分为11个等级(10个级差),等级赋分后级差为3分,最低40分,最高70分;浙江省将选考科目分为21个等级(20个级差),等级赋分后级差3分,最低40分,最高100分。考试科目设计属于政策范畴,但计分方式属于技术范畴,技术与政策应当兼容。本文将先分析比例等级制存在的问题,然后提出选考科目(以下简称“X科”)合适的计分方式。
1 比例等级制存在的问题
比例等级制的做法是预设比例按考生排位划分等级并赋分。以上海市为例,11个等级从高到低的比例依次为:最高等级A+占5%,中间9个等级各占10%,最低等级E占5%(见表1)。由于相同成绩考生的等级需要相同,而最低等级的划分还有其他规定条件,实践中上述百分比只是一个约数。这就意味着一个考生在选考科目上的最后得分,与该科题目难易度没有关系,取决于在该科成绩的排位。例如,假设张三在物理科的排位是前10%(对应的百分等级为90,即有 90%考生物理成绩或者表现在他之下),则他的物理等级是A,赋分后为67分。
但是,各科都相同的预设等级比例上存在问题。例如,一个物理考生与一个生物考生,只要在选考科目上的成绩百分等级相同,从理论上说二者最后的赋分应该相同。在该方面,选考科目的比例等级制赋分与选考科目直接使用标准分(1999—2006年广东省实行“3+X”的做法)的本质上相同,都是成绩(按百分等级)排位相同最后得分就相同。
在未实行选考科目时,物理考生与生物考生为同一批人,实行比例等级制合理,或者,如果物理考生与生物考生两个考生群体的整体能力分布相同或者相近,比例等级制也合理。从物理和生物两科的招生专业来说,重点大学招收物理考生的专业远远多于招收生物考生。例如,2004年北京大学在广东省(当时有X科)招收50名学生,其中48个专业都可以招物理考生,但招生物考生的一个专业都没有。清华大学在广东省招收60名,全部专业都可以招物理考生,但同样没有招生物考生的专业。这就使能力较高的理科考生选考物理科远远多于选考生物科。重点中学选考物理的考生人数往往是选考生物的几倍,结果是物理考生群体能力较强。
采用比例等级制或用传统方法直接计算标准分,物理考生群体受影响较大,广东省实行“3+X”已有过教训。虽然人们不一定了解背后的原理,但经过多年的实践,教师和考生都感觉物理考生受影响较大,因而普通中学的考生选考物理科的人数越来越少,形成恶性循环,相应地重点中学的物理考生也受影响。以广东省为例,实行“3+X”时,虽然考生总数逐年上升,但选考物理的考生比例逐年锐减,如2003—2005年,考生总人数从30万上升到45万,但选择物理科的考生却从14万左右降到不足8万,许多本来喜欢物理的考生放弃物理去选考并不喜欢的其他科目。
2 选考科目合适的计分方式
温忠麟和罗冠中研究了国内外高考考试与计分方式,提出高考计分方式应当与科目设置相适应,见表2。
在新的高考改革方案中,既有统考科目,又有选考科目,还需要将它们合成总分,因此,合适的计分方式是统考科目用标准分,选考科目用校准分数,即要用适当的方式计算标准分或者等级比例。
统考科目使用原始分的弊端在20世纪80年代引入标准分前后直到现在还存在争议。存在两个方面的不足:一是不同科目的原始分没有可比性,无法直接相加;二是直接相加的结果与政策设定的权重可能出入很大。
选考科目不校准分数会导致部分考生选科时出现“避难选易”和“避强邻弱”的问题。比例等级制消除了科目之间考试难度不同的问题,让考生不再“避难选易”,但却突出了“避强邻弱”的问题,所以,有必要校准选考科目分数。
3 分数校准方法
分数校准分为专家校准法和统计校准法两类,下面先分别介绍两类校准,然后提出综合二者的计分方式。
3.1 选考科目分数基于学业水平标准的专家校准
专家校准需要学业标准。已有多位研究者讨论了学业水平的设定,其中文献有具体的介绍。学业标准设定主要是内容标准和表现标准的设定。课程标准和考试大纲是内容标准的主要组成部分,还需要一套基于课程标准和考试大纲研制的标杆试卷(样本试卷)。
表现标准则是一套等级描述,用文字描述达到不同等级的考生的典型表现。例如,香港中学文凭考试各科成绩分成5个等级,最高是5(其中,最好的10%考生记为 5**,次好的30%记为 5*),最低的是1(不到1的记为U,表示不入等级),有5个等级描述。例如,表3是选考科目物理等级3和等级4的描述。
等级描述以5~7个为宜,如果太多,很难找到合适的形容词去描述。实际定级需要更多等级的话(如上海市的11个等级或浙江省的21个等级),对每个有描述的等级再细分2~3个等级即可。
考试阅卷后,专家根据考生的表现对照学业水平标准划出等级的切分点,由于各科的切分点可能不同,相当于对分数做了校准。如果各科设定的标准大致相同,各科专家的判断也很准确的话,那么专家校准可以同时解决考生选科时“避难选易”和“避强邻弱”的问题。
然而,单纯的专家校准也存在不足,因为不同科目的专家根据学业水平标准给出等级切分点时,会受到两方面的影响:一方面,专家在将学生实际表现与学业标准比较时,会受到对标准宽严把握是否适度的影响(不同的专家小组校准结果会不同,甚至同一个专家小组在不同的时间去校准也会有波动);另一方面,专家比较的是同科考生的学业表现,这会受到所谓“大塘小鱼效应”的影响。
3.2 选考科目分数基于强弱假设的统计校准
温忠麟和罗冠中讨论过多种考试分数的统计校准方法,但未完全明确统计校准的假设及其理论依据,本文将给出选考科目统计校准的强假设和弱假设。
3.2.1 选考科目统计校准的强假设
选考科目统计校准的强假设是:一个大规模的考生群体(如超过1万人),选考科目的能力分布与3门统考科目(作为整体)的能力分布相同。例如,物理考生群体的能力分布与3门统考科目(作为整体)的能力分布相同,生物考生群体的能力分布与3门统考科目(作为整体)的能力分布相同。
强假设的依据是加德纳多元智能理论,20世纪80年代哈佛大学认知心理学家加德纳所提出的多元智能理论对教育测评产生了较大影响。该理论认为每个人都拥有8种主要能力:言语—语言、逻辑推理、空间想象(抽象—形象)、身体运动、音乐韵律、人际关系、自我反省、亲近自然。不同的学科需要解决的问题不同,但都离不开这些能力。显然,语文、数学和外语考查的主要是言语—语言、逻辑推理、空间想象(抽象)。如果说音乐考试主要考查音乐韵律、体育考试主要考查身体运动、美术考试主要考查空间想象(形象),那么物理、化学、生物、政治、历史和地理等科目考查的仍然是以言语—语言、逻辑推理、空间想象(抽象)为主。因此,除了音乐、体育、美术以外,可以假设考生选考科目的能力分布与3门统考科目(作为整体)的能力分布相同。
依据强假设,可以将选考科目的分数分布校准到与统考科目(也称为基础科目,以便讨论没有选考科目的情形)的分数分布一样。具体计算方法如下:
第一步:求出考生的语文、数学、外语以及X科的正态化Z分。
第二步:计算考生语文、数学和外语以及X科的标准分(平均分500,标准差100),分别记为T(语文)、T(数学)、T(外语)以及T(X科)。
第三步:合并考生的统考科目分数,称为基础分:T(基础)=W1×T(语文)+W2×T(数学)+W3×T(外语)(1)
并将T(基础)重新标准化为均值500、标准差100的标准分,其中W1、W2、W3是权重,不同的X科可以不同,最合理的是用T(X科)对T(语文)、T(数学)和T(外语)的标准化回归系数进行加权,此时,T(X科)与T(语文)、T(数学)和T(外语)的多重相关系数R就等于T(X科)与T(基础)的皮尔逊相关系数。
第四步:计算X科考生群体的基础分T(基础)均值和标准差,分别记为MX科考生(基础)和SX科考生(基础)。
第五步:将X科标准分校准到以MX科考生(基础)为平均分,以SX科考生(基础)为标准差的分布。假设一个考生在X科的Z分数为Z(X科),其校准后的标准分记为T*(X科),计算公式如下:T*(X科)=MX科考生(基础)+SX科考生(基础)×Z(X科)(2)
对于全体考生来说,T(基础)的均值是500、标准差是100。如果物理考生T(基础)的均值是540、标准差是80,说明物理考生的整体能力较强、分散程度较窄,其物理成绩校准后也是均值540、标准差80。
但是或许有人会质疑,既然如此,为什么不只考语文、数学和外语?其实是混淆了个体能力(或专长)与考生群体整体能力的区别,下面讨论弱假设时将作进一步的解释。
此外,还有人会质疑,基础科目包含两文(语文、外语)却只有一理(数学),对理科好的考生不公平。事实上该问题已经由合成基础分的权重解决。例如,物理与数学相关较高,数学的权重就会比较大。
3.2.2 选考科目统计校准的弱假设
选考科目统计校准的弱假设是:同一个考生群体,各科成绩之间呈现正相关。尤其是在没有选考科目的情况下,理科中的物理、化学、生物(或文科中的政治、历史、地理)中的任何一科成绩都与语文、数学、外语呈现正相关,因而将来的X科成绩与3科统考科目合成的基础分有正向的多重相关系数。
上述的强假设是理论上的,难以验证,但弱假设可以验证。因为之前绝大多数省份的高考都没有选考科目,因而同一批考生在所有科目上都有成绩(分为文科和理科),这为验证弱假设提供了可能。表4和表5是某省2013—2017年科目间成绩的相关系数,从中可以看出,对任一科目(如物理),与3科基础科的相关系数在不同年份之间比较稳定,多重相关系数也相当稳定。
基于上面的弱假设,可以用基础分来预测X科成绩。这种预测对于单个考生来说可能不准,但对于考生群体均值的预测而言,比较准确。就像考查高中毕业时男生身高与体重的关系,可以用身高来预测体重,对于某个1.7米的男生,其预测的体重与实际体重可能出入很大,误差可能相差多达10千克。但对于平均值为1.7米的男生全体,预测他们的平均体重,会相当准确,如果要预测的男生群体有1万人,那么误差会减少到10千克除以1万的平方根(即100)的数量级(大约是0.1千克)。
依据弱假设,可以将选考科目的平均分进行校准,做法是将X科标准分均值校准到:M*X科考生(基础)=500+R(MX科考生(基础)-500)(3)
就是说,以500为基准,T(基础)均值每变化1分,校准后将会变化R分。如果物理考生T(基础)的均值是540,物理成绩与基础分的相关系数(就是物理与3科统考科目的多重相关系数)R是0.8,则物理成绩校准后的均值为500+0.8(540-500)=532。
因此,基于弱假设对X科的奖励或者惩罚,比基于强假设的要轻。如果R=1,就是上面强假设下的校准,如果R=0,则相当于不作校准。
标准差如何校准呢?同样面对两个标准差,一个是默认的100,另一个是SX科考生(基础),较好的做法是将标准差校准到:
即对X科考生的基础分方差和默认方差和做了一个加权平均,然后开方作为校准的标准差。
因此,基于弱假设校准选考科目分数,前面4个步骤与基于强假设的做法一样,但不同的是第五步:将X科标准分校准到以M*X科考生(基础)为平均分、以S*X科考生(基础)为标准差的分布。假设一个考生在X科的Z分数为Z(X科),其校准后的标准分记为T*(X科),计算公式如下:T*(X科)=M*X科考生(基础)+S*X科考生(基础)×Z(X科)(5)
3.3 选考科目基于统计校准的专家校准
选考科目分数使用单纯的专家校准存在问题,但是,单纯的统计校准也可能难以让人放心。比较可行的做法是以统计校准为指导,让学科专家小组在一定范围内作出专家判断,在统计校准结果基础上设定专家校准值。学科专家小组成员应当包括命题负责人、评卷负责人,参与制定评卷标准,选择各个级别有代表性的答卷样本。
3.3.1 选考科目的标准分校准与定级
无论选考科目使用分数还是等级,首先都应当校准标准分,大致步骤如下:
第一步:各科制定等级标准,写出等级描述。
第二步:标准设定的第一年,让各学科专家小组根据等级描述、强弱假设统计校准后的等级代表试卷等资料,在强弱假设的统计校准结果之间设定一个校准值。具体来说,公式(3)和(4)中的R,可以在计算得到的R和1之间重新设定一个数值(有充分理据时也可以比计算的R值小)。这个设定的数值与计算的R之间的差异称为专家校准值。标准设定的第二年,允许专家小组检视和修正所设的专家校准值。
第三步:从第二年开始维持专家校准值(必要时专家小组可以微调,但需要理据),在计算得到的R基础上加上专家校准值作为公式(3)和(4)中的R。
第四步:每年由跨学科的考试委员会批准校准结果。
第五步:根据比例等级制下标准分与等级的对应关系进行定级和赋分。
专家小组作出判断前需参考有关的资料和统计数据,包括:1)评分员对试卷难易度的反馈信息;2)当年和往年的有关统计数据(如平均分、标准差、累积分布表等);3)等级切分点附近的答卷样本;4)各个级别有代表性的答卷样本。
3.3.2 已有等级的选考科目的赋分校准
如果选考科目在语文、数学、外语成绩之后才定级,那么根据上面 3.3.1 节的步骤便可定级并赋分。如果选考科目在语文、数学、外语成绩之前已经定级,那么校准时不需要改变原有定级,但要改变级别赋分值,步骤如下:
第一步:利用比例等级制,可以得到X 科每个等级切分点的Z分数。
第二步:由公式(5)可以得到这些Z分数校准后的标准分。
第三步:用比例等级制标准分与等级的对应关系便可计算每个等级切分点校准后的级别和赋分。
第四步:按均匀插值的方法,对现有的X科等级进行赋分。
3.3.3 按组别能力指数校准
组别能力指数的校准方法见文献。新高考改革中,如果使用比例等级制(见表1)将每个考生的统考科目定级,就可以计算出X科考生的组别能力指数,从而知道X科每个等级的比例,为X科每个考生定级并赋分。香港中学文凭考试对于组别能力指数,也有专家校准的环节。
4结语
从某种意义上说,比例等级制是标准分的简化版(但比例等级制的分布与各级比例的设定有关),都属于常模参照计分方式。但不同选考科目的常模不同,使得分数没有可比性。
按照新高考改革方案,不仅有选考科目,而且采用等级报告成绩。作为配套措施,选考科目必须使用适当方式进行计分定级。本文为新的高考科目设计方案制定一种计分方式,可以同时解决不同选考科目之间题目难易度不同、考生能力不同导致的问题。类似的计分定级方式已经在香港中学文凭考试(相当于香港地区的高考)实施多年,实践证明,在这种计分定级方式下,不会系统地出现考生选考时“避难选易”和“避强邻弱”的问题。
虽然本文提出的计分定级方式,从计算的角度来说相对简单和直接,也不难解释,但仍然需要针对具体的高考政策和方案,研究实施细节,制订流程,写出计算机程序。值得一提的是,要注意处理异常现象和极端情形(如缺考和零分如何处理等)。此外,还需要通过不同的途径,向教育主管领导、教育测评工作者和广大教师、考生及其家长,详细地解释选考科目进行分数校准的必要性和用来校准的计分方式的合理性。
本文转自微信公众号“中国考试”,作者温忠麟,制作张瀛天。文章为作者独立观点,不代表芥末堆立场。
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。