不是身高也不是体重，美国学校“成长测量”的7种主要方法

图片来源：Unsplash

作者介绍：
王晓平，博士，美国衣阿华州教育部，教育研究与评估高级顾问；
齐森，博士，华盛顿盖劳德特大学，研究员；
谢小庆，北京语言大学教育测量研究所原所长，中国教育学会统计测量分会副理事长，研究
员，博士生导师。

*原文刊载于《中国考试》2018年第6期第21—27页。

摘要：“成长”和“增值”是美国教育领域的热门话题。根据2015年通过的《每一个学生都成功法案》，美国各州在问责中加大了评价学生成长进步的比重，目前美国大多数州都对学生进行成长测量。常用的成长测量模型有7种，需要根据使用目的和成绩解释框架进行选择。本文简要介绍7种模型的使用方法，为改进我国基础教育评估提供思路。

关键词：成长模型；增值评估；基础教育评估；教育改革

2015年，经过美国参众两院讨论，最终通过了新的教育改革法案——《每一个学生都成功法案》（Every Student Succeeds Act，ESSA），12月10日，奥巴马总统正式签署该法案。这意味着，美国的教育改革进入一个新的阶段。《每一个学生都成功法案》于2018年正式实行，各州在贯彻执行过程中，通过对学生成绩进步进行评估，对教师、学校和学区进行评价和问责。

1 背景：从“达标”到“达标+成长”

教育问题是美国历届总统关心的话题之一。2001年1月23日，小布什总统在宣誓就职后3天就推出了被称为“一个都不能少”（No Child Left Behind，NCLB）的教育改革方案，并于2002年1月8日正式签署该法案。其后，美国展开了一场轰轰烈烈的教育改革运动，“一个都不能少”的口号家喻户晓，“一个都不能少”的教育改革在法律的保护下稳步推进。

NCLB教育改革最核心的理念是“达标”（proficient）和“问责”（accountability）。达标，就是要求所有学生都要完成规定的学习任务，达到规定的知识掌握水平和能力要求，具体的措施是要求各州从2003年开始在3~8年级的各年级、9~12年级中的一个年级（一般是10年级或11年级）进行州统考，到2014年各学区和学校要使其学生100%达标。如果有学生不能达到最低要求，出现“掉队”，就要对学校和教师进行问责。在实际推进过程中发现，这一目标根本无法实现。尽管考试难度不断降低，仍然会有一些学生无法达标，一些学生甚至距离标准差距很大。

NCLB在解决学生“掉队”方面取得了一定成效，但是却带来新的问题。比如，教师和学生的压力增加，考试成为学校日常工作的指挥棒；在问责的压力下，许多中小学都不同程度地采取了应试措施；州统考科目在时间、资源、教师等方面得到加强，其他非统考科目（包括美术、音乐、体育等）则被削弱；为了达标，不少中小学延长学校上课时间，放学后补课，缩减了学生的休息时间；等等。NCLB导致的“应试教育”束缚了教师的创造力，“应试教育”造成的竞争性教育环境使学生的好奇心受到挫伤，其弊端日益显现。因此，小布什的教育改革遭到一些教育专家的批评，尤其是遭到来自基层教师的抵制。NCLB的改革初衷本在扭转大批学生“掉队”问题，但是改革带来的“应试教育”却伤害到学生的个性发展，束缚了教师的个性化创造。如何在“救济后进”和“保护优秀”之间找到一个平衡点，或者说如何在二者之间找到一个适度的妥协点，是奥巴马就任总统后一直关注的问题，ESSA就是在这样的背景下产生的。

与强调“一个都不能少”的NCLB相比，强调“人人成功”的ESSA的突出特点是以“达标+成长”的概念取代了原来的“达标”概念。实际上，由于许多学生不能达到最低知识和能力要求，早在2005年，小布什政府的教育部长、NCLB的主要推手玛格丽特·斯派林斯（Margaret Spellings）就提出不仅要评估掌握程度，而且要考虑考试成绩的改善和学生所取得的进步，要对“成长”（growth）进行评估。成长模型最初只用在差生群体，从2008年起，美国各州的问责中逐步添加了对所有学生成绩进步的评估，即“成长评估”。到2011年，美国至少有包括阿拉巴马、亚利桑那、阿肯色、佛罗里达等在内的16个州在教育问责中采用了成长测量。

根据ESSA，美国各州对学校的问责有了更多的自主权，与此同时，各州也在问责中加大了评价学生成长进步的比重。目前美国大多数州都对学生进行成长测量。

2 什么是“成长”？

“成长”和“增值”是美国教育领域中的热门话题。人们认识到，由于学生的原有基础不同，仅仅根据一个学习阶段的结业水平对学生、教师和学校进行评价是不合理的。相对于一个学习阶段结束时的终结性达标评价，“成长”评价更重要。在学习中，需要更多地关注学生经过学习以后获得了多大程度的成长，需要关注教师和学校在帮助学生获得成长方面所发挥的实际作用。

“成长”评价不仅是一种教育评价技术，更是一种学习理念。如果以学习的“成长”理念来审视学校教育，可以发现，一个学期的课堂学习，对于学生的成长效应是很有限的，即使在一些办学条件很好的学校。学校不应仅仅关注每个学生是否掌握了教学大纲中所规定的知识内容，更需要关注每个学生是否获得了成长的机会，是否通过学习达到了成长的效果。

成长模型（growth model）的评估对象是在校学生，评估的内容是学习成果，既评估学生学习成果随时间的变化，也评估学生在特定群体（全班、全校、全学区、全州、全国）中相对位置的变化。在成长模型中，至少要包含间隔一定时间的2次评估，有条件时，最好是多次评估。成长评估的主要目的是向家长、教师、学校提供更多关于学生学习情况的信息，以便改进学习和教学，并便于对教师、学校进行问责。

实现成长评估的一个重要条件是美国从20世纪初就发展起来的学生数据库。虽然各州开发学生数据库的进度快慢不等，但基本都已有5~20年的历史。学生数据库的一个重要指标是学号（student identifier number），与每个学生一一对应，在一个州或多个州都是独一无二的。根据学号可以从儿童两三岁跟踪到高中毕业，直到进入大学和就业。

3 7种主要的成长测量模型

常用的成长测量模型有7种，可以分为基于纵向量表的模型、预测模型和增值模型3类。美国各州根据使用目的和成绩解释框架，选用不同的成长测量模型。

3.1　基于纵向量表的模型

基于纵向量表的成长模型是根据跨年级的纵向量表来测量学生学习成绩的绝对提高，是将学生的当前成绩与其过去成绩进行比较，看其取得了怎样的进步成长，包括增分、渐进达标和分类3种。

1）增分（gain score）模型。这种模型是计算2次测试的差异，用后一次测试的分数减去前一次测试的分数，二者之差就是成长指标。由于这种方法简便、直观、容易理解，因此使用非常广泛，常常会伴随其他方法同时使用，是“渐进达标模型”的基础。

2）渐进达标（trajectory）模型。这种模型根据最初2年的增分幅度，确定今后每年的进步值，最终达到预期的成长目标。采用此模型的主要有阿拉斯加州、亚利桑那州、阿肯色州、北卡罗来纳州、佛罗里达州、康涅狄格州、缅因州、明尼苏达州等。

3）分类（categorical）模型。主要看跨年级成绩等级的变化，比如美国全国教育进步评估项目（National Assessment of Educational Progress，NAEP）的测试结果划分为低于基本要求（below basic）、达到基本要求（basic）、达标（proficient）和优秀（advanced）4个等级。如果一个学生从“达到基本要求”上升到“达标”，就有进步。分类模型对等级划分有很高的要求，等级标准的制定也是一个很复杂、很严密的过程。采用这种模型的主要有德里瓦尔州、衣阿华州等。

上述3种模型都需要直接看学生本人在前后2次考试中分数或等级的绝对变化，据此回答学生究竟取得了怎样的进步。这3种模式都不仅需要有跨年级的纵向量表，而且需要制定一些表现为及格线或切分点（cut score）的进步标准。在达标标准的制定过程中，既要考虑各个年级的学生需要达到的知识和能力水平，也要考虑本校、本学区、本州同年级学生的实际水平，是一个兼顾标准参照（criterion reference）和常模参照（norm reference）的过程，同时还要考虑达到最终目标所需年限。

美国有近20个州使用由智者平衡评估联盟（The Smarter Balanced Assessment Consortium，SBAC）开发的测试系统进行教育评估和问责。SBAC系统是一个有效、公平、可靠的学生评估工具，是一个跨年级的纵向学习评估量表，可以为学生、家长、教师、教育管理人员提供作为行动依据的评估信息，提供关于学生学习情况的反馈信息，帮助学生改进学习，帮助教师和教育机构改进教学。《共同核心国家标准》（Common Core State Standards，CCSS）是美国从学前班到高中教育的国家标准，SBAC对学生进行评估的依据是CCSS。SBAC旨在帮助学生为未来的大学学习或就业做好必要的知识和能力准备，由3个模块组成：一是形成性评价过程和数字资料库（The Formative Assessment Process and the Digital Library），在数字资料库中，包含大量教学参考资料和用于形成性评估的题目，供使用者参考；二是中期评价，即选择性阶段性测试（Interim Assessment: The Optional Periodic Test）；三是总结性评估，即年终测试（Summative Assessment: The End-of-Year Test）。

美国还有10个州使用《大学学习和就业准备联合测试》（Partnership for the Assessment of Readiness for College and Career，PARCC）。PARCC由多个州联合开发，用于测试基础教育各个年级的学业水平，主要考查顺利完成大学学习和胜任职业所需要的知识和能力，考查范围包括学术知识、审辩式思维（critical thinking）、运用知识解决问题的能力、在收集信息的基础上形成个人看法的能力、论证并能够与他人沟通个人想法的能力，等等。与SBAC一样，PARCC也是以CCSS为依据对学生进行评估。

以美国康涅狄格州为例说明渐进达标模型的测量方法，测试工具采用的是SBAC。表1是康涅狄格州SBAC测试分数的汇总表，表中包含康涅狄格州3~8年级的SBAC测试结果。SBAC量表的分数范围为2100~2800。康涅狄格州根据学生实际得分和知识掌握情况为每个年级分别规定了“达标”和“成长”标准。从表1的左上角到右下角，显示了一个3年级学生经过5年学习升入8年级的渐进成长方向和成长过程，显示了不同水平的学生从SBAC测试的2100分成长到2800分的渐进过程。比如，4年级学生玛丽在2017年3年级时SBAC测试的成绩是2450分，这个分数在2432~2460分之间，属于3年级低水平的达标范围；2018年玛丽的测试成绩达到2518分，处于2503~2532分之间，属于4年级高水平的达标范围。从玛丽2017年和2018年的测试分数中，我们不仅可以看到玛丽的“达标”水平，还可以看到玛丽的“成长”，与2017年相比，她的成绩不仅获得了68分的增长，而且获得了从低水平达标变为高水平达标的“增级”。

3.2　预测模型

预测模型包括残差、学生成长百分等级和投射3种。与前述基于纵向量表的3种模型相同，这类成长模型也需要至少2次测试结果。但是，这类模型并不基于跨年级纵向量表之上，2次或多次测试并不要求采用纵向量表，而是采用线性和非线性的统计模型，主要是回归模型，或者以学生的同年级常模群体作为参照系，或者以大量积累的历史数据和追踪数据作为参照系，刻画学生所获得的成长。

1）残差（the residual gain）模型。这是一种最容易理解的回归方法，只能应用于连续数据，不适用于及格/不及格的二分计分方法，也不适用于A、B、C、D的等级计分方法。残差模型的基本计算方法是：在2年的年级成绩之间建立线性回归方程，根据回归方程和某学生上一年的成绩，计算出该学生今年的预期成绩，然后计算该学生预期成绩与实际成绩之间的“残差”。如果实际成绩高于预期成绩，该学生就取得了比较满意的“成长”；相反，则“成长”的情况不理想。在实际的操作中，通常会将残差进行标准化处理，处理的方法是进行残差百分等级排列（percentile rank of residual，PRR）。

2）学生成长百分等级（student growth percentile，SGP）模型。2009 年，达米安·比特本纳（Damien Betebeener）开发了基于R语言的SGP数据处理软件——Quantile。借助 Quantile软件，学生当年的成绩与在前一年测试中获得相同成绩的群体进行比较，计算出其在这一与自己相近水平群体中的百分等级，即在1~99百分等级序列中所处位置。如果百分等级高于50，就显示这个学生一年来有所“成长”；如果百分等级低于50，就显示这个学生的“成长”效果不理想。SGP模型也被称为正态模型（normative model），因为这个模型假设与考生第一年分数相同的群体在第二年所得分数呈正态分布。这一模型最初被应用于科罗拉多州。目前，美国国家教育评估改进中心（National Center for the Improvement of Educational Assessment，NCIEA）向采用SGP模型的美国各州提供便于根据自身需要进行完善的开源（open-source）SGP软件包，已有20多个州（包括华盛顿特区、马里兰州、科罗拉多州、马塞诸塞州、俄勒岗州、华盛顿州等）采用此模型，占所有使用成长模型的州的50%以上，在美国是使用最广泛的一种成长模型。

3）投射（projection）模型，也称为预测（prediction）模型和回归（regression）模型。在投射模型回归方程的建立中，采用尽可能多的历史数据和追踪数据来建立尽可能可靠、有效的回归方程，通常不仅仅采用2年的数据，而是采用多年的追踪数据，通过尽可能多的预测源和预测变量来建立回归方程。例如，如果有证据表明数学成绩可以增加对物理成绩的预测准确性，就可以将数学成绩作为一种预测源包含进回归方程。

与渐进达标模型和残差模型一样，投射模型也需要建立回归方程，但是与二者有一定的区别。与渐进达标模型的区别在于，渐进达标模型是建立在跨年级纵向量表的基础之上，是一种“量表驱动”（scale driven）的回归方法；投射模型则不依赖于纵向量表，而是通过大量的历史数据建立起预测学生成长趋势的回归方程，是一种“数据驱动”（data driven）的回归方法。与残差模型的区别在于，投射模型不是根据考生所在年级学生2次测试成绩来建立回归方程，而是根据大量的不同年级的历史数据和追踪数据来建立回归方程，并根据回归方程作出预测。在渐进达标模型中，量表相同，但参照团体不同；在残差模型中，参照团体相同，但量表不同；在投射模型中，量表不同，参照团体也可能不同。

如果说，借助相同量表或相同参照群体，渐进达标模型和残差模型可以对考生的期望成绩进行“预测”，可以对学生的成长情况进行描述，那么，既无相同量表也非相同参照群体的投射模型只能进行“投射”，只能对关于学生成长的解释作出有限的支持。俄亥俄州、田纳西州等曾经采用此模型。

3.3　增值模型

增值（value added）模型单独构成一类成长模型。增值模型，又称为多变量（multivariate）模型、教育增值评估系统（Education Value-Added Assessment System，EVAAS）、田纳西增值评估系统（Tennessee Value-Added Assessment System，TVAAS）、变量保持（Variable Persistence）模型，等等。在增值模型中，不仅包含测试分数，而且包含多种变量。增值模型不仅描述学生的成长状况，而且分析影响学生成长的原因。在一些州，增值模型不仅用于学生评估，而且用于教师、学校和学区评估，甚至被用于决定教师的奖金和聘用。最常用的增值计算工具是EVAAS软件系统，其次是层级线性和非线性模型（Hierarchical Linear and Nonlinear Modeling，HLM）。采用增值模型的主要有田纳西州、宾夕法尼亚州、俄亥俄州等。

由于增值模型被用于对教师、校长、学校的评价以至决定奖惩，近年来许多专家学者呼吁慎重使用增值评估。2015年，美国最大的教育组织——美国教育研究协会（American Educational Research Association, AERA）的理事会正式发布了一份官方文件——《AERA关于将增值模型应用于教师和教师培训项目的说明》（AERA Statement on Use of ValueAdded Models for the Evaluation of Educators and Educator Preparation Programs）。在这份文件中，强调了使用增值模型的8条注意事项：1）增值模型使用的前提是测验本身的效度、信度符合美国教育研究协会、美国心理学会和美国教育测量学会共同制定颁布的《教育与心理测验标准》（Standards for Educational and Psychological Testing）；2）增值模型使用中，需要提供这种模型中所包含每个评估项目的效度和信度说明；3）增值模型必须基于足够大样本量的多年数据；4）不同时间使用的不同测验或测验版本之间具有可比性；5）单独检验每个年级、每个学科的测验效度和信度，不能将增值评估应用于未经标准化质量检验的其他年级和学科；6）在教师、学校、教育项目评估中需要综合考虑多方面证据，不能仅仅使用增值分数对教师、学校、教育项目进行评价；7）增值模型的使用过程中应保持持续的质量监测，持续关注实际的使用效果；8）使用增值模型进行评估和决策，在报告相关结果时必须同时提供统计误差范围。

AERA在这份文件的结尾处指出，这8条注意事项不仅适用于增值模型，也适用于其他任何一种成长评估模型。在使用各种成长评估方法对教师、学校和教育项目进行评价时，都应该保持谨慎。

上述7种模型并无简单的好坏优劣之分，各有长处和不足，使用方法的简单比较见表2。对于不同的模型，可以对评估结果作出不同的解释。至于选择哪种模型，要考虑分数解释的不同需要。

在上述7种成长模型之外，教育问责中还会采用一些其他的评估指标，包括：1）参加考试的学生比率；2）考试平均分或熟练掌握比率；3）学生平均出勤率；4）高中学生毕业率；5）7~12年级的辍学率；6）学生和家长对学校教师的满意程度；7）教师流失率；等等。

2018年3月16日，教育部部长陈宝生在“两会”教育问题专题记者招待会上回答记者的提问时说：“要改变评价方式，完善学业考试办法，建立素质综合评价制度，不允许以分数高低对学生排名”“这次高考改革之后，高中阶段对学生的考核，增加了综合素质评价这样一个内容。这是非常明显的素质教育措施”。美国基础教育评估从“达标模型”到“达标+成长模型”的发展变化，从幼儿园到高中教育中所采用的7种主要的成长评估模型，可以为我国改进和完善基础教育的综合素质评价带来一些启发，值得我们思考和借鉴。

本文转自微信公众号“中国考试”。文章为作者独立观点，不代表芥末堆立场。

不是身高也不是体重，美国学校“成长测量”的7种主要方法

图片来源：Unsplash

1 背景：从“达标”到“达标+成长”

2 什么是“成长”？

3 7种主要的成长测量模型

编辑推荐