大学教育的评价有内部评价、外部评价以及第三方评价三种模式,每种模式都存在或多或少的问题。美国马萨诸塞大学波士顿分校终身教授、教育领导系主任严文蕃从科学研究的方法与评价相结合的角度剖析破解之道。他认为评价的关键是提供证据,而搜集和分析证据的过程就需要借助基础研究,考虑应用需求。要让评价数据真正在现代化教育治理体系当中起作用,就需要开发新项目,并不断在不同条件下测试。
以下是整理后的演讲实录:
今天的话题是现代教育治理,我自己想说说科学研究和评价在学校治理当中的重要作用,特别是大家知道现在提出了管办评分离,还有第三方评价。我想从评价角度来看,科研的重要性跟评价怎么做才是合理的。
从评价到底是评什么,评价的目的是什么,然后谁来评,最后怎么评,这几个方面来看,理清一些误解,搞清我们面对什么。
历来我们评价目的有两个争论,到底是外部还是内部,问责还是提高。(这些)就是平衡问题。外部问责讲究规律性、控制,内部讲究自我评价与改善。外部评价重点就是问责,认证是最明显,然后是绩效,也是涉及到进步问题。内部更注重以学生为主题,更加注重到底以什么来促进学生学习。
近三十年来,评价最明显的一个变化,由外部逐渐转向内部,由问责逐渐转向以发展为中心。谁来评价呢?一种是内部自我评价,是内部专业人员评价,一种是完全由外部评价。实际上不是简单的内外,内部也是分两种,一种是人员自己评价,一种是外部评价。
三种评价模式的伪评价问题
内部评价最大的问题是什么?很容易缺少客观性,同时评价人员本身的评价能力往往有问题。专业人员指的是内部专业人员,比如各个学区、各个教育局有自己的研究院,或者自己的评价中心,他基本上研究方法、评价方法是合格的,但是问题是同一个人。
外部评价在美国的话最常见是由大学、专业评估公司组成。这些人比较合格,作为局外人的第三方评价。但是服务费很贵。
在美国外部评价还有一个很大问题,就是假评委、伪评价,伪评价很多都是由外部评价公司出的报告。这些报告有很多都是存在问题的,主要是利益关系。一个是政治利益关系,一个是形象利益关系。可以分析一下,在评价过程当中的利益群体,一个是制定者,一个是执行者,一个是客户,一个是评价者。
制定者有他自己的利益关系,执行者也有它的利害关系,客户也有他利益关系、感兴趣的东西。第三方评价也有自己的利益关系,关心自己的职业生涯,关心下次是不是还要他评价。这造成了他不一定按照实际来做的。基本上按照评价的价值模型。
这三种模型实际上如果按照评价几个群体来看,各个群体有自己趋向的一种评价,喜欢的模式。通过第三方评价的话,在夹缝当中,很容易出问题。我们还要注意关于第三方评价不是完全公正,也会出现很多伪评价问题。
评价的关键是提供证据
怎么评?最简单的按照思维模式,任何做的行为就是输入、过程、结果。细化一下,无论作为项目的干预,输入做什么,找谁做,结果怎么样。特别是结果短期、中期、长期都有一个价值观暴露在里面,什么数据要,什么数据不要,在这个评价过程当中都有一个筛选过程。
详细一些的话,每个指标体系和变量都可以运用,把前面几个只不过再扩大一下,再放清楚一些。可以看出来它的结果是,一个好评价不仅包含初期,还有中期、长期。
大学评价当中的一些传统评价完全按照这个模型来做的。评估一个学校办学,第一个看它的Inputs,就是办学条件的这些变量,评价关心过程变量Processes,就是大学这些过程的一些变量。
最感兴趣的还是出处问题,特别是学生的结果变量。所以能看到,这样一个线性思维方式。对于评价的影响,不管哪个,最核心的就是提供证据,不是拍脑袋,证据为主。什么才是证据?美国21世纪开始特别推崇实验法、科学方法,提出什么算证据,什么算可能是证据,什么算根本没有证据。按照这几个科学研究方法比较。对比是否有真正的控制组和实验组,是否是随机,是否是处理一致,是不是能复制。统计过程当中是不是一个地方做,另外一个地方也是一样的。
教育评价仍然是瞎子摸象
美国21世纪当中特别出了一系列关于研究报告、评价报告提出的改变教育质量的报告,特别提出了质量、教育科研三个基本问题。主要的问题就是因果关系,出现任何学生的结果,原因是什么,怎么发生的,机制是什么。所有科研研究就是这三个问题。如果拿这个模型来看前面讲的几个模型,也是这样,一个过程问题,一个因果问题。
美国专门建立一个数据库,那就是WWC,国家政府组织的,提出四个标准,作为干预和评价的标准。实际上可以看到跟实验结果、实验想法、科研办法也是一致性。关键问题出在什么地方?这个数据库根据上面的标准,对七千多个美国教育干预进行分析,按照这个标准分析,完全符合标准的只有2%,有保留的2%,参加评审不符合标准13%。实际上70%多统统都是不符合标准。换句话说,大多数教育干预都是失败的。
我们花了很多钱,做了很多干预,结果花了一百万买回来的结果是“可能”,也有可能“不可能”。根本问题是交易复杂性使在每个地方看到,这个地方work,换一个地方不work,换另外一个人不work,换另外一个人调整又work。永远解决不了三个问题,为什么work,什么条件下work,怎么work。解决不了。我们想当黑匣子,我们想研究这个黑匣子,想打开黑匣子,做瞎子摸象的事,你摸一把,出一个报告,我摸一把也出一个报告,结果报告对起来全对不起来。这个过程就是瞎子摸象。
美国学者讲,我们整个做的事情像在黑暗当中跳舞,我们舞者不管是政策制定者也好,政策执行者也好,政策受益者也好,评价者也好,大家都看不见对方,都在黑暗当中舞蹈,动作都是非常复杂,但是都受环境影响,这是我们的现状。
最好的研究方法是借助基础研究,考虑应用需要
怎么改变现状?我们做过什么干预,干预放到数据库,WWC对所有干预进行评分。所有的干预,不管是“可能”也好,但是出一个干预操作指南,对学校老师非常感兴趣,大家都去下载,差不多一年的下载量16000,大家都想对教育数据库进行改革。
最主要改变状况的办法是研究方法上进行改变。如果按照我们的框架,研究分两个维度,研究不考虑应用,是不是考虑基本原理,是不是考虑运用。如果说是单纯基础研究, 只考虑原理,不考虑应用。如果单纯应用,只考虑应用,不考虑原理。就是对角线的这两个。最好的就是右上角的那个。最差的是没有应用价值,没有应用原理,就是伪科学、伪报告。我们最希望的研究方法,特别是做评价当中,借助基础研究,考虑应用需要。
专家队伍分两类,一类在自己圈子里面,自己研究学问,最感兴趣他的学问对未来有什么影响,这批专家对政策影响不大。希望大学老师投入跟政策、干预、评价有关这方面研究。任何研究最好要形成一种互相争议,最有典型意义是大学为主两个中心,大家最感兴趣问题是美国特许学校到底好还是不好。
CRPE和NEPC中心,CRPE说特许学校好,另外一个中心NEPC说这个研究方法不对。美国出一个报告,跟着另外一个报告讲它不好,这样一个氛围出现,进一步推动往前走。
只要行动起来,我们肯定不断地打开黑匣子,只要有行动就要有收获。最好的行动理论:计划、执行、行动、学习,最好形成一个对干预效果研究的循环。最好的循环还是要不断地做,开发一个新项目,按照这个循环做,把新项目在不同条件下测试,多变条件下再测试,然后长期做。这样才能真正做到在评价数据当中引起我们的真正现代化教育治理体系的有效作用。
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。