在《像淘宝店一样做个性化学习推荐——论莱布尼茨系统的诞生》[1]一文中,我们介绍了基于知识图谱的个性化学习推荐系统的基本原理。那篇文章解释了做一个合格推荐系统所需的人力成本和时间成本。如果一个教育公司不关心遗产而关心资产的话,它很难打造出在国际上有竞争力的自适应学习系统的[2]。
这篇的观点更为激进。即使我们能做出一个完美的基于知识图谱的自适应推荐系统,也无法革命性地改进K-12教育的生产力(特别是在公立学校系统中)。请注意我并没有为这个判断加上“中国”这个限定词;事实上,在美国K-12场景中,没有任何一款以知识图谱为基础的自适应学习系统在大规模可控实验中证明了教学效果的优越性。[3][4]
为什么自适应学习系统看上去这么美,现实却这么残酷?
我认为有两大原因:
第一,K-12对于个人学习速度差异的容忍度太差(教学进度被大纲高度约束);
第二,我们对于学习过程本身的理解太浅了,止于测评,而不及教学。因此,在不比宽度只比深度的K-12领域,自适应学习系统没有优势。这并不是说它一无是处,而是说需要找到它自己的产品市场契合(product market fit)。在学生学习自愿,学习深度较浅,学习速度是客户刚需的学习任务中,自适应学习系统会有其用武之地。
基于知识图谱的自适应学习系统究竟有啥用?
假设有人把《五年高考三年模拟》这套书变成一个基于知识图谱的自适应推荐系统,它和纸质原版的优势在哪里?
(1)减少刷题数量
有两类题不用刷了:已经掌握的(比如答对概率>95%)[5],根本没有掌握的(比如答对概率<30%)。虽然不同人可以跳过的题是不相同的,但是我保守估计在相同效果下,每人的刷题数量可以降低30%以上。
(2)明确刷题优先级
第一,前置知识点不掌握的优先刷;第二,过难的题目排后刷。
(3)知识点的掌握程度的定量测评
作为自适应学习系统的副产品,用户可以看到自己在各个知识点的掌握程度的估计。从提分的角度,我愿意大胆猜测这些改进并没有什么用处:
降低刷题量没有意义
对于大部分高三学生而言,少刷题省下来的时间干什么?答案是继续刷题。只要边际回报率为正,即使是0+(向右趋近于0),学生也会刷题。在现行考评制度下,自学大学内容的回报率可能还是负的[6]。
没有额外教学环节,刷题的提分效果有天花板
对于非天才而言,如果刷题有用,还要老师干嘛?因此,单纯的练习(即使是带文字讲解的练习)是有提分上限的;更高效的练习只是更早地碰到这个提分天花板而已。如果时间不够,可能有人达不到这个天花板;但是对于大部分人而言,时间是充裕的。推荐非练习类学习内容?非常遗憾,这不是基于知识图谱的自适应学习系统能够做的[7]。
成绩提不上去的原因主要是不学,而不是学了不会
大部分买了《五年三年》的学生并没有啃完这个大部头,因为他们缺乏完成这项艰巨任务所必须的动机和毅力。尽管有证据显示降低难度从而给与学渣更多的成就感可以增强他们的投入程度[8],但是从逻辑上讲自适应学习系统本身并不解决动机问题。
虽然改造《五年三年》是一个极端的例子,但是它是自适应学习系统在K-12应用困境的一个缩影。具体而言:
(1)因为不鼓励学习速度的差异化,所以提高速度没有意义
每个学段都有按部就班的教学大纲,老师的考核以完成这个教学任务为准,而不是以最大化学生学习内容为准[9]。此外,因为公平的考量和师资能力的限制,也不鼓励学生根据自己的节奏学习,学得快孩子还是得在终点线上等大部队过来汇合[10]。
(2)对于教学指导而言,自适应教学系统的分析粒度太粗
老师并不怎么关心粗粒度知识点的掌握状况(比如一元二次方程的求根公式),而比较关心学生对于知识点细节的掌握(比如求根公式的b前面是不是忘记添加负号)。分析引擎不能提供细粒度的教学数据支持,就无法切入教学环节,提高教学质量[11]。而之所以不能把老师批卷子的过程自动化[12],事实上体现了算法对于学习行为的理解还是太少。
(3)不能解决学习兴趣问题
学习是承认自己的无知,并拿出撞了南墙也不回头的倔劲与自己的无知做斗争的过程。除非对于所学内容非常感兴趣或者有超乎常人的意志力,否则学习就是一件反人性的事情。一个学生同时喜欢语数外+文综三科或者理综三科的概率小到可以忽略不计;因此总有一科(或者几科)对于学生而言是打心底里讨厌,再怎么自适应也是讨厌。
超越基于知识图谱的自适应学习系统
笼统的说,学习数据分析要解决的大问题是以下三个:
(1)学生现在学成什么样了?
(2)学生是怎么学的?
(3)老师是怎么教的?
任何一个学习淘宝/amazon/Netflix/今日头条的推荐系统,它都在第一个问题上做功夫;因为它必须做两个核心假设:
(1)隐藏的偏好是稳定的;
(2)系统的任务是识别并利用偏好,而不是改变偏好。
然而不幸的是,学习这件事违反了这两个核心假设。知识点的掌握程度是可变的,因而不是稳定的;学习系统的目的不仅在于识别知识点掌握程度的强弱,更在于让学生习得其薄弱的知识点。如果说第一个假设还是个技术问题,那么第二个假设就是方向问题了。让我继续用淘宝推荐的例子来解释目前主流的推荐系统和学习推荐的核心差别。
假设明天教育部宣布,所有人都必须喜欢阔腿裤,而不能喜欢连衣裙。那么淘宝面临的问题是,怎么样引导用户通过一系列搜索行为,让欢乐颂同款连衣裙的粉丝最后买了阔腿裤。我相信有过协同推荐算法经验的同志看到这个问题肯定是一脸蒙圈了,但是这就是学习推荐系统要解决的问题。
教育部说所有人都要掌握力的平衡,但是现在用户就是对找力无感,怎么样通过一系列题目的练习使得用户变成力平衡小达人?这个问题事实上涉及到我们对于学习过程的理解,而大多数情况下学习过程对于我们而言是一个黑盒。我也没有看到哪家自适应学习系统真正系统性地思考这个问题。即使是行业标杆,在推荐时,主要以提高测评精度为主,而不是以提高教学效果为主。如果测评内容和学习内容的相关性不高,那么基于测评设计的自学推荐系统不能真正提分也不让人惊奇。
从美国经验来看,真正有效的学习推荐系统是从后两个问题入手的。这里介绍一个从第三个问题入手的翘楚,Reasoning Mind[13]。Reasoning Mind将俄罗斯小学数学的纸质教案变成类似于人机对话的人工智能辅导,不仅大大提高了学生的课堂投入时间(根据一项测评指标投入度从60%提升到90%),而且多次在大范围的随机试验中获得统计上显著[14]的提分效果。而颇让我震惊的是,Reasoning Mind事实上没有任何比算平均分更复杂的测评技术。
整篇文章有些悲观,因此末了来点鸡汤提提神:
路漫漫其修远兮,吾将上下而求索。
注释:
[1]芥末堆有一系列文章介绍knewton系统(1/ 推荐原理+知识图谱+连续适应性+大数据;2/ 从教学生应试到适应性学习平台,Knewton的转型之路;3/ 作为自适应学习平台Knewton的系统是怎么运作的)
[2]大部分在业界受尊重的自适应学习系统是非盈利的,例如ASSISTment,Reasoning Mind,Khan Academy;唯一例外的ALEKS,其创始人在60+的高龄开始创业,也基本不是为了钱。Knewton已经是一家值得尊敬的技术公司,但是还没有成为一家受人尊敬的教育公司。
[3] Khan Academy在Gates Foundation资助的评估研究中乏善可陈。在美国教育评估的圣地WhatWorks Clearing House收录的教育技术效果测评中,基本看不到自适应学习系统的身影。各大服务提供商自己提供的效果评估一般会强调“效果和使用强度成正比”。
[4] Reasoning Mind可能是唯一数次通过大规模效果评价试验的,但是遗憾的是他们的自适应学习系统并不基于知识图谱。
[5]这里不考虑为了保持熟练度而进行的重复练习。为了保证在考场上类似于神经反射的答题速度,重复做已经掌握的题也有一定意义。
[6]特别是文科。
[7]因为没有显性的可观察变量,因此无法将潜在的知识点掌握程度外化出来,所以也无法进入推荐系统;除非施加额外的推荐规则。
[8]汇报这种情况的自适应学习系统包括中国的学吧课堂和印度的embibe。这里的一个推论是老师的教学水平低于题目的文字解答。这种情况在自适应学习系统用户中的比率有多大是值得思考的。
[9]一个典型的反例是蒙特梭利式的教学组织方式,不用年龄而用学习能力来组织教学活动
[10]典型的反例是美国的AP课程。我曾见到深圳某知名中学国际班的学生在高二就开始学AP Calculus,这样的速度差距在中国大部分学校是不可想象的。
[11]云校在这个方面做了许多工作。期待他们开花结果,并且逼迫更多的教育公司模仿他们的做法。
[12]有种观点认为,批卷子这种看似低效的信息提取方式帮助了老师更好地理解了学生情况的详细情况,这种内化工程根本不应该由算法来替代;否则会降低老师据此进行“个性化”教学的能力。
[13] https://www.reasoningmind.org/
[14]一般在0.5个标准差左右,有一个实验获得了1个标准差以上。
本文转载自爱行知(微信公众号:k12edu-tech),作者冯俊晨。
来源:爱行知