芥末堆 11月16日 冬妮 报道
11月14日,在以“碰撞·演变”为主题的GET2018教育科技大会“教育技术如何不被滥用”分论坛上,学堂在线技术副总裁管健发表了《规模化的个性化教育》的主题演讲。他认为纯IT技术不能够轻易解决的教育问题,引入交叉学科可能会是关键。
以下是管健的演讲精选实录:
大家好!我是学堂在线管健,今天要讲的话是在线教育里面由于技术带来的一些机遇以及我们在应用技术的过程中遇到的一些挑战。
互联网技术与人工智能技术给教育带来颠覆性改变
随着高等教育的发展,中国已经有很多大学能排在全球前列,但因为我们的人口基数大,我们人均拥有的优质高等教育资源非常少,我们比别人可能低一到两个数量级以上。然而这个数据不仅仅是在大学这个层面,中学、小学一样有这个问题,全国毕竟只有一个人大附中。
我认为怎么能够让优质的教育资源能够惠及到更多的人,一直以来都是我们要解决的问题,技术其实带来了一定的机会。
我们做在线教育,把这个词拆开叫做“在线”跟“教育”两个事情,在线实际上体现了技术范畴。
我们看到在线带来了两件事情,第一它通过连接我们有了互联网。通过国家三通两平台(宽带网络校校通、优质资源班班通、网络学习空间人人通),通过电信运营商的建设,基本上能够把网络连接到每一个村镇,能够让优质教育资源覆盖到更多人。那么这样带来的结果是什么?是教育效率的提升。以前一个老师可能只能教一个小班40人,开一个大课两百人。那么现在我们通过互联网技术,应用直播可以实现十万人、百万人的量级同时在线去看他讲一堂课。这就是是互联网技术带来的一个颠覆性的变化。
当互联网使得优质教育资源覆盖面扩大的时候,另外一个要解决的问题是如何提升教学效果。我们看到人工智能技术的进展给我们看到了一点曙光,这是在线做的第二件事。
通过引入互联网技术和人工智能技术,能够在一定条件下实现规模化和个性化教育。这是我今天整个这个分享的重要主题。
大数据不是万能的
学堂在线在做一个业务叫做慕课,我们给它的一个定义叫做“多快好省”。它是基于人工智能和大数据技术来构建的一个开放的、在线交互学习平台。我们要解决的问题实际上也是教育几千年以来的一个实践和理念,就是希望能够做到有教无类和因材施教。那么这两个词映射到为规模化和个性化实际上是一样的道理,有教无类意味着谁都可以来学,有适合各种学生的资源,因材施教使得每一个学生能够得到针对他的个性,适合他特点的一个学习。
学堂在线是清华大学发起成立的在线教育公司,我们在2013年10月10日上线,刚上线的时候有五门由清华大学拍摄和提供的慕课,到现在课程总数量超过一千八百多门,注册用户接近一千五百万人,人均的选课量超过两门多。并且,我们的每一门课自成体系,符合大学教学水准,比方说微积分,比方说财务分析,比方说数据结构都是大学里学分课的水准,所以大家可以想到一千八百门课加在一起是个怎样的量级。
上线以来,学堂在线除了积累教学资源之外,还积累了大量的学生行为数据,数据是学堂在线的整个业务核心。我们从平台上收集学生的学习行为,比如学生跟视频的交互,老师和同学的交互以及做的各种习题、考试、讨论,日常的日志量能够达到一亿条左右。
那么大数据真的是一个我们不可或缺的技术吗?可能我的结论有一点偏负面,我认为他未必是一个必需品,但它能带来一种新的逻辑和机会。
我举一个例子,这是我们拥有的数据类型,一个在线教育平台最多的数据无非就是这些,你选什么课、在视频上怎么看、怎么跳转页面,做题做的怎么样。然后把后台用户注册的信息数据进行分析,希望得到一个关于课程的用户画像,然而实际上结果并没有那么准确。性别大概猜对了59%,比抛硬币稍微好一点。猜年龄更差,只猜到55%,猜教育程度基本上跟抛硬币差不多。这就是我们拿大数据来做用户画像得到的结果,其实这种用户画像很多互联网公司都在做,不管是旅游行业、电商行业,可能都经常做这个事。但在教育行业的结果确实很不尽如人意,回过头去看这些数据,一个人选什么课跟他的性别有特别强的关联性吗?其实未必。一个人看视频是喜欢跳来跳去看,还是喜欢从头看到尾,跟他的年龄有多大关系吗?可能也未必。
这个例子是说大数据技术它不是没有用,但不要去神化它,什么东西上来大数据跑一遍,算法跑一遍都能跑出结果来这是神话,当然它也不是没有用。我们拿它来做另一件事,改个题目,用同样的数据,同样的算法,去分析另一个问题。其实在慕课学习里面一门课可能有16个学时,32个学时这么长,其实很多学生可能看了一两个小时以后他往后就不看了,这就是学生的流失问题。一个学生这周学了他下周还来不来?这个学生来了三五周以后他能不能坚持到最后?我们用大数据分析这个问题,同样的数据同样的算法我们就做到了72%的一个效果,而且我们在持续改进如何研究流失预测。所以技术要怎么用,拿来解决什么问题?是一个需要设计的事,这是我举的第一个例子。
前面说了大数据不是万能的,要学会合理的运用大数据,那么接下来就讲讲具体能用大数据做什么。
通用技术——数据可视化
很多时候大家认为教育是个特殊行业,我们要结合行业的特点要做一些有特色的,结合应用领域的东西,其实也未必。我们也拿它来做很多常见的事情,比方说数据可视化,其实就是数据统计,有多少人选课,什么时候来选,这些数据能够给老师和学习者提供很好的决策支持。另外,还可以运用现在已经很成熟的通用技术例如图像处理技术、人脸识别技术、环境识别技术,去解决教育行业一些特定的问题,比如说在线监考。考试的时候把房间周边的这个环境拍下来,程序能够识别可疑的不应该出现的动作和场景,我们就能在一定程度上实现除高考外一定程度的在线监考。
这是通用技术在教育领域的应用,有利于规模化教育的实现,但对于个性化教育我们能做什么呢?以下是我的一些思考。
首先我们要做的是基于知识图谱的资源和用户组织
有大量的不管是视频、习题或讨论,其实它最终的知识点力度很粗,交互也不够,我们需要按照更细力度的知识点把它组织起来,形成底层的知识图谱,并且把用户以及用户跟资源的交互,通过底层的知识图谱连接起来。这样我们能做到什么?我们能给每一个资源做画像。比方说我今天可能讲二十分钟的视频,这里面我讲了十个、二十个知识点,它能够自动的去给它切分出来去计算知识点的覆盖。
其次就是基于“资源画像+知识结构画像”的学习路径
一个学生他在哪一个知识点上强,哪一个知识点上弱,我们能够把它细化到知识点力度上去,给它做一个画像。那么基于这两者资源的画像和知识结构的画像使得我们能够去给它设计更个性化的学习路径。
比如,我们能发现某一门课里面哪个知识点比较难,老师可能讲得不够细或者这个东西本身就特别难,我们就能给它做智能推荐。这个可能大家在电商里面看的比较多,经常浏览哪些商品页面就会推荐哪些商品。我们给它做的是人工对比的效果,把每一个知识点的讲解做成一个个小视频,根据一个人的知识结构我们去给它推荐适合他学习的这些资源,那么他的效果比人工运营的效果要好一点,点击率能够提高11%,然后最终它点进这个课以后最终选了这门课的概率会提升5%,同时学习者的学习效果也会得到很大提升。
刚才讲到的都是纯IT技术,不管是人工智能还是大数据,它离跟应用结合真正去解决问题,可能还有比较大的差距。不是纯粹的利用IT技术去解决所有问题,这只是我们的基本思路,我再举两个例子。
第一个是我们引用心理学的因素做这件事。之前提到,我们用人工智能做个性化的推荐能够带来更高的点击率和选课率,跟心理学结合怎么做呢?我们可以把推荐背后的逻辑可视化出来。比如刚才电商的例子,我今天买双鞋,如果明天再给我推荐一堆鞋,用户就会很烦。而我们推荐的逻辑是这样的,你今天选了一门英语听说课,我给你推一个跟它相似的课,比方说英语的读写;或者我给你推一个跟它相关的课,比方说英国文学的文化;或者我根据你的社交网络去分析你的同班同学或者你关注的某一个学霸选了另外一门机械原理。这个背后的逻辑如果我用纯智能算法去做,无论如何不会因为你学了英语去给你推机械原理的。
这个例子是想说,也许我们可以不用特别看着很先进的技术,但是通过其他交叉学科的引入,我们也能更好的去解决问题。
第二个例子是关于测评的。一个老师一个班带40个人,可以给每个学生写评语或者推荐信,等到毕业的时候找工作。但现在就已经很难了,学生多,老师的精力有限,而且老师也需要长时间的跟你接触下来,才能写出有针对性的评语或推荐信。
那么机器怎么去评价一个人?其实这是个很大的问题。你如果没有一个合适的模型你说你评价什么?于是我们结合教育学的专家做了一个多维度的评估模型,把成绩之外的数据引进进来去给一个人做评价。比如时间、投入、交流、序列、节奏等学习偏好;学习成绩也不仅仅是结果性成绩,还包括测试行为和作业行为;以及学习速度和效率等其他参考……这份测评就更倾向于给人一个全面的描画。
今天要跟大家分享的内容就是这么多,总结起来可能一句话:纯的IT技术可能不能够那么容易的解决教育的问题,也许我们的路线可能要在交叉学科。谢谢大家!
点击这里查看所有嘉宾精彩分享。
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。