在技术领域,有了云计算和大数据这些词汇之后,某些教育界的专家、教育软件行业的志士如同被打了鸡血,立刻兴奋了起来。似乎是憋屈了好多年,终于找到了教育技术的发展方向和突破点了。
大数据给教育带来的兴奋是理所应当的,也是正常的。还可以放胆狂言:随着技术的发展,教育将得到更多实惠,从事这方面的业务将更有机会。
但是,我没有看到在教育技术领域的从业者,不论是企业还是高校,认真地将大数据技术应用到教育产品和服务中。除了某些专家的关于大数据和教育的科幻文章之外,其它的就是用大数据、云计算做为概念来包装以前的东西,“新瓶子装旧酒”。这样的东西能够长久吗?
目前看一下被媒体炒来炒去(更可能是这些机构花钱雇佣媒体来炒作)的狂舞大数据旗号的在线网站,可以一言以蔽之:应对考试。主要是两个方面的东西,一是讲课视频,另外就是在线做题,而且仅仅是选择题。
其实,在大数据出现之前,已经有很多专业性的在线教育类型的网站取得了一定的成功,例如在线财会学习和考试,只不过没有包装成这么一个让人兴奋的概念,似乎没有那么热罢了。
类似的观点我在以前的文章中谈到过,要做在线教育,一定要先选好切入点,因为教育的变量很多。(参见拙文:理解教育,再做产品)
下面就具体谈谈现在热议的中小学教育这块,从某题库到最近一个被热炒的以做媒婆网站起家二次创业者,都在关注这块的在线教育,我姑且称之为狭义的“在线教育”。下文中如果不特别说明,“在线教育”就是指面向中小学学生的在线教育。
过去和现在,中小学教育依旧是“应试教育”,对错在此不讨论。或许由此原因,这个体系培养出来的人做在线教育,就很自然地围绕“应试”来做。现在宣称自己是在线教育的,大抵如此,甚至有做所谓艺术方面的,目标是也让孩子考级。
所以,所看到的在线教育网站基本是前述的两类(讲课视频和在线做题)。仅从技术角度来看,目前所呈现业务,网站系统处理其数据,如果动用云计算技术,又如果该网站真的没有忽悠,比较接近的可能就是有钱烧的,拿高射炮打蚊子。
当然,我更认为,这些在线教育网站根本就没有什么大数据,只是一些初级程序员干点活,然后包装一下罢了。刚刚看到,某成功人士二次创业做的梯X网,一下投资1.5亿,只不过是做点选择题罢了。土豪呀,咱们做朋友吧。
还是说正经的吧。大数据,对教育的确是一个契机。这里重点说一下要抓住这个契机需要解决的问题:
1.获取源数据
教育中的数据的确可以称之为大数据,就如同某个专家说的那样:学生的个人信息(性别、性格、心理、家庭背景、爱好、兴趣、习惯.......)以及学习信息、环境信息等,以云计算技术进行分析,最终形成对学生教育的指导意见和教育方法。虽然直到现在专家讲的仅仅是幻想,但是,也说明了教育过程需要大数据。
既然目前教育还是应试,就用应试来举例吧。我去年曾经指导一个孩子应付中考,就很明确告诉她,初中物理《声》一章,只需要掌握最基本的4个选择题目,老师布置的其它题目都可以不做,因为不考(最终2013年中考试卷中只有选择题中一道《声》部分的题目,还是很简单的)。为什么我能够给这个孩子这么明确的复习指导意见呢?因为我做了以下工作:
(1)认真分析了苏州市中考近5年的物理试题,并且对每套题目的知识点分布、题目类型、难度等做了统计。(看官注意,这事实上就是开始玩数据了。)
(2)分析了江苏省初中物理教材,了解的初中物理各个知识点之间的相互关系。特别是深知初中物理中的哪些知识会与后续高中阶段的物理学习产生关系。因为我在(1)的分析中发现,凡是与高中物理课程学习关联度高的,也是考题密集地方。
(3)分析了这个学生的特点,特别是对基础知识的掌握情况。同时也分析了这个学生其它学科的学习情况,让各个学科协调配合,不至于互相干扰挤占时间。达到总分最大化才是王道。
就先看这三条吧,仔细琢磨一下,是不是都是我通过某种渠道获得了与学生有关的数据,然后对这些数据进行分析,才得出的结论呢?只不过,这些过程不是机器做,是由我完成的。那么完成上面的分析的第一步,就是要得到相关数据。
再来看,如果是机器做,怎么得到这些数据呢?
要得到(1)的数据,毫无疑问,就必须配备优秀教师来做。这个理论上讲看似简单,但是,至少在目前,还没有哪个在线教育网站做出来。因为能够做这个分析的,不是雇个大学生就能完成的(顺便吐槽:很多教育机构为了降低成本,就喜欢雇大学生,年轻漂亮,有亲和力。搞不懂是在做教育还是在教唆)。某些网站虽然能够给出某个题目所属知识点,也就此罢了。那个号称用什么遗传基因算法的某题库,在这方面也仅仅停留在扯淡水平。
(2)的数据还是要依靠高级智力劳动才能获得,虽然有一些网站能够提供知识点体系,但是最关键知识点之间关系缺少。至于哪些知识跟后续学习产生关系,估计目前做在线教育的压根儿就没有想到。
(3)中的部分数据是当前众多在线教育正在做的,就是学生哪个题目错了,那个对了。其它的也没有。所以说目前的在线教育网站获取的源数据很少。
分析到这里就看出来了,如果在线教育只获得上述举例中的那么一点点数据,能给学生提供有效指导吗?
所以,如果要做在线教育,首先要获得丰富的源数据。上面仅仅是我列举的一个例子,这个例子还相对单纯,因为是应对中考。没有过多考虑学生的心理、毅力、态度等。因为在中考面前,我所指导的这个孩子是非常好教育的,非常听指挥。
如果以在线的方式,如何获得这些数据呢?这时候土豪就显出作用了。1.5亿应该在(1)(2)上多用点。
(3)中的数据获得,看似简单,实则也不容易。因为在线教育获得的数据,实质上是非常单一的,仅仅是选择题类型的单个题目的对错以及有关知识点。这些数据远远不能全面反应一个学生的学习过程,距离考试要求也很远。
在获得上述源数据方面,有时候光土豪还有点力不从心。有的人就想到了动用学校的关系,让学校命令学生必须用我的网站,在上面做题。哈哈,试试吧。遥祝好运。即便成了,也只是一点点数据。
难道不能解决吗?能!教育体系中的某个机构里,上面所说的数据都有。(就是不公布出来,所以,土豪如果不找我做朋友,钱的功能是有限的。
2.数据处理
数据都无法获取,谈处理有点浪费。那么就只能假设了,假设获得了应有尽有的数据。这时候就要用上大数据有关技术了,因为至少拥有了前述三条中的所有数据,面对千万数量级甚至以上的学生,可以算大数据了。这时候,就不能搞几台服务器,找几个初级程序员鼓捣鼓捣了。必须土豪出面,撒出大把银子,招来人才,搞点云计算。提醒注意的是,千万别停留在教育统计学那点公式的水平上。那点东西只能统计一下题目,对于我前面举例中的大多数是无能为力的。从我自身的亲身经历中感悟到,做这个是要耗费很多脑细胞并且还拼体力。给出一个建议框架和注意事项,供参考。
(1)Hadoop或strom,视情况定。当然,也可以不用。
(2)编码:优质的代码。前后端分离和读写分离。前轻后重。(优秀的码农写的代码,比初级程序员,要节省很多成本。他们可以在每行代码上优化计算过程。)
(3)最好是NoSQL数据库。(SQL类型的数据库,在面对海量数据的时候,会遇到很多麻烦和瓶颈。)
(4)服务器数量要足够。(openstack如果有必要,可以使用,能够减轻工作量。)
因为看这篇文章的大多数不是做技术的,就不解释了。总而言之,就是土豪出钱才能搞得起来大数据的处理。
注意,如果没有获得源数据,这里就是科幻。
经过数据处理要得到什么结果呢?结果就是类似我前面指导学生的那种。告诉学生怎么学、学什么、学到什么程度。而不是一遍一遍做题、再做题。这仅仅是针对应试而言。如果有某个土豪说要促进人的健康、全面发展,应该如何处理数据。说实在,咱们还是聊聊中国足球的事情吧。
3.还有一方法
其实,从某种角度来看,最擅长处理大数据的是人的大脑。所以,如果不用什么技术的话,还可以用人。这无疑就是在线一对一啦。而人又不如机器可靠。
没有万全之策。
教育怎么就这么麻烦呢?
原标题《粗谈大数据和教育》
文章转自易水禾--齐伟
欢迎关注微信号:itdiffer
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。