【芥末堆注】:本篇经验干货来自于业内封闭沙龙活动的分享,是由沪江网发起的互元在线教育创业联盟主办的名为“【互元】教育创业联盟”微信群发起的。芥末堆作为唯一媒体支持参加了这次沙龙,并将本次沙龙嘉宾分享的的干货整理成稿。
“大数据”已成为时下流行的词汇之一,各个行业都将大数据的概念融入其中。而在教育行业中,“大数据”一词该如何来定义呢?又如何采集并且分析数据呢?这其中的过程与结果哪个更为重要呢?数据服务一行采取的又是怎样的商业模式呢?本期我们将邀请儿童行为数据平台底层数据分析服务商,中科韦摩的CEO宋军辉来谈一谈他眼中的教育行业大数据。
分享嘉宾:宋军辉,中科韦摩CEO,战略经营学硕士,韩国力学归国,曾任教育部下属某学会旗下幼儿中心办公室主任。
分享主题:我们在谈教育大数据的时候,都该聊些什么?
分享提要:
1、如何定义教育行业的大数据?
2、想要分析?先做采集。
3、过程与结果,哪个更关键?
4、数据服务的商业模式是什么?
一、如何定义教育行业的“大数据”
今天给大家带来的分享是教育行业内在聊到大数据的时候我们应该聊些什么,一般来讲大数据的定义符合四个特点:大量、高速、多样和价值,但是如此巨大的数据无法通过目前主流的软件工具在合理时间内达到截取、管理、处理并整理成为帮助人和企业做决策的资讯。
目前来说,在教育行业,数据的主要来源包括以下几点:考试成绩、入学率、出勤率、辍学率、升学率等等,具体到课堂教学来讲,就是说明教学效果的,比如:学生识字的准确率,作业的准确率、多方面发展的表现率,积极参与课堂科学举手的次数,回答问题的字数时长与正确率,师生互动的频率与时长。
我给大家讲一些常用的大数据应用场景,然后我们一起来探讨一下教育行业内的大数据应用的整体表现形式。
我们知道人类的大脑跟计算机在分析数据和获取结果的方法上是不一样的。因此在有一段时间内,计算机科学界想尽各种办法,希望通过计算机来模拟实现人脑,就是人类的思考方式。结果大家都是知道的,最终结果就是人工智能至今为止还没有实现。
但是两年前,苹果推出了Siri,微软也同时推出了它的人工智能语音分析软件(同声传译),还有谷歌的在线翻译系统也实现了准确率比较高的一些能力,那么这些是如何实现的呢? 其实背后支持他们的都是大数据。
一开始,科学家是尝试通过由语言学家不停的编撰大量的词典啊,包括语法、句法、语义学相关的规则,将其汇总成词库,再来判断各种语境、情景等各种情况,然后进行机器翻译。
这种方式在统计学概念里叫穷举法,最终科学家们发现,在这种方式下,机器翻译的质量是没有办法保证的,因为人类的语言实在是太丰富了。
接下来的发展就出现了一个转机,就是大数据的应用出现,在这个过程里面呢,我们发现可以思考的方式不止有穷举法,还有匹配法,匹配法的方法的实现就是我们不去管语法和规则,而通过将原文与互联网上的翻译数据进行对比,找到其中最相近和被引用次数最高的翻译结果作为输出。
举这个例子是希望告诉大家, 当我们在与他人进行大数据方面的讨论和交流的时候,我们发现绝大部分人是希望大数据能直接为他们提供结果,而实际上我们来定义大数据的时候我们会发现大数据不是万能的,所以呢,我们更倾向于将大数据提供的结果作为由人来做最终判断的决策建议。这就引出了我今天要分享的第一个结论,我们如何去定义教育行业的大数据,我们认为教育行业的大数据的定义应该是决策者及老师和学生提供决策建议的结果。
二、想要分析,先做采集
刚才我也有提到,我们现在教育行业内主要采集的数据包括考试成绩、入学率、出勤率、辍学率、升学率等等这方面的集合,实际上这些数据我们更可以称之为教学管理数据而不是学生的学习数据。
回到一开始提的大数据的四个特点,大量、高速、多样和价值, 我们回过头再来看我们在教育行业内采集到大量数据的特点,会发现大量是有保证的,而高速、多样都是没有保证的,价值也是没有太大保证的,因此我们不能说现在从教育行业内已经可以去采集的数据就是可以得到我们想要的结果的数据。
然后我们会发现,在教育行业内去分析现有的已经能提供的数据,其实意义不是特别巨大,最多是在宏观层面上对改善我们的经营管理有所帮助,但是对于帮助学习者如何去改善他们提高他们的学习效率确实意义不是很明显、因此从我们的角度来说,要分析数据我们先做的是要采集数据。
我们现在为学习者提供的绝大部分课程内容都是由课程设计者拍脑门想出来的内容,但是这些内容都符合一个认知规律,就是说符合我们想要去传达的知识要点,也是有节奏控制的。只是我们不知道接收这些内容的学习者的认知是否能跟上或者去匹配内容的传输节奏或者是认知规律的节奏。
现在绝大部分行业内的做法,比如说题库或者一些试题分析,他们的做法是去分析学生(学习者)的答题结果、考试结果,寻找他没有充分掌握的知识点,反过来再向他去提供这方面的补足,实际上在我们看来,我们更关注的是这个结果产生的原因是什么,也就是说这个学生为什么在这个知识点上或者这部分的知识内容的掌握没有达成合理的范畴。那我们就需要去回溯比如说掌握学习者的认知状态、行为特点以及环境变量等因素,同时我们需要去掌握这部分传输知识重点的节奏以及整体的知识架构,在这种匹配关系之下我们就可以知道针对这样的学习者,或者说针对这样认知能力水平的学习者,这部分内容是否已经溢出了他的认知范畴,或者说对他的知识的掌握造成了什么样的影响。
刚才我说的这一部分比较枯燥的内容,就把我想要分享的大纲内容中的二和三已经做了解答,就是说我们认为想要去做好一个学习者或者教育行业内的数据分析,首先我们要去关注的是数据的采集。我们所定义的采集不止是数据量的大小,同时还需要关注数据维度的大小,这个数据维度的大小在传统意义上来说就是数据的多样性,那过程与结果哪个更关键呢,我们认为过程比结果更关键。
三、数据服务的商业模式
我们一起来探讨一下第四部分数据服务的商业模式应该是什么(问答讨论环节)。
问:对于数据服务公司,目前国内外有成功的案例吗?
教育行业的数据服务公司,国外绝大部分是公益性,政府行政服务,如果我来定义他们的成功,能被大多数家长接受吗,并帮助学生成长,已经很好了。
对于数据服务的成功案例,比比皆是,国内的友盟,Talking data等等都是不错的企业。
典型案例有一个可以分享的是NYC政府主导的一个数学教育项目School of one。
对于不同年龄段的学习用户及他们的决策者会有那些差异呢?
在我们的概念里,学习者不只是单纯的按年龄来划分,更多的是按认知水平划分的。认知水平还包括世界观价值观的发展状态。
对于低龄的学习者来说,更多的决策辅助是提供给教学者和保护者的。实际上这也是一个教育家长和老师的过程。
最后,我们所处的教育行业,先不谈分析,先说采集,我们采集的节点是否能够真正做到我们采集的数据是客观的有效的有价值的。
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。