芥末堆芥末堆

【涨姿势】题目知识点标签自动挖掘技术(下)

作者:李连华 发布时间:

【涨姿势】题目知识点标签自动挖掘技术(下)

作者:李连华 发布时间:

摘要: 本篇是专题【教育技术】的第一篇(下),芥末堆邀请到了一起作业网大数据部的负责人李连华来为介绍优质题库建设中题目知识点标签自动挖掘技术。

【芥末堆注】本篇是专题【教育技术】的第一篇(下),芥末堆邀请到了一起作业网大数据部的负责人李连华来为介绍优质题库建设中题目知识点标签自动挖掘技术。

这一篇是知识点标签自动挖掘的下半部分。上篇我们对知识点标签自动挖掘做出了明确的问题定义,并做了技术任务的分解,在本篇中我们选择一个基础模型,从原理的角度进一步描述分类的过程,并接着任务分解中的关键点描述进一步阐释,来说明我们这个任务中的技术挑战。最后简略的叙述我们对于数据挖掘和大数据项目的一些感受,期望能够给到大家一些帮助。

【推荐阅读】题目知识点标签自动挖掘技术(上)

一、朴素贝叶斯分类模型

为了满足更多非机器学习方向读者的好奇心,我们以一个基础模型为例,来进一步从系统原理角度揭示这个过程。我们选择朴素贝叶斯模型为例。对于原理细节或数学没有耐心的同学,可以跳过这一部分。

首先展开一些基本的概率统计中的概念,在我们这个实际例子中加以说明,通过这个过程逐渐切入进来;但我们不进行严格的定义——毕竟我们不是一个教科书式的内容,因此我们尽量通过任务中需要用到的例子来说明。

当然,概率的估计值有多种估计方式,上面展示的,都是极容易理解的。如果是在实际工程实现中,我们可能会选择效果更好的估计方式。

全概率公式给我们的启示是,一个事件的概率,可以由一组特殊事件的加入来估计,某些情况下这会为计算带来方便。

至此,我们把朴素贝叶斯模型的原理做了一个初步的介绍。懂技术的同学可以尝试通过这个脉络,来实现一版基于朴素贝叶斯模型的知识点分类系统了。

但事实上,这个任务远比原理中对问题的描述要复杂,通过上面任务拆解中的技术关键点大家应该明白,我们接下来重点描述一些挑战。这些挑战对于即使很有数据挖掘经验的工程师而言,都是有挑战的。

二、 知识点标签分类的挑战

上面我们说,这个任务是非常复杂的,除了任务拆解中提到的问题和关键点,我们再次强调指出三个问题。这三个问题会对效果优化至关重要。

首先,题库中题目的文本是一个垂直领域的短文本,尤其是K12题库中的题目,其文本信息都不是很长,而且,题目中有大量的新词,有大量的信息是解析式、公式、特殊表达的信息,这对在题库的数据清洗和特征选择是极大的挑战。因为很多信息不仅蕴含在关键词中,尤其是理科题目,非关键词的文本信息中也有大量的信息,对于这些信息的处理是非常繁琐的。除了这些问题之外,还有一些题目有丰富的图片信息(如理科中函数图像、几何图形、物理化学实验等),一些题目有语音信息(如听力),这些富媒体信息中也可能包含了知识点分类的关键内容,但对于它们的处理,对于团队的技术积累和要求则是更高的。

其次,我们说这个分类任务是一个层次化分类的任务,它就会带来两个问题,一个是级联的错误放大,因为每一个分类器都有一定的准确率和召回率,导致我们在叶子节点做分类时,效果有极大的影响;应用要求分类体系非常的精细,前面我们说,分类体系可能是四到七级,千规模的分类节点,这个时候分类体系的节点之间的区别度往往是一个很大的问题,表现在语料库中的题目层面,即它们分属不同兄弟节点但文本表达却有很高的相似性,会给分类模型带来很大的困扰。

第三个问题是,分类体系及知识点的合理性,很大程度上是和应用有关的,在我们这个场景,是和推题的推荐系统相关的。虽然我们会评价分类的准确率、召回率,但毕竟这只是技术评价指标,而不是业务目标。基于知识体系来刻画的用户模型和推荐引擎,对于用户的练习效果和教育效果是否真的好,这是一个周期非常长、过程非常复杂的度量。业务效果反射弧超长,这也是这个任务极大的一个问题。

这三个问题放在这里,是对我们团队的一个很大的考验。所以说,大数据和数据挖掘对互联网教育虽然是很重要的,但也是极有挑战的一个工作,需要很好的团队、很强的创新性人才的投入。好在这个方向的魅力是如此之大,吸引了很多有志之士。

三、做大数据和数据挖掘类项目的关键点

经过上面的介绍,相信我们的读者对优质题库建设中知识点标签自动挖掘有一个相对深入的了解。我们最后做一个点睛,描述一下我们对这一类项目或方向的感触,期望能够给到大家借鉴。

这个方向的项目,有两个最大的基石,其一是对用户和产品价值的把握,也就是说,任何的挖掘技术,需要充分考虑清楚应用对它们的核心诉求;其二就是对于数据和技术,要有专业的团队和人才梯队,要能够快速上手也能够找到问题的关键点。否则的话,这一类项目是最容易失败的。在项目管理层面,这一类项目有较强的探索性,不同于功能性项目,需要做区别化的项目管理,而在团队层面,最好能够是跨越互联网和教育的融合基因,数据挖掘团队和产品团队、教师团队有紧密的、心有灵犀的默契与合作。

这些,都是技术之外不可或缺的。期望大家有所收获,感谢。

1、本文是 芥末堆网原创文章,转载可点击 芥末堆内容合作 了解详情,未经授权拒绝一切形式转载,违者必究;
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。
来源: 芥末堆
芥末堆商务合作:王老师 18710003484
  • 【涨姿势】题目知识点标签自动挖掘技术(下)分享二维码