360OSAI影像事业部总经理张焰
芥末堆 冷冷 12月1日
11月24日,在芥末堆举办的GET2020教育科技大会“即构 · 教育科技卷:和合共生”的专场上,360OSAI影像事业部总经理张焰发表了题为《AI视觉在教育中的应用》的演讲。
张焰主要分享了360AI视觉针对在线教育痛点开发的4大场景解决方案,包括代替督学、量化检测、智能互动以及智能工具。张焰相信科技改变未来,AI可以为教育行业起到降本增效的作用。
以下为张焰演讲实录:
首先介绍一下我们团队,我们是360集团旗下孵化的创新业务线,专注做AI视觉算法的研发和应用。围绕“人、物、场景”三个维度,为智能手机、泛文娱、在线教育、IOT等行业提供专业的算法支持和解决方案。
为什么做在线教育?
从国家层面上来讲,教育是科技兴邦的根本;对家庭而言,教育也是家庭的希望;从情怀而言,教育可能是最大的公益,这也是我们做在线教育的初衷。
由于疫情的影响,很多做线下传统教育场景的机构,现在可能被迫或者被加速转换到线上场景。这其实就是数字化的进程,但是进程来得太快,很多公司还没适应过来,所以这个过程也暴露了很多问题,以下四个痛点尤为明显:
1、学生自觉性差。尤其是K12教育,这是典型的督导式教学。以前线下督导的压力都在老师身上,搬到线上之后,督导的压力都转移到家长身上了,家长们也是为此操碎了心。
2、效果难以评估。到目前为止,还没有一套成熟的量化指标来评估课堂上的好与坏,家长对线上教学的效果仍然存疑。
3、课堂互动性差。你面对的互动对象是一个冰冷的屏幕,而不是一个和蔼可亲的老师,所以在互动方面会存在很多问题。
4、教学效率较低。传统线上课难以还原线下场景,包括场地设备的限制,给老师和机构增加了不少成本。
AI视觉能为在线教育做什么?
其实我不算是教育工作者,只是科技从业者,我坚信科技是可以改变未来的,我们想做未来的教育。那么科技与教育的结合能够碰撞出什么样的火花?我们提出了几个解决方案:
1、代替督学方案
现在的责任由老师转变给家长,希望用机器来替代老师跟家长进行督学,这里涉及到两个层面:疲劳提醒和姿态纠正。
很多厂家也都做过疲劳提醒,尤其像教育台灯、教育平板类的产品,包括像打哈欠、瞌睡这两个行为,我们增加了趴着的场景。看了很多真实的线下教学视频,学生上课比较自由散漫,都是趴在桌子上。但是趴着的场景还真的不好做,原因是虽然全身的骨骼关节点比较好检测,但针对半身,可能只看到一个头发或者上半身的一小部分,这种人体关节点几乎是检测不到或者是不准的。为此我们做了很多的尝试和研究,解决了这个问题。
姿态纠正也分为两类:坐姿不良和距离太近。坐姿不良有很多维度,比如趴着、卧倒、倾斜,这些情况都可以检测出来。距离太近,有两套方案。第一套是基于2D人脸检测技术来做的,这个技术的精度可能比较有限,大概是到厘米级别。我们还有跟其他的硬件厂商做的升级方案,可以精确到毫米级别的距离探测。
学生姿态实时检测系统的实现方案,总体分为两个维度:人脸姿态检测和人体姿态。人脸姿态包括打哈欠、瞌睡等,人体姿态检测也加入了3D深度信息,因为现在很多的教育平板都会加入ToF摄像头或者3D结构光,这样能获取到深度信息,用深度信息来辅助做人体的立体姿态识别,可以大幅的提高精度。
2、量化检测方案
课堂专注度与课堂接受度是家长比较看重的两个维度,尤其是线下的课转到线上之后。学生有没有走神,有没有认真听讲,上课的效果好不好,后续存在什么问题,这些是家长非常关心的指标。
普通专注度检测有几个维度,像举手、低头、瞌睡、玩手机,缺陷是仅有2D图像信息,检测准确率欠佳。另外是检测指标单一,没法精准回溯学情。
而我们做的课堂专注度,包括了3D深度检测和学情回溯系统。可以看到我们加入了人体Depth信息,基于这个信息可以比较精准的估计到人体的每个姿态,然后再加入事件的触发机制,最后得到监测结果。这个结果包括事件状态的上报,时间戳,以及当前时间戳发生的事件截图等,便于课后对教学情况进行回溯分析。
关于课堂接受度,到目前为止,还没有哪家公司真正把它做到产品里。我们首创的课堂接受度,包含了正向和负向维度。正向的维度像举手、微笑、点头,代表课堂接受度是比较好的。负向的维度像疑惑、皱眉、摇头,这些代表课堂接受度较差。
针对疑惑这个表情的处理,我们也下了很多功夫。从学术界来看,人类常见的表情只有7种,并不包括疑惑这个表情,也没有相关的数据。但这个表情对教学场景很有意义,所以我们在这方面做了大量的数据补充,增加了疑惑的数据和标注,最后通过迁移学习的方式,再结合人体关键点进行辅助识别,得到了最终的8类表情识别。
我们的课质监测方案采用了典型的“边缘计算+云计算”结合的架构,因为现在边缘端算力已经越来越强了,所以很多算法可以直接拷在边缘设备端以及APP上。采用这种架构还出于隐私的考虑,大家担心把学生端的摄像头打开之后,检测学生的行为可能会触犯个人隐私或者非法上传数据。这也是我们比较慎重考虑的,所以尽量把端的能力发挥出来,上传的只是用AI算法检测之后的状态,而不是客户隐私的数据。
网课助手对老师而言,可以得到整个班级的课堂表现报告,这应该是非常有价值的。对家长而言,家长也可以生成本地的报告,得到学生在每个维度的表现情况。包括他的专注度、疲劳度、接受度、不良坐姿表现等情况,而且可以针对每一个维度的时间戳进行回溯分析。
3、智能互动方案
传统的录播课为了有一个比较好的体验,可能需要去一个专门的录播间,后面搭建绿幕,还有补光灯和一系列的设备。这里有一个明显的缺点是对场地的要求过高,而且后期的制作成本也比较高。
而传统的直播课,可以看到课件跟老师的头像画面是分屏展示的,老师跟学生之间的互动很有限,这对幼儿教育的体验是非常不友好的。
我们的AI沉浸式课件,做了非常精准的人像分割,把课件放在人像后面展示,同时人跟课件之间可以进行互动。另外,比如课件的播放、暂停、上一页、下一页这些简单的操控,以及老师跟课件内容的互动,是我们后期不断探索的方向。这个技术也可以用来做课件的生产工具,不需要录播间的场地和设备,自动完成课件制作。
说到网课互动,我们知道传统的线上互动都是老师单向输出为主,老师很难兼顾到每个学生的状态。因为学生在屏幕当中只是非常小的头像,学生发生什么状况,老师是不知道的。
我们研发了一系列智能互动工具,可以通过AI手段实现多向多元的互动。比如手势识别,如果这个学生回答问题之后,老师觉得很棒,可以点一个赞触发点赞的特效。如果系统检测到学生疑惑了,可以把他的头像排到前面,这样老师就可以非常精准快速地知道哪个学生跟他有互动,哪个学生有疑惑或者哪个学生在举手提问。还有像人脸特效是比较常见的,现在有很多幼儿教育都会用它来增加互动的趣味性。
4、智能工具方案
我们在这部分做了很多的投入跟创新,因为这些跟硬件结合比较紧密,也是我们的强项。我们以前做手机出身,所以在这部分有比较好的理解跟实践经验。
很多的学习APP里可能都有拍照搜题的功能,拍照之后用OCR技术识别。很多学生可能用教育平板拍照,这时因为学生手比较小,教育平板又很大,去按快门键的时候可能经常会手抖或者拍不清晰。但现在的教育平板和手机都没有光学防抖的加持,为什么没有光学防抖?主要还是考虑硬件成本,一个光学防抖的硬件模组要4美金左右,成本还是非常高的。
我们内部出了HD Shot解决方案,可以解决各种场景下失焦、抖动、噪点、暗光等一系列拍照模糊的问题。这个功能在科大讯飞的录音笔上已经上线了,现在的录音笔很智能,除了有录音功能,还可以拍会议的文档和PPT,所以这个功能还是蛮有意思、蛮有价值的。
如下图所示,左边是处理前的效果,右边是处理之后的。这个功能可以提升动态范围,对高光进行抑制,对暗部进行提亮。
视频画质提升的技术,对老师端或者主播端非常有价值。一些专业的主播,设备非常齐全,把手机架到补光灯上,希望自己的脸更精致透亮。但是长期使用补光灯对眼睛的伤害还是比较大的,所以我们做了纯AI软件补光灯方案。一套是全局的补光方案,还有一套是专门针对人脸的补光方案。针对人脸的补光方案,会对人脸的肤色进行精准的识别,利用3D打光技术把人脸变得更加透亮。
Face ID技术,在智慧校园也已经开始应用了,这个技术核心难点可能在于误识率、拒识率指标以及活体检测。它可以用在线上跟线下的大班课程,比如考勤点名,防止别人代答到这种情况。
最后用金字塔结构总结一下我们的业务架构,最底层是核心的基础技术,第二层是基于场景化的解决方案,需要深入了解行业的特点以及场景化的需求,顶层则是我们基于各个平台适配的SDK产品,我们可以基于基础技术做很多业务层的封装和开发。
我一直相信科技改变未来,AI可以为在线教育行业起到降本增效的作用。AI教育,未来可期。谢谢大家!
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。