【芥末堆注】本篇为门外汉看在线教育系列专题之二,戳链接查看一:
上节说到题库有两类,一是以学霸君为代表的拍题产品,一是以猿题库为代表的组题产品。组题产品给我的感觉是在做一个“活”的练习册,“可以根据你对考点的掌握情况智能出题”。因为我自己过去也搞过一点点大数据,然后我自己用了用这个产品,觉得这个事情不太对。主要的问题有两个,第一个是“先有鸡还是先有蛋”。你要有大量的数据才可能训练出精准的推送模型,可是你要足够“智能”才可能有大量的学生使用你的产品。冷启动问题怎么破?
在回答问题前我吐个槽。去年6月份的时候我参加了一个小沙龙,听猿题库的朋友说用户量已经接近300万了,每天最活跃的时候是晚上十点多。我特别想吐槽的是,这个app有个选项默认是打开的,叫做“每日答题提醒”(最新版本在“发现”里面)。它的作用是每天晚上十点半准时打开app并用最大音量提醒你来做题吧,不管你当时在什么别的app里面或者哪怕你手机调的是静音……囧rz。到了7月份我听说猿题库拿了1500万刀的C轮,10月份的时候我看到新闻说用户数突破500万,每周新增30万。于是我明白了,冷启动怎么破?有钱啊!嗯,有钱真的可以的,数据量这一局暂时你赢了。然后就是第二个问题了,数据质量,给大家看两张截图。
注意图中的“考点”和“标签”,机器是不认识“题目”的,机器学习的数据就是这些人工打上的“标签”。现在的题库动辄号称千万题量,其实哪怕是百万,生产一个上图这样标准化的题库的唯一办法就是雇佣大量的廉价劳动力,比如大学生兼职团队。在这种情况下,你打出来的标只能是“粗粒度”的。“粗粒度”怎么理解?大家都学过中学数学的,我们尝试估计一下这种标签的种类数量。整个高中数学约30个单元,如数列、立体几何、函数、不等式等。按照“等差数列、等比数列”、“定义法”、“空间几何体”、“图解法”这样的用词,每个单元平均十几个标签吧,总数我猜在300个左右。好,我们来感受一下这样一个场景,智能题库给你推送了5道题,都带有“直线方程”这个标签,结果你全做错了。这时不管背后的机器怎么学习,它一定要再给你推一道带“直线方程”标签的题吧。这有用吗?你刚才犯的错误是“用点斜式设直线方程时忘记考虑斜率K不存在的情况”,或者是忘记了“与直线Ax+By+C=0垂直的直线是Bx-Ay+C1=0 (C1≠C)”,再或者是在“用方法四求直线关于某定点对称的直线”时用错了“中点坐标公式”,blablabla……然后这次给你推的题是“求两条直线的交点坐标”。嗯,它们都是“直线方程”。
感谢数学不好的小伙伴坚持看完上面这一段,我想表达的观点是——粗粒度的个性化是伪个性化。用俄罗斯方块做个比喻,如图,下面那些坑就是学生的薄弱点或者叫做用户的需求,五花八门。现在你要消掉它,如果落下来的全是4x4甚至6x6的方块,那你永远也别想成功。
回到上面题库的第二个问题就是,任何数据所训练出来的模型的颗粒度不可能超过数据本身的颗粒度。所以,在数据质量(颗粒度)达到某个阈值之前,再多的数据可能都是“废的”,数据的质量决定了个性化的有效性。
实际上,数据颗粒度这件事还间接影响了前一篇中我们提到的“学习主动性”问题。这里先卖个关子,回头一并在学习主动性一节阐述。
市面上估计有十几款题库,有兴趣的朋友可以都装来看看,show出来的知识点基本都是上面截图那种粒度的。然后就有个朋友跟我说“真像你说的那么多问题,人还拿了那么多钱呢”。对这个问题,我想起前几个月有篇文章,讲的是对比IDG和红杉的投资,标题是“赌选手还是赌赛道”之类的。这两年在这个领域创业有两个感觉,一是好像全行业都觉得所谓风来了,他妈的再有个三五年,在线教育绝对是和电商之于传统零售一样,对传统教育必须是颠覆啊;二是至今都没有一个能够得到较广泛认可的模式或产品,尤其是K12。所以,第一点决定了资本必须布局,得投啊,晚了没坑了啊。第二点是都不靠谱那投谁呢?其中一个答案就是“赌赛道”,越有钱越这么干。起码最好的赛道要有我的份,然后每个赛道里面尽量挑最好的选手呗。猿题库当年也是做平台(粉笔网)的呢。2013年,多少平台拿钱了呀,到2013年下半年就开始死了,粉笔网团队很棒啊,能够快速转型到第二波最靠谱的模式——题库。然后各种题库纷纷冒出来了,到现在题库也开始泛滥了,那第三波最靠谱的在哪里?不知道,希望是我们哈。
其实组题类题库还有一种,就是面向老师的,猿题库是面向学生的。我个人其实比较喜欢面向老师的组题类产品。可能是因为自己做了段时间老师,觉得自动组卷这玩意真是有用啊。去年我们经常用梯子网查题,可惜它倒了。现在也有一些面向老师的组题产品,不过比较少。想来想去,面向老师的组题产品不能成为主流的原因可能是两个,一是盘子小,二是商业模式不成立。面向学生的组题产品的商业模式,我理解核心是导流玩转化率,通过对接其他环节完成整个闭环。用一个朋友的话讲是,“给人特别互联网的感觉”。对比起来,面向老师的就差的比较多了。这一块因为想的不多,就先不展开扯淡了。
今天拍了很多猿题库,猿题库的朋友不要打我哈。猿题库是题库里做的最棒的,我们也偷着学了点东西。比如公式的处理,latex串用的很棒,在存储、传输和显示等方面都有极大优势,还有很强的扩展性,比起现在很多用图片的那是高大上太多了。
OK,写到这里,平台和题库都讲的差不多了,下一节打算沿着前面的颗粒度一事往下,谈点交互,谈点我们对教育行业核心问题的看法,感谢各位捧场。
文章来自学吧课堂李行武,仅代表作者个人观点。
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。