大数据用于教育带来的负面冲击

如大多数美国大学一样，亚利桑那州立大学正面临一个棘手的问题 --- 新入学的学生们数学不够好。尽管学校会提供一些补习课程，但仍有三分之一左右的学生拿不到C，这意味着这些学生很有可能中途辍学。为了改变这种糟糕的现状，亚利桑那州立大学开始使用一款由Knewton科技教育公司提供的个性化学习软件，使用下来结果很好，在2009年至2011年期间学生的毕业率从64%窜到了75%，辍学率减少了一半。

但是请试想一下这个成功案例背后有哪些潜在的问题。如果那些被软件收集起来的数据被永久保留，个人被要求参加补习课的事实被永远记录在案可供查找，这将会怎样？再试想一下，如果这个计算机系统是通过把那些不达标的学生挡在大学门外而不是通过辅助学生学习来提高学校学生的毕业率和均分，这又会怎样？

刚才提到的类似问题极有可能发生。一些教育改革者提倡每一个学生应该配备一个记录他们所有电子成绩单的“数码包”。自适应算法是一项令人毛骨悚然的艺术。可汗学院的分析院长Jace Kohlmeier提出了一个难题--- 如何用区域学习曲线来描绘学生学习的掌握情况。比如可以对学习能力较差的人施压让他们早早退学，这样学习曲线的末端会更好看一些。但他说一般情况下没人会这么做。

大数据收集、储存、处理数据的能力比以往任何时候都要强大，它将会颠覆传统的教育行业。大数据将在教、学环节增加前所未有的数量化体验，不仅学生受益，老师也是。然而，这么做也蕴藏了风险。

长久以来，家长和教育专家都在忧虑如何保护未成年人隐私。同时人们还担心，对于那些在学业上被“跟踪”过的学生，他们的人生道路是否会因此而变窄。大数据不仅放大了以上这两个问题，而且改变了问题的本质。所谓量变引起质变。

过去的表现

很多家长看到自己子女在校期间的所有数据一点一点被存储累积起来，都感到无比恐慌。比如，非营利组织inBloom(收到颇有声誉的Gates Foundation and Carnegie一亿美金的资助)曾与9个州就建立学生数据库达成协议。但是2013年因为家长大规模抗议，这项举措在其中6个州都停摆了。

人们出自本能地反对这件事并不仅仅只是一般意义上的对隐私和数据保护的忧虑，而是一种更特殊的忧虑。一般来说，传统的数据保护关注的焦点在于权力的不均等---有些人能够拿到别人的数据，而其他人不能。这里，我们更多地是担心不可磨灭的过去对我们造成的影响。学生的记录不再是封存在纸盒里，褪色直到被扔掉，而是被永久地存储保留，随时随地都可能被调出来查阅。

想象一下，一个人在学生时代的活动都被记录下来，当他/她在25年后申请工作时，那些记录都能被潜在雇主查到。但是目前，个人过去的轨迹是很难查到的，除了那些名人。在未来，大众将会享受名人的“待遇”，不仅仅是标准化入学考试成绩能被查到，做学生时方方面面的数据都会被查到，从生病的天数到与辅导老师交流的次数，甚至一本《赫克历险记》读了几页，划了几段都能被查到。

因此，教育数据引发的最大问题不是信息泄露，而是把我们禁锢在过去，否认我们成长、蜕变的能力。目前还没有权宜之计。我们无法告诉别人应该如何去评价他人，应该考虑哪些因素。过去我们常常认为，事情的发展很难完全受理性摆布。但另一方面，如果我们不收集数据不储存数据，我们就错过了大数据为教育带来的潜在福利。

没有变数的未来

第二个问题同样严峻。教育大数据的收集会被用于预测我们的未来--- 我们该以怎样的节奏学习，先学什么后学什么，如果我们在晚上8点到9点间复习了功课，我们就有90%的可能性拿到B或者更好的成绩，如果我们在8点之前复习，就只有50%的可能性。这是概率预测，但问题是概率预测限制了我们学习的自由，最终可能会限制我们的人生道路。

大数据给人最大的愿景是它使个性化学习成为可能，改善教材和教学方法，最终提高学习成绩。在未来的大数据时代，预测将会比现在精准得多，招生官、雇主等决策者将会面临更大压力，他们会愈加依赖预测结果来做决策。（因而数字的准确性会对决策质量产生直接影响）以前我们可以不同意强加在自己身上的偏见说自己是特例，现在不能了。

举个例子，一些大学正在试用一套叫“电子建议专家”的大数据系统，这个系统能够辅助学生尽早毕业。亚利桑那大学在2007年开始使用这套系统后，自那以后84%的学生能够成功进入下一阶段的学习，以前这个比例只有77%。再举个例子，田纳西州奥斯汀佩伊州立大学的学生们正在使用一款叫“成绩指南”的软件，当软件告诉他们这门课他们至少能得B，他们就有90%的可能性拿B，否则只有60%的概率。

这些形形色色的系统能够对大学毕业率产生很大的影响。在美国大约只有一半的学生能够在六年内顺利完成大学学业。但是这些系统也会产生副作用。如果系统告诉我们，这门课我们很有可能学不好，比如生物信息学，然后系统转而向我们推荐另一门课，比如护理课，结果会怎样？我们可能会认同系统推荐的就是对我们最有利也最容易走的路。但这可能恰恰就是问题所在。或许我们应该被人鼓励无视所谓的概率预测，坚持走自己的路（逆难而上获得成功），而不是对一个退而求其次的结果沾沾自喜（而不是选择一条本就更容易的路）。

有人希望，大数据能够让学生不再被数据追踪。学生能够按照自己的节奏学习，同时算法会最优化教材使用顺序从而帮助学生更好学习。渐渐的，人们便不再提起追踪学生成绩的事。不过这只是一个美好的愿景而已。

现实往往与预想相反。个性化教育可能会把人更残忍地限制在某条路上，让人们无法打破常规去走自己想走或能走的路。目前系统里有10亿条不同的学习情况记条和学习轨迹安排，每一条都只对应一个学生。这样做有利有弊，利的方面在于教育是为每个人量身定做的，弊的方面在于学生仿佛困在了状如峡谷的凹槽中，跳不出来，只能顺着走下去。这样一来，我们的人生依然受限于“已知道路”，虽然这是一条为我们量身定做的道路。

直面焦虑

人们都在害怕大数据运用到教育上会带来的危机，那么，我们该如何帮助人们摆脱这些感性或理性的顾虑呢？

现在很多国家的隐私法都禁止对个人信息大量收集和长期储存。一般来说，这些法律会要求数据使用者告知大家他们收集了哪些人的数据，可能会怎么用那些数据，同时还需获得允许他们那样使用数据的允许。但是，大数据最大的魅力在于其不确定性---即数据被收集的时候，人们还没有想好该怎么用它，在后续的使用过程中逐步发现了它的价值。所以，几乎不可能在数据被收集的时候就能准确告知对方数据会被怎么用，获得相关的同意更是无从谈起。

欧美政府已经在讨论如何修订隐私法确保大数据不被滥用。如果数据使用者愿意承担更多责任，如法律责任，他们就有权利二次使用数据，挖掘新价值。这样一来，他们就需要认定哪些是可接受的使用途径，哪些不能被接受。

在教育界，使用个人数据来改进教材和学习工具是可以接受的，但使用同样的数据来预测学生未来能力就应在严格管制下进行（比如采用透明公开、行政监管的方式来限制）。既要规定数据使用者必须得到学生本人明确同意才能实施数据使用，还要加强执法力度，让公司无法承担违规的严重后果。

总而言之，数据介入教育领域到底要到一个怎样的程度，如何抵抗可以预见的反乌托邦带来的危害，将是一个鱼和熊掌的问题。这需要我们在渴望优化学习，和拒绝让过去主宰未来之间找到一种微妙的权衡之计。

本文转载自大数据文摘译者:Yawei Xia 校对:盛夏光年

作者： Viktor Mayer-Schönberger and Kenneth Cukier

原文标题：《how big data will haunt you forever your high school transcript》