芥末堆芥末堆

当世界恐慌AI抢饭碗的时候,AI却提供了一个新的工作

作者:罗瑞垚 发布时间:

当世界恐慌AI抢饭碗的时候,AI却提供了一个新的工作

作者:罗瑞垚 发布时间:

摘要:“人工智能”中的人工。

微信图片_20180525102739.jpg

什么样的工作,可以被塞尔维亚首都贝尔格莱德的上班族,和印度南部Yemmiganur小镇的家庭主妇所共享?

答案可能出乎你意料:训练AI。

上班族排队等一杯咖啡的功夫,打开手机做几个选择题,就可以赚到咖啡钱;主妇在午后的闲暇时光,在手机软件上标注方框,就可能为小孩添一身新衣。

打开Playment界面,他们会看到一张Polo衫的照片,下面描述了它的颜色、袖长和领口三个特征,先选择描述是否正确,如果正确则无需操作,如果错误则进入下一步,根据提供的选项选择正确的描述。

2.jpg

他们也可能看到的是一张公路标识的照片,里面有红绿灯和转向标志,需要先圈出标志,再选择对应的意思。

3.jpg

这就完成了一次简单的数据标注:给图像贴标签和分类。当然,这离真正意义上的训练AI还很遥远,其实只是第一步——为AI提供训练所需的数据。

图像识别是AI在商业中应用的常见场景。远到自动驾驶的实现,近到电商网站的以图搜物,都需要经过成千上万次的数据分拣和识别训练。

班加罗尔过去因外包产业而闻名于世,语言沟通无障碍、人力成本低廉、IT人才充足,让印度成为了欧美大公司服务外包的首选之地。

大数据、自动化、AI等新科技的发展正在削弱人力成本的优势。2017年,印度的外包产业受到的冲击明显,产值下降,利润下滑,大幅裁员。

若最终某些劳动被机器取代,那部分外包服务将不复存在。但在那之前,AI技术的发展也给班加罗尔创造了新生计,即通过“人工”让AI变得更“智能”。

这其中的参与者,既有拥有大量全职员工的传统外包公司;也有像Playment这样创业公司,用科技来做众包的平台;还有IndiVillage这样的社会企业,通过科技来赋能乡村妇女和青年,改善社区基础设施和教育。

据彭博社估计,这种数据标注和分类的工作,目前全球有超过100万人在做。

千万融资

亚马逊的Amazon Mechanical Turk源于2005年为内部需求所搭建的平台:管理库存、分类产品等。后来,平台开始对外开放,目前有超过50万的注册用户,75%来自美国。它上面提供简单的数据标记任务,用户可以由此挣得酬劳,处理后的数据将用于AI的训练。

随着AI技术的发展,需要提供海量的数据对其进行训练,类似的第三方劳务众包平台开始兴起。

2017年1月,总部位于美国西雅图的Spare5获得了英特尔投资、谷歌风投等联合投资的1400万美元的B轮融资,宣布改名为Mighty AI。这拉开了2017年AI训练和数据分拣众包平台资本热的帷幕。

4.jpg

2017年5月,总部位于班加罗尔的Playment获得了硅谷孵化器Y Combinator等参与的160万美元的投资,融资总额达到了240万美元。

据统计,2017年里,美国的CloudFactory,Mighty AI和CrowdFlower等众包公司共获得了5000万美元以上的投资。与传统的外包公司相比,它们为AI训练所需要的海量数据提供了一个更为经济可行的解决方案。

5.jpg

Playment的三位联合创始人此前都在Flipkart工作,2015年开始创业。他们目前有30名雇员,却拥有一个由25万名全部位于印度的远程“数据分拣员”组成的众包员工社区。

即使是总部位于美国的众包公司,他们的众包员工很多也都来自于印度、柬埔寨、非洲等发展中国家。比如Microwork在塞尔维亚,Samasource在印度、非洲和海地等地培训和雇佣工作人员。

人力成本低廉的优势显而易见。在智能手机正在快速普及的印度,经过培训,人人都可以在移动设备上动动手指就能赚到钱,而无需像Amazon Mechanical Turk那样总是坐在电脑前工作。

传统的外包公司雇佣全职员工,这样一来成本就相对高昂,Playment这种众包协助服务就受到了青睐。其中的核心在于将数据处理的需求设计成智能手机的软件,并按照处理要求匹配到合适的员工。

“这样做更具成本效益,”Playment的联合创始人Ajinkya Malasane说,“传统的业务流程外包由于团队固定,无法扩大规模,科技公司内部的众包平台(比如亚马逊的Mechanical Turk)不能保证质量。”

Playment现在拥有30多位客户,其中包括Flipkart、Paytm和阿里巴巴集团。客户一般按项目付费或签订年度合同。

据联合创始人兼首席执行官Siddharth Mall说,他们的客户中有大约70%都属于自动驾驶领域。

一般而言,企业将所收集的数据提交给Playment,然后Playment的众包员工用他们的智能手机对其进行标记、标注和注释。这些成员通过教程接受培训,并且必须通过特定项目的资质考察才能参与。为了确保质量,每项任务会经过多人多次重复,并设置有重复核查的功能。

“这些任务很复杂,所以我们提供专门的项目经理来为他们定制工作流程,并负责整个交付过程。”Siddharth说。

据他介绍,Playment已经为客户标记了超过5000万个数据,相当于大约1000万个数据单位(图像和文本)。他说,目前公司每天可以输出高达100万个标签。

除了创造工作机会,社区也可能因此受益。电商snapdeal的合作伙伴IndiVillage Tech Solutions就在印度南部安得拉邦的小镇Yemmiganur设立了办公室,雇佣了大约100名妇女和青年,并将部分利润用于社区教育和饮用水的改善。

“人工智能”中的“人工”

一直宣称将取代人类的“人工智能”,何以“沦落”到需要被人类教育?听来不可思议,但确实是真的。

Siddharth说,“虽然人工智能是技术的下一个前沿领域,但它还远未达到企业应用的要求。”

以自动驾驶为例,系统需要做出很多决定来应对各种不确定因素——天气,照明,车辆类型,单行道等等。“你需要大量人力,以指数规模生成大量的训练数据。” Siddharth说。

之所以需要训练数据,是取决于目前AI训练的方式。

以图像识别为例,原理就是给AI输入足够多的同一类型的数据,比如无数张贴了分类标签的各种各样红绿灯、或者公路上障碍物的图片,等下次再输入未贴标签的同类图像时,AI可以将其正确分类,也就是“认出来”。

6.jpg

这样一来,对于一辆自动驾驶汽车来说,仅仅是识别行人和停止标志,它通常会需要成千上百万的照片来学习,而这些照片必须全部由人力进行标记。

要让AI越来越智能,直到无限接近人的判断,就需要海量的数据让它进行学习。那问题在于,数据的数量和质量如何选择。对于商业应用而言,所解决的往往是具体情境下的问题,比如自动驾驶识别障碍物,以图搜物找到同类型的商品等。

因此,一定数量的高质量的数据,显然比海量的低质量数据更经济高效。所谓“高质量”,即就分类意义而言,它的分类更为准确,可以起到更好的学习效果。

比如电商的以图搜物需要训练AI识别衣服类型,理想的状态是所有的短袖被分为一类,所有的连衣裙被分为一类,二者之间没有交叉和混杂。这就需要人工来对图像进行标注,对原始的数据进行“净化”和“分拣”。

因此,印度等发展中国家的年轻劳动力,显然成了一个不错的选择。

是“智能”还是“鹦鹉”?

这样训练出来的AI,能真的取代人类吗?距离这一目标的实现可能还很遥远。

很简单,以这种方法训练出来的AI,它所有的输出都建立在已经输入的基础之上,如果有全新的图像出现,识别就无法进行。

加州大学洛杉矶分校视觉、认知、学习与自主机器人中心主任朱松纯曾以图像识别所在计算机视觉研究举例称,此前25年,主流是以形状和物体为中心,最近25年是通过提取丰富的图像特征,来描述物体的外观来做识别和分类。之前提到的电商网站Polo衫的颜色、袖长和领型就属于此类。

但事实上,场景识别的本质是功能推理。朱松纯以下面两张图为例,写道“虽然图像特征完全不同,但是他们是同一类场景,功能上是等价的。”

7.jpg

这才是真正的“人工智能”。而目前这种通过图像特征做场景的分类和分割,用大量的图片例子和手工标注的结果去训练神经网络模型,其实是典型的“鹦鹉”模式。

也就是说,这种“学习”实际上不是我们平常意义上的“学习”。一般意义上的学习,是一种交互的过程,而这种通过大量数据进行训练的学习,其实是一种“被动的统计学习”,无法产生举一反三的效果,只是一种“鹦鹉学舌”。

说到底,目前这种在商业应用的垂直领域应用广泛的,通过大量数据来训练AI的深度学习方法,只是AI领域很小的一个部分,绝对不能等同于“人工智能”。

随着AI技术的发展,也可能会出现比被动的统计学习更为科学的方法,那时候,还需要通过人工贴标签来分类数据、训练AI吗?

本文转自微信公众号“志象网”,作者罗瑞垚,原标题《全世界AI民工联合起来》。文章为作者独立观点,不代表芥末堆立场。

1、本文是 芥末堆网转载文章,原文:志象网
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。
来源:志象网
芥末堆商务合作:王老师 18710003484
  • 当世界恐慌AI抢饭碗的时候,AI却提供了一个新的工作分享二维码