图片来源:Pexels
*本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
Google Pixel Buds的发布震惊了不少人。
每个人都期望戴上这样的翻译耳机,犹如获得科幻小说《银河系漫游指南》中的“巴别鱼”,从此再无跨语言带来的隔阂与障碍——一切轻而易举。
也有人为历史进程中的翻译工作者担心,他们看起来即将失去养家糊口的手艺。
不过这并未引起安妮的担忧,尤其是刚参与完一项语言翻译数据集工作后,她知道历史变革并没有那么简单,至少没有很多人想象中的那样轻而易举,还有大量的工作要做,还有很长的路要走。
没错,正是这些“要被机器替代的人”,现在正在帮助机器变得更聪明。
△ Google翻译耳机Pixel Buds
专八“数字工人”
安妮是从事中英翻译的全职工作者,持英语专业八级证书,中英口语流利、切换自如,拥有多年翻译经验。
在过去6个月里,她和团队都在参与完成一项全新的工作:参与一个名为“AI Challenger”比赛的英中翻译数据集打造。
当搜狗公司表述完诉求时,安妮意识到这不仅是一项全新的工作,也会是一个极具挑战的任务:
最长6个月时间,1200万口语句对清洗、标注和检查,堪称时间紧、任务重,数据质量要求高。
最终,包括安妮在内,团队中共有60多人参与,夜以继日,才在AI Challenger上线前完成了交割。
△ 搜狗CEO王小川在AI Challenger
在AI Challenger中负责英中翻译数据集的搜狗,也随之松了一口气。搜狗之前有机器翻译数据和数据集方面的经验,但1000万数量级的口语翻译数据集,尚属第一次,也无国内外直接经验可参照,完全是开创性的。
搜狗方面透露,这个数据集的耗资超过了上百万元人民币,但成本还不是首要问题,因为即便有钱也遭遇了接单危机——不少数据标注公司在听完诉求后拒绝了这一大单,如此时间紧任务重要求高的工作,实在太损耗人了。
经过多家对比,一家译员规模较大的公司才进入搜狗视野,更利好的是,他们曾经有过类似数据检查和处理的经验。
这也就意味着,为这次翻译数据集扮演“数字工人”角色的,是一群持有英语专业八级证书、口语流利、拥有多年翻译经验的人。
工作的内容也不轻松。安妮向量子位介绍说,整个流程包含“采集”、“清洗”和“检查标注”三部分,其中她们核心参与的是“检查标注”,通过纯人工的方式逐句检查标注。
不过数据进入检查标注之前,也耗费了搜狗工程师不少精力。
他们首先需要从网络上抓取来自于英语学习网址等含有中英对照文本的网页数据。然后对不同来源的网页数据进行处理,对原始的网页文件进行去除HTML标签,提取文本数据,并对齐中英文文本,得到中英文对照的数据之后,还需要进行数据噪音去除等清洗工作。
安妮说整个检查标注的工作开始前,这是一份包含1200万句对的数据,听起来只是一个数字,每一个句对却都需要耗费心血。其中相对简单的是一些短句,因为缺失上下文而导致语义难以判断,就可以快速排除掉,在整个工作结束后,她们排除的这样句对,规模高达200万。
这也让专八翻译安妮对AI有了更进一步的认知,之前有人大谈AI将带来怎样的失业浪潮,其后又有不少“人工智障”的段子流传于圈内。
在盲目乐观和盲目悲观之间,安妮知道“巴别鱼”还需要很长的时间,需要像她一样的专业八级翻译员更辛苦地工作。
她自嘲数据集的工作确实会有一种数字工厂流水线工人的即时感,但她同时认为参与这样一项工作也是一种荣幸——如果能够通过AI Challenger的比赛诞生更好的算法和产品,能够打破语言带来的沟通鸿沟,未尝不是一件好事。
安妮说,从未想过自己竟然也能参与到科幻小说展现的美好图景中,那本大学时让她着迷的《银河系漫游指南》,现在似乎在无限接近实现,她感到幸运,“很多时代的人只能通过想象,但我们正在经历。”
然而,时代之幸背后,还需要更辛苦的“人工”付出,因为语言翻译数据集,并不简单。
这种不简单,清华大学计算机系的刘洋博士深有体会。
△ 清华大学刘洋博士
语言数据集之困
刘洋是清华大学计算机系副教授,也是中国中文信息学会青年工作委员会主任、计算语言学专业委员会秘书长,他向量子位介绍了目前机器翻译领域数据问题的一般解决方法。
主要是购买。
在文本领域目前最有名的机构是语言资源联盟(LDC),其中涵盖了很多文本、语音方面的数据,由于LDC成立时间早,还与美国NIST组织的各项评测关联,于是机器翻译、语言识别、文本处理和信息检索,最早都要依靠LDC的数据集来展开。
但LDC数据集的核心问题在于购买和版权限制,不能随便转让,开放性上的局限会相应造成研发上的局限。
这也成了欧洲主导的WMT评测影响力日隆的原因,尤其是深度学习狂飙突进之后。
WMT发起之时,欧盟主导推出了两大免费公开项目,一个叫EU matrix,另一个叫EU matrix ++,他们把欧盟的一些政府文档作为数据源,其中的多国语言对比版本,是现成的高质量的机器翻译数据集。
但即便已经解决了开放的问题,欧盟数据集可能还算不上图像领域ImageNet一样的“经典”,这由语言翻译的特殊性决定。
核心是成绩评价标准。
机器翻译生成译文都有多种可能性,好比人类中一千个哈姆雷特翻出一千种译文,用词、文采到句式结构,可能都不尽相同。所以这就给机器翻译的评判造成难题,理论上要求多个标准答案来参考,但现实中具体操作并不容易。
举例来说,现在欧盟数据只有一个标准答案,NIST数据集有4个标准答案,而日本组织的口语评测则达到了16种……欧盟的数据最核心的优势在于开放,使用者众,影响力广泛。
除了算分标准上的完善,成为语言翻译领域的经典数据集,还有三个方面的维度。
一是是否被各个重要的评测所采用,作为指定数据集,质量上获得广泛认可;
二是该领域重要文论的实验结果产生中,采用了什么样的数据集;
三则是数据量上,数据集本身支持的语言语种、规模大小,以及覆盖领域等,也是重要评价因素。
比如想要实现工业级、产品级应用的机器翻译系统,可能得有上千万甚至上亿级别的句对,一个句对的平均句长在30-40词左右。
还有语言均衡和领域均衡的问题。语言均衡主要是语种,可能中英、英法这样的很多,但中越、中文阿拉伯文这样的数据就相对较少,语言语种上不均衡。
另外是领域方面,不少数据集最早的来源都是政府网站,或者联合国官方文件,但如果不是交往密切,或者非联合国官方语种,可能数据就会受限,遑论书面文件之外的口语数据集打造了。
不过核心中的核心,还在于开放性,这是语言数据集的关键所系、是长远生命力的关键所在。只有开放,才能有源源不断的补充和研究反馈。
所以在刘洋博士看来,此次AI Challenger也是中国在经典语言数据集打造方面的一次机会。
此次打造的口语领域英中双语对照数据集,之前科研界并不容易得到,更多还需要与企业合作,不过由于涉及商业保密和知识产权,也会多处受限。
但企业从工业界获取的数据,又是科研理论成果的保障,比如购买LDC数据集也能用来在某个小领域得出不错的结果,可一旦进入更大的领域,就会出现不work的情况,这也是之前翻译领域科研成果和企业应用不能很好衔接的原因。
实际上,推动科研和企业数据结合,也是当前技术瓶颈的内在需求。
十年前Google在机器翻译领域曾有较为知名的一个结论,称数据集规模每翻一倍,它自动评价的指标就能够提升0.5个百分点。
这在当时给了机器翻译的从业者们无限信心,因为只要不断扩展数据集规模即可,Google这样的搜索公司,数据又怎么会成为大问题,然而十多年过去了,即便翻译精度和准确度不断提升,却还是在当前进入缓慢增长阶段。
刘洋博士认为,已经到了一个算法跃迁的时刻,如果没有算法上的新突破,可能一味拓展数据也难以获得质的突破。这在深度学习浪潮中已经得到验证,现在同样需要复制科研和企业联动解决问题的经验。
所以这也是AI Challenger难能可贵之处,至少在数据开放和推动算法跃迁方面迈出了第一步,其间过程中,甘苦冷暖,也只有参与者才能体味。
搜狗市场方面的人士告诉量子位,这完全就是一份苦活累活,除了不计成本地投入上百万元,还要完成数据资源开放、内部专门配合等工作,光对接标注及检查一项,就让他们在今年持续跟进了6个月左右的时间——众所周知,今年搜狗还有IPO上市的大事件要做。
然而,一切辛苦在数据集推出后也获得了回报,参赛选手反馈:1000万句对规模的口语中文翻译,一开始期望在规模上,没料到质量也如此之高。
当然,如果参赛选手如果知道这1000万句对内后,每一句都有一位至少持有专八资格的资深翻译人员,可能就不会太过“意料之外”了。
也难怪在AI Challenger大赛发布会上,AI Challenger执行委员王咏刚谈到语言数据集时的“动情一瞬”。
“这将是下一个AlphaGo,下一个AI里程碑事件,我们希望在中国、在AI Challenger试一试。”
OMT:参赛选手建议
最后,作为此次AI Challenger挑战赛的评委,刘洋副教授也谈到了选手评分参考,以及对首次参赛选手的建议。
刘洋博士认为,一般参与评测的大标准是最后的成绩,而成绩评分方法有两种:
一种是自动评判,即看专业人士结果与机器算法产生结果的相似度,相似度越高,系数越好;
另一种是人工评判,由专业人士对机器算法结果进行直接评定,这种方法在当前更具精准性。
不过还有另外的维度去评判AI Challenger这样的挑战赛,评委会更看重创新性,是否使用一些创新方法简化了流程,或者在细节的数据处理、参数调节上可以做得更细致,都会让人眼前一亮。
而对于哪些首次参与类似比赛的同学,刘洋博士也有关于数据集使用方面的建议。
首先是需要“精心挑选”,把所有数据都用上不一定是明智之举,这其中会考察选手的很多能力,比如数据集选取、数据集质量判断、任务适应度和匹配度判断等方面的能力。
“如果最终任务是新闻,你拿法律相关的数据是没有太多帮助的,所以选择用什么样的数据集反而非常重要。”
其次是对于数据的处理很关键。很多人以为评测成绩的最终决定于大方法,但其实很多情况下成绩是由细节上的选择和处理决定的,比如中文怎么分次、英文怎么做、转成什么,全半角要不要做转换、各种各样的符号等,这种细节上对于翻译错误的影响是非常大的,有些时候是很多新手想象不到。所以,参赛选手要在前处理方面做很多细致的工作。
最后是参数调节上。可能此次比赛很多选手都会使用神经机器方法和深度学习的方法,但其中也有不少“坑”,涉及到参数调节的能力,可能同一个系统,不同人就会跑出不同的效果,这也是一个不断积累经验的过程。
当然,希望AI Challenger也能帮助选手不断实现能力提升,一起实现我们在翻译领域的终极目标。
本文转自微信公众号“量子位”,作者李根。
来源:量子位