【芥末堆注】本篇是专题#教育技术#的第二篇,芥末堆邀请到了驰声科技的CEO林远东来为大家介绍口语学习中的语音评测技术。
首先把语境放在整个中国来看,优秀的外语教师资源很匮乏,现在很多地区的外语老师自己的外语口语就说不准,说不好。另一方面外语的学习主要又来源于课堂的教学,但是一个外语老师往往面对的是30-50个学生45分钟的课堂时间,很简单的计算一下我们就会发现,每个学生最多仅有1分多钟的口语交流机会,这就是为什么中国人一直以来都是哑巴英语的状态,听读写还可以,但是口语交流能力远远没能达到要求。而近些年来,这种长期存在的问题大大推动了一种重要的技术——语音评测技术的发展和市场需求。
语音评测技术是目前在口语学习领域应用方兴未艾的一种技术,它一开始是指运用计算机智能算法自动对学习者的发音进行发音标准程度的评价和发音问题的诊断,随着这种技术被越来越多的人所接受并开始进行实用环节,目前已经发展为涵盖语音、语义和表达法多个维度,多种题型的自动语音评估技术。下面我就给大家详细的介绍下语音评测技术,为各位做一个技术普及。
语音技术的主要流派
语音评测技术是智能语音技术的一个重要部分。当今世界,三大主流语音技术流派来自于剑桥大学、卡耐基梅隆大学及麻省理工学院,另外IBM、AT&T、SRI、BBN、CMU、Philips、Nuance等研究机构和公司也在这一领域取得了不错的研究成果。其中,剑桥大学的语音技术一直处于领先地位,在美国的国家标准及技术研究所(NIST)组织的语音技术测评比赛,剑桥大学曾夺得了10连冠,其主要领导者史蒂芬.杨更是目前智能语音技术领域公认的权威专家,目前国内外几乎所有从事语音技术研究的人,都或多或少需要用到史蒂芬开发并公开的一套工具。
语音评测技术的应用场景
语音评测技术多用于外语的口语学习之中,应用的场景可分为考试、辅助教学或者是融于寓教于乐的产品之中。
考试:在国内,很多学科的学习都是以考试为导向的,语言学习也是一样。国家英语四六级口语考试以及普通话测试是较早应用语音评测技术实现机器自动化评分的。近年来中高考中也开始尝试机考,如2012年在广东湛江举行的中考口语考试中就采用了这一技术。尽管国内对于机器评分的可靠性仍有诸多怀疑,但实际上国外对于口语考试的机器评分早有先例,例如美国ETS旗下的新托福考试,以及培生集团旗下PTE考试,都采用了机器自动化评分。
教学辅助:翻转课堂、碎片化学习是时下在线教育流行的热门词汇。在口语学习中,语音评测技术的出现能够让机器替代老师,为翻转课堂、碎片式学习的高效展开和大规模推广提供可能。同时也解决了课堂一人最多一分钟的口语练习尴尬。这些应用不仅被集成在各类学习产品之中,也越来越多被嵌入到家校通类的教学辅助管理系统之中。
寓教于乐:在k12领域,语言学习产品多面向于听说,在产品开发上更加注重趣味性,语音评测技术被引入到这些寓教于乐的教学产品之中后,既有被接入进网站平台的,也有被嵌入语言学习APP之中的,还有直接被植入硬件产品的。像康思、铁皮人、可乐谷等少儿英语学习平台,以及读书郎、中航光电子等教育硬件提供商都是这类技术使用者。
语评测技术的类型
从具体的语音评测技术所支持的题型来看,主流的语音评测技术经历了三代的变革(与市面上存在一些语音技术提供商的分代标准不同,文中分类主要是从语音评测技术的评估题型对象来区分,这样的分代技术基本上是从易到难,但是由于其解决的问题不一样,所以市面上不会因为出现了新的一代技术而原有的一代技术会被取代的情况。),主要为:封闭题型语音评测技术(发音评估)、半开放语音评测技术(选择评估)以及开放题型语音评测技术(自由表达评估)。
第一代语音评测技术是目前市场中应用最为广泛的一种技术,该技术可对学习者字、词、句的发音准确程度做出评分。由于朗读跟读题型,不管学习者说的是什么,计算机都只会将其发音跟唯一确定的语料进行评估,所以又可以称之为封闭题型的评估技术。
第二代语音评测技术主要应用于选择题,学习者可以在有限的选择中任意读出语料均能得到评估,尽管从表现形式上该技术的进步只是把唯一确定的语料变成有限数量的语料,但是在教学上的影响和应用是相当深远的,基于它的这种特性,我们也将此称之为有限分支情境对话。
第三代语音评测技术与第一、第二代有着显著不同,学习者不是只能够读出唯一确定的语料才能够得到正确评估,而是可以随心所欲读出各种语料都能够得到正确的评估一种技术,可用于看图说话、故事复述等题型中,对于正式考试有着深远的影响,技术难度也颇高。
评测技术准确性的影响因素
说完了语音评测技术所能做的事情之后,我们回过头来看下语音评测技术到底准不准、影响其准确性的因素到底是什么,这可能需要我们从技术角度来探讨一番。
早期语音评测技术应用到的是一种标准音比对技术,也就是说,我们先要确定某一个发音,认为该发音就是标准的,例如,林肯的发音。然后,我们会通过某种算法提取这个标准发音的大量信号特征,与学习者的发音提取出来的相应特征进行比较,丈量这两个特征集合的距离,从而得出评分。这个在原理上很容易理解,也比较容易实施,因此,早期的语音评测技术,大致都是用的这类技术。可是,随着这类技术逐步实用,大家就发现了它的弊端。最核心的问题,就是,因为我们选取的是某一个具体的发音作为标准音,那么不可避免的,我们就会引入这个声音本身的特征,而很多时候,这些特征对于发音的本质是无关的。例如,林肯是一位中年男士,那么,学习者如果也是一位中年男士,他的发音得分会系统的高于另外一位年轻女士,这种“偏差”是正是因为这套方法而导致的,而且具体的偏差还跟个人的特征有关系,因此,很难区分和去除。这就直接导致了该方法没有办法真正大规模使用。目前,只有极少数的公司和机构还在采用标准音比对技术。
目前的主流语音评测技术多采用的是基于统计模型的方法。举例来说,通过收集大量男女老幼各种地区的标准音后输入计算机,如”你好“。计算机从中提取大量的数据,即”特征“,然后比较。计算机可能很快就发现:其实男性和女性的音高有差别,一般来说女性音高更高一些,然而对于”你好“这个发音并没有关系,从而把这个无关特征剔除掉。等到输入的语音数据足够多的时候,计算机从发音中提取出相对少数的有用的特征,这些特征只要是母语发音者的发音,都会稳定的维持在某个具体的数值,于是我们认为这些相对少数的特征,就是这个发音的本质,也就是语音模型。那么下一次,学习者的发音输入进来的时候,计算机就会拿来与“语音模型”比较,丈量其中的差距,从而得出发音评估。
其实语音评测技术的基本原理,就是把计算机当成与人一样,学习、进步并抽象出规律,那么,决定语音准确性的重要因素概括起来无非就是三点:语料够不够多、算法水平够不够高、团队研发实力强弱。
语料的代表性是语音评测技术训模的基本保证,好比上方所举得例子,如果机器只收集了男声进行训练和学习,就不可避免的把男性相对低沉的音高作为评分标准,那么女声输入后必然导致非标准音性别的评分偏低;同时只要有足够多足够有代表性的语料,就能保证计算机提取的特征是正确的,不仅能为英语、普通话提供语音评测,还能为其他语种语音评测技术提供支持,不久前上线的维语学习产品“教你学维语”就是很好的例子。
应用什么算法,基本上决定了效果的基本面。一个先进的算法往往会更快、更准、更稳定。如上提及,单一标准音的比对算法,从算法上就存在系统缺陷,在推广上就会有先天的劣势,好的算法发展和推广空间就会好得多。
团队的研发实力则是语音评测技术高低的另外一个重要因素,举个例子,在语音技术公认的最难领域——大词汇量非特定人自然语音识别领域,所有最先进的算法其实基本上都是公开的,可以从大量的最新的论文里面查找到。但是真正在实用中,各家机构的识别性能还是会不一样,会有高低之分,根本原因就在于团队的研发实力。
目前,语音技术在教育领域的应用已经涵盖了培训、出版、教育软件、在线社区、考试服务、学习机等多个细分行业,随着在线教育的迅猛发展,相信未来的发展潜力将是巨大的。
【推荐阅读】
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。