提起字幕,许多人都不会陌生。美剧、日剧、韩剧,以及二次元动漫圈子,都对字幕有着大量的需求。数量更大、范围更广的电视受众,也已经对录播节目中的字幕习以为常。在如今火热的在线教育中,其也有着不可替代的功能。以字幕的形式帮助国内学习者跨越语言障碍,是国外名校公开课、国外MOOC在国内推广的必须条件。而即使是国内老师录制的视频课程,字幕也能在一定程度上解决语速、口音、内容复杂给学习者带来的理解困难的问题。
但是目前,除一些名校公开课有大公司、“字幕组”提供的字幕支持外,国内的各种录播课程,大都不提供字幕。在这个已经把“体验”、“极致”讲到吐的时代,各家公司自然不是想不到字幕的问题。做不到,做不起,是最大的原因。
在制作视频字幕,特别是教育视频的字幕时,能否用技术替代人力,提高效率,节省成本呢?一家名叫OKVoice的语音技术提供商正在试图给我们一套可用的解决方案。日前,芥末堆收集了OKVoice的联合创始人马骥和市场总监向丹,听他们如何看待这个问题。
给视频配字幕有多难
由于外国动漫、电视剧、电影的火爆,很多国外剧集在推出之后的4-8个小时,就会有字幕组将制作完成的字幕文件挂在网上供免费下载使用。这样雷锋般的义务劳动,惯坏了不少国人,让大家认为字幕是一件很简单的事情。而事实上,这是一件非常耗时耗力的工作。
粗略来看,字幕制作的工作可以分为文本输出和时间轴制作两个部分。文本输出是指将视频、音频中的话语信息由声音转换成文字。时间轴制作则是在决定每一句话在屏幕上出现、消失的时间点。两部分都需要花费大量时间由人来完成,是一件无法由机器替代的“体力活”。在字幕组,一个40分钟至一个小时的剧集通常需要数个人组成的小组通过合理的分工合作,才可能在数小时内完成。这样原始的、依赖人力的状况,在电视台这样不差钱的地方也并未得到改观。从事节目制作工作的白先生对芥末堆表示,电视台的字幕制作量更大,且同样全部由员工手工完成。“一分钟的节目通常要花十倍的时间才能转换为文字稿,加上时间轴制作的时间,整个字幕的制作耗时非常大。”
不只是时间,巨大的人力消耗极大地提升了成本。OKVoice的马骥表示,目前在线教育的录播节目,如果一集的制作成本是一千元,为它制作字幕则需要再多花二百至三百元。过于昂贵,正是目前大部分教育课程视频没有字幕的原因。但是,不论是一般学生还是特殊用户(如听力障碍),对字幕都是存在需求的。
语音技术能做什么
语音识别技术目前在做的,是建立语音、文字两个相互平行的语料库,通过机器识别、算法匹配,来达到文字与声音之间的转换。
据马骥说,在语音识别上,整个行业能做到的正确率大约为90%,而当达到95%的时候,这项技术的实用性将大大提升。尽管以目前的技术来看,在通用领域将正确率推高至95%还有些遥远,但在一些更专的领域,通过对算法的调整和机器学习,将识别率提高到95%也并非没有可能。
市场总监向丹则表示,尽管OKVoice是一个仅成立一年的新公司,在体量与知名度上均无法与业内龙头相比,但他们的核心技术团队在此前已经有过5年的技术积累,在技术和达到的效果上均能达到业内顶尖的水平。与其它公司相比,OKVoice的优势在于,他们能够为客户的个性化需求做定制服务。“不是90%的识别率,而是经过定制优化的95%。”
目前,基于语音技术开发的产品有语音助手、口语评测、语音输入等等,而在字幕制作上却还是空白。看准了这一点的OKVoice推出了“字幕大师”,一款专为字幕制作使用的产品。在现阶段,其开放了自动对齐时间轴的功能。将影音文件与文本信息分别导入后,系统可以在非常快的时间内把时间轴对齐。在为芥末堆演示的demo版本中,“字幕大师”已能达到较高的识别率。在未来,OKVoice还将推出不需要人工录入文本信息,识别影音文件中的声音后直接输出字幕的功能。这个产品最终要达到的目标,是能够处理外文片源,直接输出翻译后的字幕。
在OKVoice团队看来,对“字幕大师”这一产品需求量最大的,正是在线教育领域。事实也的确如此,目前,已有合一互动、好学教育、德胜制课等在线教育、课程制作公司与OKVoice达成合作,使用“字幕大师”来辅助课程视频的字幕制作。随着语音技术的发展与普及,在未来,”字幕“这件又贵又耗时的苦差事,将不再成为负担。
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。