芥末堆芥末堆

鉴别真假人工智能,你需要了解的五个技术

作者:知茗不具 发布时间:

鉴别真假人工智能,你需要了解的五个技术

作者:知茗不具 发布时间:

摘要:多轮Free Style对话能做到吗?

dancing-dave-minion-510835_960_720.jpg

(来源:pixabay)

Google买了Api.ai,Facebook买了wit.ai, 思科买了Mindmeld,微软买了Maluuba,最近百度买了Kitt.ai,腾讯还有谁可买?

* 下方视频不可见,请点击浏览器地址栏中盾牌拦截按钮,允许通过即可查看视频(爱奇艺)。


先来看看这段视频,这个机器人和主持人的对话是不是让你很兴奋?你兴奋地太早了。这明显是事先写进了机器人程序,并经过节目组彩排实现的。因为多轮Free Style对话,以目前的技术发展,完全做不到!

WechatIMG41.jpeg

要鉴别真假对话人工智能,你必须首先知道这几个技术领域:

1、语音转文本:STT

和机器人对话,它接收到你的语音第一步要做的便是STT。在这个领域里,顶级玩家就是Google, 科大讯飞,百度,微软这些大公司了。

2、文本处理

语音转成文本之后,机器如何真正理解,就需要进行文本处理了。这就是我们之前听了不明觉厉的NLP、NLU——自然语言处理/理解的范畴。它的核心功能是把文本里的信息提取,搞清楚词性,比如动词、名词、状语……然后将这些词性转换成数学处理所需的向量

目前,利用麻省理工大学、斯坦福大学的开源工具,文本处理的准确率可以达到90%左右。但是如果想提高准确率,就需要不断扩展的大数据,并不断补充时下热词,比如“怪蜀黍”、“安利”、“free style”……这种NLP的先进技术在中英文处理方面,成效尤为明显。大多数的人工智能公司都通过自己的标记数据构建了这项技术。工程师们常用的的开源平台有NLPIR,Spacy,NLTK,Stanford Core NLP,Textblob,Gensim。悄悄告诉大家,其实很多国内所谓搞NLP的公司,没准就用了上面某平台的技术呢,只是换了个壳而已~~

但是做完文本分析,了解了用户句子中的主谓宾结构后,发现这些信息在很大程度上并不相关联,机器人不知道它具体要表达什么意思,这不是很糟心吗?毕竟机器人最终目的是要捕捉说话者的意图并给予反馈的。要用这些数据创建对话更是难上加难。因此接下来就是整个对话系统里技术含量最高的部分。    

3、利用机器学习/深度学习分辨文本意图

这个阶段是对文本表达的“意图”进行分类,核心是利用文本提取的信息去确认“中心思想”。比如,在“我想坐下午3点的飞机去东京”这句话里,文本的“形式”包括时间:下午3点,目的地东京,起点为现在的定位城市,其“意图”则是预定航班。

做这项工作的工具非常多,它们通常利用Python的科学计算工具包,例如scikit-learn,或在tensorflow上构建深度学习模型。当标记数据输入系统后,它们则被用来训练机器,以更好地提取文本“意图”或“形式”。你可能问题来了,判断这个“意图”和“形式”有那么复杂么?还需要机器学习和深度学习?是的,因为人类语言很复杂,相同意图有各种表达方式。让系统辨析语法,尽可能多地分辨出相同意图不同的表达方式,这种工作要花掉开发者大量的时间。人工智能在此的本领在于,同样是问时间,无论是6种问法还是10种问法,机器可以通过过往的数据学习,分辨出你的目的都是“查询时间”。

4、对话管理

一旦了解到句子的“意图”,机器人下一步就是选择对话路径:是要调用应用程序接口API去获取维基百科信息,还是从数据库里调取问题的答案,或者利用之前深度学习的数据生成新的答案,或者是基于对话树中所处的枝干,做出基本的对话反馈。

5、最后一步,就是将可以正确反馈给用户的文本转换成语音,说出来,即TTS。

从接收信息、处理信息到反馈信息这五步下来,才完成了机器对话的单轮效果。但在这五步里,最关键、通常也是最难的部分就是第三和第四步。因为这需要大量的数据及手工作业。比如第三步需要大量经过分辨的“意图”和“形式”以及标记数据。第四步要求手动编程构建对话框架。几乎每一个科技巨头都希望扎进这两个领域里做突破。这也是为什么Google买了Api.ai,Facebook购买了wit.ai, 思科买了Mindmeld,微软买了Maluuba,以及最近百度买了Kitt.ai。 

虽然这些平台的服务形式有所不同,但基本上都向开发者提供了语音识别和机器学习服务。该服务能将语音命令转换为文字,并把这些文字转化为可操作的数据。同时,它们可以支持简单的对话管理,为程序员画对话树草图提供了非常简单有效的工具。大公司为了在第三和第四步阶段争夺数据,自然会购买这些为开发者提供简便工具的公司,以此获取大量数据。数据是一方面,大公司还希望在“听清”、“听懂”基础上,通过收购这些开源平台增强对生活中复杂指令的识别能力。毕竟各行各业都有需要构建人机交互的开发者,他们会在这些平台上聚集大量的细分场景数据。

对于思科这样的公司,如果加大软件投入,那么AI一定是构建未来产品竞争力的基础。收购MindMeld之后,思科将在MindMeld团队基础上成立集团层面的认知协作团队。

那么Facebook收购wit.ai的理由也和业务极大相关。Wit.ai将帮助Facebook提供语音控制工具,为Messenger提供语音到文本的输入支持。Facebook不是说了么,自己的使命是:通过超群非凡的体验让平台上13亿用户更好的连接在一起。那么通过技术手段理解自然语言一定是这幅蓝图里中浓墨重彩的一笔。

有人说,wit.ai这样的公司在NLU民主化方面做出了重大贡献。这是不假,不把这块难啃的骨头干掉,机器对话的构建是无法完成的。

看了这么多,你应该明白想让机器张嘴说一句正确的话,有多难。这还只是一句,Free Style 的多轮畅谈目前就更别想了。不过,在细分场景下,足够干净的数据,足够结构化的语境,是可以训练出相当聪明的机器人的。比如教育场景下,对话口语教学机器人,就是一个不错的尝试方向。期待教育行业里有识之士能够在此方面有所突破。

本文来自投稿,作者知茗不具,从事教育培训行业报道和创投服务6年,长期深入关注行业内部动态和周边产业发展,目前聚焦人工智能在语言学习领域的应用,曾担任创业黑马公司高管、牛投网总裁等职务。感谢开豆英语首席科学家、约翰霍普金斯大学Dhonam Pemba博士对本文的指导。

1、本文是 芥末堆网原创文章,转载可点击 芥末堆内容合作 了解详情,未经授权拒绝一切形式转载,违者必究;
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。
来源: 芥末堆
芥末堆商务合作:王老师 18710003484
  • 鉴别真假人工智能,你需要了解的五个技术分享二维码