一文读懂语音语义识别技术的现状与未来-云计算专区

一文读懂语音语义识别技术的现状与未来

作者：张存编辑：张存 2017-10-20 13:29 IT168网站原创

　　【IT168 评论】我一直认为，人工智能应用的大前提是可以很自然的进行人机语言交互。近年来，在深度学习的驱动下，语音技术取得了重大进展，语音云用户规模达到了亿级规模，每日请求千万次，并且交互技术由单一平台向云平台发展。

　　与此同时，理解算法体系的发展，已经实现了集词法分析、句法理解、意图分类及句子语以度量的一体化语义理解算法体系。在这样的根基下，以问答和聊天为服务形势，智能语音语以在多个使用场景和行业领域都得到了广泛应用，大体可以分为TO C端和TO B端两个方向。

　　变革交互方式需求和体验是关键

　　在C端应用方面，主要用于移动设备、汽车、家具三大场景，用来变革原有人机交互方式;B端则针对垂直行业需求，提升人工效率，比如帮助医生做电子病历录入，或代替部分人力工作，比如回答大部分简单重复的客服问题。由于两大领域解决的问题不同，因此遇到的挑战也各有不同。

　　在第九届中国系统架构师大会上，中国科学院特聘研究员陶建华谈到，智能语音为C端提供了一种全新的交互方式，但应用和普及又跟具体场景和需求挂钩。目前，三大场景中，移动设备中的智能手机，以及车内语音交互应用最为广泛。家具领域中，虽然各种家电企业也在广泛布局，但实际使用情况并不理想。

第九届中国系统架构师大会现场

　　陶建华谈到，智能语音语义在智能手机和可穿戴设备中的应用不尽相同。可穿戴设备虽然没有屏幕或屏幕较小，更适合语音语义交互，但大多都是非生活必须品，本身销量就很有限，再加上一些可穿戴设备并没有太多交互需求，因此实际应用量较小。

　　智能手机中的各类应用软件大多都配备了语音功能，但相比触摸和文字交互，使用率也不算高。很多人仍然没有经常使用语音的习惯，或者还没有使用语音的意识。究其原因，主要由于语音交互在效果和效率上都不够理想。

　　在汽车领域，由于人在车内双手和双眼被占用，而需求又十分明显，因此智能语音成了这一场景下最合适的交互方式。

　　智能语音在车诶的应用主要以车载导航为主，辅以查询和用车。对于业界热炒的“以语音为入口连接各种服务，从而构建车联网生态”的畅想，目前看来还距离较远。核心困难在于，整个行业尚未找到车内场景下用户的刚性、高频需求。或许等到自动驾驶汽车普及之后，人的双手双眼以及大脑解放出来，才有条件搭建包含各种服务的车内生态。

　　陶建华总结到，对于涉足汽车领域的语音企业来说，当前最重要的是，把导航等刚性需求等体验做到位，再去考虑如何延伸服务。

　　在家居领域，由于亚马逊Echo的面世，带动了语音交互在家居领域应用的热炒。从2014年下半年至今。Alexa平台应用数从最初20多个增加到7000多个，并在过去半年内，以每月1000个左右的速度增加。据CIRP报告估计，截至2016年11月，Echo累计销量超过510万台，2016年Q1～Q3共销售约200万台，较前三季度增长18%。

　　当然，除了音箱、台灯等小家电智能产品，家用机器人也成了创业者争相押注的对象，拟生物形态智能产品的火热，某种程度上承载着人类对于机器人的美好愿景，但创业者还是要从价值和实用性角度考量其产品形态的设计逻辑，最终哪种形态的智能产品会笑到最后，还得市场说了算。

　　提升效率、解放人力、深耕垂直行业是根本

　　在TO B端，智能语音语义的应用主要集中于客服、教育、医疗、旅游等领域。

　　陶建华谈到，由于客服问题主要聚集在待定产品或单一垂直领域，因此需要企业拥有完整的结构化知识库，帮助机器人更好地查询和匹配问答内容。目前，按照行业平均水平，机器人客服可以解决70%左右问题，其余由人工处理。

　　在教育领域，智能语音的价值体现在，一方面在于提高教师工作效率，另一方面在于帮助学生提升学习效果。通过大量语音数据的积累，并和后端大数据分析、机器学习相结合，智能语音有望在机器辅助学习和自适应学习方面发挥重大作用，为教育行业带来颠覆性变革。

一文读懂语音语义识别技术的现状与未来

中国科学院特聘研究员陶建华

　　在医疗领域，由于专业性强，识别难度高，国外语音巨头Nuance最早主要通过后台人工撰写，而随着语音识别技术有了突破性进展，国内智能语音在医疗领域的应用也开始起步，科大讯飞和云知声是该领域的典型代表。

　　在金融领域，由于金融行业带有明显的客户服务属性，加上完整而庞大的企业及数据积累，因此成为智能语音语义的重要应用阵地。当然，一些商业银行已经通过使用语音识别技术实现了语音导航、语音交易、业务办理等基础服务。

　　除了上述几个领域，智能语音语义技术也逐渐渗透到安防、旅游、法律等行业，在效率效果提升，解放人力等方面发挥了越来越重要的作用。

　　语音语义技术面临的问题

　　尽管目前语音语义技术的应用已经非常广泛，但问题和挑战也接踵而来。陶建华谈到，从语音识别与合成技术突破，到语音云平台和语音助手，再到语音交互获大规模使用，依然存在一些难点。

　　其中包括多局限在朗读语音、方言和多语音处理不够强、受语音声学模型制约、多通道语音理解有待提高等。这里面包括的关键科学问题包括，语音声学层面信号精确模拟和认知机理、灵活的个性化自适应和模糊情感处理、自然口语中多遇道融合机制和多空间映射关系。

　　最重要的一点，情感的识别，很大程度决定了语音识别的准确性。陶建华谈到，CASIA情感识别系统，是目前在国际上较早的实现了面向电信领域的情感语音识别商用系统，识别精度性超过80%。另外，很多人认为，多语音只需要将语音的模型在不同语言上进行训练即可，没有多少科学道理，但是不同语言的确会带来很多新的挑战。

　　尽管摆在语音识别技术前的挑战还有很多，但在社会各界的努力下，语音识别已经迎来了热潮，国家网信办、公安厅、360、百度、阿里云、腾讯等机构、企业已经率先应用，未来更有全民普及之势。

▲更多信息尽在IT168现场报道专题

http://sacc.it168.com/topic2017/

关注我们