企业角逐智能语音市场识别准确率及场景应用待突破

来源：中国企业报　　作者：本报记者崔敏

王利博制图

随着语音在智能产业的应用不断加深，全球以及中国的语音市场维持显著增长。国际市场研究公司Research and Markets发布报告认为，到2020年，全球语音市场规模预计将达到191.7亿美元。

把语音智能硬件作为一切服务的入口，是大公司的一种面向未来的选择。目前，除了谷歌(Assistant)、苹果(Siri)、微软(Cortana)和亚马逊(Alexa)等国际巨头，国内的科大讯飞、腾讯、百度、阿里等企业也在智能语音主战场上角逐。业内人士接受《中国企业报》记者采访时坦言，虽然全球智能语音产业已步入应用的快速增长期，但是智能语音的精准性、应用场景、远程识别等方面存在的问题也有待突破。

巨头多领域布局

智能语音

智能语音识别作为人工智能应用最成熟的技术之一，目前已经深入生活的方方面面，智能语音产业的市场蓝海正在显现。极限元智能科技CEO雷臻对《中国企业报》记者表示，未来，智能语音技术会出现在更多专业领域，如交通、医疗、建筑等。

过去几年，国外智能语音识别技术远远超过中国，谷歌、亚马逊、苹果等巨头都在相关产业链上布局，牢牢占据垄断地位。而近年来，中国的智能语音产业发展迅猛，以BAT等为代表的众多互联网巨头也纷纷开发智能语音市场。

在语音生态系统方面，百度宣布语音识别技术及能力全面开放，腾讯、搜狗语音开放平台相继上线。智能家居领域，百度发布了Baidu ihome，阿里联合智能家电厂商推出天猫魔盒，搜狗联手魅族，发布魅族电视盒子。在SpeakIn(势必可赢科技)相关负责人看来，现阶段智能语音的应用主要还是语音录入与语音交互，随着技术的快速迭代，未来，智能语音技术会延伸到更广泛的智能服务场景。

北京得意音通技术有限责任公司副总经理肖永明对《中国企业报》记者表示，随着移动互联网的普及，以手机为代表的智能终端将是智能语音技术的最佳入口，因为它的普及程度高，成本低廉，已经具备了广泛的群众基础。同时，他也表示，目前手机等终端在智能语音技术上的技术潜力还远远没有被挖掘出来。

场景识别准确率

待提高

在语音识别率方面，百度、科大讯飞等主流平台识别准确率均在96%以上，稳定的识别能力为语音技术的落地提供了可能。科大讯飞董事长刘庆峰对《中国企业报》记者表示，“人工智能+”的时代已切实到来，在此背景下，人工智能改变世界的三个要素是核心技术、行业专家和行业大数据结合在一起。

目前，智能语音在识别准确率和应用场景方面还有待进一步提高。雷臻认为，现在的语音识别还需要指定语种进行有效识别，而未来的语音识别技术会自动适应语言语种，无论中文、外语、方言都能快速辨别并进行有效识别。他还表示，目前，虽然已经出现一些离线语音识别技术，但是准确率还是远低于在线识别，未来语音识别引擎的可移植性将更高，甚至可以脱离高性能计算服务器，在离线的终端上实现精准识别。

雷臻还分析道，在垂直领域应用过程中，专有名词、专业领域知识缺乏的情况下，现有的识别系统很难得到较高的识别准确率。比如在方言、口音上，现有的识别系统除了在训练语料上增加相应口音的语音数据和相应方言的文本语料外，还没有一个很好的解决方案。“近年来随着迁移学习的发展，采用迁移学习进行在线快速自适应，为解决方言、口音问题提供了一个可行的解决思路。”

随着智能语音技术的不断成熟及其与其他信息技术的不断融合，智能语音有望在更多垂直行业得到应用，并推动这些垂直行业加快向智能化方向的发展。肖永明分析道，智能语音要解决的问题还很多，比如如何提高噪声环境下的语音识别准确率，如何在数据模型训练时从数据“洪水”中提取有价值数据，如何提高识别引擎的可移植性，在语音识别技术跟其他技术进行对接融合时，如何解决具体的行业应用场景需求等。

远场识别是一个具有挑战性的问题，对此，刘庆峰表示，目前远场识别的错误率是近场的两倍左右，所以解决远场以及强噪声干扰情况下的语音识别是目前的一个有待进一步研究的问题。

此外，SpeakIn(势必可赢科技)相关负责人也认为，传统智能语音技术的瓶颈在于它的核心是语义识别，不能区分说话人身份，也就无法提供相应的个性化服务，而未来消费者的需求一定是个性化的。语音场景下要解决身份识别的问题，需要基于声纹生物信息ID的声纹识别技术支持。

企业角逐智能语音市场 识别准确率及场景应用待突破

企业角逐智能语音市场识别准确率及场景应用待突破