猪小花1号

个人签名

282篇博客

网易语音识别服务介绍

猪小花1号2018-09-05 12:21

一、语音识别技术介绍

语音识别是将语音数据转换为计算机可以理解的文本信息的技术,输入一段语音文件,通过语音识别技术即可将语音所对应的文字内容转换出来。


如上图所示,对语音识别技术的研究早在20世纪50年代就已经开始,在20世纪80-90年代进展较快,取得了一系列的突破,但由于识别率无法达到实用水平,因此在20世纪末至21世纪初的十多年时间里,语音识别技术的应用场景主要集中在实验室内部测试。

2010年以后,深度学习等新技术的出现使得语音识别性能得到了极大的改善,逐步达到实用水平;同时随着移动互联网的发展及智能终端设备的普及,越来越多的产品中都加入了语音识别技术,使得语音识别技术成为了产业热点。

在国内,针对中文的语音识别,讯飞、云知声、百度、腾讯等公司均开放了其语音云平台,提供通用的识别服务;阿里巴巴、华为、360等公司也都陆续进军语音识别领域。

二、网易语音识别服务简介

网易对语音识别技术的研究开始于2013年,经过一年多的开发及测试,服务已于近期正式上线,开始针对公司内部产品提供语音识别服务。

下图展示了整个语音识别系统的技术框架,在目前的系统中,所有语音识别的计算过程均在服务器端完成,客户端只负责进行语音数据的采集上传和识别结果的解析,二者之间通过http接口进行通信。


三、网易语音识别服务技术特色

1 网络化的识别架构:客户端负责声音采集上传,识别计算在服务端完成,借助服务器强大的运算能力,使得采用更精准的模型和更复杂的识别算法成为可能,同时也便于模型的及时更新。

2 大规模语言模型:基于数T的文本数据进行语言模型训练,训练得到的语言模型对通用领域有较好的适应性;基于分布式的训练算法,可以对语言模型进行快速的更新。

3 高性能声学模型:积累了实际产品中的来自各种平台、各种环境、各种口音的数千小时语音数据,并采用深度学习技术进行训练,得到的深度神经网络模型相比传统的混合高斯模型在精度上有明显提升。

4 高效解码算法:在传统WFST解码网络加Viterbi算法的基础上,开发了支持超大规模语言模型的解码算法,同时通过优化搜索策略,使得语音识别的实时率达到0.15,即处理1秒语音需要0.15秒,速度上处于行业内领先水平。

5 可定制的识别领域:针对某些与通用领域匹配度不高的应用场景(如游戏聊天语音的识别),提供高度定制化的服务,通过调整语言模型以提供对应用内专有词汇的识别,同时通过收集特定语音数据针对性改进识别准确率。

6 庞大的计算资源:后端基于大规模的计算集群提供线上服务,服务稳定性及响应速度有保证,不存在其它开放语音平台上常见的识别速度很慢的问题。

7 可靠的安全保障:所有识别服务器均部署于公司内网,用户上传的语音数据只保存在公司内部服务器中,无需将用户语音数据发往外部,相比于调用其它服务商语音识别接口的方式,不存在泄露用户数据的风险。


四、后续开发计划及扩展阅读资料

现有识别服务的客户端组件只是简单封装了服务端的http接口,语音采集等工作还需要开发者完成,计划在后续的客户端组件中逐步加入语音采集、降噪、端点检测等处理模块,并对语音上传策略进行优化;同时对服务端的模型性能会持续进行优化,随着训练数据量的逐步增加,识别的准确度会越来越高。



网易云大礼包:https://www.163yun.com/gift

本文来自网易实践者社区,经作者刘东授权发布