编辑推荐

网易数帆开源API网关与容器云项目，让云原生生产落地“多快好

网易汪源：统一负载与多云环境的“开放姿态”，才是云原生

网易数帆如何用 Kubernetes“原语”搞定云原生中间件

快手打新挤爆券商系统，网易数帆推出券商稳定性保障方案

探索智慧校园新模式，网易有数在教育行业的实践分享

金融行业大数据治理之路——数据模型篇

大幅刷新世界纪录，网易数帆X云音乐夺得MIREX两冠军

网易数帆小助手2022-05-07 10:00

在近期揭榜的2021国际音频检索评测大赛（MIREX）上，网易数帆易智语音团队携手网易云音乐音视频实验室，凭借生产级AI技术创新能力，在歌词识别和歌单识别两个赛道大幅打破世界纪录夺得冠军。

MIREX是国际音频检索领域的顶尖赛事，为音频信息检索及音乐信号处理领域中的各种前沿技术提供公正、可信的评估，自2005年启动以来吸引了世界知名大学、研究机构和科技公司企业的广泛参与。参加本届比赛的，还有新加坡国立大学、伦敦大学玛丽皇后学院等知名团队。

大幅刷新世界纪录

MIREX 2021中，网易数帆携手云音乐团队参加了Automatic Lyrics Transcription（歌词识别）和Set List Identification（歌单识别）两个赛道的比赛，后者任务为针对给定演唱会现场音频和歌手的studio歌曲版本，按时间顺序输出演唱会中演唱的歌曲曲目（task1），以及每首曲目的开始和结束时间（task2）。

在歌词识别赛道，网易实现了WER（词错误率，Word Error Rate）从37.02（2020年最佳成绩）到11.45的突破。于实验而言，这是2倍以上的提升，但对于产品化，这是不可用和可用的巨大区别。

歌单识别赛道 则由于领域技术沉寂曾缺席MIREX数年，于本届恢复并成了网易表演的舞台。如下表所示，网易提交模型的各项指标较往年均有显著提升，单项指标的差别甚至超过了12倍。

验证集历年最佳成绩对比：

年度	ED	sBD	eBD
2021	3.42	14.47	78.54
2017	NULL	195.390	207.130
2016	11.57	137.252	167.349
2015	11.57	137.252	167.349

其中，ED为task1中预测出的song序列和ground truth的编辑距离，数值越小越好；sBD和eBD分别为task2中预测出的song的开始时间和结束时间的评价误差，单位秒，也是越小越好。

测试集历年最佳成绩对比：

年度	ED	sBD	eBD
2021	3.69	20.32	31.52
2017	NULL	246.220	251.686
2016	9.69	127.860	157.112
2015	9.69	127.860	157.112

多项创新提升模型抗干扰能力

网易数帆易智团队参赛人员介绍，这项赛事的任务与语音识别不同，歌词识别赛道的数据集来自国外K歌APP，这意味着训练数据有更嘈杂的背景，更多的噪音干扰，更低质量的歌词音频，如漏唱、错唱、即兴对白/独白等，此外同样的词语在不同曲风不同节奏下往往呈现出不同的音高、音调和语速。 如此复杂的场景，对模型训练带来了巨大的挑战，模型必须具备很强的针对背景音乐及噪音的抗干扰能力，才能正确识别歌词。

针对歌词识别，网易在数据和模型方面做了大量针对性的优化，基于语音识别技术方案进行细化，把框架用到极致，采用预训练语言模型的思想提升抗干扰能力，并分阶段进行调优，以提升模型精度，从而大幅刷新世界纪录。

针对歌单识别，业界传统的方案是基于信号处理技术，网易此次将 歌词识别+文本检索的方案 引入这一领域，从而取得了飞跃式的提升。

基于音乐业务的生产级创新

大幅破纪录并不是全部的结果，网易数帆这套技术方案还具有良好的可扩展能力，在训练数据充足情况下（比赛所用数据集不是很大）会有更好的表现，也可以非常方便地扩展到日韩歌词/歌单领域。事实上，这些技术已经在网易云音乐业务落地应用。换言之，这是工业界生产级的技术突破，而非实验室的AI学术研究。

网易云音乐自2016年末上线“网易音乐人”产品服务，到2021年年底聚集了超过40万原创音乐人。网易云音乐不断改善产品功能和体验，拓展音乐的价值，如社区视频歌曲检索、look直播等，2020年就在线上系统使用了歌词识别的功能。在此过程中，网易云音乐与网易数帆易智团队合作，通过技术创新来提升产品体验。

网易云音乐音视频实验室专家介绍，两个团队携手将参赛方案中所包含的歌词识别、文本检索技术，与网易云音乐团队研发的哼唱识别、翻唱识别、音频指纹及旋律提取等技术相互结合取长补短，在云音乐落地，实现了节省人力成本和提升业务效果等业务价值。

节省人力成本方面，音乐曲库的需求之一是将逐行歌词升级为逐字歌词（如卡拉OK效果），技术实现是给每个字加上一个时间戳，通过歌词识别技术创新，结合旋律提取做到歌词和旋律边界对齐，节省了大量的人力。另一个场景是曲库安全，网易云音乐基于歌词识别技术开发的敏感歌词返检系统，从而 低成本、自动化 地将敏感词检测出来。

提升业务效果方面，一个典型场景是哼唱识别，网易云音乐通过旋律匹配+歌词识别的技术方案，有效提升了识别效果。其次是将歌单识别技术方案用于mlog的视频识曲，结合音频指纹、翻唱识别形成统一的识曲方案，针对网易云音乐用户发布在mlog的视频，该方案可以有效识别视频中所唱的歌曲，并匹配曲库中对应的歌曲，从而实现该视频和曲库里的歌曲关联，进而相互引流。此外在look直播场景，基于该技术也可以准确识别主播所唱的歌曲。

展望未来，两个团队参赛人员预测，本次大赛中的技术将能够在安全检测、音乐版权检测、音乐内容提供商、传媒行业探索等场景大放异彩。

<上一篇正式上线！即日起，数帆这两款产品可在亚马逊云科技 Marketplace上使用

下一篇【免费领】11个垂直行业、数十组标杆案例，网易数帆发布大数据最新实践>

最新博客

最新资源下载

编辑推荐

大幅刷新世界纪录，网易数帆X云音乐夺得MIREX两冠军

最新博客

最新资源下载

编辑推荐

大幅刷新世界纪录，网易数帆X云音乐夺得MIREX两冠军

推荐博客