近日,网易数帆易智团队在DCASE 2021挑战赛Task 6自动音频描述(Automated Audio Captioning, AAC)任务中以绝对优势领先卡内基梅隆大学(CMU)、北京大学、中科院、字节跳动等知名团队夺得冠军。这也是易智团队首次参加此项赛事,C位出道的成绩单,证明了团队在语音语言技术领域不俗的实力。
图中标红为网易数帆易智团队
DCASE挑战赛是由IEEE(Institute of Electrical and Electronics Engineers)举办的声音场景识别和事件检测竞赛,至今已举办七届,是目前声音事件领域最权威的竞赛,吸引了智能语音领域越来越多知名团队的参与。
自动音频描述任务是使用自由文本进行一般音频内容描述的任务,接受音频信号作为输入并输出该信号的文本描述,极为考验参赛团队在智能语音语言技术领域的综合能力。
深耕语音技术,易智凭深厚积累笑傲DCASE
本次AAC任务与DCASE 2020最大的不同,是允许使用任何外部数据和/或预训练模型。也就是说,参赛团队可以将其他数据集用于AAC,甚至可以使用用于声音事件检测/标记、声学场景分类的数据集,或来自任何其他可能认为合适的任务的数据集 。此外,参赛者还可以使用预训练模型,包括但不限于Word2Vec、BERT、YAMNet等文本模型、音频标记模型及声音事件检测模型。
这样宽容的设计,意味着任何团队都可以充分发挥长期积累的技术优势,也表明了当前AI权威赛事与工业应用挂钩日益紧密。
任务的难点主要有两个方面,一是数据集的量很小,几千句的数据规模难以充分训练复杂模型,二是描述文本的多样性高,不同人对同一音频的理解不同导致描述文字存在很大的不确定性。
为了解决这些问题,本次AAC任务中,易智团队在序列到序列(Sequence to Sequence)这一通用技术框架的基础上,引入了PANN预训练模型、数据增强等一系列优化方案,除此之外,团队还从数据集构造、生成结果干预角度提出了创新:团队基于内部建立的数据抓取清洗流程,从公开访问的音频数据网站上自动收集了大量音频数据以及其描述信息,在模型预训练环节作为弱标签数据使用;同时将在对话系统中积累的文本相似度算法移植到音频场景,利用相似度检索的信息干预描述文本生成的过程。这一系列的技术优化与方案创新,显著提升了系统的效果。
屡获殊荣,易智语音技术创新“霸榜”
对于网易易智而言,DCASE 2021只是团队语音技术能力的又一次验证。在此之前,团队已经凭借其语音技术积累,在业界多项权威赛事和评比中屡获殊荣。
就在上个月公布的2020年度浙江省科学技术进步奖获奖结果中,易智团队提出的基于模型动态融合技术的语音识别自学习等技术作为核心创新点之一,获得了一等奖。
更早的时候,易智团队还凭借中英文混合识别方案的领先性,斩获了由中国计算机协会(CCF)举办的ASRU中英混合识别比赛冠军。
而在网易公司内部,最近的第一届网易创新奖中,网易易智AI音频理解项目也凭借多项技术创新及其在多个业务中的显著应用效果,从集团600多个项目中脱颖而出,获得了【0-1】创新奖二等奖,也是此次评选中算法技术类项目所获的最高名次。
源于业务,归于业务,易智语音技术驱动产品体验蜕变
秉承网易公司“用科技创新缔造美好生活”的理念,易智团队的技术研究与业务创新息息相关,包括语音语言在内,每个技术项目的产生都来自于业务的诉求,致力于促进产品体验提升和创新业务发展,参加赛事更多的是希望通过与业界的交流来校准技术创新的路标和节奏。
事实上,易智研发的音频理解系统,尤其是其中针对唱歌的识别能力,已经在网易云音乐多个业务中落地,包括安全业务中的敏感词检测,曲库业务中的音乐人歌词制作、曲库歌曲分析检查,K歌业务中的逐字歌词生产,播客业务中的内容分析、字幕制作等。业务团队表示,音频理解的能力,已经成为打造差异化竞争力、提升用户体验不可或缺的基石。
同时,该系统还在网易视频中台、LOFTER等业务中进行了推广与验证,相比于业界常用的语音识别方案,具有更稳定和更丰富的分析结果,对业务的整个视频内容理解需求帮助很大。
此外,易智相关负责人介绍,语音语言技术落地场景仍在持续新增中,团队不断接收各业务创新应用的价值反馈,形成了算法进化与业务升级的良性循环,这也是算法研发的价值所在和动力源泉。