在不久前,网易内部一场特殊的比赛——网易首届创新奖得主揭晓。比赛吸引了网易公司内600多个项目参评,激烈程度可想而知。
在这之中,网易数帆易智团队(下方简称“网易易智”)凭借在AI音频理解项目中的多项突破性成功,斩获网易「0-1创新奖」,成为获奖的6个项目之一。「0-1创新奖」什么概念,看看它的关键词就懂了:必须是“从无到有”、“行业首创”、“公司首创”!颁奖当天,获奖者由CEO丁磊颁奖,团队核心成员还每个人都拿到了公司股票激励,身为同事的我羡慕到眼泪从嘴边流了下来…
在国际赛事上屡获第一(点击回顾),在内部大放异彩,还间接为业务节约了上亿元的成本,网易易智团队都有什么宝藏经验?
光识别还不够,为什么要做AI音频理解?
AI音频理解,顾名思义就是借助一系列人工智能技术,全维度分析和理解音频内容,包括但不限于说话、唱歌、音乐、多语言混杂、多人会话等音频场景。不局限于将音频转换为文字的传统识别,还包括更进一步的内容分析理解和信息挖掘。
“在海量短视频爆发前,我们只要把新闻播报、有声读物这类场景简单的音频内容提取文字,也就是用AI语音识别技术就够了。如今,短视频业务井喷,还融合了许多复杂场景,单点语音识别技术明显限制了业务发展,仿佛失去了听觉与判断力。”项目组负责人Dong介绍说。
当AI“无计可施”的时候,“人工审核”只能被迫上场。Dong介绍,“头部短视频内容,之前一般都是人工审核、标注内容,这不仅耗时过长,出错率高,还存在海量无法检索的内容黑洞。”
“会自学”的AI 理解力大大提升
AI音频理解项目组的6位核心成员
这不,这个亟待解决的“痛点”成为团队早期开发的灵感,当然也是不小的挑战。“因为当时行业内还没有出现过应用于复杂场景的音频理解,我们即将面对的是整套音频理解系统的挑战,将从通用向音乐、直播等更为细分的垂直领域演进。”
将一段音频分解成更多层次进行理解
面对复杂场景,网易易智主要关注音频中的人声部分,并创新性地将内容拆分成多层次进行分析理解,不仅能更有效区分环境音与人声,还能精准识别不同语种/口音/发音方式下的内容,并结合语境实现对复杂文本的理解。借助项目核心创新技术之一“AI-自学习”,业务部门还可以自行上传并持续运维自己的“专业知识库”,让AI通过“自学”的方式在对应的语境下去“理解”一段语音,实现精准识别。“自学”过程可以在几分钟内完成并生效。
“和其他行业的实验不同,我们的实验还不是递进式的。很多时候都是全部推翻,重头来过。一开始是采用行业通用的模型去做,失败之后,再用颠覆性的思维灵感从头来过。” Dong说,每一次尝试都需要扎实的专业技能和强大的内心,但项目组的同学在不断试错的道路上从未想过放弃,“既然选择了一条从0到1、业界首创的探索路线,我们就做好了不断试错的准备。”
体验为王 AI赋能应用想象力
在AI技术创新的同时,网易易智团队始终保持对实际业务场景的观察和思考,致力于为业务、为用户带来实际的体验提升。目前,团队综合运用AI音频理解技术,分别就离/在线的不同状态推出了相应的语音分析系统,并推广至UGC内容分析、内容审核、直播分析等多个业务场景,通过AI赋能业务,最终给用户惊喜。
离线语音分析系统,主要针对音视频进行内容理解和分析。易智团队在传统的语音识别基础上,整合了多项音频分析技术,包括歌曲识别能力、中英文混合识别能力、说话人角色区分能力等,并突破了多项技术难点,例如歌曲识别能力可以在背景音乐干扰、歌曲唱腔变化多样、歌词文本组合复杂等因素影响下实现对演唱内容的准确识别。目前,该系统已广泛应用于音频内容审核、UGC内容分析、歌曲视频推荐、歌词内容生产等不同场景。
实时语音分析系统,则是针对直播场景进行行为内容分析,通过对主播的行为进行实时识别,包括互动聊天、演唱歌曲、播放歌曲等,进而实现对精彩直播内容的实时推荐,给观众用户更好的体验。
正是因为对业务的探索不设边界,该项目不仅在云音乐、视频中台、lofter等多个业务中进行了推广与落地,验证了对业务的促进作用,还孵化了易智语音、易智字幕两款智能识别产品,支持会议音频、访谈音频、客服音频与影视音频等内容的自动转写或字幕生成,具备独家的模型自定义、歌曲识别能力,“孵化这两款产品的初衷是希望创新技术能惠及大众,在不断提升效率的同时创造更多业务发展的可能性。”
字幕工具界面
未来,网易易智还将持续推进技术创新成果在业务中的落地,扩大业务落地范围,创造更大的业务价值,同时结合业务实际场景与反馈不断优化算法性能,扩展系统功能,致力于打造具备网易特色并且行业领先的多媒体内容分析理解整体方案,为整个内容行业的视频化浪潮提供AI技术支持。