网易数帆小助手

个人签名

280篇博客

年终盘点第4弹:7个硬核冠军,见证AI创新力

网易数帆小助手2022-01-28 20:20

在当前的内容AI领域,由于诸多现实业务和技术难题尚未解决,学术及工业界正通过一些竞赛来引领技术突破,推动技术成熟,走向落地应用或持续改善业务效果。2021年,网易数帆人工智能团队(易智)在此类国际顶级赛事中夺得7个赛道冠军,覆盖4大技术领域,并获得了网易公司第一届集团创新奖【0-1】二等奖,充分验证了团队的创新成果。




易智团队相关负责人表示,团队参加国际赛事意在检验自身技术水平,对问题(即赛道)的选择极其严格,必须面向现实业务难题,同时技术方案实现成本不能太高,不能依赖人力/算力/数据密集型路线,必须考虑规模化商用的价值。


1 两阶段方案突破非语音数据分析理解


技术领域:音频描述

赛事奖项:DCASE 音频描述赛道冠军

典型场景:分析直播点播场景中声音事件


对于自然界的非语音数据,如何做有效的分析理解还是一个前沿的探索性话题,DCASE比赛正是针对通用的声音理解问题进行评测。易智团队在DCASE 2021音频描述的赛道中,首次提出基于网络爬取数据做预训练,再利用实际场景数据做训练的两阶段方案;同时提出了基于音频相似度做检索,并参考检索结果的内容描述进行生成的技术框架。相比其他团队基于强化学习的方案,该方案显著提升了效果,战胜CMU、北京大学、字节跳动等对手夺冠。>>>详见:网易数帆夺冠DCASE挑战赛,语音技术再获殊荣

附论文转化:

END-TO-END SPEECH RECOGNITION WITH EXTRA COMPLEMENTARY ACOUSTIC MODELS(NCMMSC2021)

Automated Audio Captioning with Weakly Supervised Pre-Training and Word Selection Methods(DCASE 2021)



2 细粒度语种分类技术+Transformer搞定小语种


技术领域:OCR(光学字符识别)

赛事奖项:ICDAR 多语种分类3个赛道冠军,巴西语驾照分割赛道冠军

典型场景:多语种审核、分析和理解


OCR是相对比较成熟的AI技术,不过随着业务出海和内容语种多样化发展,多语种的OCR技术将成为实际业务挑战,包括多语种的审核、分析和理解(比如音乐场景中日英歌单识别,韩文/藏文的分类需求等等)等诉求。易智团队凭借自研的基于混合语义分割和patch分类的细粒度语种分类技术,并融合了拥有强大建模能力的Transformer模型,战胜韩国互联网巨头NAVER、华南理工DLVC lab等对手,获得多语种分类3个赛道冠军和巴西语驾照分割比赛冠军。>>>详见:祝贺!网易易智包揽国际权威比赛ICDAR SIW语种识别3项冠军


3
文本相似度突破助力机器人精准理解客户


技术领域:文本相似度

赛事奖项:千言文本相似度冠军

典型场景:智能客服


当前以对话系统为核心的智能客服已经大规模应用,但仍需要较多的人工客服以人机协同的方式解答用户问题,这其中的重要制约之一在于文本相似度技术有待持续突破。在此赛道,易智团队凭借多年技术经验积累,和大规模预训练语言模型的运用,再加上对比赛任务进行的针对性优化夺得冠军。目前,该技术已应用到线上业务系统,带来超过以往1年的效果提升。此外,该技术也应用到网易知识公路AI选题业务中,带来不错的人效提升。>>>详见:“千言数据集:文本相似度”权威评测,网易易智荣登榜首(https://zhuanlan.zhihu.com/p/381921650)


知识图谱自动构建挑战多模态内容理解


技术领域:多模态视频语义理解

赛事奖项:CCKS 基于知识图谱的视频语义理解A赛道冠军

典型场景:美食视频标签


随着视频相关业务的增量,图文时代基于用户行为和文本的搜推系统技术已无法适用,只有不断理解清楚视频中的内容,才能做到有效的内容管理及分发。


如何更好地理解视频内容,特别是如何将人类的先验知识融入理解过程中以获取高层语义信息,一直是业界难题。

这不仅要求在视觉技术上进行感知层面的元素识别,还需要对标题、字幕、语音、画面信息等多维度进行更高层次的语义理解,同时结合知识图谱和实体识别等技术进行推理,这方面研究已经成为行业的热点。


不同于业界常见的“人物”、“作品”等粗粒度的实体打标,易智团队自研了一套细粒度实体识别技术,能进一步识别到“作品-动漫”、“作品-电影”等细粒度实体信息,当前已支持29种细粒度实体,准确率超过95%


同时,针对当前知识图谱通常大而不全,在推理时存在非常多的歧义问题和漏标问题,易智团队提出了一种无歧义的小知识图谱自动构建方案,以满足不同场景内容理解的真实需要,最后获得A榜第一、B榜第三。目前,部分技术已应用到网易知识公路美食视频标签等项目应用中。

附论文转化:

Two-Pathway Transformer Network for Video Action Recognition (IEEE/ICIP)


5 音频理解技术节省上亿元成本


技术领域:音频理解

赛事奖项:网易集团创新奖【0-1】二等奖

典型场景:内容审核、歌词生产、视频标签、直播互动


易智团队研发了行业领先的唱歌识别系统,并以此为核心构建面向娱乐场景的音频理解系统, 借助AI-自学习等核心创新技术提高不同语境下的理解能力 ,在音乐产品广泛落地应用,在内容审核、歌词生产、视频标签、直播互动等多个场景下取得显著价值,并创新性地应用于Android端的哼唱识别,大幅提升用户体验,综合效果超越同类产品,成为了网易云音乐产品的一个核心竞争力,间接为业务节约了上亿元的成本。>>>详见: 创新奖+股票双Buff?网易数帆的宝藏团队带你过招AI“听觉系统”