个人签名

280篇博客

编辑推荐

网易数帆开源API网关与容器云项目，让云原生生产落地“多快好

网易汪源：统一负载与多云环境的“开放姿态”，才是云原生

网易数帆如何用 Kubernetes“原语”搞定云原生中间件

快手打新挤爆券商系统，网易数帆推出券商稳定性保障方案

探索智慧校园新模式，网易有数在教育行业的实践分享

金融行业大数据治理之路——数据模型篇

年终盘点第4弹：7个硬核冠军，见证AI创新力

网易数帆小助手2022-01-28 20:20

在当前的内容AI领域，由于诸多现实业务和技术难题尚未解决，学术及工业界正通过一些竞赛来引领技术突破，推动技术成熟，走向落地应用或持续改善业务效果。2021年，网易数帆人工智能团队（易智）在此类国际顶级赛事中夺得7个赛道冠军，覆盖4大技术领域，并获得了网易公司第一届集团创新奖【0-1】二等奖，充分验证了团队的创新成果。

易智团队相关负责人表示，团队参加国际赛事意在检验自身技术水平，对问题（即赛道）的选择极其严格，必须面向现实业务难题，同时技术方案实现成本不能太高，不能依赖人力/算力/数据密集型路线，必须考虑规模化商用的价值。

1 两阶段方案突破非语音数据分析理解

技术领域：音频描述

赛事奖项：DCASE 音频描述赛道冠军

典型场景：分析直播点播场景中声音事件

对于自然界的非语音数据，如何做有效的分析理解还是一个前沿的探索性话题，DCASE比赛正是针对通用的声音理解问题进行评测。易智团队在DCASE 2021音频描述的赛道中，首次提出基于网络爬取数据做预训练，再利用实际场景数据做训练的两阶段方案；同时提出了基于音频相似度做检索，并参考检索结果的内容描述进行生成的技术框架。相比其他团队基于强化学习的方案，该方案显著提升了效果，战胜CMU、北京大学、字节跳动等对手夺冠。>>>详见：网易数帆夺冠DCASE挑战赛，语音技术再获殊荣

附论文转化：

END-TO-END SPEECH RECOGNITION WITH EXTRA COMPLEMENTARY ACOUSTIC MODELS（NCMMSC2021）

Automated Audio Captioning with Weakly Supervised Pre-Training and Word Selection Methods（DCASE 2021）

2 细粒度语种分类技术+Transformer搞定小语种

技术领域：OCR（光学字符识别）

赛事奖项：ICDAR 多语种分类3个赛道冠军，巴西语驾照分割赛道冠军

典型场景：多语种审核、分析和理解

OCR是相对比较成熟的AI技术，不过随着业务出海和内容语种多样化发展，多语种的OCR技术将成为实际业务挑战，包括多语种的审核、分析和理解（比如音乐场景中日英歌单识别，韩文/藏文的分类需求等等）等诉求。易智团队凭借自研的基于混合语义分割和patch分类的细粒度语种分类技术，并融合了拥有强大建模能力的Transformer模型，战胜韩国互联网巨头NAVER、华南理工DLVC lab等对手，获得多语种分类3个赛道冠军和巴西语驾照分割比赛冠军。>>>详见：祝贺！网易易智包揽国际权威比赛ICDAR SIW语种识别3项冠军

3 文本相似度突破助力机器人精准理解客户

技术领域：文本相似度

赛事奖项：千言文本相似度冠军

典型场景：智能客服

当前以对话系统为核心的智能客服已经大规模应用，但仍需要较多的人工客服以人机协同的方式解答用户问题，这其中的重要制约之一在于文本相似度技术有待持续突破。在此赛道，易智团队凭借多年技术经验积累，和大规模预训练语言模型的运用，再加上对比赛任务进行的针对性优化夺得冠军。目前，该技术已应用到线上业务系统，带来超过以往1年的效果提升。此外，该技术也应用到网易知识公路AI选题业务中，带来不错的人效提升。>>>详见：“千言数据集：文本相似度”权威评测，网易易智荣登榜首（https://zhuanlan.zhihu.com/p/381921650）

4 知识图谱自动构建挑战多模态内容理解

技术领域：多模态视频语义理解

赛事奖项：CCKS 基于知识图谱的视频语义理解A赛道冠军

典型场景：美食视频标签

随着视频相关业务的增量，图文时代基于用户行为和文本的搜推系统技术已无法适用，只有不断理解清楚视频中的内容，才能做到有效的内容管理及分发。

如何更好地理解视频内容，特别是如何将人类的先验知识融入理解过程中以获取高层语义信息，一直是业界难题。

这不仅要求在视觉技术上进行感知层面的元素识别，还需要对标题、字幕、语音、画面信息等多维度进行更高层次的语义理解，同时结合知识图谱和实体识别等技术进行推理，这方面研究已经成为行业的热点。

不同于业界常见的“人物”、“作品”等粗粒度的实体打标，易智团队自研了一套细粒度实体识别技术，能进一步识别到“作品-动漫”、“作品-电影”等细粒度实体信息，当前已支持29种细粒度实体，准确率超过95%。

同时，针对当前知识图谱通常大而不全，在推理时存在非常多的歧义问题和漏标问题，易智团队提出了一种无歧义的小知识图谱自动构建方案，以满足不同场景内容理解的真实需要，最后获得A榜第一、B榜第三。目前，部分技术已应用到网易知识公路美食视频标签等项目应用中。

附论文转化：

Two-Pathway Transformer Network for Video Action Recognition (IEEE/ICIP)

5 音频理解技术节省上亿元成本

技术领域：音频理解

赛事奖项：网易集团创新奖【0-1】二等奖

典型场景：内容审核、歌词生产、视频标签、直播互动

易智团队研发了行业领先的唱歌识别系统，并以此为核心构建面向娱乐场景的音频理解系统， 借助AI-自学习等核心创新技术提高不同语境下的理解能力 ，在音乐产品广泛落地应用，在内容审核、歌词生产、视频标签、直播互动等多个场景下取得显著价值，并创新性地应用于Android端的哼唱识别，大幅提升用户体验，综合效果超越同类产品，成为了网易云音乐产品的一个核心竞争力，间接为业务节约了上亿元的成本。>>>详见：创新奖+股票双Buff？网易数帆的宝藏团队带你过招AI“听觉系统”

<上一篇网易数帆再获 InfoQ “最具技术价值团队”

下一篇2021“科创中国”开源创新榜出炉，Apache Kyuubi入围>

最新博客

最新资源下载

编辑推荐

年终盘点第4弹：7个硬核冠军，见证AI创新力

最新博客

最新资源下载

编辑推荐

年终盘点第4弹：7个硬核冠军，见证AI创新力

推荐博客