在当前的内容AI领域,由于诸多现实业务和技术难题尚未解决,学术及工业界正通过一些竞赛来引领技术突破,推动技术成熟,走向落地应用或持续改善业务效果。2021年,网易数帆人工智能团队(易智)在此类国际顶级赛事中夺得7个赛道冠军,覆盖4大技术领域,并获得了网易公司第一届集团创新奖【0-1】二等奖,充分验证了团队的创新成果。
易智团队相关负责人表示,团队参加国际赛事意在检验自身技术水平,对问题(即赛道)的选择极其严格,必须面向现实业务难题,同时技术方案实现成本不能太高,不能依赖人力/算力/数据密集型路线,必须考虑规模化商用的价值。
1 两阶段方案突破非语音数据分析理解
技术领域:音频描述
赛事奖项:DCASE 音频描述赛道冠军
典型场景:分析直播点播场景中声音事件
对于自然界的非语音数据,如何做有效的分析理解还是一个前沿的探索性话题,DCASE比赛正是针对通用的声音理解问题进行评测。易智团队在DCASE 2021音频描述的赛道中,首次提出基于网络爬取数据做预训练,再利用实际场景数据做训练的两阶段方案;同时提出了基于音频相似度做检索,并参考检索结果的内容描述进行生成的技术框架。相比其他团队基于强化学习的方案,该方案显著提升了效果,战胜CMU、北京大学、字节跳动等对手夺冠。>>>详见:网易数帆夺冠DCASE挑战赛,语音技术再获殊荣
附论文转化:
END-TO-END SPEECH RECOGNITION WITH EXTRA COMPLEMENTARY ACOUSTIC MODELS(NCMMSC2021)
Automated Audio Captioning with Weakly Supervised Pre-Training and Word Selection Methods(DCASE 2021)
技术领域:OCR(光学字符识别)
赛事奖项:ICDAR 多语种分类3个赛道冠军,巴西语驾照分割赛道冠军
典型场景:多语种审核、分析和理解
OCR是相对比较成熟的AI技术,不过随着业务出海和内容语种多样化发展,多语种的OCR技术将成为实际业务挑战,包括多语种的审核、分析和理解(比如音乐场景中日英歌单识别,韩文/藏文的分类需求等等)等诉求。易智团队凭借自研的基于混合语义分割和patch分类的细粒度语种分类技术,并融合了拥有强大建模能力的Transformer模型,战胜韩国互联网巨头NAVER、华南理工DLVC lab等对手,获得多语种分类3个赛道冠军和巴西语驾照分割比赛冠军。>>>详见:祝贺!网易易智包揽国际权威比赛ICDAR SIW语种识别3项冠军
技术领域:文本相似度
赛事奖项:千言文本相似度冠军
典型场景:智能客服
当前以对话系统为核心的智能客服已经大规模应用,但仍需要较多的人工客服以人机协同的方式解答用户问题,这其中的重要制约之一在于文本相似度技术有待持续突破。在此赛道,易智团队凭借多年技术经验积累,和大规模预训练语言模型的运用,再加上对比赛任务进行的针对性优化夺得冠军。目前,该技术已应用到线上业务系统,带来超过以往1年的效果提升。此外,该技术也应用到网易知识公路AI选题业务中,带来不错的人效提升。>>>详见:“千言数据集:文本相似度”权威评测,网易易智荣登榜首(https://zhuanlan.zhihu.com/p/381921650)
4 知识图谱自动构建挑战多模态内容理解
技术领域:多模态视频语义理解
赛事奖项:CCKS 基于知识图谱的视频语义理解A赛道冠军
典型场景:美食视频标签
随着视频相关业务的增量,图文时代基于用户行为和文本的搜推系统技术已无法适用,只有不断理解清楚视频中的内容,才能做到有效的内容管理及分发。
这不仅要求在视觉技术上进行感知层面的元素识别,还需要对标题、字幕、语音、画面信息等多维度进行更高层次的语义理解,同时结合知识图谱和实体识别等技术进行推理,这方面研究已经成为行业的热点。
不同于业界常见的“人物”、“作品”等粗粒度的实体打标,易智团队自研了一套细粒度实体识别技术,能进一步识别到“作品-动漫”、“作品-电影”等细粒度实体信息,当前已支持29种细粒度实体,准确率超过95%。
同时,针对当前知识图谱通常大而不全,在推理时存在非常多的歧义问题和漏标问题,易智团队提出了一种无歧义的小知识图谱自动构建方案,以满足不同场景内容理解的真实需要,最后获得A榜第一、B榜第三。目前,部分技术已应用到网易知识公路美食视频标签等项目应用中。
附论文转化:
Two-Pathway Transformer Network for Video Action Recognition (IEEE/ICIP)
技术领域:音频理解
赛事奖项:网易集团创新奖【0-1】二等奖
典型场景:内容审核、歌词生产、视频标签、直播互动