网易数帆小助手

个人签名

280篇博客

ICDAR 2021(文档分析与识别国际会议) SIW语种识别比赛包揽3个任务项目冠军

网易数帆小助手2021-05-20 15:00

最近,网易数帆旗下人工智能技术与服务品牌——网易易智的参赛团队在国际权威ICDAR 2021(文档分析与识别国际会议) “SCRIPT IDENTIFICATION IN THE WILD”(SIW,语种识别比赛)中,就面临了这个任务:识别出上面图片里的文字属于哪个小语种。凭借自研的高精度语种识别方案,网易易智最终以明显领先第二名的成绩包揽3个任务项目的冠军,在多语种OCR领域获得国际权威认可!


ICDAR由国际模式识别协会组织,是文档分析与识别领域公认的顶尖国际学术会议,被誉为OCR界的奥斯卡。历届ICDAR提出的比赛数据集,也常被视作是OCR领域最重要和常用的数据集。本次SIW语种识别比赛是ICDAR今年举办的10项竞赛之一,也是业界首次大规模的语种识别竞赛,吸引了韩国最大互联网公司NAVER、华南理工DLVC Lab等世界一流的科技公司、高校参加。

比赛分为手写体识别、印刷体识别、手写印刷混合识别三个赛道,参赛团队需要识别5000张样本图片上的文字属于哪一个小语种。比赛旨在为小语种OCR提供数据与研发支持,促进少数语种的发展与传承。


比赛中要辨别的13个小语种



最终,网易易智提交的识别结果中,手写体识别准确率99.69%,领先第二名0.55%;印刷体识别准确率99.99%,领先第二名0.19%;在最难的手写体印刷体混合识别赛道上,网易易智准确率99.84%,领先第二名1.07%。



ICDAR 2021 SIW 比赛3个任务结果,网易易智均列第一

网易易智的参赛团队表示,这三个赛道任务主要有 2个难点。首先,不同语种的相似度非常高,如泰米尔语和马拉雅拉姆语等,对于识别模型的细粒度分类性能要求非常高。更让人苦恼的是,样本文字都是以句子形式出现,存在连笔。再加上手写体笔迹潦草,即使是同样内容,不同的笔迹又增加识别难度。


相似度非常高的泰米尔语和马拉雅拉姆语也需要精准识别


面对这项任务,网易易智提出一种语种细粒度识别模型,将语种分类问题转换为分割问题,给每个像素点都赋予一个监督信息,让模型注意到样本的每个局部细粒度特征。同时,网易易智还优化了目前领先的transformer结构来增强细节特征的表征能力,提升对手写体的识别精度。此外,大规模预训练技术以及半监督技术极大地提升了模型的泛化能力和识别准确性。



  通过样本的每个局部细粒度特征

(颜色标注处)来整体识别泰米尔语



从自研的高精度中英文OCR到支持阿拉伯语、泰语、泰米尔语、日语等数十种小语种识别的多语种OCR,再到支持实时识别的视频OCR,网易易智正在 不断突破技术边界并将技术研发与业务价值结合。当业务面临新痛点、新问题、新场景时,网易易智不断升级迭代AI能力,促进业务应用创新。

目前,网易易智通过AI技术研发与专项解决方案,将OCR技术在泛娱乐、音乐直播、电商等场景中成功落地,以满足网易公司不同业务遇到的痛点问题和需求。例如网易云音乐的MV歌词字幕识别、网易游戏的身份验证、网易严选的商详页解析、网易易测的ICON自动化检测定位等,都有OCR技术的身影。

在其他领域如视频分析方面,网易易智也将自研的多模态视频分析技术,结合 图像、视频、OCR、ASR、NLP等多种AI能力,广泛应用在网易公司内外。视频场景中的多语种分析能力也已在运营审核、分发推荐等应用中实现。未来,网易易智将继续深耕AI技术领域,结合前沿研究和业务落地,让技术更好、更多地带来新便利和新体验。