网易数帆小助手

个人签名

280篇博客

AutoML加持实体识别,网易数帆夺魁SemEval国际大赛

网易数帆小助手2023-03-26 18:00

第十七届国际语义测评竞赛SemEval 2023结果近日揭晓,在全球强者云集的MultiCoNER多语种实体识别中文赛道中,网易数帆以大幅领先8%的优势夺得冠军,验证了公司在该领域的研究成果与领先性。

SemEval(Semantic Evaluation)是自然语言处理(NLP)领域全球范围内影响力最强、规模最大、参赛人数最多的语义测评竞赛,由国际计算语言学协会(ACL)下属的SIGLEX主办。基于业务相关性考虑,网易数帆在本届比赛中参加了MultiCoNER任务中文赛道,由大赛公布的结果可见,同台竞技的还有国内外众多知名AI团队。


该项比赛的目标是为多语种语言构建细粒度实体识别系统,网易数帆参赛团队介绍,这一任务具有三个重大挑战。首先,待识别句子存在大量故意替换的错别字,字音错误和字形错误混杂其间,如“赢度尼西哑科学院”(应为“印度尼西亚科学院”),甚至还有实体文本所有文字全错的极端情况。其次是实体粒度细、类型多,相比上一届比赛,实体粒度从粗粒度拓展到细粒度,从6个类型拓展到36个类型,识别难度大大增加。此外,待识别句子简短,且缺少上下文,这为实体的类型判断带来极大的难度,对于实体的背景知识的理解就变得极为重要,但人类知识对于当前的AI来说仍是短板。

借助多年AI产品研发及不同业务场景落地实战积累,网易数帆AI团队通过文本纠错、细粒度实体识别及AutoML三大技术创新的应用和融合,一一化解了上述难题。

首先,网易数帆基于LaserTagger改进的文本纠错模型对待预测文本进行纠错,从而得到正确的待识别文本。

之后,网易数帆在维基百科知识图谱上,通过图神经网络结合训练集标注对词条进行实体分类得到候选Gazetteer。基于融入Gazetteer的BERT+CRF实体识别模型、融入维基百科检索增强的实体分类模型,对纠错后的文本进行实体识别和分类,从而得到实体识别候选。

最后,网易数帆将上述实体识别候选结果和对应算法特征,再加上额外提取的统计特征,以stacking的方式构建二分类模型判断实体识别结果的正确性,并基于AutoML技术进行调参和特征增强,即通过提取维基百科知识作为知识特征配合AutoML的应用,解决了背景知识缺失的问题,最终得到精确的实体识别结果。

网易数帆参赛团队介绍,上述技术中,文本纠错技术和实体识别技术已经应用于网易传媒新闻纠错、Lofter和网易知识公路等多个业务,而作为当下重点研发的技术,AutoML则应用在证券行业客户量化投研场景中提供“智慧生产力”,取得了客户满意的效果。