新闻相似度

阿凡达2018-07-09 11:41

在进行新闻推荐的时候会涉及到评估新闻之间的相似度问题。新闻本身包含的信息可分为两个部分:文本和图片。所以新闻相似度评估分为两个基本问题,相似文本和图片的比较。本文主要介绍下,我实现新闻相似度评估模块的算法。

文本相似度

对于文本的相似度评估,这是一个被广泛研究的问题,总体可分为两类处理方式。

NN的方法,比如 BOW+tf-idf+LSI/LDA

NN方法,即word-embedding,可以用的工具比较多,比如word2vecglovedoc2vec等。

针对新闻的特殊性,系统实现的方案是分别专有名词和主题的相似性,然后加权相加得到文本的相似度结果。

主题的相似性,可以通过tf-idf加权word2vec的词向量后得到文档向量,加权之前剔除stop word。主题描述了新闻的整体信息属性。

词汇的相似性,通过提取新闻标题中的专有名词以及新闻中的关键词。对比被比较的新闻中是否存在词汇的重叠。作为主题相似性的补充,词汇相似性着重描述新闻的局部信息。

 

图片相似度

很明显,新闻图片的相似度,我们比较图片的整体信息,而非仅仅去判断图片中是否存在某种物体。举个例子,如下图所示。


左图和有图如果通过传统的目标检测或分类,两者不存在相同的目标。但是我们去观察这两幅图,初步可以推断出它们都是描述饮食,健康相关的主题。

为了解决上述问题,我提出了“Image2Vector”概念,原理跟Word Embedding类似,基于图片和新闻文本的共现性去训练CNN网络,得到图片的特征提取网络。image2vec的核心如下第一个公式,让图片对应的新闻文本中的Key Word出现的概率最大,第二个公式则是保证概率和是1

本文来自网易实践者社区,经作者祝娜授权发布。