当电脑阅读了网易新闻之后...

达芬奇密码2018-06-14 13:07

2012年的时候,GoogleX实验室让电脑“阅读”了1000 万个Youtube视频图像后,电脑进化成了著名的“谷歌大脑”,它可以识别图片中的猫。

那让电脑阅读了90万篇网易新闻之后,电脑会变成什么模样,学会了哪些技能?我做了这么一件事,并分享下一些结论。


阅读方法

首先这里的阅读是一种无监督的学习方式,即只需提供新闻给电脑,无需人工的干预。这里的新闻是指既包含文本又包含图片的新闻。至于为什么是90万篇新闻,目前受限于机器的硬盘,后续会增大样本量。

为了保证这篇小文可阅读性,这里尽量简要说明下算法,仅仅两个公式: 公式1)让图片对应的新闻文本中的词汇出现的概率最大;公式2)则是保证概率和是1


技能1:理解图像

目前对于图像理解的实现方式一般都是通过在人工设定的类别范围内训练分类器,以判别图像中是否包含特定的对象。自2006年吉奥夫雷·辛顿(Geoffery Hinton)等在《科学》(Science)杂志发表那篇著名的论文[1]开始,图像分类的方法就集中在深度网络上面了。

比较典型的例子就是ImageNet,它是目前世界上人工标注的最大的图像识别数据库,目前许多著名的深度学习网络,比如AlexNetGoogleNetVGGNet都是在这个图片数据库中1000个类别上训练出来的,相比于传统的分类器,在分类的准确率上取得了突破性的进展。

不过我个人理解首先图像理解不等同与图像分类,前者是在建立在充分的知识储备基础上的,它描述的是图像的深层含义,分类只是只是在有限的类别内决定图像的归属。同时目前的分类方法,这种先人工标注图片,然后再监督学习的方式存在以下的一些先天缺陷。

1. 机器学习的结果的优劣很大程度上取决于数据的数量和质量。这意味数据的准备需要进行大量的人工标注工作。标注的质量,即使在预先设定的有限类别内,准确性也是因人而异的。

2. 把图像理解转换为解决特定的有限类别的分类,使得训练出来的模型仅仅适用于有限类别的分类。比如,人脸识别的模型就难以去识别大猩猩的脸,即使他们很像...如此,在不同的应用场景必须训练不同的网络。

下面来看看自主阅读网易新闻后电脑对图像理解的能力。给出的理解词汇中,我过滤掉了人名,并只展示部分得分较高的词汇。测试图片来源网络,并不包含在训练样本中。同时给出该图片在百度和Google中的检索结果,作为对比。图片下方的单词是电脑给出的它的理解。



对比上面三幅图, Google对三幅图的理解均失败了,百度给出了最后一幅图中包含轿车,还是蛮厉害的,压成这样还能认识。

但是咱的电脑对图片给出了比较靠谱的理解,给出的信息量相比于目前的百度和Google的算法要丰富的多,并且学会了说脏话。    


技能2:相似图片检索和推荐

咱的电脑也具备了相思图片推荐和检索功能,同样上面的图片并且与百度和Google对比。检索的图片库是阅读的90万篇新闻中的图片。

从上到下,依次是索引图片,百度的相似图片检索结果,Google结果,以及我的电脑给出的结果。

百度和Google的结果是类似的,推测是根据颜色和图片中的内容进行识别然后索引。而我的电脑给出的结果明显是基于索引图片的所表达内容进行索引的,即视觉的一致性不如百度和谷歌,但是从结果的多样性和知识上的关联性上是优于它们的。


技能3:用户兴趣挖掘

当文本内容匮乏情况下如何挖掘用户属性或兴趣?一个典型的例子是图集新闻,这种新闻主要的内容是一系列相关的图片,文字信息很少或基本没有,这种情况则需要对图片进行分析得到用户的兴趣。这个技能是理解的单幅图片的基础上,对图片的内容进行总结和归类得到对多组图片的信息的描述。本质上市基于理解图片后,然后进行后续一定的处理。


技能4:特征提取和图片查重

重复图片过滤有很多方法,总的来说就是提取图片的特征,并且比较特征的相似性。下面看一看学习后的电脑对重复图片的查重效果,或者说特征提取的有效性和鲁棒性。采用与SIFTVGGNet提取的特征进行对比。VGGNetPinterest进行图片检索的主要特征提取网络。

1.尺度,选择,剪切等刚性形变

如下图所示,左1图片是原始图片,其右侧的图片依次是等比例缩小4倍,剪切右侧,剪切左侧,剪切下侧,旋转加剪切,大角度选择,等比例放大2倍。对应图片下方的是电脑给出的与原图片的相似度。其中SIFT特征的相似度度量通过匹配的特征点与所有特征点比值进行衡量。

对比可见,阅读了网易新闻后比电脑在刚性形变的检测性能优于SIFTVGGNet网络。

2. 非刚性形变的检测

下图的五幅图片来源于同一个图集,以左边第一幅为标准图片,其右侧图片均视为其非刚性形变图片,咱们来看看不同的算法,对图片相似度的度量结果。

从两组简单的测试,阅读了新闻后的电脑对图片中物体的形变,不论是刚性的还是非刚性的鲁棒性均优于目前的常用的SIFT和基于ImageNet训练的网络。


总结

上面小文是对最近做的实验的总结,至于为何非监督学习反而取得了非常不错的效果,我觉得主要得益于网易新闻配图和文字内容的一致性非常好,即新闻的自动配图系统做的不错,后续再说一说新闻自动配图系统的实现。同时,做一下广告,对于图片个性化推荐,图像理解等方面的需求或者想法,欢迎同学们一起讨论。


参考文献

[1] Geoffrey E. Hinton, and Ruslan R. Salakhutdinov. Reducing the dimensionality of data with neural networks. Science 313.5786 (2006): 504~507.


本文来自网易实践者社区,经作者祁斌川授权发布。