在严选搜索query改写中参考word2vec

勿忘初心2018-09-04 11:18

作者:梁龙


站内搜索一般是互联网产品的标配,网易严选作为ODM电商也不例外。不同的电商搜索的侧重点不同,对于淘宝京东这种商品量巨大而且各个商家都绞尽脑汁做站内SEO的网站,搜索是尽可能帮助用户快速、精准找到和排序目标商品;而网易严选目前商品总数量偏少,商品描述风格有态度,如果直接搜索用户query容易未命中或返回太少,而影响体验,这就要求严选的搜索要更关注用户query改写,组内同事也一直在做这方面优化。


目前严选搜索分为三个阶段: 短语搜索、实体词搜索、扩展词搜索,命中的精度依次降低,其中短语搜索即用户本身query搜索,实体词和扩展词搜索都基于训练好的词库获得,那么词库的好差就直接影响搜索效果。


实体词词库来源于严选的商品等语料,通过使用ansj切词,保留了实体词(主要是非人名的名词等词库)和英文字符,可以通过调整ansj的词库和过滤的词库来调整实体词。


扩展词库来自两部分,一是从实体词出发的扩充语料,另一个是从用户点击日志出发的相似词。扩充的语料库是实体词在天猫、京东等大电商网站的搜索结果,扩充语料也经过分词得到扩充词列表,对于严选网站实体词库每一个词,找出在扩充词列表中同一个商品标题中共同出现的次数,得到共现最频繁的词对,作为扩展词的一部分。


扩充语料和用户搜索后点击日志都使用word2vec训练词向量,再根据实体词分别得到最相似的两类词,这两类词主要组成了扩展词库,用于扩展词搜索。这里简单介绍一下word2vec(原理可参考 http://www.nustm.cn/blog/index.php/archives/842),word2vec是谷歌的开源工具,它将单词转换成为向量,可以把文本内容处理转化成为向量运算,通过计算词向量距离来表示词文本的相似度。


对自然语言理解的问题要转化成能够计算的问题,第一步就是要符号化,也就是用n维向量来代表一个词。传统的one hot编码维度太大,且几乎任意两个词之间都是孤立的,不能体现两个词之间的关系;另一种是 distributional representation,例如通常使用50100维向量来表示一个词,这样解决了维度大的问题,且可以通过计算词向量之间的距离来体现两个词的相似性,这样的词向量称为 word-embeddingWord2vec使用了第二种词向量表示,那么接下来的就是如何得到词向量了。


词向量是词在一个特定情形下的数学表示,词向量的比较也只有在特定的情形下才有意义,这个特定的情形就是语言模型。语言模型其实就是判断一句话是不是正常人说出来的,即计算每个句子的概率。语言模型确定了,理论上里面的词向量也就确定了。语言模型有很多,例如n元语法,但也是数据指数级爆炸和稀疏的问题,例如a个词, 如果是二元就是a平方,三元就a立方,且无法得到词向量。word2vec中使用的是神经语义模型,在训练语言模型的同时得到词向量。


Word2vec提供了四种模型训练方式,分别是两种语言模型:CBOWskip-gram 和两种构造损失函数的方法:层次softmax negative sampling 组合而成。思路就是构造一个词及其上下文的条件概率,所有当前词和上下文的条件概率乘积最大化是优化的目标函数。CBOW模型是已知上下文预测当前词,将所有的上下文单词的词向量加起来预测当前词出现的概率;skip-gram模型是已知当前词预测上下文,对一个样本做上下文窗口长度次预测,使用当前词的词向量分别预测每个上下文单词出现的概率。


扩充语料中word2vec

1.  首先使用和构建实体词词库相同的分词工具,分词得到扩展词表

2.  用扩展词表训练word2vec模型,根据实体词表分别得到实体词对应的最相似扩展词

3.  为保证扩展的词和原实体词相关,将得到的扩展词去查询严选镜像搜索,如限制两者返回的商品分类要相关、扩展的词要有命中商品等


用户搜索后点击日志中使用word2vec类比方式(不妨暂称为query2vec):

1.  把用户搜索词和所有点击的商品作为训练数据,模型中用户搜索整个query作为一个词,点击的整个商品title也作为一个词,训练query2vec模型

2.  得到用户搜索词在该模型下的词向量,根据词向量对于每个搜索词得到最相似的搜索词,为保证扩展的词和原搜索词相关,将搜索词去查询严选镜像搜索,限制两个搜索词返回的商品分类要相关

3.  将搜索词关系合并到扩展词库


以上是在严选搜索query改写的词库中一些做法,对严选的实际情况我们也在不断的尝试其他的办法, 例如针对严选商品描述文艺风,除了页面商品信息外,商品上架还填写一个朴素描述商品信息的站内SEO的字段,帮助改进搜索效果。

 


网易云大礼包:https://www.163yun.com/gift

本文来自网易实践者社区,经作者梁龙授权发布