1、基于查询会话的方法
大家都知道,搜索引擎会统计分析用户的搜索行为,将此转化为查询会话。然后通过各种数据挖掘算法来对查询会话进行统计处理,如果一个查询词a和查询词b经常一起出现,那么自然,我们可以认为两者是相互关联且值得推荐的。
当然,这样做也会有两个很明显的问题暴漏了出来,用户的一次连续的查询可能不是针对的同一个主题,这样,在对用户的两次查询进行拆分时,很难精准的进行切割。同时,该方法是以单个用户的查询会话作为基础来统计的,所以在对数据进行挖掘时不能体现不同用户查询之间的关联。
2、基于点击图的方法
当然,在用户的搜索日志中,除了简单的查询之外,还有对站点的点击数据。如果能将此利用起来,也不失为一种很好的查询相关搜索的方法。
一个简单的逻辑为:
用户查询了关键词p,然后点击了网址D1和D2分别6次和8次,那么此时我们就可以针对p建立起一个向量[0,6,8,0],针对另一个查询词q同样可以建立起对应的向量。
OK,这就再次回到了根据空间向量计算相似度的模型中。既定相似度大于某个值,则这两种搜索即为相关。
当然,如果需要做的严谨一些,就需要将被点击的内容之间的相似度计算考虑在内。因为不同的链接地址对应相同或相似内容的现象在搜索引擎中屡见不鲜。