注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

无线时代辐射无穷

抓紧生宝宝,小心辐射

 
 
 

日志

 
 

相关性算法的一个思路  

2009-10-26 14:44:50|  分类: lucene |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
当前搜索结果相关性算法主要从词频、标题、网页内外链接以及词语之间的距离等角度出发,从概率上来讲,如果符合上述的要素,那么搜索结果差不多是相关的。可是严格来讲,如果理论本身不够精确的话,则实际情况的误差将会很大。举一个例子来说,如果一篇网页内外链接都与自身内容无关,这样这篇网页的相关度就降低了,哪怕这篇网页里的内容很有用,却可能不符合超链接分析算法的要求而排名过百。 

如果从词语之间的距离来判断相关性,我认为这也不十分科学。我想再举一个例子,“太阳是风的原因。电脑辐射的危害很大。”和“电脑辐射容易导致失眠、健忘,原因是电脑辐射能损伤人的DNA。” 

如果我的关键词是“电脑辐射 原因”,从词语之间的距离来看,无疑前者肯定会排名在前。后者才是真正相关的结果,却排在了后面“。同理,我们现在假设“太阳是风的原因。”这句话是一个段落,“电脑辐射的危害很大”是接下来的段落;“电脑辐射容易导致失眠、健忘,原因是电脑辐射能损伤人的DNA。”也是一个段落,从词语之间的距离来看,前者又排在了前面。 

我的解决办法是这样的: 

如果两个词语处在同一句话中,不管两个词语之间的距离有多大,相关性要比距离很近但不是同在一句话内的搜索结果高。如果两个词语处在同一段落中,不管词语之间的距离有多大,相关性要比距离很近,但跨段落的搜索结果相关性高。 

有的时候一篇网页的结构比较混乱,分不清段落或句子,这个时候就可以考虑通过文字之间的距离来确定相关性。另外,如果用户的查询词是一个词的时候,词频或标题可能是判断相关性最佳的方法。
  评论这张
 
阅读(470)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017