注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

无线时代辐射无穷

抓紧生宝宝,小心辐射

 
 
 

日志

 
 

关键词权重的量化方法TF/IDF  

2009-10-20 19:15:42|  分类: lucene |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

写这篇文章前,一定要说明一点,我对算法也是刚刚开始研究,一定会有不少地方会有差错,也请高手指正,上次计算相关度的方式发布后,就得到了高人的点化,在此谢谢这位高手,也谢谢大家对我的关注。

下面进入主题:

今天我想说的是关键词权重的量化方法TF/IDF,为什么说这个呢?因为我们知道,在数量庞大的搜索引擎库里,拥有无数个形容同一事物的词汇,就好像我上次说的手机和彩铃,他们分明是形容同一个类别:移动通讯相关的东西,但是谁的权重更高呢?这就看这个关键词所表达的意思和在具体文章中的意义来判断了。

在搜索引擎中,一个词能够概括这篇文章意思的能力越高,权重就越高,反之则降低,举个例子吧,类似于这样的一个词:“吸烟的危害”,在这个词里面,吸烟是整个文章的一个主词,也就是说,吸烟这个词是整篇文章的核心,而“危害”这个词却能表达很多危害,例如环境污染危害,破坏公物的危害等。剩下的一个词“的”在整个句子里根本就没有任何意义,这样一来,我们的权重问题就可以看的很明白了,具体的权重大小就如下这样

吸烟>危害>的,而“的”这个词因为不包含任何意义,所以,一般情况下,搜索引擎的计算规则中会讲“的”这个词消噪(这点纯属个人看法,请高手指教。)

我们可以看到的是,有些词,只要你搜索一下,马上就会得出结果,例如吸烟 危害这样的词,而“的”这个词虽然存在于几乎所有的网页中,却根本不能反应出任何意义,这样一来他的权重就少的可怜了,这就是搜索引擎中的:“逆文本频率指数”(Inverse document frequency 缩写为IDF)他的计算公式是这样的,假如一个词W在DW个网页中出现过,那么DW的值越大,W的权重就越小。具体的公式如下log(D/dW).

这个我们可以举个例子,假如有10亿个网页在搜索库里,而手机这个词出现的次数是两百万次,那么我们的计算公式就是

log(2000000/1000000000)=log(500)=6.2

通过这样的方式,我们就可以算出词的权重,这个办法,可以使用在优化当中的长尾生僻词的办法中,利用计算,得到最大的权重词,当然,你无法知道数据库里到底有多少个网页,因此,也就只能通过搜索结果来判断了,呵呵。

那么TF是什么呢?

TF是指你所选定关键词的出现频率,也就是单词汇的出现频率,(Term Frequency)举个例子,还是上面的例子,假如在一个有一千字的文章中“吸烟的危害”这几个词组在网页中分别出现以下的次数:

吸烟:5次

的:46次

危害:9次

这样,吸烟出现的频率是0.005%,“的”出现的频率是0.046,危害出现的频率是0.009%这样,结合相加,这个词“吸烟的危害”在这个文章中的比重就是0.06%。但是我们刚才说过,“的”这个词在大量网页中出现,而且根本无法形容任何意义,因此这个词是需要被删除的,那么,整个这个文章的关键词密度 就是(5+9)*100%,也就是仅仅0.016%。

这个办法我们一般会使用在页面的关键词密度计算上,记住:类似“的”这样的词语是不能被作为关键词的,因为他会被忽略

知道了以上的计算方法后,我们基本就可以知道搜索引擎是如何工作的了,但是有些朋友为了提高文章权重,大量的堆砌主关键词,也就是说假如“吸烟危害”是这个网页的关键词,他会为了提高排名而大量的堆砌关键词,其实根本没有必要去做,我在我的博客里曾经提到过一个“免费送Q币”的案例,他就完全避开了这样的限制,却做到了很好的排名,这就是一个关键词组合的办法,以后我会讲到,有兴趣的朋友可以去研究一下。

接着我们的话题,TF/IDF被认为是信息检索中最伟大的发明,就是因为他在一定意义上解决了很多网页排序的问题,现在的大型搜索引擎都是靠这个公式去做为基础的,当然,在计算方式上会改进很多的部分,以求更准确,另外,结合向量空间模型(Vector Space Models) 、多文档列表求交计算等方式,使得搜索引擎的结果更加准确。

写这篇小文的意思,主要是想让各位对搜索引擎的排序做一个深入的了解,上次我所说过的相关度与这篇文章也是息息相关的,大家不妨研究一下。

  评论这张
 
阅读(664)| 评论(1)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017