首页 > 电商资讯 > 谷歌与百度关键词的相关度是多少?

谷歌与百度关键词的相关度是多少?

2011-6-24 11:22 Friday | 作者:漠然 | 评论: 10 | 浏览:572 | 发表评论 | 【字号: 放大 缩小



凡间我们关于文本信息之间得相关性得核算都是采用向量的方法,我在以前的PPT里曾经提到过。但是关于
文本信息更深条理的剖析不克不及纯真从字面上剖析一篇文章的要害词,更主要的是它隐含的扩展的意义。
传统的关于核算文原形关度和【网页和查询的相关性】的核算都是采用匹配的方法进行的,但是这只能是基
于字面意义上的计算核算。这里引见的做法是采用要害词相关性扩展的做法然后获得愈加准确的相关度核算

例子:
文章 A: 议论的是大学教育,最高频的要害词是:学生[3],进修[2],大学[2]
文章 B: 议论的是通俗教育,最高频的要害词是:教育[5],教员[1],进修[1]
[]里是相对的权重,可以了解成 TF*IDF
依据传统的相关性核算,我们会获得如下的后果:
1. 文章A 与 文章B 不相关
2. 查询 学生,进修,大学只能返回文章A,不克不及返回文章B
3. 查询 教育,教员,进修只能返回文章B,不克不及返回文章A
剖析:
这个明显是有必然的问题的,问题的呈现在于我们凡间将“字面”的意思做为剖析的起原并且依托和仅仅依
靠这些“字面”的要害词做为文章相关性和查询相关性判别的独一要素。
若何防止?
我在以前的文章中提到过【要害词相关度】的概念,举例阐明:
当呈现:{进修}这个词汇的时分,真实的表达的意义往往是如许的:
{W1*进修,W2*教育,W3*教员,W4*大学。。。。。。}
个中W1,W2...是进修和相关词汇的相关权重。
基于如许一个矩阵,我们就可以将一个词扩展成为一组词汇,因此也还可以将文章所对应的向量扩展成一
个更多词汇的调集。
这里的核算需求一个完好的相关度矩阵:M
M(i,j) = {要害词i,j的相关度}
而两篇文章的相关度的核算,也由简略的
R= Sigma Vi*Vi
变为
R= Sigma Vi*M(i,j)*Vj
查询要害词和文章的相关度也由简略的
R(i)=TF(i)*IDF(i)
变为
R(i)=Sigma TF(j)*IDF(j)*M(i,j)

下面碰着一个中心问题就是:要害词之间的相关度若何核算?
例如:黉舍和学生的相关度是几多?
核算办法:
假定一个文章调集 {C},总文章数量为N,个中含有单词A的文章总数为Na,含有单词B的文章总数是Nb,含
有{A+B}的文章总数是 Nab,那么相关性这么核算
CorrAB= Nab/(Na+Nb-Nab)-(Na*Nb)/(N*N)
本核算中能够会获得负相关,假如思索到Na,Nb都是小量,可以疏忽,那么
CorrAB= Nab/(Na+Nb-Nab)
至此,要核算相关度之间的悉数要素都取得了。
考虑,那么究竟 黉舍 和学生 之间的相关度是几多呢?
我们应用google往返答这个问题吧:
约有91,700,000项契合黉舍的查询后果
约有88,200,000项契合学生的查询后果
约有48,900,000项契合学生 黉舍的查询后果
Corr{黉舍,学生}=48,900,000/(91,700,000+88,200,000-48,900,000)=0.37
这个道理我以前使用在了核算【网页信噪比】上,和网页信噪比一同成为权衡一个网页的要害词的中心算法

这也就是为什么6e的网页信噪比可以不依托网页上现有的要害词而精确的判别网页的分类和相关度,是由于
除了TF和IDF之外,我们可以从已有的文本调集里学到更多的“常识”。
那么百度和google的相关度应该不难核算了:
应用 google核算获得:2,950,000/(61,800,000+6,370,000-2,950,000)=0.03
应用 baidu核算获得:2,760,000/(21,700,000+12,200,000-2,760,000)=0.08
看来根本上相关度小于10%。


本文地址:http://www.e8city.com/?post=14
本文作者:漠然居工作室-专注于网站建设|网络推广|电子商务服务
欢迎转载本站文章,但是请您加上的版权说明!

 
  • 机器里的灵魂,记忆移植的经济人
  • 淘宝上小卖家的转折点
  • 推荐网站 110淘返利网 www.110tao.com
  • 10月31日淘宝限时化妆品秒杀大赛开幕了
  • 6个帮助电商度过节后销售淡季的建议
  • 因为快递慢买家要求退100损失费,还要给大差评!
  • 各位掌柜要注意淘宝扰乱市场秩序的规则
  • 漠公子分析淘宝直通车如何提高质量分
  • 虚假交易的认定和处罚的最新判定和惩罚
  • 《虚假交易规则解读》变更通知
  • 淘宝侵犯知识产权规则变更公告:侵犯知识产权新规则
  • 淘宝女装销售秘诀只用4步快速打造爆款
  • 迷尚的护肤品今天秒杀活动,不能错过了
  • 互联网的那点事-内容营销,不可小视
  • 大盘缺口再现——是竭尽缺口吗
  • 淘宝标题描述 需要一个一个字的修改优化
  • 各种秒杀党恶意差评,期待淘宝维护卖家尊严
  • 漠公子说:淘宝网店建立会员制度新老顾客
  • 3心小店迎来马来西亚买家,焦头烂额最后喜剧收场
  • 买了件孕妇装,孕妇竟然穿不上,这是谁的问题?
  •  
    标签: 相关度 谷歌 百度 关键词 淘宝客
    [0条]发表评论>>
    • 评论
      暂无评论,快抢沙发吧。