当前位置: 首页 > 专利查询>刘峰专利>正文

一种基于内容相似度计算的自动搜索引擎构建方法技术

技术编号:10044610 阅读:174 留言:0更新日期:2014-05-14 16:05
本发明专利技术公开了一种基于内容相似度计算的自动搜索引擎构建方法,本发明专利技术在现有技术搜索引擎基础上,采用“最大熵和”、“最小熵差”来计算网页内容差异度,为每个网页建立相似内容索引,搜索引擎可自动搜索相似内容网页。当用户输入关键词后,不仅搜索出包含关键词的网页,同时还为每个搜索出的网页,再自动搜索相似内容网页并进行聚类显示;当用户在搜索结果中点击链接浏览时,自动搜索相似内容网页并进行信息推送;自动跟踪用户浏览网页、搜索相似内容网页进行信息推送。用本发明专利技术构建的搜索引擎,实现了智能化主动搜索,使用户更容易找到相关内容网页,提高了搜索引擎的自动化、智能化水平。

【技术实现步骤摘要】

应用于文本相似度计算及各种信息搜索领域。
技术介绍
现有技术搜索引擎如百度、Google等,只能被动地按用户输入关键词进行搜索,不能主动为每个搜索结果中的网页自动搜索相似内容网页,其缺陷主要体现在:1、用户在搜索引擎上输入关键词后,虽然搜索出的网页包含关键词,但内容并不相同,没有相似内容聚类显示,用户需要在众多内容不同的搜索结果中仔细观察和筛选查找感兴趣信息,不方便用户确定选择搜索结果;2、用户在搜索结果中找到感兴趣的网页后,如要继续查找相同内容网页,还需返回众多内容不同的搜索结果中,继续进行人工观察与筛选;3、搜索引擎不能控制搜索到不在其站内网页的显示,当用户点击搜索结果的链接后,如果该网页不是搜索引擎站内的网页,浏览器的显示控制权将交给链接网页,因此,搜索引擎不能在链接网页上推送相似内容网页,不能继续跟踪用户浏览网页的内容变化而自动搜索相似内容网页。4、没有考虑站内搜索相似内容网页的自动推送,不能实现站内相似内容网页无触发自动搜索与推送。为解决上述问题,本专利技术在现有技术基础上,采用“最大熵和”、“最小熵差”来计算网页内容差异度,为每个网页建立相似内容索引Sim-Index,利用Sim-Index自动进行相似内容搜索;通过改进现有技术搜索结果链接显示方法,自动跟踪用户浏览网页内容的变化,主动搜索相似内容网页并进行信息推送;通过与站内网页结合,进行站内无触发自动搜索。实现了搜索引擎智能化主动搜索与信息推送,用户更容易找到关注内容网页,提高了搜索引擎的自动化、智能化水平。
技术实现思路
为解决现有技术存在的问题,本专利技术目的是提供了一种基于内容相似度计算的自动搜索引擎构建方法。为实现本专利技术目的所采用的技术方案是:一种网页内容相似度计算方法,利用蜘蛛程序爬取网页、分词;(1)用词频数TF除以所有爬取网页中包含该词的网页数Dt为词权重Wj,Wj=TF/Dt;(2)从每个网页Pi的标题和正文中,选出前m个词权重Wj最大的词,作为每个网页Pi的代表词组PWi,其中1≤i≤n,n为所爬取的网页数,m≥2,1≤j≤m;(3)计算每个网页Pi的代表词组PWi与其它网页Pk代表词组PWk之间的差异度Dif(k,i)为网页内容差异度,其中k≠i,1≤k≤n;(4)在计算两个网页Pi与Pk内容差异度Dif(k,i)之前,先求两个网页代表词组PWi与PWk的交集PWk∩i=PWk∩PWi,当交集为空时,直接判定两网页内容不相似,结束计算;(5)如果两个网页代表词组PWi与PWk的交集PWk∩i=PWk∩PWi不为空计算交集PWk∩i中的词在两个网页代表词组PWk与PWi中的词权重Wj之差的绝对值的和为内容差异度其中为交集PWk∩i中的第j个词在PWi中的词权重Wj,为交集PWk∩i中的第j个词在PWk中的词权重Wj,f为交集PWk∩i中的元素数量;(6)当Dif(k,i)=0且f=m时,直接判定两网页Pi与Pk的内容没有差异,结束计算;(7)当Dif(k,i)≠0、f≠m时,其中PWi-k为网页Pk的代表词组PWk在网页Pi的代表词组PWi中的相对补集PWi-k=PWi-PWk(χ∈PWi|χ∉PWk),Σj=1tPWi-kj]]>为相对补集PWi-k中的词在网页Pi代表词组PWi中的词权重Wj之和,t为相对补集PWi-k中的元素数量。所述的内容差异度Dif(k,i)计算方法,还可以考虑交集中的词数量f与代表词组PWi中的词数量m对内容差异度Dif(k,i)的影响,方法为:(1)如果交集不为空计算完Dif(k,i)后,当Dif(k,i)≠0、f≠m时,乘以惩罚函数(1-f/m),Dif(k,i)=Dis(k,i)×(1-f/m),以此来体现交集PWk∩i中元素数f越少、Dif(k,i)内容差异度越大;(2)如果交集不为空计算完内容差异度Dif(k,i)后,当Dif(k,i)≠0、f=m时,内容差异度Dif(k,i)不乘以惩罚函数(1-f/m),而是乘以一个系数r,Dif(k,i)=Dis(k,i)×r,r是一个0<r<0.1之间的小数。一种基于内容相似度计算的自动搜索引擎构建方法,通过蜘蛛程序爬取网页、分词、建立词索引,按用户输入关键词进行搜索,显示包含关键词网页的标题和摘要,在此基础上,为爬取的每个网页建立相似内容索引、提供智能化主动搜索机制:(1)用词频数TF除以所有爬取网页中包含该词的网页数Dt为词权重Wj=TF/Dt;(2)从每个网页Pi的标题和正文中,选出前m个词权重Wj最大的词,作为每个网页Pi的代表词组PWi,其中1≤i≤n,n为网页数,m≥2,1≤j≤m;(3)计算每个网页Pi的代表词组PWi与其它网页Pk代表词组PWk之间的差异度Dif(k,i)为网页内容差异度,其中k≠i,1≤k≤n;(4)用内容差异度Dif(k,i)为每个网页Pi建立其它网页Pk对本网页Pi的相似内容索引Sim-Index;(5)搜索方法为,用户输入关键词进行搜索时,先在词索引中搜索包含关键词的网页,然后为每个搜索出的网页在Sim-Index中搜索相似内容网页;(6)搜索结果显示方法为,在现有技术搜索结果显示方法基础上,为每个搜索出包含关键词的网页Pi,显示一组按内容差异度Dif(k,i)值由小到大排序的相似内容网页的标题和摘要;(7)自动搜索与信息推送方法为,当用户输入关键词搜索后,在搜索结果中选择链接网页Pi时,在Sim-Index中搜索网页Pi的相似内容网页,在显示网页Pi时,推送显示一组按内容差异度Dif(k,i)值由小到大排序的相似内容网页的标题和摘要列表,用户点击列表中的标题,继续重复上述“在搜索结果中选择链接网页Pi时”以后的过程。所述的分词、计算词权重Wj、建立词索引、选择代表词组PWi和相似内容索引Sim-Index要进行判断:(1)对没有具体内容全部为链接标题所组成的导航网页不进行分词、不计算词权重Wj、不建立词索引、不选择代表词组PWi,不参与相似内容索引Sim-Index;(2)对非导航网页中链接标题中出现的文本,不进行分词、不计算词权重Wj、不建立词索引、不选择代表词组PWi。所述的内容差异度Dif(k,i)计算方法为:(1)在计算两个网页Pi与Pk内容差异度Dif(k,i)之前,先求两个网页代表词组PWi与PWk的交集PWk∩本文档来自技高网
...
一种基于内容相似度计算的自动搜索引擎构建方法

【技术保护点】
一种网页内容相似度计算方法,利用蜘蛛程序爬取网页、分词,其特征在于:(1)用词频数TF除以所有爬取网页中包含该词的网页数Dt为词权重Wj,Wj=TF/Dt;(2)从每个网页Pi的标题和正文中,选出前m个词权重Wj最大的词,作为每个网页Pi的代表词组PWi,其中1≤i≤n,n为所爬取的网页数,m≥2,1≤j≤m;(3)计算每个网页Pi的代表词组PWi与其它网页Pk代表词组PWk之间的差异度Dif(k,i)为网页内容差异度,其中k≠i,1≤k≤n;(4)在计算两个网页Pi与Pk内容差异度Dif(k,i)之前,先求两个网页代表词组PWi与PWk的交集PWk∩i=PWk∩PWi,当交集为空时,直接判定两网页内容不相似,结束计算;(5)如果两个网页代表词组PWi与PWk的交集PWk∩i=PWk∩PWi不为空计算交集PWk∩i中的词在两个网页代表词组PWk与PWi中的词权重Wj之差的绝对值的和为内容差异度其中为交集PWk∩i中的第j个词在PWi中的词权重Wj,为交集PWk∩i中的第j个词在PWk中的词权重Wj,f为交集PWk∩i中的元素数量;(6)当Dif(k,i)=0且f=m时,直接判定两网页Pi与Pk的内容没有差异,结束计算;(7)当Dif(k,i)≠0、f≠m时,其中PWi‑k为网页Pk的代表词组PWk在网页Pi的代表词组PWi中的相对补集PWi-k=PWi-PWk(χ∈PWi|χ∉PWk),Σj=1tPWi-kj]]>为相对补集PWi‑k中的词在网页Pi代表词组PWi中的词权重Wj之和,t为相对补集PWi‑k中的元素数量。...

【技术特征摘要】
1.一种网页内容相似度计算方法,利用蜘蛛程序爬取网页、分词,其特
征在于:
(1)用词频数TF除以所有爬取网页中包含该词的网页数Dt为词权重
Wj,Wj=TF/Dt;
(2)从每个网页Pi的标题和正文中,选出前m个词权重Wj最大的词,
作为每个网页Pi的代表词组PWi,其中1≤i≤n,n为所爬取的网页数,m≥2,
1≤j≤m;
(3)计算每个网页Pi的代表词组PWi与其它网页Pk代表词组PWk之间的
差异度Dif(k,i)为网页内容差异度,其中k≠i,1≤k≤n;
(4)在计算两个网页Pi与Pk内容差异度Dif(k,i)之前,先求两个网页代表
词组PWi与PWk的交集PWk∩i=PWk∩PWi,当交集为空时,直接判定
两网页内容不相似,结束计算;
(5)如果两个网页代表词组PWi与PWk的交集PWk∩i=PWk∩PWi不为空
计算交集PWk∩i中的词在两个网页代表词组PWk与PWi中的词权重
Wj之差的绝对值的和为内容差异度其中为交集
PWk∩i中的第j个词在PWi中的词权重Wj,为交集PWk∩i中的第j个词在PWk中的词权重Wj,f为交集PWk∩i中的元素数量;
(6)当Dif(k,i)=0且f=m时,直接判定两网页Pi与Pk的内容没有差异,
结束计算;
(7)当Dif(k,i)≠0、f≠m时,其中PWi-k为网
页Pk的代表词组PWk在网页Pi的代表词组PWi中的相对补集
PWi-k=PWi-PWk(χ∈PWi|χ∉PWk),Σj=1tPWi-kj]]>为相对补集PWi-k中的词在网页Pi代
表词组PWi中的词权重Wj之和,t为相对补集PWi-k中的元素数量。
2.权利要求1中所述的一种网页内容相似度计算方法,其特征在于:所

\t述的内容差异度Dif(k,i)计算方法,还可以考虑交集中的词数量f与代表词组
PWi中的词数量m对内容差异度Dif(k,i)的影响,方法为:
(1)如果交集不为空计算完Dif(k,i)后,当Dif(k,i)≠0、f≠m
时,乘以惩罚函数(1-f/m),Dif(k,i)=Dis(k,i)×(1-f/m),以此来体现交集PWk∩i中元素数f越少、Dif(k,i)内容差异度越大;
(2)如果交集不为空计算完内容差异度Dif(k,i)后,当
Dif(k,i)≠0、f=m时,内容差异度Dif(k,i)不乘以惩罚函数(1-f/m),而是乘
以一个系数r,Dif(k,i)=Dis(k,i)×r,r是一个0<r<0.1之间的小数。
3.一种基于内容相似度计算的自动搜索引擎构建方法,通过蜘蛛程序爬
取网页、分词、建立词索引,按用户输入关键词进行搜索,显示包含关键词
网页的标题和摘要,在此基础上,为爬取的每个网页建立相似内容索引、提
供智能化主动搜索机制,其特征在于:
(1)用词频数TF除以所有爬取网页中包含该词的网页数Dt为词权重
Wj=TF/Dt;
(2)从每个网页Pi的标题和正文中,选出前m个词权重Wj最大的词,
作为每个网页Pi的代表词组PWi,其中1≤i≤n,n为网页数,m≥2,1≤j≤m;
(3)计算每个网页Pi的代表词组PWi与其它网页Pk代表词组PWk之间的
差异度Dif(k,i)为网页内容差异度,其中k≠i,1≤k≤n;
(4)用内容差异度Dif(k,i)为每个网页Pi建立其它网页Pk对本网页Pi的相
似内容索引Sim-Index;
(5)搜索方法为,用户输入关键词进行搜索时,先在词索引中搜索包含
关键词的网页,然后为每个搜索出的网页在Sim-Index中搜索相似内容网页;
(6)搜索结果显示方法为,在现有技术搜索结果显示方法基础上,为每
个搜索出包含关键词的网页Pi,显示一组按内容差异度Dif(k,i)值由小到大排
序的相似内容网页的标题和摘要;
(7)自动搜索与信息推送方法为,当用户输入关键词搜索后,在搜索结
果中选择链接网页Pi时,在Sim-Index中搜索网页Pi的相似内容网页,在显
示网页Pi时,推送显示一组按内容差异度Dif(k,i)值由小到大排序的相似内容
网页的标题和摘要列表,用户点击列表中的标题,继续重复上述“在搜索结

\t果中选择链接网页Pi时”以后的过程。
4.按权利要求3所述的一种基于内容相似度计算的自动搜索引擎构建方
法,其特征在于:所述的分词、计算词权重Wj、建立词索引、选择代表词组
PWi和相似内容索引Sim-Index要进行判断:
(1)对没有具体内容全部为链接标题所组成的导航网页不进行分词、不
计算词权重Wj、不建立词索引、不选择代表词组PWi,不参与相似内容索引
Sim-Index;
(2)对非导航网页中链接标题中出现的文本,不进行分词、不计算词权
重Wj、不建立词索引、不选择代表词组PWi。...

【专利技术属性】
技术研发人员:刘峰
申请(专利权)人:刘峰
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1