网站的三元组挖掘方法以及三元组挖掘装置制造方法及图纸

技术编号:10676837 阅读:307 留言:0更新日期:2014-11-26 11:50
本发明专利技术提供了一种挖掘网站的三元组的方法以及三元组挖掘装置,该方法包括:收集网站的所有网页,并统计所有网页中的每个超链接的锚文本和每个超链接所指向的网页地址URL;统计与URL对应的网页中的超链接锚文本的出现频度,并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体;将确定的主实体的三元组作为种子三元组来提取网页的模板;将得到的模板与网站的其它网页匹配以提取新的三元组;将提取的新的三元组作为种子三元组,重复执行模板提取、网页匹配和新三元组的提取的操作,直到不再从该网站的网页中提取出新的三元组为止。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种挖掘网站的三元组的方法以及三元组挖掘装置,该方法包括:收集网站的所有网页,并统计所有网页中的每个超链接的锚文本和每个超链接所指向的网页地址URL;统计与URL对应的网页中的超链接锚文本的出现频度,并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体;将确定的主实体的三元组作为种子三元组来提取网页的模板;将得到的模板与网站的其它网页匹配以提取新的三元组;将提取的新的三元组作为种子三元组,重复执行模板提取、网页匹配和新三元组的提取的操作,直到不再从该网站的网页中提取出新的三元组为止。【专利说明】 网站的三元组挖掘方法以及三元组挖掘装置
本专利技术涉及互联网
,更具体地,涉及一种用于挖掘外部网站的网页的三元组的方法以及三元组挖掘装置。
技术介绍
在互联网搜索领域中,通常需要获得网站的网页内容的三元组(实体-属性名-属性值)。而在现有技术中,需要编写提取模板来从网站的每个网页手动提取三元组。这种方式的缺点在于,针对每个网站编写的提取模板的复用性低,需要为每个网站专门编写模板,因此,对于网站的网页的三元组挖掘效率低并本文档来自技高网...
网站的三元组挖掘方法以及三元组挖掘装置

【技术保护点】
一种挖掘网站的三元组的方法,包括:(a)收集网站的所有网页,并统计所有网页中的每个超链接的锚文本和每个超链接所指向的网页地址URL;(b)统计与URL对应的网页中的超链接锚文本的出现频度,并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体;(c)将包括步骤(b)确定的主实体的三元组作为种子三元组来提取网页的模板;(d)将步骤(c)得到的模板与网站的其它网页匹配以提取新的三元组;其中,将在步骤(d)提取的新的三元组作为种子三元组,重复执行步骤(c)和步骤(d),直到在步骤(d)不再从该网站的网页中提取出新的三元组为止。

【技术特征摘要】

【专利技术属性】
技术研发人员:李永强
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1