一种确定网络资源点的抓取频率的装置和方法制造方法及图纸

技术编号:9668048 阅读:93 留言:0更新日期:2014-02-14 06:37
本发明专利技术公开了一种确定网络资源点的抓取频率的装置和方法,用于确定网络资源点的抓取频率以提高搜索质量,该方法包括如下步骤:由网络资源点抓取多个待分析问答对;根据包括多条问答知识记录的问答知识库,获取每个待分析问答对的相关联程度;根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率。使用本发明专利技术的装置和方法,可以通过评价网络资源点的问答对的质量而评价网络资源点的质量,进而根据网络资源点的质量确定抓取频率,可以提高搜索的质量。

【技术实现步骤摘要】
一种确定网络资源点的抓取频率的装置和方法
本专利技术涉及网络数据分析领域,具体涉及一种确定网络资源点的抓取频率的装置和方法。
技术介绍
问答社区是一种用户产生内容的网络应用,基本形式是由用户根据自己的需求提出问题,并由其他的用户来给出回答。这种形式为用户在网络上获取信息提供了新的渠道。然而由于任何用户都可以随意地创建内容,导致了问答社区中的信息质量差异非常大,以至于问答社区中出现了大量的低质量问答对。这不但降低了问答社区的质量,更给用户查找信息带来了诸多不便,例如,使用现有的搜索技术进行问答搜索时,难以判断问答社区作为网络资源点的质量而现有技术(例如,爬虫蜘蛛)的对网络资源点设置抓取频率方法,更多地依赖于问答对网站的链接的分析,这样的方法用于问答搜索,不能从语义上分析问答对也不能根据网络资源点的质量调整抓取频率(或,爬取细度、爬取频率),会影响搜索的精确性和通用性。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种确定网络资源点的搜索排名的装置和相应的确定网络资源点的搜索排名的方法。依据本专利技术的一个方面,提供了一种确定网络资源点的抓取频率的装置,该装置包括:问答知识库,适于存储多条问答知识记录;资源分析单元,适于由网络资源点抓取多个待分析问答对;相关联程度计算单元,适于根据问答知识库获取每个待分析问答对的相关联程度;抓取频率确定单元,根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率。可选地,所述相关联程度计算单元包括:词语提取子单元,适于对待分析的问答对的问题内容和答案内容进行词语提取操作,得到至少一个待分析问题词语和至少一个待分析答案词语;计算子单元,适于根据待分析问题词语和待分析答案词语,从问答知识库选择至少一条问答知识记录,根据所选择的问答知识记录计算待分析的问答对的相关联程度。可选地,所述抓取频率确定单元,适于以所述待分析问答对的相关联程度的平均值作为所述网络资源点的抓取频率;或,使用蜘蛛爬虫获取所述网络资源点的初始抓取频率,计算所述待分析问答对的相关联程度的平均值,使用该平均值调整所述初始抓取频率而确定所述网络资源点的抓取频率。可选地,该装置还包括问答知识库构建单元,所述问答知识库构建单元,适于预先从含有问答对的网页提取出多个问答对,根据提取的问答对构建包括多条问答知识记录的问答知识库;所述问答知识库构建单元,进一步适于在从含有问答对的网页提取出多个问答对时,抓取与所述问答对对应的类别;所述问答知识库构建单元,进一步适于在根据提取的问答对构建问答知识库时,根据问答对和与所述问答对对应的类别构建问答知识记录;每个问答知识记录对应于一个类别,分别包括一个问题词语、一个答案词语,以及所述问题词语和所述答案词语之间的语义相关度。可选地,所述计算子单元,适于选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录;根据所述选取的问答知识记录中对应于相同类别的问答知识记录,得到该待分析的问答对针对各个类别的相关联程度;选取上述该待分析的问答对针对各个类别的相关联程度的最大值,以该最大值作为待分析的问答对的相关联程度。可选地,所述计算子单元,适于将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加,得到该待分析的问答对分别针对各个类别的相关联程度。可选地,所述词语提取子单元,适于对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并,和提取实体词的操作。可选地,所述问答知识库构建单元,适于对每个问答对执行以下操作:对该问答对的问题内容和答案内容进行词语提取操作,得到问题词语集合和答案词语集合;令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录;所述问答知识库构建单元,适于对每一条信息记录,执行以下操作:计算该答案词语属于该类别的概率,计算在该类别上该答案词语对该问题词语的解释的专一程度,计算在该类别上该问题词语用该答案词语进行解释的强度;将上述概率、专一程度和强度相乘,所得到的乘积是该答案词语和该问题词语的语义相关度;令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。可选地,所述问答知识库构建单元,适于按照如下的方法计算该答案词语属于该类别的概率:所述问答知识库构建单元,适于按照如下的方法计算在该类别上各个答案词语对该问题词语的解释的专一程度:所述问答知识库构建单元,适于按照如下的方法计算在该类别上该问题词语用各个答案词语进行解释的强度:所述问答知识库构建单元,适于按照如下的方法将上述概率、专一程度和强度相乘:weight(QWi,AWj|C=Ck)=P(Ck|AWj)*specific(QWi,AWj|C=Ck)*interpret(QWi,AWj|C=Ck);其中,P(Ck)表示类别Ck出现的概率;P(AWj)表示答案为AWj的概率;P(AWj│Ck)表示Ck类别属于AWj的概率;#(QWi,AWj)表示问题词语为QWi且答案词语为AWj的次数;#(AWj)表示答案词语为AWj的次数。根据本专利技术的另一方面,提供了一种确定网络资源点的抓取频率的方法,该方法包括如下步骤:由网络资源点抓取多个待分析问答对;根据包括多条问答知识记录的问答知识库,获取每个待分析问答对的相关联程度;根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率。可选地,所述根据问答知识库获取每个待分析问答对的相关联程度,包括对每个待分析问答对执行以下操作:对该待分析的问答对的问题内容和答案内容进行词语提取操作,得到至少一个待分析问题词语和至少一个待分析答案词语;根据待分析问题词语和待分析答案词语,从问答知识库选择至少一条问答知识记录,根据所选择的问答知识记录计算该待分析的问答对的相关联程度。可选地,所述根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率,具体包括:以所述待分析问答对的相关联程度的平均值作为所述网络资源点的抓取频率;或,使用蜘蛛爬虫获取所述网络资源点的初始抓取频率,计算所述待分析问答对的相关联程度的平均值,使用该平均值调整所述初始抓取频率而确定所述网络资源点的抓取频率。可选地,该方法进一步包括:预先从含有问答对的网页提取出多个问答对,根据提取的问答对构建包括多条问答知识记录的问答知识库;在从含有问答对的网页提取出多个问答对时,抓取与所述问答对对应的类别;在根据提取的问答对构建问答知识库时,根据问答对和与所述问答对对应的类别构建问答知识记录;每个问答知识记录对应于一个类别,分别包括一个问题词语、一个答案词语,以及所述问题词语和所述答案词语之间的语义相关度。可选地,所述根据待分析问题词语和待分析答案词语,从问答知识库选择至少一条问答知识记录,根据所选择的问答知识记录计算待分析的问答对的相关联程度,具体包括:选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录;根据所述选取的问答知识记录中对应于相同类别的问答知识记录,得到该待分析的问答对针对各个类别的相关联程度;选取上述该待分析的问答对针对各个类别的相关联程度的最大值,以该最大值作为待分析的问答对的相关联程度。可选地,本文档来自技高网...
一种确定网络资源点的抓取频率的装置和方法

【技术保护点】
一种确定网络资源点的抓取频率的装置,该装置包括:问答知识库,适于存储多条问答知识记录;资源分析单元,适于由网络资源点抓取多个待分析问答对;相关联程度计算单元,适于根据问答知识库获取每个待分析问答对的相关联程度;抓取频率确定单元,根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率。

【技术特征摘要】
1.一种确定网络资源点的抓取频率的装置,该装置包括:问答知识库,适于存储多条问答知识记录;资源分析单元,适于由网络资源点抓取多个待分析问答对;相关联程度计算单元,适于根据问答知识库获取每个待分析问答对的相关联程度;抓取频率确定单元,根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率;该装置还包括问答知识库构建单元,所述问答知识库构建单元,适于预先从含有问答对的网页提取出多个问答对,根据提取的问答对构建包括多条问答知识记录的问答知识库。2.根据权利要求1所述的装置,其中,所述相关联程度计算单元包括:词语提取子单元,适于对待分析的问答对的问题内容和答案内容进行词语提取操作,得到至少一个待分析问题词语和至少一个待分析答案词语;计算子单元,适于根据待分析问题词语和待分析答案词语,从问答知识库选择至少一条问答知识记录,根据所选择的问答知识记录计算待分析的问答对的相关联程度。3.根据权利要求1所述的装置,其中,所述抓取频率确定单元,适于以所述待分析问答对的相关联程度的平均值作为所述网络资源点的抓取频率;或,使用蜘蛛爬虫获取所述网络资源点的初始抓取频率,计算所述待分析问答对的相关联程度的平均值,使用该平均值调整所述初始抓取频率而确定所述网络资源点的抓取频率。4.根据权利要求1-3任一项所述的装置,其中,所述问答知识库构建单元,进一步适于在从含有问答对的网页提取出多个问答对时,抓取与所述问答对对应的类别;所述问答知识库构建单元,进一步适于在根据提取的问答对构建问答知识库时,根据问答对和与所述问答对对应的类别构建问答知识记录;每个问答知识记录对应于一个类别,分别包括一个问题词语、一个答案词语,以及所述问题词语和所述答案词语之间的语义相关度。5.根据权利要求2所述的装置,其中,所述计算子单元,适于选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录;根据所述选取的问答知识记录中对应于相同类别的问答知识记录,得到该待分析的问答对针对各个类别的相关联程度;选取上述该待分析的问答对针对各个类别的相关联程度的最大值,以该最大值作为待分析的问答对的相关联程度。6.根据权利要求5所述的装置,其中,所述计算子单元,适于将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加,得到该待分析的问答对分别针对各个类别的相关联程度。7.根据权利要求2所述的装置,其中,所述词语提取子单元,适于对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并,和提取实体词的操作。8.根据权利要求4所述的装置,其中,所述问答知识库构建单元,适于对每个问答对执行以下操作:对该问答对的问题内容和答案内容进行词语提取操作,得到问题词语集合和答案词语集合;令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录;所述问答知识库构建单元,适于对每一条信息记录,执行以下操作:计算该答案词语属于该类别的概率,计算在该类别上该答案词语对该问题词语的解释的专一程度,计算在该类别上该问题词语用该答案词语进行解释的强度;将上述概率、专一程度和强度相乘,所得到的乘积是该答案词语和该问题词语的语义相关度;令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。9.根据权利要求8所述的装置,其中,所述问答知识库构建单元,适于按照如下的方法计算该答案词语属于该类别的概率:所述问答知识库构建单元,适于按照如下的方法计算在该类别上各个答案词语对该问题词语的解释的专一程度:所述问答知识库构建单元,适于按照如下的方法计算在该类别上该问题词语用各个答案词语进行解释的强度:所述问答知识库构建单元,适于按照如下的方法将上述概率、专一程度和强度相乘:weight(QWi,AWj|C=Ck)=P(Ck|AWj)*specific(QWi,AWj|C=Ck)*interpret(QWi,AWj|C=Ck);其中,P(Ck)表示类别Ck出现的概率;P(AWj)表示答案为AWj的概率;P(AWj│Ck)表示Ck类别属于AWj的概率;#(QWi,AWj)表示问题词语为QWi且答案词语为AWj的次数;#(AWj)表示答案词语为AWj的次数。10.一种确定网络资源点的抓取频率的方法,该方法包括如下步骤:由网络资源点抓取多个...

【专利技术属性】
技术研发人员:孙林陈培军秦吉胜
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1