网络小说章节列表评估方法及装置制造方法及图纸

技术编号:12826115 阅读:144 留言:0更新日期:2016-02-07 15:00
本发明专利技术涉及互联网技术领域,特别涉及一种网络小说章节列表评估方法及装置。所述方法包括有步骤:确定同一主体的多个章节列表页之间的相似度,将相似度高于预设阈值的多个章节列表页归类为同一集合,每个章节列表页对应于一个站点;获取同一集合内每个站点的权威值,将权威值的和值最大的集合作为第一集合,其中权威值根据多个用户对该站点的评分确定;获取第一集合内每个章节列表页的至少一个特征量值;根据预设规则计算每个章节列表页的至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页。解决了现有技术中通过人工配置模板进行章节列表页判断导致效率低的问题,能灵活、快速的评估出最符合要求的章节列表页,评估结果准确、客观。

【技术实现步骤摘要】
【专利说明】
本专利技术涉及互联网
,特别涉及一种网络小说章节列表评估方法及装置。【
技术介绍
】随着计算机和计算机网络的日益普及,互联网已经深入到人们工作、学习和生活的各个领域,成为人们发布和获取信息的重要途径。在互联网中,同一本电子书(例如小说等)通常同时在多个站点存在,因此当搜索电子书时,在检索结果中会展现多个存在该电子书的站点。但是同一本电子书在不同的站点的转载过程中,会存在章节列表名称不规范、章节重复、断章、无效章节等情况,对用户的体验造成了影响。通常,在现有的检索结果中排在最前面的站点是质量最好的一个站点,即存在章节列表名称不规范、章节重复、断章、无效章节等情况最少的站点,但是其章节列表页仍然可能是不完整的,甚至可能存在拼凑得到的虚假章节。现有技术中,通过对小说站点人工配置模板进行章节列表页的评估,该方法虽然准确率高,但是缺点也很明显:人力能覆盖的网站有限,不够智能。因此,如何灵活、快速以及准确的评估章节列表页成为目前需要解决的技术问题。【
技术实现思路
】本专利技术的目的旨在解决上述至少一个问题,提供了一种网络小说章节列表评估方法及装置。为实现该目的,本专利技术采用如下技术方案:本专利技术提供了一种网络小说章节列表评估方法,包括有如下步骤:确定同一主体的多个章节列表页之间的相似度,将相似度高于预设阈值的多个章节列表页归类为同一集合,每个章节列表页对应于一个站点;获取同一集合内每个站点的权威值,将权威值的和值最大的集合作为第一集合,其中权威值根据多个用户对该站点的评分确定;获取第一集合内每个章节列表页的至少一个特征量值;根据预设规则计算每个章节列表页的所述至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页。进一步的,在所述确定同一主体的多个章节列表页之间的相似度的步骤之前,还包括步骤:基于同一主体从多个站点获取该主体对应的章节列表页。具体的,所述确定同一主体的多个章节列表页之间的相似度,将相似度高于预设阈值的多个章节列表页归类为同一集合的步骤中,还包括步骤:依据所述章节列表页所对应站点的权威值,确定权威值最高的章节列表页为参照章节列表页;提取每一章节列表页的文字特征向量;计算每一章节列表页与所述参照章节列表页具有相同文字特征向量的总数;当该总数大于预设阈值时,将所述章节列表页与所述参照章节列表页归类为同一隹A 口 ο具体的,所述获取第一集合内每个章节列表页的至少一个特征量值的步骤中,包括:提取第一集合内每一章节列表页的文字特征向量;计算所述第一集合中每两个章节列表页具有相同文字特征向量的数量的第一平均值;计算某一章节列表页与多个其他章节列表页的相同文字特征向量的数量的第二平均值;依据所述第二平均值与所述第一平均值的差值大小,基于预设的完整性规则设定表征该章节列表页完整性的第一特征量值,其中该差值大小与第一特征量值相对应。进一步的,所述方法还包括有步骤:依据所述第二平均值与所述第一平均值的差值大小,基于预设的正确性规则设定表征该章节列表页正确性的第二特征量值,其中该差值大小与第二特征量值相对应。进一步的,所述获取第一集合内每个章节列表页的至少一个特征量值的步骤中,还包括:获取该第一集合内每个章节列表页对应于相同页码的章节列表中的文字特征向量,其中该页码所对应的数值大于预设的页码阈值;获取某一个章节列表页与多个其他章节列表页具有相同文字特征向量的总数;根据所述总数与预设的表征实新性的第二阈值的大小关系,判断该章节列表页是否为虚假章节列表页。具体的,根据所述总数与预设的表征实新性的第二阈值的大小关系,判断该章节列表页是否为虚假章节列表页的步骤,包括:当所述总数大于等于所述预设的第二阈值,确定所述章节列表页为有效章节列表页;当所述总数小于所述预设的第二阈值,确定所述章节列表页为虚假章节列表页。进一步的,确定所述章节列表页为虚假章节列表页之后,还包括步骤:过滤掉所述虚假章节列表页。进一步的,所述根据预设规则计算每个章节列表页的至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页的步骤中,包括:根据预设规则对同一章节列表页的至少一个特征量值进行加权处理,得到该章节列表页的综合权值;比较每个章节列表页对应的综合权值的大小;获取其中综合权值最大的章节列表页。进一步的,所述根据预设规则对同一章节列表页的至少一个特征量值进行加权处理,得到该章节列表页的综合权值的步骤中,包括:根据预设的对应于每个特定特征量值的权值,对该权值所对应的特征量值进行加权处理,所得结果为该章节列表页的综合权值,其中特定特征量值表征章节列表页完整性和/或正确性。具体的,所述确定同一主体的多个章节列表页之间的相似度的步骤中,还包括步骤:确定同一主体的多个章节列表页中章节列表名称的文本特征向量之间的相似度;和/或确定同一主体的多个章节列表页中对应于章节列表名称的页码的数值特征向量之间的相似度。本专利技术还提供了一种网络小说章节列表评估装置,包括有:归类模块,用于确定同一主体的多个章节列表页之间的相似度,将相似度高于预设阈值的多个章节列表页归类为同一集合,每个章节列表页对应于一个站点;分集模块,用于获取同一集合内每个站点的权威值,将权威值的和值最大的集合作为第一集合,其中权威值根据多个用户对该站点的评分确定;特征量获取模块,用于获取第一集合内每个章节列表页的至少一个特征量值;目标获取模块,用于根据预设规则计算每个章节列表页的所述至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页。进一步的,所述装置还包括有列表页获取模块,所述列表页获取模块,用于基于同一主体从多个站点获取该主体对应的章节列表页。具体的,所述归类模块还包括有:参照页确定单元,用于依据所述章节列表页所对应站点的权威值,确定权威值最高的章节列表页为参照章节列表页;第一提取单元,用于提取每一章节列表页的文字特征向量;第一计算单元,用于计算每一章节列表页与所述参照章节列表页具有相同文字特征向量的总数;第一归类单元,用于当该总数大于预设阈值时,将所述章节列表页与所述参照章节列表页归类为同一集合。具体的,所述特征量获取模块还包括有:第二提取单元,用于提取第一集合内每一章节列表页的文字特征向量;第一平均值计算单元,用于计算所述第一集合中每两个章节列表页具有相同文字特征向量的数量的第一平均值;第二平均值计算单元,用于计算某一章节列表页与多个其他章节列表页的相同文字特征向量的数量的第二平均值;第一设定单元,用于依据所述第二平均值与所述第一平均值的差值大小,基于预设的完整性规则设定表征该章节列表页完整性的第一特征量值,其中该差值大小与第一特征量值相对应。进一步的,本装置还包括有第二设定单元:所述第二设定单元,用于依据所述第二平均值与所述第一平均值的差值大小,基于预设的正确性规则设定表征该章节列表页正确性的第二特征量值,其中该差值大小与第二特征量值相对应。具体的,所述特征量获取模块还包括有:第一获取单元,用于获取该第一集合内每个章节列表页对应于相同页码的章节列表中的文字特征向量,其中该页码所对应的数值大于预设的页码阈值;总数获取单元,用于获取某一个章节列表页与多个其他章节列表页具有相同文字特征向量的总数;判断单元,用于根据所述总数与预设的表征实新性的第二阈值的大小关本文档来自技高网...

【技术保护点】
一种网络小说章节列表评估方法,其特征在于,包括有步骤:确定同一主体的多个章节列表页之间的相似度,将相似度高于预设阈值的多个章节列表页归类为同一集合,每个章节列表页对应于一个站点;获取同一集合内每个站点的权威值,将权威值的和值最大的集合作为第一集合,其中权威值根据多个用户对该站点的评分确定;获取第一集合内每个章节列表页的至少一个特征量值;根据预设规则计算每个章节列表页的所述至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页。

【技术特征摘要】

【专利技术属性】
技术研发人员:何建国
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1