一种数据处理的方法及装置制造方法及图纸

技术编号:25802890 阅读:21 留言:0更新日期:2020-09-29 18:36
本申请提供一种数据处理的方法及装置,所述方法包括:根据搜索关键词,爬取得到与所述搜索关键词相关的网页的数据;基于所述网页的数据和所述网页对应的搜索关键词计算得出所述网页的置信度;按照置信度由高到低的顺序展示所述网页的信息;其中,所述网页的置信度用于表示网页与搜索关键词的匹配度。上述技术方案可以为用户推荐更加精准的网页信息。

【技术实现步骤摘要】
一种数据处理的方法及装置
本专利技术涉及计算机领域,尤其涉及数据处理处理的方法及装置。
技术介绍
随着互联网创新和大数据时代的日益更新,爬虫需求呈爆炸式增长。目但是,为用户推荐的网页通常不够精准,用户往往还需要在推荐的网页中再次查找,甚至差不到自己需要的信息,因此体验度较差。
技术实现思路
本申请所要解决的技术是提供一种数据方法及装置,可以为用户推荐更加精准的网页信息。为了解决上述技术问题,本申请提供一种数据处理方法,包括:根据搜索关键词,爬取得到与所述搜索关键词相关的网页的数据;基于所述网页的数据和所述网页对应的搜索关键词计算得出所述网页的置信度;按照置信度由高到低的顺序展示所述网页的信息;其中,所述网页的置信度用于表示网页与搜索关键词的匹配度。在一种示例性实例中,基于所述网页的数据和所述网页对应的搜索关键词计算得出所述网页的置信度,包括:基于所述网页的文本,使用文本排序算法计算得出所述网页中最重要的N个词汇,N为大于或者等于1的正整数;对所述网页的文本和所述搜索关键词进行模式匹配,从匹配到的搜索关键词中选出文档词频值最大的M个词汇,M为大于或者等于1的正整数;根据所述匹配到的搜索关键词的文档词频值,以及所述N个词汇和所述M个词汇中相同词汇的数量,计算得出所述网页的置信度。在一种示例性实例中,所述根据所述匹配到的搜索关键词的文档词频值,以及所述N个词汇和所述M个词汇中相同词汇的数量,计算得出所述网页的置信度,包括:<br>将权重乘以所述M个词汇的文档词频值之和或者乘以所述匹配到的所有搜索关键词的文档词频值之和,作为所述网页的置信度;其中,所述权重为根据所述N个词汇和所述M个词汇中相同词汇的数量得出。在一种示例性实例中,所述按照置信度由高到低的顺序展示所述网页的信息之后,所述方法还包括:接收用户对任一网页的评分信息;根据所述评分信息和置信度对所述网页重新排序。在一种示例性实例中,所述爬取得到与所述搜索关键词相关的网页的数据包括以下内容中的一项或多项:网页所属网站的名称、地址和截图;网页的信息包括以下内容中的一项或多项:网页所属网站的名称、地址、截图、网页对应的置信度。在一种示例性实例中,所述根据搜索关键词,爬取得到与所述搜索关键词相关的网页的数据包括:将所述搜索关键词组装成统一资源定位符URL信息;将所述URL信息发送给搜索引擎,通过搜索引擎爬取得到与所述关键词相关的网页的待处理数据;其中,所述待处理数据中包括爬取到的与搜索键词对应的网页的地址信息;删除所述待处理数据中地址信息重复的数据,将剩余的待处理数据进行格式化处理后作为有效数据;根据所述有效数据得出所述搜索关键词相关的网页的数据。在一种示例性实例中,所述根据搜索关键词,爬取得到与所搜索关键词相关的网页的待处理数据之前,所述方法还包括:获取预定路径上的配置文件,所述配置文件中包含用户配置的搜索关键词;自动加载所述配置文件中携带的搜索关键词。在一种示例性实例中,所述配置文件中的搜索关键词分为多组,执行所述数据处理方法的系统运行多个并行的线程,每一线程根据一组搜索关键词爬取得到与所述搜索关键词相关的网页的数据,并基于所述网页的数据和该组搜索关键词计算得出所述网页的置信度;然后,按照置信度由高到低的顺序分别展示每一线程抓取得到的所述网页的信息;或者将多个所述线程抓取得到的所述网页的置信度进行综合排序,按照置信度由高到低的顺序展示多个所述线程抓取得到的所述网页的信息。本申请还提供一种数据处理装置,包括:存储器和处理器;所述存储器,用于保存用于数据处理的程序;所述处理器,用于读取所述用于数据处理的程序,执行前述任一所述的方法。本申请还提供一种计算机存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行前述任一所述的方法。本申请提供一种数据处理的方法及装置,所述方法包括:根据搜索关键词,爬取得到与所述搜索关键词相关的网页的数据;基于所述网页的数据和所述网页对应的搜索关键词计算得出所述网页的置信度;按照置信度由高到低的顺序展示所述网页的信息;其中,所述网页的置信度用于表示网页与搜索关键词的匹配度。上述技术方案可以为用户推荐更加精准的网页信息。附图说明附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。图1是本专利技术实施例一的数据处理方法的流程图;图2是本专利技术实施例一的数据处理装置的结构示意图;图3是示例一的数据处理方法的流程图。具体实施方式本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的专利技术方案。任何实施例的任何特征或元件也可以与来自其它专利技术方案的特征或元件组合,以形成另一个由权利要求限定的独特的专利技术方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。实施例一如图1所示,本实施例提供一种数据处理方法,包括:步骤S101、根据搜索关键词,爬取得到与所述搜索关键词相关的网页的数据;步骤S102、基于所述网页的数据和所述网页对应的搜索关键词计算得出所述网页的置信度;步骤S103、按照置信度由高到低的顺序展示所述网页的信息;其中,所述网页的置信度用于表示网页与搜索关键词的匹配度。上述技术方案可以按照网页与搜索关键词的匹配度显示网页,从而可以提本文档来自技高网...

【技术保护点】
1.一种数据处理方法,包括:/n根据搜索关键词,爬取得到与所述搜索关键词相关的网页的数据;/n基于所述网页的数据和所述网页对应的搜索关键词计算得出所述网页的置信度;/n按照置信度由高到低的顺序展示所述网页的信息;/n其中,所述网页的置信度用于表示网页与搜索关键词的匹配度。/n

【技术特征摘要】
1.一种数据处理方法,包括:
根据搜索关键词,爬取得到与所述搜索关键词相关的网页的数据;
基于所述网页的数据和所述网页对应的搜索关键词计算得出所述网页的置信度;
按照置信度由高到低的顺序展示所述网页的信息;
其中,所述网页的置信度用于表示网页与搜索关键词的匹配度。


2.如权利要求1所述的方法,其特征在于,基于所述网页的数据和所述网页对应的搜索关键词计算得出所述网页的置信度,包括:
基于所述网页的文本,使用文本排序算法计算得出所述网页中最重要的N个词汇,N为大于或者等于1的正整数;
对所述网页的文本和所述搜索关键词进行模式匹配,从匹配到的搜索关键词中选出文档词频值最大的M个词汇,M为大于或者等于1的正整数;
根据所述匹配到的搜索关键词的文档词频值,以及所述N个词汇和所述M个词汇中相同词汇的数量,计算得出所述网页的置信度。


3.如权利要求2所述的方法,其特征在于,所述根据所述匹配到的搜索关键词的文档词频值,以及所述N个词汇和所述M个词汇中相同词汇的数量,计算得出所述网页的置信度,包括:
将权重乘以所述M个词汇的文档词频值之和或者乘以所述匹配到的所有搜索关键词的文档词频值之和,作为所述网页的置信度;
其中,所述权重为根据所述N个词汇和所述M个词汇中相同词汇的数量得出。


4.如权利要求1所述的方法,其特征在于,所述按照置信度由高到低的顺序展示所述网页的信息之后,所述方法还包括:
接收用户对任一网页的评分信息;
根据所述评分信息和置信度对所述网页重新排序。


5.如权利要求1所述的方法,其特征在于:
所述爬取得到与所述搜索关键词相关的网页的数据包括以下内容中的一项或多项:网页所属网站的名称、地址和截图;
网页的信息包括以下内容中的一项或多项:网页所属网站的名称、地址、截图、网...

【专利技术属性】
技术研发人员:文小兵
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1