网页正文的提取方法、装置、服务器和存储介质制造方法及图纸

技术编号:23933101 阅读:51 留言:0更新日期:2020-04-25 02:10
本发明专利技术实施例提供了一种网页正文的提取方法、装置、服务器和存储介质。该网页正文的提取方法包括:接收用户输入的查询关键字;基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本。通过使用多个提取引擎提取正文文本,再确定目标正文文本,达到获取高质量的正文信息,提高正文信息内容的准确性的效果。

Extraction method, device, server and storage medium of web page text

【技术实现步骤摘要】
网页正文的提取方法、装置、服务器和存储介质
本专利技术实施例涉及计算机应用
,尤其涉及一种网页正文的提取方法、装置、服务器和存储介质。
技术介绍
目前,互联网已成为人们获取信息的重要资源,而提取引擎是人们获取互联网上网页的正文信息的主要工具。目前,获取正文信息的主流方法是输入关键字,通过搜索引擎(例如百度引擎)对关键字进行搜索,将搜索的结果展示在HTML的页面中。再通过单个提取引擎对页面进行提取,从而得到正文信息,展示给用户。然而,由于网页结构的多样性,使用单个提取引擎对页面进行提取得到正文信息时,对于某些网页解析的效果并不好,得到正文信息质量低,正文信息的内容不准确。
技术实现思路
本专利技术实施例提供一种网页正文的提取方法、装置、服务器和存储介质,以实现获取高质量的正文信息,提高正文信息内容的准确性的效果。第一方面,本专利技术实施例提供了一种网页正文的提取方法,包括:接收用户输入的查询关键字;基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果本文档来自技高网...

【技术保护点】
1.一种网页正文的提取方法,其特征在于,包括:/n接收用户输入的查询关键字;/n基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;/n基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;/n基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本。/n

【技术特征摘要】
1.一种网页正文的提取方法,其特征在于,包括:
接收用户输入的查询关键字;
基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;
基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;
基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本。


2.如权利要求1所述的网页正文的提取方法,其特征在于,所述基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本,包括:
计算所述摘要信息的摘要哈希值,以及对应每一个正文文本的多个正文哈希值;
根据所述摘要哈希值和多个正文哈希值,确定对应每一个正文文本的多个海明距离;
根据所述多个海明距离确定所述目标正文文本。


3.如权利要求2所述的网页正文的提取方法,其特征在于,所述根据所述多个海明距离确定所述目标正文文本,包括:
在所述多个海明距离中确定目标海明距离;
确定所述目标海明距离对应的正文文本的第一文本数量;
判断所述目标海明距离和所述第一文本数量是否满足预设条件;
如果所述目标海明距离和所述第一文本数量满足预设条件,则将所述目标海明距离对应的正文文本作为所述目标正文文本;
如果所述目标海明距离和所述第一文本数量不满足预设条件,则基于匹配规则确定所述目标正文文本。


4.如权利要求3所述的网页正文的提取方法,其特征在于,所述如果所述目标海明距离和所述第一文本数量满足预设条件,则将所述目标海明距离对应的正文文本作为所述目标正文文本,包括:
如果所述目标海明距离小于或等于海明距离阈值,且所述第一文本数量大于第一数量阈值,则将所述目标海明距离对应的正文文本作为所述目标正文文本。


5.如权利要求3所述的网页正文的提取方法,其特征在于,所述详情页信息包括对应所述正文文本的原始文本,所述基于匹配规则确定所述目标正文文本,包括:
...

【专利技术属性】
技术研发人员:方志杰房海灏熊兴文
申请(专利权)人:深圳市朱墨科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1