网页正文的提取方法、装置、服务器和存储介质制造方法及图纸

技术编号：23933101 阅读：51 留言：0更新日期：2020-04-25 02:10

本发明专利技术实施例提供了一种网页正文的提取方法、装置、服务器和存储介质。该网页正文的提取方法包括：接收用户输入的查询关键字；基于搜索引擎对所述查询关键字进行查询，得到所述查询关键字对应的查询结果，所述查询结果包括摘要信息和详情页信息；基于多个提取引擎对所述详情页信息进行提取，得到多个正文文本，每个正文文本对应一个提取引擎；基于所述摘要信息和所述多个正文文本的匹配关系，在所述多个正文文本中确定目标正文文本。通过使用多个提取引擎提取正文文本，再确定目标正文文本，达到获取高质量的正文信息，提高正文信息内容的准确性的效果。

Extraction method, device, server and storage medium of web page text

全部详细技术资料下载

【技术实现步骤摘要】
网页正文的提取方法、装置、服务器和存储介质
本专利技术实施例涉及计算机应用
，尤其涉及一种网页正文的提取方法、装置、服务器和存储介质。
技术介绍
目前，互联网已成为人们获取信息的重要资源，而提取引擎是人们获取互联网上网页的正文信息的主要工具。目前，获取正文信息的主流方法是输入关键字，通过搜索引擎(例如百度引擎)对关键字进行搜索，将搜索的结果展示在HTML的页面中。再通过单个提取引擎对页面进行提取，从而得到正文信息，展示给用户。然而，由于网页结构的多样性，使用单个提取引擎对页面进行提取得到正文信息时，对于某些网页解析的效果并不好，得到正文信息质量低，正文信息的内容不准确。
技术实现思路
本专利技术实施例提供一种网页正文的提取方法、装置、服务器和存储介质，以实现获取高质量的正文信息，提高正文信息内容的准确性的效果。第一方面，本专利技术实施例提供了一种网页正文的提取方法，包括：接收用户输入的查询关键字；基于搜索引擎对所述查询关键字进行查询，得到所述查询关键字对应的查...

【技术保护点】
1.一种网页正文的提取方法，其特征在于，包括：/n接收用户输入的查询关键字；/n基于搜索引擎对所述查询关键字进行查询，得到所述查询关键字对应的查询结果，所述查询结果包括摘要信息和详情页信息；/n基于多个提取引擎对所述详情页信息进行提取，得到多个正文文本，每个正文文本对应一个提取引擎；/n基于所述摘要信息和所述多个正文文本的匹配关系，在所述多个正文文本中确定目标正文文本。/n

【技术特征摘要】
1.一种网页正文的提取方法，其特征在于，包括：
接收用户输入的查询关键字；
基于搜索引擎对所述查询关键字进行查询，得到所述查询关键字对应的查询结果，所述查询结果包括摘要信息和详情页信息；
基于多个提取引擎对所述详情页信息进行提取，得到多个正文文本，每个正文文本对应一个提取引擎；
基于所述摘要信息和所述多个正文文本的匹配关系，在所述多个正文文本中确定目标正文文本。

2.如权利要求1所述的网页正文的提取方法，其特征在于，所述基于所述摘要信息和所述多个正文文本的匹配关系，在所述多个正文文本中确定目标正文文本，包括：
计算所述摘要信息的摘要哈希值，以及对应每一个正文文本的多个正文哈希值；
根据所述摘要哈希值和多个正文哈希值，确定对应每一个正文文本的多个海明距离；
根据所述多个海明距离确定所述目标正文文本。

3.如权利要求2所述的网页正文的提取方法，其特征在于，所述根据所述多个海明距离确定所述目标正文文本，包括：
在所述多个海明距离中确定目标海明距离；
确定所述目标海明距离对应的正文文本的第一文本数量；
判断所述目标海明距离和所述第一文本数量是否满足预设条件；
如果所述目标海明距离和所述第一文本数量满足预设条件，则将所述目标海明距离对应的正文文本作为所述目标正文文本；
如果所述目标海明距离和所述第一文本数量不满足预设条件，则基于匹配规则确定所述目标正文文本。

4.如权利要求3所述的网页正文的提取方法，其特征在于，所述如果所述目标海明距离和所述第一文本数量满足预设条件，则将所述目标海明距离对应的正文文本作为所述目标正文文本，包括:
如果所述目标海明距离小于或等于海明距离阈值，且所述第一文本数量大于第一数量阈值，则将所述目标海明距离对应的正文文本作为所述目标正文文本。

5.如权利要求3所述的网页正文的提取方法，其特征在于，所述详情页信息包括对应所述正文文本的原始文本，所述基于匹配规则确定所述目标正文文本，包括：
...

【专利技术属性】
技术研发人员：方志杰，房海灏，熊兴文，
申请(专利权)人：深圳市朱墨科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人