【技术实现步骤摘要】
网页正文的提取方法、装置、服务器和存储介质
本专利技术实施例涉及计算机应用
,尤其涉及一种网页正文的提取方法、装置、服务器和存储介质。
技术介绍
目前,互联网已成为人们获取信息的重要资源,而提取引擎是人们获取互联网上网页的正文信息的主要工具。目前,获取正文信息的主流方法是输入关键字,通过搜索引擎(例如百度引擎)对关键字进行搜索,将搜索的结果展示在HTML的页面中。再通过单个提取引擎对页面进行提取,从而得到正文信息,展示给用户。然而,由于网页结构的多样性,使用单个提取引擎对页面进行提取得到正文信息时,对于某些网页解析的效果并不好,得到正文信息质量低,正文信息的内容不准确。
技术实现思路
本专利技术实施例提供一种网页正文的提取方法、装置、服务器和存储介质,以实现获取高质量的正文信息,提高正文信息内容的准确性的效果。第一方面,本专利技术实施例提供了一种网页正文的提取方法,包括:接收用户输入的查询关键字;基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查 ...
【技术保护点】
1.一种网页正文的提取方法,其特征在于,包括:/n接收用户输入的查询关键字;/n基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;/n基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;/n基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本。/n
【技术特征摘要】
1.一种网页正文的提取方法,其特征在于,包括:
接收用户输入的查询关键字;
基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;
基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;
基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本。
2.如权利要求1所述的网页正文的提取方法,其特征在于,所述基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本,包括:
计算所述摘要信息的摘要哈希值,以及对应每一个正文文本的多个正文哈希值;
根据所述摘要哈希值和多个正文哈希值,确定对应每一个正文文本的多个海明距离;
根据所述多个海明距离确定所述目标正文文本。
3.如权利要求2所述的网页正文的提取方法,其特征在于,所述根据所述多个海明距离确定所述目标正文文本,包括:
在所述多个海明距离中确定目标海明距离;
确定所述目标海明距离对应的正文文本的第一文本数量;
判断所述目标海明距离和所述第一文本数量是否满足预设条件;
如果所述目标海明距离和所述第一文本数量满足预设条件,则将所述目标海明距离对应的正文文本作为所述目标正文文本;
如果所述目标海明距离和所述第一文本数量不满足预设条件,则基于匹配规则确定所述目标正文文本。
4.如权利要求3所述的网页正文的提取方法,其特征在于,所述如果所述目标海明距离和所述第一文本数量满足预设条件,则将所述目标海明距离对应的正文文本作为所述目标正文文本,包括:
如果所述目标海明距离小于或等于海明距离阈值,且所述第一文本数量大于第一数量阈值,则将所述目标海明距离对应的正文文本作为所述目标正文文本。
5.如权利要求3所述的网页正文的提取方法,其特征在于,所述详情页信息包括对应所述正文文本的原始文本,所述基于匹配规则确定所述目标正文文本,包括:
...
【专利技术属性】
技术研发人员:方志杰,房海灏,熊兴文,
申请(专利权)人:深圳市朱墨科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。