列表式网页内容识别抽取的方法、装置、设备和介质制造方法及图纸

技术编号：40559901 阅读：36 留言：0更新日期：2024-03-05 19:22

本申请提供了一种列表式网页内容识别抽取的方法、装置、设备和介质，涉及互联网技术领域，该方法包括：对输入的网页进行DOM树结构的构建，并基于DOM树结构识别网页的主体内容；计算主体内容的内部标签的有效字符数据指标，基于有效字符数据指标计算多节点有效字符均衡度；如果多节点有效字符均衡度超过预设均衡度阈值，且有效字符总和超过主体节点的预设比例，确定网页为列表式网页；对列表式网页进行行元素抽取，得到每个行元素所对应的元素内容。本申请在识别和抽取列表式网页时更为通用且准确性更好。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及互联网，尤其是涉及一种列表式网页内容识别抽取的方法、装置、设备和介质。

技术介绍

1、在网页数据处理、网站分析以及搜索引擎数据索引场景下，都会存在对网页进行识别和抽取的需求。特别是对于列表式网页，如新闻列表、商品列表等，需要对其进行准确的识别和内容抽取。相关技术中，通常依赖于特定的标签或属性进行识别，但这种方法在面对多样化的网页结构时可能会失效，从而导致识别方式不通用且准确性较低。

技术实现思路

1、本申请的目的在于提供一种列表式网页内容识别抽取的方法、装置、设备和介质，该方式在识别和抽取列表式网页时更为通用且准确性更好。

2、第一方面，本专利技术提供一种列表式网页内容识别抽取的方法，包括：

3、对输入的网页进行dom树结构的构建，并基于dom树结构识别网页的主体内容；

4、计算主体内容的内部标签的有效字符数据指标，基于有效字符数据指标计算多节点有效字符均衡度；

5、如果多节点有效字符均衡度超过预设均衡度阈值，且有效字符总和超过主体...

【技术保护点】

1.一种列表式网页内容识别抽取的方法，其特征在于，包括：

2.根据权利要求1所述的列表式网页内容识别抽取的方法，其特征在于，基于所述DOM树结构识别所述网页的主体内容，包括：

3.根据权利要求1所述的列表式网页内容识别抽取的方法，其特征在于，计算所述主体内容的内部标签的有效字符数据指标，基于所述有效字符数据指标计算多节点有效字符均衡度，包括：

4.根据权利要求3所述的列表式网页内容识别抽取的方法，其特征在于，对有效字符数据指标超过最低阈值的标签，若同级兄弟节点数量超过预设数量阈值的节点进行多节点有效字符均衡度计算，得到多节点有效字符

【技术特征摘要】

1.一种列表式网页内容识别抽取的方法，其特征在于，包括：

2.根据权利要求1所述的列表式网页内容识别抽取的方法，其特征在于，基于所述dom树结构识别所述网页的主体内容，包括：

4.根据权利要求3所述的列表式网页内容识别抽取的方法，其特征在于，对有效字符数据指标超过最低阈值的标签，若同级兄弟节点数量超过预设数量阈值的节点进行多节点有效字符均衡度计算，得到多节点有效字符均衡度，包括：

5.根据权利要求1所述的列表式网页内容识别抽取的方法，其特征在于，对所述列表式网页进行行元素抽取，得到每个行元素所对应的元素内容，包括...

【专利技术属性】
技术研发人员：马中元，李明明，宋伟强，
申请(专利权)人：北京锐安科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人