System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及互联网,尤其是涉及一种列表式网页内容识别抽取的方法、装置、设备和介质。
技术介绍
1、在网页数据处理、网站分析以及搜索引擎数据索引场景下,都会存在对网页进行识别和抽取的需求。特别是对于列表式网页,如新闻列表、商品列表等,需要对其进行准确的识别和内容抽取。相关技术中,通常依赖于特定的标签或属性进行识别,但这种方法在面对多样化的网页结构时可能会失效,从而导致识别方式不通用且准确性较低。
技术实现思路
1、本申请的目的在于提供一种列表式网页内容识别抽取的方法、装置、设备和介质,该方式在识别和抽取列表式网页时更为通用且准确性更好。
2、第一方面,本专利技术提供一种列表式网页内容识别抽取的方法,包括:
3、对输入的网页进行dom树结构的构建,并基于dom树结构识别网页的主体内容;
4、计算主体内容的内部标签的有效字符数据指标,基于有效字符数据指标计算多节点有效字符均衡度;
5、如果多节点有效字符均衡度超过预设均衡度阈值,且有效字符总和超过主体节点的预设比例,确定网页为列表式网页;
6、对列表式网页进行行元素抽取,得到每个行元素所对应的元素内容。
7、在可选的实施方式中,基于dom树结构识别网页的主体内容,包括:
8、通过统计dom树结构所包含的每个元素及其子元素中的有效字符数量,遍历并判定有效字符密度变化临界点,查询包含最多有效字符的元素,定位到主要内容区域;
9、在主要内容区域识别网页
10、在可选的实施方式中,计算主体内容的内部标签的有效字符数据指标,基于有效字符数据指标计算多节点有效字符均衡度,包括:
11、对主体内容的内部标签进行字符数量统计,对主体内容的内部标签的指定标签进行权重分配,以及对主体内容的内部标签的特定字符进行处理,得到有效字符数据指标;
12、对有效字符数据指标超过最低阈值的标签,若同级兄弟节点数量超过预设数量阈值的节点进行多节点有效字符均衡度计算,得到多节点有效字符均衡度。
13、在可选的实施方式中,对有效字符数据指标超过最低阈值的标签,若同级兄弟节点数量超过预设数量阈值的节点进行多节点有效字符均衡度计算,得到多节点有效字符均衡度,包括:
14、针对有效字符数据指标超过最低阈值的标签,若同级兄弟节点数量超过预设数量阈值的节点中的每一个节点,计算其包含的有效字符数据指标的数量,并存储在每个节点对应的数组中;
15、计算每个数组的均值和标准差;
16、若均值和标准差的比值小于预设的均衡度阈值,确定相应的节点是均衡的,并将标准差与均值的比值确定为多节点有效字符均衡度。
17、在可选的实施方式中,对列表式网页进行行元素抽取,得到每个行元素所对应的元素内容,包括:
18、将列表式网页中的行元素进行分类,按照分类后的行元素类别进行行元素抽取,得到每个行元素所对应的元素内容;其中,元素内容至少包括标题、链接和图片中的一种或多种。
19、第二方面,本专利技术提供一种列表式网页内容识别抽取的装置,包括:
20、网页识别模块,用于对输入的网页进行dom树结构的构建,并基于dom树结构识别网页的主体内容;
21、均衡度计算模块,用于计算主体内容的内部标签的有效字符数据指标,基于有效字符数据指标计算多节点有效字符均衡度;
22、列表式网页确定模块,用于如果多节点有效字符均衡度超过预设均衡度阈值,且有效字符总和超过主体节点的预设比例,确定网页为列表式网页;
23、内容抽取模块,用于对列表式网页进行行元素抽取,得到每个行元素所对应的元素内容。
24、在可选的实施方式中,网页识别模块,还用于:
25、通过统计dom树结构所包含的每个元素及其子元素中的有效字符数量,遍历并判定有效字符密度变化临界点,查询包含最多有效字符的元素,定位到主要内容区域;
26、在主要内容区域识别网页的主体内容。
27、在可选的实施方式中,均衡度计算模块,还用于:
28、对主体内容的内部标签进行字符数量统计,对主体内容的内部标签的指定标签进行权重分配,以及对主体内容的内部标签的特定字符进行处理,得到有效字符数据指标;
29、对有效字符数据指标超过最低阈值的标签,若同级兄弟节点数量超过预设数量阈值的节点进行多节点有效字符均衡度计算,得到多节点有效字符均衡度。
30、第三方面,本专利技术提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现前述实施方式任一项的列表式网页内容识别抽取的方法。
31、第四方面,本专利技术提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现前述实施方式任一项的列表式网页内容识别抽取的方法。
32、本申请提供的列表式网页内容识别抽取的方法、装置、设备和介质,首先对输入的网页进行dom树结构的构建,并基于dom树结构识别网页的主体内容,然后计算主体内容的内部标签的有效字符数据指标,基于有效字符数据指标计算多节点有效字符均衡度,如果多节点有效字符均衡度超过预设均衡度阈值,且有效字符总和超过主体节点的预设比例,确定网页为列表式网页,对列表式网页进行行元素抽取,得到每个行元素所对应的元素内容。该方式在识别和抽取列表式网页时更为通用且准确性更好。
本文档来自技高网...【技术保护点】
1.一种列表式网页内容识别抽取的方法,其特征在于,包括:
2.根据权利要求1所述的列表式网页内容识别抽取的方法,其特征在于,基于所述DOM树结构识别所述网页的主体内容,包括:
3.根据权利要求1所述的列表式网页内容识别抽取的方法,其特征在于,计算所述主体内容的内部标签的有效字符数据指标,基于所述有效字符数据指标计算多节点有效字符均衡度,包括:
4.根据权利要求3所述的列表式网页内容识别抽取的方法,其特征在于,对有效字符数据指标超过最低阈值的标签,若同级兄弟节点数量超过预设数量阈值的节点进行多节点有效字符均衡度计算,得到多节点有效字符均衡度,包括:
5.根据权利要求1所述的列表式网页内容识别抽取的方法,其特征在于,对所述列表式网页进行行元素抽取,得到每个行元素所对应的元素内容,包括:
6.一种列表式网页内容识别抽取的装置,其特征在于,包括:
7.根据权利要求6所述的列表式网页内容识别抽取的装置,其特征在于,所述网页识别模块,还用于:
8.根据权利要求6所述的列表式网页内容识别抽取的装置,其特征在于,
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至5任一项所述的列表式网页内容识别抽取的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至5任一项所述的列表式网页内容识别抽取的方法。
...【技术特征摘要】
1.一种列表式网页内容识别抽取的方法,其特征在于,包括:
2.根据权利要求1所述的列表式网页内容识别抽取的方法,其特征在于,基于所述dom树结构识别所述网页的主体内容,包括:
3.根据权利要求1所述的列表式网页内容识别抽取的方法,其特征在于,计算所述主体内容的内部标签的有效字符数据指标,基于所述有效字符数据指标计算多节点有效字符均衡度,包括:
4.根据权利要求3所述的列表式网页内容识别抽取的方法,其特征在于,对有效字符数据指标超过最低阈值的标签,若同级兄弟节点数量超过预设数量阈值的节点进行多节点有效字符均衡度计算,得到多节点有效字符均衡度,包括:
5.根据权利要求1所述的列表式网页内容识别抽取的方法,其特征在于,对所述列表式网页进行行元素抽取,得到每个行元素所对应的元素内容,包括...
【专利技术属性】
技术研发人员:马中元,李明明,宋伟强,
申请(专利权)人:北京锐安科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。