一种多特征协同的全循环结构网页文本提取方法及系统技术方案

技术编号:45817166 阅读:8 留言:0更新日期:2025-07-15 22:28
本发明专利技术公开了一种多特征协同的全循环结构网页文本提取方法及系统,所述方法包括以下步骤:(1)分析目标网页的结构,将网页上具有相同循环结构的标签作为标签组,获取目标网页的所有标签组;(2)对于步骤(1)获得的目标网页的所有标签组,采用包括网页结构特征和文本特征的多种特征进行协同打分,获得目标网页所有标签组按照为感兴趣标签组可能性排序的候选标签组序列;(3)提取感兴趣标签组的文本信息。本发明专利技术提供的多特征协同的全循环结构网页文本提取方法,基于标签路径解析出网页中的标签组,结合网页结构特征和文本特征计算各标签组的得分,进而根据得分完成目标标签组的优选从而完成文本提取。由于该方法是基于8个弱条件进行,因而对不同网页具有良好的通用性。

【技术实现步骤摘要】

本专利技术属于互联网,更具体地,涉及一种多特征协同的全循环结构网页文本提取方法及系统


技术介绍

1、伴随着大数据的兴起,人们对大数据的需求越来越强烈。www作为人们工作、学习和生活不可或缺的基础支撑,互联网中存在各种形式的信息载体平台,例如新闻门户、论坛、博客、微博、微信公众号、电商网站等,存储记录了海量的数据。这为诸多的大数据应用提供了可能,存在于这各类载体或平台的海量数据的挖掘可以支撑管理部门的宏观决策、商务公司的经营策略制订,并最终转化为社会效益或经济效益。另外,语料库构建、语言大模型训练等基础工程也离不开前述各类平台数据的支持。正因为如此,网络信息抽取研究长久以来一直是一个较为热门的研究领域。

2、然而,web数据往往是非结构化的,这给数据的利用造成了很大的麻烦。不过幸运的是,在web页面中,存在着一种用于组织信息的循环结构,它们广泛存在于新闻、论坛、博客、微博、微信公众号等各类web页面中。循环内容是指网页中被循环结构所包含的内容,待抽取内容不在循环结构中的内容指非循环内容。例如网页中标题、新闻门户网页正文的抽取一般就是非循环内容抽本文档来自技高网...

【技术保护点】

1.一种多特征协同的全循环结构网页文本提取方法,其特征在于,包括以下步骤:

2.如权利要求1所述的多特征协同的全循环结构网页文本提取方法,其特征在于,步骤(1)采用标签路径法分析目标网页的结构,将具有相同标签路径的标签内容作为一个标签组。

3.如权利要求1所述的多特征协同的全循环结构网页文本提取方法,其特征在于,步骤(2)所述网页结构特征,为该标签组相对于网页结构的特征;所述文本特征,包括元素内文本特征和元素间文本特征,所述元素内文本特征为该标签组内各元素的文本内容的统计特征,所述元素间文本特征,为各元素文本内容之间的统计特征;所述元素,是指标签组内的标签内容,一...

【技术特征摘要】

1.一种多特征协同的全循环结构网页文本提取方法,其特征在于,包括以下步骤:

2.如权利要求1所述的多特征协同的全循环结构网页文本提取方法,其特征在于,步骤(1)采用标签路径法分析目标网页的结构,将具有相同标签路径的标签内容作为一个标签组。

3.如权利要求1所述的多特征协同的全循环结构网页文本提取方法,其特征在于,步骤(2)所述网页结构特征,为该标签组相对于网页结构的特征;所述文本特征,包括元素内文本特征和元素间文本特征,所述元素内文本特征为该标签组内各元素的文本内容的统计特征,所述元素间文本特征,为各元素文本内容之间的统计特征;所述元素,是指标签组内的标签内容,一个标签组内的各个元素,具备相同的标签路径。

4.如权利要求3所述的多特征协同的全循环结构网页文本提取方法,其特征在于,所述网页结构特征包括路径深度si1和/或位置si2;所述路径深度,用于表征标签组在网页标签树状结构中的深度,记为si1;所述位置为该标签组中各元素在网页标签树结构中的平均位置,记为其中,iij表示标签组i内第j个元素的位置,m表示目标网页中标签的总数,ni表示标签组i的元素数量。

5.如权利要求3所述的多特征协同的全循环结构网页文本提取方法,其特征在于,所述元素内文本特征包括标点符号数si3、链接文字比si4、以及代码文字比si5中的一个或多个;

6.如权利要求3所述的多...

【专利技术属性】
技术研发人员:王贤明
申请(专利权)人:温州理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1