一种html文档的属性信息消歧方法及系统技术方案

技术编号:37434232 阅读:31 留言:0更新日期:2023-05-06 09:06
本发明专利技术属于网络信息处理技术领域,具体提供了一种html文档的属性信息消歧方法及系统,其中方法包括:通过XPath将html文档解析为文本数据和表格数据并存储;使用规则抽取或模型抽取进行逐行处理得到属性key和信息value;利用上下文信息分别对文本数据中及表格数据中的属性key进行消歧处理。本方案将html文档转换成篇章和表格,然后利用一些上下文信息进行对文本和表格进行消歧,提高了信息抽取的准确性。性。性。

【技术实现步骤摘要】
一种html文档的属性信息消歧方法及系统


[0001]本专利技术涉及网络信息处理
,更具体地,涉及一种html文档的属性信息消歧方法及系统。

技术介绍

[0002]由于html文档是由不同的人员进行编写,对某些概念使用的术语不尽相同,在某些特殊的章节,属性名key的意义会发生偏移,因此需要消除歧义。例如,在“成交供应商信息”章节中,“成交金额”作为key指的是供应商在赢得标的时付出的金钱价值,而在“成交标的信息”章节中,“成交金额”作为key指的供应商在赢得标的时为某个标的付出的金钱价值,也即标的的金额。如果将他们混为一谈,则会造成信息的偏差。
[0003]因此,如何对html文档中的文本和表格进行消歧,是目前急需解决的问题。

技术实现思路

[0004]本专利技术针对现有技术中存在的html文档中的文本和表格信息抽取准确度较低的技术问题。
[0005]本专利技术提供了一种html文档的属性信息消歧方法,包括以下步骤:
[0006]S 1,通过XPath将html文档解析为文本数据和表格数据并存储;<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种html文档的属性信息消歧方法,其特征在于,包括以下步骤:S1,通过XPath将html文档解析为文本数据和表格数据并存储;S2,使用规则抽取或模型抽取进行逐行处理得到属性key和信息value;S3,利用上下文信息分别对文本数据中及表格数据中的属性key进行消歧处理。2.根据权利要求1所述的html文档的属性信息消歧方法,其特征在于,所述S1具体包括:文本数据解析,将html文档里的文本数据,即非表格标签下的数据,按照每个标签一行的原则将其组织起来,并保留其中的换行符信息,同时也对标签之间的信息做同样的处理;表格数据解析,获取表格标签下行数、列数以及每个单元格的坐标信息和内容信息。3.根据权利要求2所述的html文档的属性信息消歧方法,其特征在于,所述S3中文本数据中属性key的消歧具体包括:步骤一,初始化上下文记录的变量;步骤二,循环读取文本数据第1行直至文本最后一行。4.根据权利要求3所述的html文档的属性信息消歧方法,其特征在于,所述步骤二具体包括以下步骤:(1)如果存在章节信息,则提取并记录至上下文变量中;(2)如果存在属性信息,则提取出来,如果是能帮助消除歧义的属性,则记录在上下文变量中;(3)如果第(2)步提取出了属性并存在歧义,则根据上下文中的信息,进行消歧,得出最终的属性;(4)将最终属性和其对应值记录下来。5.根据权利要求2所述的htm1文档的属性信息消歧方法,其特征在于,所述S3中表格数据中属性key的消歧具体包括以下步骤:S31,通过XPath解析表格形成内部数据结构,并将其章节信息记录在数据结构中;S32,遍历表头记录的每个元素,如果...

【专利技术属性】
技术研发人员:邓彪翟飞飞夏玉龙
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1