一种html文档的属性信息消歧方法及系统技术方案

技术编号：37434232 阅读：31 留言：0更新日期：2023-05-06 09:06

本发明专利技术属于网络信息处理技术领域，具体提供了一种html文档的属性信息消歧方法及系统，其中方法包括：通过XPath将html文档解析为文本数据和表格数据并存储；使用规则抽取或模型抽取进行逐行处理得到属性key和信息value；利用上下文信息分别对文本数据中及表格数据中的属性key进行消歧处理。本方案将html文档转换成篇章和表格，然后利用一些上下文信息进行对文本和表格进行消歧，提高了信息抽取的准确性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
一种html文档的属性信息消歧方法及系统

[0001]本专利技术涉及网络信息处理
，更具体地，涉及一种html文档的属性信息消歧方法及系统。

技术介绍

[0002]由于html文档是由不同的人员进行编写，对某些概念使用的术语不尽相同，在某些特殊的章节，属性名key的意义会发生偏移，因此需要消除歧义。例如，在“成交供应商信息”章节中，“成交金额”作为key指的是供应商在赢得标的时付出的金钱价值，而在“成交标的信息”章节中，“成交金额”作为key指的供应商在赢得标的时为某个标的付出的金钱价值，也即标的的金额。如果将他们混为一谈，则会造成信息的偏差。
[0003]因此，如何对html文档中的文本和表格进行消歧，是目前急需解决的问题。

技术实现思路

[0004]本专利技术针对现有技术中存在的html文档中的文本和表格信息抽取准确度较低的技术问题。
[0005]本专利技术提供了一种html文档的属性信息消歧方法，包括以下步骤：
[0006]S 1，通过XPath将html文档解析为文本数据...

【技术保护点】

【技术特征摘要】
1.一种html文档的属性信息消歧方法，其特征在于，包括以下步骤：S1，通过XPath将html文档解析为文本数据和表格数据并存储；S2，使用规则抽取或模型抽取进行逐行处理得到属性key和信息value；S3，利用上下文信息分别对文本数据中及表格数据中的属性key进行消歧处理。2.根据权利要求1所述的html文档的属性信息消歧方法，其特征在于，所述S1具体包括：文本数据解析，将html文档里的文本数据，即非表格标签下的数据，按照每个标签一行的原则将其组织起来，并保留其中的换行符信息，同时也对标签之间的信息做同样的处理；表格数据解析，获取表格标签下行数、列数以及每个单元格的坐标信息和内容信息。3.根据权利要求2所述的html文档的属性信息消歧方法，其特征在于，所述S3中文本数据中属性key的消歧具体包括：步骤一，初始化上下文记录的变量；步骤二，循环读取文本数据第1行直至文本最后一行。4.根据权利要求3所述的html文档的属性信息消歧方法，其特征在于，所述步骤二具体包括以下步骤：(1)如果存在章节信息，则提取并记录至上下文变量中；(2)如果存在属性信息，则提取出来，如果是能帮助消除歧义的属性，则记录在上下文变量中；(3)如果第(2)步提取出了属性并存在歧义，则根据上下文中的信息，进行消歧，得出最终的属性；(4)将最终属性和其对应值记录下来。5.根据权利要求2所述的htm1文档的属性信息消歧方法，其特征在于，所述S3中表格数据中属性key的消歧具体包括以下步骤：S31，通过XPath解析表格形成内部数据结构，并将其章节信息记录在数据结构中；S32，遍历表头记录的每个元素，如果...

【专利技术属性】
技术研发人员：邓彪，翟飞飞，夏玉龙，
申请(专利权)人：北京中科凡语科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人