基于语义相似度和知识库的仪表询价信息提取方法、设备及存储介质技术

技术编号:39194242 阅读:7 留言:0更新日期:2023-10-27 08:41
本发明专利技术属于表格信息抽取技术领域,尤其涉及基于语义相似度和知识库的仪表询价信息提取方法、设备及存储介质:首先获取仪表询价表格的参数数据,并进行预处理,生成数据集;然后构建基于混合相似度的表格结构识别模型,将数据集作为表格结构识别模型的输入数据进行输入,并输出表格结构特征信息;然后预设表格内容识别模型,并通过仪表知识库和语义关系对表格内容识别模型进行训练,保存表格内容识别最优模型;最后将数据集作为表格内容识别最优模型的输入,将表格结构特征信息作为表格内容识别最优模型的特征,输出识别结果。本发明专利技术能够解决现有的仪表询价过程受人工方式的制约,对表格结构和内容识别准确率不高的问题。表格结构和内容识别准确率不高的问题。表格结构和内容识别准确率不高的问题。

【技术实现步骤摘要】
基于语义相似度和知识库的仪表询价信息提取方法、设备及存储介质


[0001]本专利技术属于表格信息抽取
,尤其涉及基于语义相似度和知识库的仪表询价信息提取方法、设备及存储介质。

技术介绍

[0002]在仪表询价中,询价报表信息是最重要的资产之一,采集和分析这些信息,不仅是常规业务的操作需求,更为仪表发展提供了数据支持和决策作用。目前,仪表询价报表文件已经成为国内各仪表企业的主要询价信息来源和资源,这些文档具有非结构化、样式多样、数据混杂、价值稀疏等特点,难以自动化处理。而目前仪表企业仍普遍采用人工信息提取的生产经营方式,不仅工作量巨大,人工成本高,工作效率低,还存在无法及时响应,易遗漏和易报错等问题,因此结合人工智能技术,实现非结构化仪表询价信息自动抽取,辅助员工快速高效地自动化响应用户的询价请求,具有十分重要的现实意义,可有效解决面临的问题。
[0003]现有研究针对电子表格结构和内容识别的研究相对较少,且主要集中在对表头结构的识别。例如,使用聚类以及列分解等启发式的方法来识别表格的结构;使用分类的方法来研究电子表格中表头的结构;设计用于表格结构识别的可配置的启发式方法框架;或设计电子表格可扩展组检测的方法,该方法首选假设表头位于表格的前4行,并在此基础上构建了基于行规则的检测方法来推断表格中表头的结构。然而,传统表格结构识别方法条件苛刻、成本高、可移植性差、且算法精度不高。随着深度学习的蓬勃发展,考虑到电子表格中单元格矩阵和图像中像素矩阵的相似性,研究者们逐渐开始利用深度学习的方法来识别电子表格的结构和内容,先对电子表格进行建模,人工提取电子表格特征,再利用神经网络等深度学习方法进行表格结构识别。通过利用卷积神经网络激发了一种独特的方法,以捕捉表格空间的相关性,并从各种各样的真实世界电子表格中学习单元格矩阵的高级表示。
[0004]但是,神经网络的跨域应用从来不是简单的,直接将CNN应用于电子表格数据,而不结合特定领域和特定任务的线索,无法达到理想的准确性。且现有方法对电子表格建模过程中没有统一的方法模型,人工提取特征没有统一的标准。

技术实现思路

[0005]本专利技术所解决的技术问题在于提供一种基于语义相似度和知识库的仪表询价信息提取方法、设备及存储介质,以解决现有的技术中仪表询价过程受人工方式的制约,对表格结构和内容识别准确率不高的问题。
[0006]本专利技术提供的基础方案:基于语义相似度和知识库的仪表询价信息提取方法,包括:
[0007]S1:获取仪表询价表格的参数数据,并进行预处理,生成数据集;
[0008]S2:构建基于混合相似度的表格结构识别模型,将数据集作为表格结构识别模型的输入数据进行输入,并输出表格结构特征信息;
[0009]S3:预设表格内容识别模型,并通过仪表知识库和语义关系对表格内容识别模型进行训练,保存表格内容识别最优模型;
[0010]S4:将数据集作为表格内容识别最优模型的输入,将表格结构特征信息作为表格内容识别最优模型的特征,输出识别结果,并根据预设的评价指标进行识别结果评价。
[0011]进一步,所述S2包括:
[0012]S2

1:将数据集中仪表询价表格数据划分为具有行列数据的类型结构;
[0013]S2

2:结合类型结构向量化仪表表格,并通过余弦相似度处理向量化后的仪表表格,构建行列数据的类型相似度TySim,其计算公式如下:
[0014]TyVector=[ctype,dtype,slen][0015]TySimcell(a,b)=NorCosine(TyVector
a
,TyVector
b
)
[0016][0017]其中,ctype表示单元格类型,ctype∈{0,1,2,3,4,5},0表示空(empty),1表示字符串(string),2表示数字(number),3表示日期(date),4表示布尔型(Boolean),5表示错误(error);dtype表示单元格数据类型,dtype∈{0,1,2},0表示单元格数据中全为字符,1表示全为数字,2表示既有数字又有字符;slen表示单元格数据长度,m为表格列数,TyVector
a
表示单元格a的类型相似度,TyVector
b
表示单元格b的类型相似度,c表示某个单元格,x
c
表示行数据x中第c个单元格,y
c
表示行数据y中第c个单元格;
[0018]S2

3:选取Levenshtein相似度、Dice相似度和TySim相似度,并进行加权融合处理,生成混合相似度MaxSim,并构建表格结构识别模型。
[0019]进一步,所述Levenshtein相似度的表达式为:
[0020][0021][0022]其中,i表示字符串X的前i个字符,j表示字符串Y的前j个字符;
[0023]所述Dice相似度表达式为:
[0024][0025]其中,A,B分别表示两个字符串集合。
[0026]进一步,所述S2

3中混合相似度MaxSim表达式为:
[0027]MixSim=αLevSim+βDiceSim+γTySim
[0028]其中,α表示Levenshtein相似度的权值,β表示Dice相似度的权值,γ表示TySim相似度的权值。
[0029]进一步,所述S3包括:
[0030]S3

1:获取仪表领域标准知识,构建领域知识库,并获取历史仪表询价信息提取数据,对领域知识库进行填充;
[0031]S3

2:基于LSTM识别算法识别仪表询价信息中单元格之间的层级特征,建立仪表表头属性和数据区的语义关系;
[0032]S3

3:根据仪表表头属性和数据区的语义关系,进行基于领域知识库的仪表询价信息属性抽取,获取属性与数据的对应关系;
[0033]S3

4:基于领域知识库中仪表属性表和询价表格中语义层级关系,对抽取的仪表询价信息属性进行预处理,获取目标属性术语。
[0034]进一步,所述S3

2具体为:
[0035]S3
‑2‑
1:选取单元格中的浅层特征以及单元格的局部上下文特征;
[0036]S3
‑2‑
2:将选取的单元格的浅层特征和局部上下文特征输入LSTM网络模型中,输出表格表头属性和数据区的语义关系。
[0037]进一步,所述S3

3包括:
[0038]S3
‑3‑
1:若基于领域知识库的仪表询价信息属性抽取属于单值区域,则根据单元格上下文滑动进行属性

数据值抽取;
[0039]S3
‑3‑
2:若基于领域知识库的仪表询价本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于语义相似度和知识库的仪表询价信息提取方法,其特征在于:包括:S1:获取仪表询价表格的参数数据,并进行预处理,生成数据集;S2:构建基于混合相似度的表格结构识别模型,将数据集作为表格结构识别模型的输入数据进行输入,并输出表格结构特征信息;S3:预设表格内容识别模型,并通过仪表知识库和语义关系对表格内容识别模型进行训练,保存表格内容识别最优模型;S4:将数据集作为表格内容识别最优模型的输入,将表格结构特征信息作为表格内容识别最优模型的特征,输出识别结果,并根据预设的评价指标进行识别结果评价。2.根据权利要求1所述的基于语义相似度和知识库的仪表询价信息提取方法,其特征在于:所述S2包括:S2

1:将数据集中仪表询价表格数据划分为具有行列数据的类型结构;S2

2:结合类型结构向量化仪表表格,并通过余弦相似度处理向量化后的仪表表格,构建行列数据的类型相似度TySim,其计算公式如下:TyVector=[ctype,dtype,slen]TySimcell(a,b)=NorCosine(TyVector
a
,TyVector
b
)其中,ctype表示单元格类型,ctype∈{0,1,2,3,4,5},0表示空,1表示字符串,2表示数字,3表示日期,4表示布尔型,5表示错误;dtype表示单元格数据类型,dtype∈{0,1,2},0表示单元格数据中全为字符,1表示全为数字,2表示既有数字又有字符;slen表示单元格数据长度,m为表格列数,TyVector
a
表示单元格a的类型相似度,TyVector
b
表示单元格b的类型相似度,c表示某个单元格,x
c
表示行数据x中第c个单元格,y
c
表示行数据y中第c个单元格;S2

3:选取Levenshtein相似度、Dice相似度和TySim相似度,并进行加权融合处理,生成混合相似度MaxSim,并构建表格结构识别模型。3.根据权利要求2所述的基于语义相似度和知识库的仪表询价信息提取方法,其特征在于:所述Levenshtein相似度的表达式为:在于:所述Levenshtein相似度的表达式为:其中,i表示字符串X的前i个字符,j表示字符串Y的前j个字符;所述Dice相似度表达式为:其中,A,B分别表示两个字符串集合。
4.根据权利要求3所述的基于语义相似度和知识库的仪表询价信息提取方法,其特征在于:所述S2

3中混合相似度MaxSim...

【专利技术属性】
技术研发人员:李刚马莹丽徐传运舒涛李星光
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1