【技术实现步骤摘要】
基于语义相似度和知识库的仪表询价信息提取方法、设备及存储介质
[0001]本专利技术属于表格信息抽取
,尤其涉及基于语义相似度和知识库的仪表询价信息提取方法、设备及存储介质。
技术介绍
[0002]在仪表询价中,询价报表信息是最重要的资产之一,采集和分析这些信息,不仅是常规业务的操作需求,更为仪表发展提供了数据支持和决策作用。目前,仪表询价报表文件已经成为国内各仪表企业的主要询价信息来源和资源,这些文档具有非结构化、样式多样、数据混杂、价值稀疏等特点,难以自动化处理。而目前仪表企业仍普遍采用人工信息提取的生产经营方式,不仅工作量巨大,人工成本高,工作效率低,还存在无法及时响应,易遗漏和易报错等问题,因此结合人工智能技术,实现非结构化仪表询价信息自动抽取,辅助员工快速高效地自动化响应用户的询价请求,具有十分重要的现实意义,可有效解决面临的问题。
[0003]现有研究针对电子表格结构和内容识别的研究相对较少,且主要集中在对表头结构的识别。例如,使用聚类以及列分解等启发式的方法来识别表格的结构;使用分类的方法来研究电子表格中表头的结构;设计用于表格结构识别的可配置的启发式方法框架;或设计电子表格可扩展组检测的方法,该方法首选假设表头位于表格的前4行,并在此基础上构建了基于行规则的检测方法来推断表格中表头的结构。然而,传统表格结构识别方法条件苛刻、成本高、可移植性差、且算法精度不高。随着深度学习的蓬勃发展,考虑到电子表格中单元格矩阵和图像中像素矩阵的相似性,研究者们逐渐开始利用深度学习的方法来识别电子表格的结构 ...
【技术保护点】
【技术特征摘要】
1.基于语义相似度和知识库的仪表询价信息提取方法,其特征在于:包括:S1:获取仪表询价表格的参数数据,并进行预处理,生成数据集;S2:构建基于混合相似度的表格结构识别模型,将数据集作为表格结构识别模型的输入数据进行输入,并输出表格结构特征信息;S3:预设表格内容识别模型,并通过仪表知识库和语义关系对表格内容识别模型进行训练,保存表格内容识别最优模型;S4:将数据集作为表格内容识别最优模型的输入,将表格结构特征信息作为表格内容识别最优模型的特征,输出识别结果,并根据预设的评价指标进行识别结果评价。2.根据权利要求1所述的基于语义相似度和知识库的仪表询价信息提取方法,其特征在于:所述S2包括:S2
‑
1:将数据集中仪表询价表格数据划分为具有行列数据的类型结构;S2
‑
2:结合类型结构向量化仪表表格,并通过余弦相似度处理向量化后的仪表表格,构建行列数据的类型相似度TySim,其计算公式如下:TyVector=[ctype,dtype,slen]TySimcell(a,b)=NorCosine(TyVector
a
,TyVector
b
)其中,ctype表示单元格类型,ctype∈{0,1,2,3,4,5},0表示空,1表示字符串,2表示数字,3表示日期,4表示布尔型,5表示错误;dtype表示单元格数据类型,dtype∈{0,1,2},0表示单元格数据中全为字符,1表示全为数字,2表示既有数字又有字符;slen表示单元格数据长度,m为表格列数,TyVector
a
表示单元格a的类型相似度,TyVector
b
表示单元格b的类型相似度,c表示某个单元格,x
c
表示行数据x中第c个单元格,y
c
表示行数据y中第c个单元格;S2
‑
3:选取Levenshtein相似度、Dice相似度和TySim相似度,并进行加权融合处理,生成混合相似度MaxSim,并构建表格结构识别模型。3.根据权利要求2所述的基于语义相似度和知识库的仪表询价信息提取方法,其特征在于:所述Levenshtein相似度的表达式为:在于:所述Levenshtein相似度的表达式为:其中,i表示字符串X的前i个字符,j表示字符串Y的前j个字符;所述Dice相似度表达式为:其中,A,B分别表示两个字符串集合。
4.根据权利要求3所述的基于语义相似度和知识库的仪表询价信息提取方法,其特征在于:所述S2
‑
3中混合相似度MaxSim...
【专利技术属性】
技术研发人员:李刚,马莹丽,徐传运,舒涛,李星光,
申请(专利权)人:重庆理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。