结构化信息的确定方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38086737 阅读:19 留言:0更新日期:2023-07-06 08:55
本申请提供的一种结构化信息的确定方法、装置、电子设备及存储介质,通过确定文本信息中目标段落的统计特征,并确定文本信息中所述目标段落的首句与所述目标段落之后的多个段落的首句分别对应的特征转移矩阵;至少基于所述特征转移矩阵确定特征拼接矩阵;基于所述特征拼接矩阵的维度对应的维度转换矩阵将所述统计特征转换为目标统计特征矩阵;将所述目标统计特征矩阵和所述特征拼接矩阵进行特征拼接,得到所述目标段落的总体拼接特征信息,使得总体拼接特征信息能够多涵盖段落的有效信息,从而使得确定的结构化信息准确率更高。从而使得确定的结构化信息准确率更高。从而使得确定的结构化信息准确率更高。

【技术实现步骤摘要】
结构化信息的确定方法、装置、电子设备及存储介质


[0001]本申请涉及文档处理
,特别地涉及一种结构化信息的确定方法、装置、电子设备及存储介质。

技术介绍

[0002]相关技术中的电子文档的结构化信息的确定方法主要有两种,一种是基于关键字和句式结构的模板化抽取方法,这种方法依赖于制定一个行业关键字典并消耗大量人工总结模板句式,优点是对指定类型文档提取准确性较高、提取速度快,缺点是泛化性能差,前期模板提取工作量较大。另外一种是基于文档结构提取文档结构特征,并把结构特征输入深度神经网络,神经网络学习并分类得到文档段落相应标签的方法。目前主要的结构特征提取方法为段落特征字或特征句式提取,并结合该段落结构类型。但是相关技术中的方法,提取出的特征维度较低,存在大量稀疏特征,难以涵盖文档段落的有效信息,导致后续训练的深度神经网络模型准确率较低,确定结构化信息的能力较差。

技术实现思路

[0003]针对上述问题,本申请提供一种结构化信息的确定方法方法、装置、设备及存储介质,能够提高确定文档的结构化信息的准确率。
[0004]本申请提供了一种结构化信息的确定方法,包括:
[0005]获取待处理文档的文本信息;
[0006]确定所述文本信息中目标段落的统计特征,并确定所述文本信息中所述目标段落的首句与所述目标段落之后的多个段落的首句分别对应的特征转移矩阵,所述统计特征包括所述目标段落的第一特征信息和所述目标段落之后的多个段落的第二特征信息;
[0007]至少基于所述特征转移矩阵确定特征拼接矩阵;
[0008]基于所述特征拼接矩阵的维度对应的维度转换矩阵将所述统计特征转换为目标统计特征矩阵;
[0009]将所述目标统计特征矩阵和所述特征拼接矩阵进行特征拼接,得到所述目标段落的总体拼接特征信息;
[0010]基于所述总体拼接特征信息确定所述目标段落的类别;
[0011]基于所述目标段落的类别确定所述待处理文档的结构化信息。
[0012]在一些实施例中,所述确定所述文本信息中所述目标段落的首句与所述目标段落之后的多个段落的首句分别对应的特征转移矩阵,包括:
[0013]将所述目标段落的首句与所述目标段落之后的多个段落的首句进行预处理,以去除所述目标段落的首句与所述多个段落的首句中的停用词;
[0014]将预处理后的目标段落的首句与所述多个段落的首句分别输出到skip

gram模型,确定所述目标段落的首句与所述多个段落的首句分别对应的特征转移矩阵。
[0015]在一些实施例中,所述方法还包括:
[0016]确定所述目标段落的首句与所述多个段落的首句分别对应的独热编码矩阵;
[0017]所述至少基于所述特征转移矩阵确定特征拼接矩阵,包括:
[0018]基于所述独热编码矩阵与对应的特征转移矩阵,确定目标段落的首句与所述多个段落的首句分别对应的转换特征矩阵;
[0019]基于所述转换特征矩阵进行拼接,得到特征拼接矩阵。
[0020]在一些实施例中,所述基于所述特征拼接矩阵的维度对应的维度转换矩阵将所述统计特征转换为目标统计特征矩阵,包括:
[0021]将所述统计特征进行标准化处理;
[0022]将标准化处理后的统计特征乘以所述维度转换矩阵得到所述目标统计特征矩阵。
[0023]在一些实施例中,所述获取待处理文档的文本信息,包括:
[0024]获取待处理文档;
[0025]解析所述待处理文档的文本内容;
[0026]将所述文本内容按顺序以文本格式进行保存,以得到所述待处理文档的文本信息,其中,所述文本信息中每一行对应一个段落。
[0027]在一些实施例中,所述确定所述文本信息中目标段落的统计特征,包括:
[0028]将所述目标段落进行分词处理,得到各个分词;
[0029]基于各个分词和预先建立的词库,确定所述目标段落的第一特征信息;
[0030]并基于统计分析方法确定所述文本信息中所述目标段落之后的多个段落的第二特征信息;
[0031]基于所述第一特征信息和所述第二特征信息确定所述目标段落的统计特征。
[0032]在一些实施例中,所述第一特征信息包括词频权重、关键词、依存句法特征、段落统计特征、段落序列特征、深度优先特征中的至少一个,所述第二特征信息包括:字数、词数、与目标段落的重复词数中的至少一个。
[0033]本申请实施例提供一种结构化信息的确定装置,包括:
[0034]第一获取模块,用于获取待处理文档的文本信息;
[0035]第一确定模块,用于确定所述文本信息中目标段落的统计特征,并确定所述文本信息中所述目标段落的首句与所述目标段落之后的多个段落的首句分别对应的特征转移矩阵,所述统计特征包括所述目标段落的第一特征信息和所述目标段落之后的多个段落的第二特征信息;
[0036]第二确定模块,用于至少基于所述特征转移矩阵确定特征拼接矩阵;
[0037]第三确定模块,用于基于所述特征拼接矩阵的维度对应的维度转换矩阵将所述统计特征转换为目标统计特征矩阵;
[0038]拼接模块,用于将所述目标统计特征矩阵和所述特征拼接矩阵进行特征拼接,得到所述目标段落的总体拼接特征信息;
[0039]第四确定模块,用于基于所述总体拼接特征信息确定所述目标段落的类别;
[0040]第五确定模块,用于基于所述目标段落的类别确定所述待处理文档的结构化信息。
[0041]本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行上述所述结构化信息的确定方法。
[0042]本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储的计算机程序,能够被一个或多个处理器执行,能够用来实现上述所述结构化信息的确定方法。
[0043]本申请提供的一种结构化信息的确定方法、装置、电子设备及存储介质,通过确定文本信息中目标段落的统计特征,并确定文本信息中所述目标段落的首句与所述目标段落之后的多个段落的首句分别对应的特征转移矩阵;至少基于所述特征转移矩阵确定特征拼接矩阵;基于所述特征拼接矩阵的维度对应的维度转换矩阵将所述统计特征转换为目标统计特征矩阵;将所述目标统计特征矩阵和所述特征拼接矩阵进行特征拼接,得到所述目标段落的总体拼接特征信息,使得总体拼接特征信息能够多涵盖段落的有效信息,从而使得确定的结构化信息准确率更高。
附图说明
[0044]在下文中将基于实施例并参考附图来对本申请进行更详细的描述。
[0045]图1为本申请实施例提供的一种结构化信息的确定方法的实现流程示意图;
[0046]图2为本申请实施例提供的一种结构化信息的确定装置的示意图;
[0047]图3为本申请实施例提供的电子设备的组成结构示意图。
[0048]在附图中,相同的部件使用相同的附图标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结构化信息的确定方法,其特征在于,包括:获取待处理文档的文本信息;确定所述文本信息中目标段落的统计特征,并确定所述文本信息中所述目标段落的首句与所述目标段落之后的多个段落的首句分别对应的特征转移矩阵,其中,所述统计特征包括所述目标段落的第一特征信息和所述目标段落之后的多个段落的第二特征信息;至少基于所述特征转移矩阵确定特征拼接矩阵;基于所述特征拼接矩阵的维度对应的维度转换矩阵将所述统计特征转换为目标统计特征矩阵;将所述目标统计特征矩阵和所述特征拼接矩阵进行特征拼接,得到所述目标段落的总体拼接特征信息;基于所述总体拼接特征信息确定所述目标段落的类别;基于所述目标段落的类别确定所述待处理文档的结构化信息。2.根据权利要求1所述方法,其特征在于,所述确定所述文本信息中所述目标段落的首句与所述目标段落之后的多个段落的首句分别对应的特征转移矩阵,包括:将所述目标段落的首句与所述目标段落之后的多个段落的首句进行预处理,以去除所述目标段落的首句与所述多个段落的首句中的停用词;将预处理后的目标段落的首句与所述多个段落的首句分别输出到skip

gram模型,确定所述目标段落的首句与所述多个段落的首句分别对应的特征转移矩阵。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述目标段落的首句与所述多个段落的首句分别对应的独热编码矩阵;所述至少基于所述特征转移矩阵确定特征拼接矩阵,包括:基于所述独热编码矩阵与独热编码矩阵对应的特征转移矩阵,确定目标段落的首句与所述多个段落的首句分别对应的转换特征矩阵;基于所述转换特征矩阵进行拼接,得到特征拼接矩阵。4.根据权利要求1所述的方法,其特征在于,所述基于所述特征拼接矩阵的维度对应的维度转换矩阵将所述统计特征转换为目标统计特征矩阵,包括:将所述统计特征进行标准化处理;将标准化处理后的统计特征乘以所述维度转换矩阵得到所述目标统计特征矩阵。5.根据权利要求1所述的方法,其特征在于,所述获取待处理文档的文本信息,包括:获取待处理文档;解析所述待处理文档的文本...

【专利技术属性】
技术研发人员:索寒生韩嘉航张小闻王优优张卡周青
申请(专利权)人:中国石油化工股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1