一种信息提取方法、装置及系统制造方法及图纸

技术编号:27615046 阅读:18 留言:0更新日期:2021-03-10 10:43
本发明专利技术公开了一种信息提取方法、装置及系统。所述方法包括:获取文件中的文本信息及文本信息中字符的位置信息;根据所述文本信息构建若干句向量;结合所述位置信息对所述句向量分类,获取所述句向量的类别;根据所述句向量的类别生成结构化表示的字符串信息。本发明专利技术针对具有特定格式的文件提高了具有特定格式文件的信息提取的准确性,提升了信息提取的准确率、鲁棒性和通用性。鲁棒性和通用性。鲁棒性和通用性。

【技术实现步骤摘要】
一种信息提取方法、装置及系统


[0001]本专利技术涉及计算机
,特别涉及一种信息提取方法、装置及系统。

技术介绍

[0002]信息提取是一种将自然语言表述的文本信息转换成键值对,进行数据的结构化表示,以定位自然语言文档中特定信息的技术。目前,信息提取普遍采用自动学习的方法,常用的提取模型包括:基于正则文法推导的模型、基于模板推导的模型、基于结构比较的模型、基于视觉特征的模型等等。然而现有技术中,利用上述模型的信息提取方法对于普通文件以及具有特定格式文件的处理过程均相同,这样导致信息提取的准确率难以提升。

技术实现思路

[0003]为了解决现有技术的问题,本专利技术实施例提供了一种信息提取方法、装置及系统。所述技术方案如下:
[0004]第一方面,提供了一种信息提取方法,所述方法包括:
[0005]获取文件中的文本信息及文本信息中字符的位置信息;
[0006]根据所述文本信息构建若干句向量;
[0007]结合所述位置信息对所述句向量分类,获取所述句向量的类别;
[0008]根据所述句向量的类别生成结构化表示的字符串信息。
[0009]进一步地,所述对所述句向量进行分类,获取所述句向量的类别,包括:
[0010]将所述句向量表征为节点,将与所述句向量对应的所述文本信息所包含字符的位置信息表征为边,构建图网络;
[0011]利用图网络模型对所述图网络中的所述节点分类,获得所述句向量的类别。
[0012]进一步地,所述根据所述句向量的类别生成结构化表示的字符串信息,包括:
[0013]根据所述位置信息对同一类别的所述句向量对应的文本信息进行拼接组合,生成结构化表示的所述字符串信息。
[0014]进一步地,所述根据文本信息构建若干句向量,包括:
[0015]对所述文本信息进行分词处理,获得分词;
[0016]将所述分词转换成词向量;
[0017]根据所述词向量构建所述句向量。
[0018]进一步地,所述将所述分词转换成词向量,包括:利用词向量模型为所述分词匹配对应的所述词向量。
[0019]进一步地,所述根据所述词向量构建所述句向量,包括:利用词袋模型或统计模型处理所述词向量,构建所述句向量。
[0020]第二方面,提供了一种信息提取装置,所述装置包括:
[0021]识别模块,用于获取文件中的文本信息及文本信息中字符的位置信息;
[0022]句向量构建模块,用于根据所述文本信息构建若干句向量;
[0023]类别识别模块,用于结合所述位置信息对所述句向量分类,获取所述句向量的类别;
[0024]转换模块,用于根据所述句向量的类别生成结构化表示的字符串信息。
[0025]进一步地,所述类别识别模块,包括:
[0026]图构建模块,用于将所述句向量表征为节点,将与所述句向量对应的所述文本信息所包含字符的位置信息表征为边,构建图网络;
[0027]分类模块,用于利用图网络模型对所述图网络中的所述节点分类,获得所述句向量的类别。
[0028]进一步地,所述转换模块,具体用于根据所述位置信息对同一类别的所述句向量对应的文本信息进行拼接组合,生成结构化表示的所述字符串信息。
[0029]进一步,句向量构建模块,包括:
[0030]分词处理模块,用于对文本信息进行分词处理,获得分词。
[0031]词向量获取模块,用于将分词转换成词向量。
[0032]构建模块,用于根据词向量构建句向量。
[0033]进一步地,词向量获取模块,具体用于利用词向量模型为分词匹配对应的词向量。
[0034]进一步地,构建模块,具体用于利用词袋模型或统计模型处理词向量,构建句向量。
[0035]第三方面,提供了一种计算机系统,包括:
[0036]一个或多个处理器;以及
[0037]与一个或多个处理器关联的存储器,存储器用于存储程序指令,程序指令在被一个或多个处理器读取执行时,执行上述第一方面所述的信息提取方法。
[0038]本专利技术实施例提供的技术方案带来的有益效果是:
[0039]1、本专利技术针对具有特定格式的文件,结合文本信息中字符的位置信息对文本信息构建的句向量进行分类,根据句向量的类别生成结构化表示的字符串,使得在判断句向量类别时,参考文本和位置信息两个维度的指标,确保了分类的准确性,有利于按照句向量的类别确定句向量对应的文本信息的特性,进而提高了具有特定格式文件的信息提取的准确性;
[0040]2、本专利技术采用图网络模型进行结构化信息提取,相较于基于模板推导的模型能够适应不同长短的文本信息,可以有效提升信息提取的准确率、鲁棒性和通用性;
[0041]3、本专利技术在生成结构化表示的字符串信息时,根据位置信息对同一类别的句向量对应的文本信息进行拼接组合,通过位置信息确保文本信息拼接的正确性,使语义连贯。
附图说明
[0042]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0043]图1是本专利技术实施例提供的信息提取方法流程图;
[0044]图2是本专利技术实施例提供的信息提取装置结构示意图;
[0045]图3是本专利技术实施例提供的计算机系统结构示意图。
具体实施方式
[0046]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0047]现有的信息提取技术中没有针对特定格式文件的信息提取方法,然而我们发现特定格式文件的格式本身就含有结构信息,如果能将格式信息与文本的语义信息相结合进行信息提取,将能够进一步提高特定格式文件信息提取的准确性。因此为了进一步提高特定格式文件的信息提取的准确率,将特定格式文件的格式信息与语义信息结合,本专利技术公开一种信息提取方法、装置及系统,具体技术方案如下:
[0048]如图1所示,一种信息提取方法,包括:
[0049]S1、获取文件中的文本信息及文本信息中字符的位置信息。
[0050]上述,文件主要指具有特定格式的文件,具体可以是:营业执照、证书、身份证、发票等。文本信息主要指文件中的文字、数字、字母、特殊符号等字符,一般情况下文件中的标点符号作为划分文本信息中的句的依据,不包含在文本信息中。
[0051]在一个实施例中,步骤S1具体为采用光学字符识别技术获取文件图片中的文本信息及文本信息中字符在文件图片中的位置信息。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息提取方法,其特征在于,包括:获取文件中的文本信息及文本信息中字符的位置信息;根据所述文本信息构建若干句向量;结合所述位置信息对所述句向量分类,获取所述句向量的类别;根据所述句向量的类别生成结构化表示的字符串信息。2.如权利要求1所述的方法,其特征在于,所述对所述句向量进行分类,获取所述句向量的类别,包括:将所述句向量表征为节点,将与所述句向量对应的所述文本信息所包含字符的位置信息表征为边,构建图网络;利用图网络模型对所述图网络中的所述节点分类,获得所述句向量的类别。3.如权利要求1所述的方法,其特征在于,所述根据所述句向量的类别生成结构化表示的字符串信息,包括:根据所述位置信息对同一类别的所述句向量对应的文本信息进行拼接组合,生成结构化表示的所述字符串信息。4.如权利要求1~3中任一项所述的方法,其特征在于,所述根据文本信息构建若干句向量,包括:对所述文本信息进行分词处理,获得分词;将所述分词转换成词向量;根据所述词向量构建所述句向量。5.如权利要求4所述的方法,其特征在于,所述将所述分词转换成词向量,包括:利用词向量模型为所述分词匹配对应的所述词向量。6.如权利要求4所述的方法,其特征在于,所述根据所述...

【专利技术属性】
技术研发人员:王元
申请(专利权)人:苏宁金融科技南京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1