信息抽取方法及装置、电子设备、计算机可读存储介质制造方法及图纸

技术编号:37668804 阅读:5 留言:0更新日期:2023-05-26 04:29
本申请提供了一种信息抽取方法及装置、电子设备、计算机可读存储介质,该方法包括:从待处理的文件信息中提取文本内容信息,并对所述文本内容信息进行文本分割,得到多个文本片段;从多个文本片段中获取与预先获取的关键字段匹配的文本片段,作为候选文本,候选文本为与所述关键字段之间的语义相似度大于预设阈值的文本片段;将关键字段和候选文本输入目标信息抽取模型,以从候选文本中抽取与关键字段对应的关键文本信息,关键文本信息为根据候选文本预测得到的用于描述关键字段的具体文本内容。根据本申请的的技术方案,能够有效提高文件信息的信息抽取效率,有利于改善信息抽取的准确性。的准确性。的准确性。

【技术实现步骤摘要】
信息抽取方法及装置、电子设备、计算机可读存储介质


[0001]本申请涉及自然语言处理
,特别涉及一种信息抽取方法及装置、电子设备、计算机可读存储介质。

技术介绍

[0002]随着现代社会的发展,各行各业通常会遇到需要从文件信息中抽取出关键信息的情况,例如合同文件交易场景,各类合同的数量非常多,样式也层出不穷。面对大量的合同,通过人工抽取关键信息的方式来整理合同是非常耗时的,因此智能合同要素的快速抽取是亟需解决的技术问题。
[0003]目前,在一些相关技术中,按照模板规则的方式抽取合同要素,这种方式虽然抽取准确率高,但很难产生泛化性能,更换一个场景后就需要重新配置模板规则,非常消耗人力成本。在另一些相关技术中,基于人工智能算法进行合同要素抽取,但这类抽取通常是基于序列标注的方式进行抽取,这种方式在面对长文本内容时容易出现边界识别不准确的问题。

技术实现思路

[0004]本申请提供一种信息抽取方法及装置、电子设备、计算机可读存储介质,能够有效提高文件信息的信息抽取效率以及准确性。
[0005]第一方面,本申请提供了一种信息抽取方法,该信息抽取方法包括:
[0006]从待处理的文件信息中提取文本内容信息,并对所述文本内容信息进行文本分割,得到多个文本片段,所述文件信息包括图像文件信息、视频文件信息和文字文件信息;
[0007]从所述多个文本片段中获取与预先获取的关键字段匹配的文本片段,作为候选文本,所述候选文本为与所述关键字段之间的语义相似度大于预设阈值的文本片段;r/>[0008]将所述关键字段和所述候选文本输入目标信息抽取模型,以从所述候选文本中抽取与所述关键字段对应的关键文本信息,所述关键文本信息为根据所述候选文本预测得到的用于描述所述关键字段的具体文本内容。
[0009]第二方面,本申请提供了一种信息抽取装置,该信息抽取装置包括:
[0010]获取单元,用于:从待处理的文件信息中提取文本内容信息,所述文件信息包括图像文件信息、视频文件信息和文字文件信息中任意一种或多种;对所述文本内容信息进行文本分割,得到多个文本片段;从所述多个文本片段中获取与预先获取的关键字段匹配的文本片段,作为候选文本,所述候选文本为与所述关键字段之间的语义相似度大于预设阈值的文本片段;
[0011]信息抽取单元,用于将所述关键字段和所述候选文本输入目标信息抽取模型,以从所述候选文本中抽取与所述关键字段对应的关键文本信息,所述关键文本信息为根据所述候选文本预测得到的用于描述所述关键字段的具体文本内容。
[0012]第三方面,本申请提供了一种电子设备,该电子设备包括:至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的信息抽取方法。
[0013]第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器执行时实现上述的信息抽取方法。
[0014]根据本申请所提供的信息抽取方法及装置、电子设备、计算机可读存储介质的技术方案,通过从文件信息中的文本内容信息中提取多个文本片段,并识别与关键字段相匹配的文本片段,利用目标信息抽取模型从匹配的文本片段中识别和抽取出与关键字段对应的关键文本信息,由于在进行信息抽取之前,预先将待处理的文件信息中的文本内容拆分成多个文本片段,并利用关键字段匹配相应文本片段,在进行信息抽取时,只需针对匹配的文本片段利用信息抽取模型进行信息的识别和抽取,从而有效提高了文件信息的信息抽取效率,有利于改善在信息抽取过程中对长文本内容的边界识别准确率低的问题,改善信息抽取的准确性;且该信息抽取方法不受文本长度和文本场景限制,能够泛化到不同场景的文件信息的信息抽取,适用于对不同场景下的文件信息进行信息抽取,可以适用于多种格式的文件信息,具有较高的可迁移性和泛化性能。
[0015]应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0016]附图用来提供对本申请的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请,并不构成对本申请的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中:
[0017]图1为本申请实施例提供的一种信息抽取方法的流程示意图;
[0018]图2为一种待处理的文件信息的示意图;
[0019]图3为一种多个文本片段的示意图;
[0020]图4为一种候选文本的示意图;
[0021]图5为一种目标信息匹配模型的模型架构示意图;
[0022]图6为一种信息抽取模型的模型架构示意图;
[0023]图7为本申请实施例提供的一种信息抽取装置的框图;
[0024]图8为本申请实施例提供的一种电子设备的框图。
具体实施方式
[0025]为使本领域的技术人员更好地理解本申请的技术方案,以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0026]在不冲突的情况下,本申请各实施例及实施例中的各特征可相互组合。
[0027]如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
[0028]本文所使用的术语仅用于描述特定实施例,且不意欲限制本申请。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由
……
制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
[0029]除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本申请的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
[0030]根据本申请实施例的信息抽取方法,该信息抽取方法能够应用于任一需要对文件信息进行关键内容信息抽取的场景,相应的,该信息抽取方法可以应用于与这些场景相应的产品中,例如文件智能审核系统、搜索系统、数据库等。
[0031]根据本申请本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种信息抽取方法,其特征在于,包括:从待处理的文件信息中提取文本内容信息,并对所述文本内容信息进行文本分割,得到多个文本片段,所述文件信息包括图像文件信息、音频文件信息、视频文件信息和文字文件信息中任意一种或多种;从所述多个文本片段中获取与预先获取的关键字段匹配的文本片段,作为候选文本,所述候选文本为与所述关键字段之间的语义相似度大于预设阈值的文本片段;将所述关键字段和所述候选文本输入目标信息抽取模型,以从所述候选文本中抽取与所述关键字段对应的关键文本信息,所述关键文本信息为根据所述候选文本预测得到的用于描述所述关键字段的具体文本内容。2.根据权利要求1所述的方法,其特征在于,所述从所述多个文本片段中获取与预先获取的关键字段匹配的文本片段,包括:获取所述关键字段对应的第一语义表示向量;针对每个文本片段,获取所述文本片段对应的第二语义表示向量;根据所述第一语义表示向量和所述第二语义表示向量之间的语义相似度,得到所述关键字段与所述文本片段之间的语义相似度;当所述语义相似度大于预设阈值时,将所述文本片段确定为与所述关键字段匹配的文本片段。3.根据权利要求2所述的方法,其特征在于,所述获取所述关键字段对应的第一语义表示向量,包括:利用预先构建的词网络获取所述关键字段对应的第一语义表示子向量;利用预设的第一语义表示模型获取所述关键字段对应的第二语义表示子向量;将所述第一语义表示子向量和所述第二语义表示子向量进行融合处理,得到所述关键字段对应的第一语义表示向量。4.根据权利要求2所述的方法,其特征在于,所述获取所述文本片段对应的第二语义表示向量,包括:利用预先构建的词网络获取所述文本片段对应的第三语义表示子向量;利用预设的第二语义表示模型获取所述文本片段对应的第四语义表示子向量;将所述第三语义表示子向量和所述第四语义表示子向量进行融合处理,得到所述文本片段对应的第二语义表示向量。5.根据权利要求3或4所述的方法,其特征在于,所述词网络通过以下方式构建得到:获取文本语料,所述文本语料包括多个文本语句;针对每个文本语句,对所述文本语句进行分词处理,得到所述文本语句中的多个词语;根据所述多个词语在所述文本语句中出现的先后顺序,构建词网络,所述词网络中每个节点表示词语,节点与节点之间的边表示词语在文本语句中出现的先后顺序;将所述词网络输入预设的图神经网络模型进行节点的向量表示学习,以得到所述词网络中每个节点对...

【专利技术属性】
技术研发人员:邓泽贵蒋宁吴海英
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1