信息处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:37553999 阅读:6 留言:0更新日期:2023-05-15 07:38
本发明专利技术实施例公开了一种信息处理方法、装置、计算机设备及存储介质,应用于计算机技术领域。该方法包括:获取目标文件的多模态信息,该多模态信息用于以多种形式的信息描述该目标文件,该多模态信息包括文本信息;基于该多模态信息对该目标文件进行实体抽取,得到该目标文件包括的实体词;基于该实体词构建关键信息提取的参考信息;根据该参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息。通过本申请,可以提高关键信息提取的精确度和准确性。度和准确性。度和准确性。

【技术实现步骤摘要】
信息处理方法、装置、计算机设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种信息处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]关键信息用于反映文件的主要内容,提取关键信息能够便捷地获取到文件的主要内容,减少繁琐地阅读查询。目前,针对关键信息的提取,通常采用的是规则匹配方法和序列标注方法。其中,规则匹配方法是使用预设规则进行信息的匹配,或是直接使用文本信息进行关键信息抽取,例如关键词抽取、文本摘要提取等。序列标注方法是对文本信息中每个元素打上标签,然后使用后处理方法进行整合。
[0003]但是规则匹配方法和序列标注方法在实体边界上难以精准划分,并且对提取信息的连续性有一定要求,要使用较多的后处理进行整合归纳,从而降低了关键信息提取的准确性。因此,目前如何提高关键信息提取的准确性成为研究的热点问题之一。

技术实现思路

[0004]本专利技术实施例提供了一种信息处理方法、装置、计算机设备及存储介质,可以提高关键信息提取的精确度和准确性。
[0005]一方面,本专利技术实施例提供了一种信息处理方法,该方法包括:
[0006]获取目标文件的多模态信息,该多模态信息用于以多种形式的信息描述该目标文件,该多模态信息包括文本信息;
[0007]基于该多模态信息对该目标文件进行实体抽取,得到该目标文件包括的实体词;
[0008]基于该实体词构建关键信息提取的参考信息;
[0009]根据该参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息。
[0010]一方面,本申请实施例提供一种信息处理装置,该装置包括:
[0011]获取单元,用于获取目标文件的多模态信息,该多模态信息用于以多种形式的信息描述该目标文件,该多模态信息包括文本信息;
[0012]抽取单元,用于基于该多模态信息对该目标文件进行实体抽取,得到该目标文件包括的实体词;
[0013]构建单元,用于基于该实体词构建关键信息提取的参考信息;
[0014]提取单元,用于根据该参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息。
[0015]一方面,本申请实施例提供一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述的信息处理方法。
[0016]一方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备的处理器读取并执行时,使得计算机设备执
行上述的信息处理方法。
[0017]一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的信息处理方法。
[0018]通过本申请实施例,获取目标文件的多模态信息,该多模态信息用于以多种形式的信息描述该目标文件,该多模态信息包括文本信息;基于该多模态信息对该目标文件进行实体抽取,得到该目标文件包括的实体词;基于该实体词构建关键信息提取的参考信息;根据该参考信息和该文本信息进行关键信息提取,得到该目标文件的关键信息。应当理解的,使用目标文件的多模态信息进行实体抽取,最大化利用文档中的原始信息,将信息损失降到最低,并且通过构建关键信息提取的参考信息方式提取关键信息,缓解了划分实体边界的问题和信息连续性的问题,由此能够提高关键信息提取的精确度和准确性。
附图说明
[0019]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本专利技术实施例提供的一种信息处理系统的架构示意图;
[0021]图2是本专利技术实施例提供的一种信息处理方法的流程示意图;
[0022]图3是本专利技术实施例提供的一种目标文件的示意图;
[0023]图4是本专利技术实施例提供的一种实体抽取网络的结构示意图;
[0024]图5是本专利技术实施例提供的一种实体词抽取结果的示意图;
[0025]图6是本专利技术实施例提供的一种知识库数据的示意图;
[0026]图7是本专利技术实施例提供的一种关键信息提取网络的结构示意图;
[0027]图8是本专利技术实施例提供的一种信息处理流程图;
[0028]图9是本专利技术实施例提供的另一种信息处理方法的流程示意图;
[0029]图10是本专利技术实施例提供的一种多模态信息处理模型的结构示意图;
[0030]图11是本专利技术实施例提供的一种信息处理装置的结构示意图;
[0031]图12是本专利技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0032]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0033]需要说明的是,本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的,而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。
[0034]首先,对本申请实施例涉及的部分名词进行解释,以便于本领域技术人员的理解。
[0035]Transformer模型:Transformer模型是一种自然语言处理(Nature Language processing,NLP)经典模型,Transformer模型完全基于注意力来编码输入和计算输出,而不依赖于序列对齐的循环神经网络或卷积神经网络,Transformer模型使用自注意力(Self

Attention)机制,而不采用循环神经网络(Recurrent Neural Network,RNN)的顺序结构,使得模型可以并行化训练,而且能够拥有全局信息。Transformer模型的结构由编码器(Encoder)层和解码器(Decoder)层组成。
[0036]自然语言处理(Nature Language processing,NLP):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:获取目标文件的多模态信息,所述多模态信息用于以多种形式的信息描述所述目标文件,所述多模态信息包括文本信息;基于所述多模态信息对所述目标文件进行实体抽取,得到所述目标文件包括的实体词;基于所述实体词构建关键信息提取的参考信息;根据所述参考信息和所述文本信息进行关键信息提取,得到所述目标文件的关键信息。2.根据权利要求1所述的方法,其特征在于,所述多模态信息还包括所述目标文件中字词的位置信息和所述目标文件对应的图像文件的图像特征信息,所述获取目标文件的多模态信息,包括:对所述目标文件进行文本识别,得到所述目标文件的文本信息和所述目标文件中字词的位置信息;对所述目标文件对应的图像文件进行特征提取处理,得到所述目标文件对应的图像文件的图像特征信息。3.根据权利要求1所述的方法,其特征在于,所述基于所述多模态信息对所述目标文件进行实体抽取,得到所述目标文件包括的实体词是调用实体抽取网络执行的,所述实体抽取网络包括编码器和全连接层,包括:调用所述编码器对所述多模态信息进行编码处理,得到所述文本信息包括的每个字符的隐向量;调用所述全连接层基于所述文本信息包括的每个字符的隐向量进行实体类别预测,得到预测结果,所述预测结果包括所述文本信息中每个字符的实体类别;基于所述文本信息中每个字符的实体类别确定所述目标文件包括的实体词。4.根据权利要求3所述的方法,其特征在于,所述文本信息中每个字符的实体类别包括实体起始、实体内部和实体结束中任意一个,所述基于所述文本信息中每个字符的实体类别确定所述目标文件包括的实体词,包括:若所述文本信息中第一字符的实体类别为实体起始,所述文本信息中第二字符的实体类别为实体结束,且所述第一字符和所述第二字符之间的字符的实体类别为实体内部,则将所述第一字符、所述第二字符、所述第一字符和所述第二字符之间的字符组成所述目标文件包括的实体词。5.根据权利要求1所述的方法,其特征在于,所述参考信息包括问题描述信息,所述基于所述实体词构建关键信息提取的参考信息,包括:基于知识库数据确定所述实体词的属性信息和所述实体词对应的问题描述信息生成模板;基于所述实体词、所述实体词的属性信息和所述实体词对应的问题描述信息生成模板生成问题描述信息。6.根据权利要求3所述的方法,其特征在于,所述根据参考信息和所述文本信息进行关键信息提取,得到所述目标文件的关键信息是调用关键信息提取网络执行的;所述关键信息提取网络包括解码器、全连接层和自注意力层,所述根据所述参考信息和所述文本信息
...

【专利技术属性】
技术研发人员:王雪初刘银松吴云飞李鑫董帅帅
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1