信息处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：37553999 阅读：18 留言：0更新日期：2023-05-15 07:38

本发明专利技术实施例公开了一种信息处理方法、装置、计算机设备及存储介质，应用于计算机技术领域。该方法包括：获取目标文件的多模态信息，该多模态信息用于以多种形式的信息描述该目标文件，该多模态信息包括文本信息；基于该多模态信息对该目标文件进行实体抽取，得到该目标文件包括的实体词；基于该实体词构建关键信息提取的参考信息；根据该参考信息和该文本信息进行关键信息提取，得到该目标文件的关键信息。通过本申请，可以提高关键信息提取的精确度和准确性。度和准确性。度和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
信息处理方法、装置、计算机设备及存储介质

[0001]本申请涉及计算机
，尤其涉及一种信息处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]关键信息用于反映文件的主要内容，提取关键信息能够便捷地获取到文件的主要内容，减少繁琐地阅读查询。目前，针对关键信息的提取，通常采用的是规则匹配方法和序列标注方法。其中，规则匹配方法是使用预设规则进行信息的匹配，或是直接使用文本信息进行关键信息抽取，例如关键词抽取、文本摘要提取等。序列标注方法是对文本信息中每个元素打上标签，然后使用后处理方法进行整合。
[0003]但是规则匹配方法和序列标注方法在实体边界上难以精准划分，并且对提取信息的连续性有一定要求，要使用较多的后处理进行整合归纳，从而降低了关键信息提取的准确性。因此，目前如何提高关键信息提取的准确性成为研究的热点问题之一。

技术实现思路

[0004]本专利技术实施例提供了一种信息处理方法、装置、计算机设备及存储介质，可以提高关键信息提取的精确度和准确性。
[0005]一方面，本专利技术...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法，其特征在于，包括：获取目标文件的多模态信息，所述多模态信息用于以多种形式的信息描述所述目标文件，所述多模态信息包括文本信息；基于所述多模态信息对所述目标文件进行实体抽取，得到所述目标文件包括的实体词；基于所述实体词构建关键信息提取的参考信息；根据所述参考信息和所述文本信息进行关键信息提取，得到所述目标文件的关键信息。2.根据权利要求1所述的方法，其特征在于，所述多模态信息还包括所述目标文件中字词的位置信息和所述目标文件对应的图像文件的图像特征信息，所述获取目标文件的多模态信息，包括：对所述目标文件进行文本识别，得到所述目标文件的文本信息和所述目标文件中字词的位置信息；对所述目标文件对应的图像文件进行特征提取处理，得到所述目标文件对应的图像文件的图像特征信息。3.根据权利要求1所述的方法，其特征在于，所述基于所述多模态信息对所述目标文件进行实体抽取，得到所述目标文件包括的实体词是调用实体抽取网络执行的，所述实体抽取网络包括编码器和全连接层，包括：调用所述编码器对所述多模态信息进行编码处理，得到所述文本信息包括的每个字符的隐向量；调用所述全连接层基于所述文本信息包括的每个字符的隐向量进行实体类别预测，得到预测结果，所述预测结果包括所述文本信息中每个字符的实体类别；基于所述文本信息中每个字符的实体类别确定所述目标文件包括的实体词。4.根据权利要求3所述的方法，其特征在于，所述文本信息中每个字符的实体类别包括实体起始、实体内部和实体结束中任意一个，所述基于所述文本信息中每个字符的实体类别确定所述目标文件包括的实体词，包括：若所述文本信息中第一字符的实体类别为实体起始，所述文本信息中第二字符的实体类别为实体结束，且所述第一字符和所述第二字符之间的字符的实体类别为实体内部，则将所述第一字符、所述第二字符、所述第一字符和所述第二字符之间的字符组成所述目标文件包括的实体词。5.根据权利要求1所述的方法，其特征在于，所述参考信息包括问题描述信息，所述基于所述实体词构建关键信息提取的参考信息，包括：基于知识库数据确定所述实体词的属性信息和所述实体词对应的问题描述信息生成模板；基于所述实体词、所述实体词的属性信息和所述实体词对应的问题描述信息生成模板生成问题描述信息。6.根据权利要求3所述的方法，其特征在于，所述根据参考信息和所述文本信息进行关键信息提取，得到所述目标文件的关键信息是调用关键信息提取网络执行的；所述关键信息提取网络包括解码器、全连接层和自注意力层，所述根据所述参考信息和所述文本信息
...

【专利技术属性】
技术研发人员：王雪初，刘银松，吴云飞，李鑫，董帅帅，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人