信息比对方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35568977 阅读:26 留言:0更新日期:2022-11-12 15:53
本公开提供了一种信息比对方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及智能搜索技术领域。具体实现方案为:从参考文件的文本内容中提取多项文本信息,并基于参考文件的元数据提取元数据特征;分别提取各项文本信息的文本特征,并对各文本特征进行融合处理,得到综合文本特征;基于元数据特征和综合文本特征,确定参考文件与待比对文件的相似度。本公开实施例中从参考文件中提取多项文本信息,并分别提取文本特征,有利于提炼出每项文本信息独立表达的思想特征。结合多个文本特征得到的综合文本特征能够代表整体文本特征。进一步结合了元数据特征,能够从多个维度实现对参考文件的特征描述,进而提高文件相似度的准确性。似度的准确性。似度的准确性。

【技术实现步骤摘要】
信息比对方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,尤其涉及智能搜索


技术介绍

[0002]文件经年累月的累积加上不断完成的新文本,导致文件数量巨大。虽然可采用数据库来管理各种文件,通过模糊查询等查询方式也能够检索到相关文件。但如何从海量文件中筛选出期望的文件一直是需要改善的课题。

技术实现思路

[0003]本公开提供了一种信息比对方法、装置、电子设备及存储介质。
[0004]根据本公开的第一方面,提供了一种信息比对方法,包括:
[0005]从参考文件的文本内容中提取多项文本信息,以及基于参考文件的元数据提取元数据特征;
[0006]分别提取各项文本信息的文本特征,并对各项文本信息的文本特征进行融合处理,得到综合文本特征;
[0007]基于元数据特征和综合文本特征,确定参考文件与待比对文件的相似度。
[0008]根据本公开的第二方面,提供了一种信息比对装置,包括:
[0009]获取模块,用于从参考文件的文本内容中提取多项文本信息,以及基于参考文本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种信息比对方法,包括:从参考文件的文本内容中提取多项文本信息,以及基于所述参考文件的元数据提取元数据特征;分别提取各项文本信息的文本特征,并对各项文本信息的文本特征进行融合处理,得到综合文本特征;基于所述元数据特征和所述综合文本特征,确定所述参考文件与待比对文件的相似度。2.根据权利要求1所述的方法,所述对各项文本信息的文本特征进行融合处理,得到综合文本特征,包括:基于层次注意力机制处理各项文本信息的文本特征,得到所述综合文本特征。3.根据权利要求2所述的方法,所述基于层次注意力机制处理各项文本信息的文本特征,得到所述综合文本特征,包括:确定所述多项文本信息中包含多个段落的复杂文本项,并确定所述多项文本信息中除所述复杂文本项之外的文本信息为简单文本信息;基于所述复杂文本项,确定所述层次注意力机制的键特征、值特征和查询特征;其中,所述复杂文本项的文本特征中每个段落的子文本特征为所述键特征和所述值特征,所述简单文本信息的文本特征为所述查询特征;基于所述键特征、所述值特征和所述查询特征确定所述复杂文本项的优化文本特征;将所述复杂文本项的优化文本特征和所述简单文本项的文本特征进行拼接处理,得到所述综合文本特征。4.根据权利要求1所述的方法,所述对各项文本信息的文本特征进行融合处理,得到综合文本特征,包括:对各项文本信息的文本特征进行拼接处理,得到所述综合文本特征。5.根据权利要求1

4中任一项所述的方法,所述分别提取各项文本信息的文本特征,包括:针对每项文本信息分别执行以下操作:采用所述文本信息对应的第一语言模型提取所述文本信息的初始文本特征;将所述文本信息的初始文本特征输入所述文本信息对应的第一全连接层,得到所述第一全连接层输出的所述文本信息的文本特征。6.根据权利要求1

4中任一项所述的方法,针对所述多项文本信息中包含多个段落的复杂文本项,提取所述复杂文本项的文本特征,包括:基于所述复杂文本项对应的第二语言模型,分别提取所述复杂文本项中各段文本的子文本特征;对各段文本的子文本特征进行降维处理,得到所述复杂文本项的降维特征;将所述复杂文本项的降维特征输入所述复杂文本项对应的第二全连接层,得到所述第二全连接层输出的所述复杂文本项的文本特征。7.根据权利要求1所述的方法,所述分别提取各项文本信息的文本特征,并对各项文本信息的文本特征进行融合处理,得到综合文本特征,包括:基于综合文本特征网络模型,分别提取各项文本信息的文本特征,并对各项文本信息
的文本特征进行融合处理,得到所述综合文本特征。8.根据权利要求7所述的方法,还包括基于以下方法训练得到所述综合文本特征网络模型:从同一文件中提取多项文本信息,构建正样本,并从不同文件中提取多项文本信息,构建负样本;将所述正样本和所述负样本分别输入初始文本特征网络,得到所述初始文本特征网络输出的所述正样本的综合文本特征、和所述负样本的综合文本特征;采用分类器对所述正样本的综合文本特征和所述负样本的综合文本特征分别进行分类处理,得到分类处理结果,其中,分类器的分类类别包括正样本和负样本;基于所述分类处理结果、所述正样本的类别标签和所述负样本的类别标签,确定分类损失值;基于所述分类损失值,调整所述初始文本特征网络的模型参数,得到所述综合文本特征网络模型。9.一种信息比对装置,包括:获取模块,用于从参考文件的文本内容中提取多项文本信息,以及基于所述参考文件的元数据提取元数据特征;提取模块,用于分别提取各项文本信息的文本特征,并对各项文本信息的文本特征进行融合处理,得到综合文本特征;比对模块...

【专利技术属性】
技术研发人员:武晗祝恒书熊辉刘浩秦川刘淇陈恩红
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1