信息检索方法和装置、计算设备、存储介质及程序产品制造方法及图纸

技术编号:37989933 阅读:24 留言:0更新日期:2023-06-30 10:04
本申请公开了一种信息检索方法,包括:获取第一文本信息和多个第二文本信息;确定第一文本信息与多个第二文本信息中每个第二文本信息的语义相似度;根据第一文本信息与多个第二文本信息中每个第二文本信息的语义相似度,从多个第二文本信息中选取至少一个待检索文本信息;从至少一个待检索文本信息中提取与第一文本信息语义相关的至少一个第三文本信息,至少一个第三文本信息与至少一个待检索文本信息一一对应;根据至少一个第三文本信息,确定信息检索结果。定信息检索结果。定信息检索结果。

【技术实现步骤摘要】
信息检索方法和装置、计算设备、存储介质及程序产品


[0001]本申请涉及计算机
,特别涉及信息检索方法和装置、计算设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]随着互联网的发展和网络信息的不断增长,通过搜索引擎可以从互联网中检索到越来越多的信息,搜索结果呈现出数据海量化,形态多样化,覆盖全面化等特点。这一方面提升了用户搜索到结果的可能性,另一方面却使得用户很难快速准确地定位到所需的信息,例如用户需要结合网页标题、正文摘要甚至是网页链接等信息确定所要查看的网页,并自行提取所需答案。因此,现有的搜索引擎技术不具有深度问答功能,无法直接为用户提供问题答案,搜索结果的呈现效果差。
[0003]随着用户对搜索引擎的期望越来越高(例如开始由基本的相关网页召回向智能问答转变),基于机器阅读理解的信息检索技术应运而生。如何利用基于机器阅读理解的信息检索技术来帮助用户查找到满意的答案,已经成为自然语言处理和信息检索技术研究领域中的一个经典课题。然而,相关技术的基于机器阅读理解的信息检索方法存在以下问题:首先,相关技术的基于关键词本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种信息检索方法,包括:获取第一文本信息和多个第二文本信息;确定所述第一文本信息与所述多个第二文本信息中每个第二文本信息的语义相似度;根据所述第一文本信息与所述多个第二文本信息中每个第二文本信息的语义相似度,从所述多个第二文本信息中选取至少一个待检索文本信息;从所述至少一个待检索文本信息中提取与第一文本信息语义相关的至少一个第三文本信息,所述至少一个第三文本信息与所述至少一个待检索文本信息一一对应;根据所述至少一个第三文本信息,确定信息检索结果。2.根据权利要求1所述的方法,其中所述确定所述第一文本信息与所述多个第二文本信息中每个第二文本信息的语义相似度,包括:获取所述第一文本信息对应的第一语义特征向量以及所述多个第二文本信息分别对应的多个第二语义特征向量;计算第一语义特征向量与所述多个第二语义特征向量中每一个第二语义特征向量的相似度;根据第一语义特征向量与每一个第二语义特征向量的相似度,确定所述第一文本信息与所述多个第二文本信息中每个第二文本信息的语义相似度。3.根据权利要求2所述的方法,其中所述计算第一语义特征向量与所述多个第二语义特征向量中每一个第二语义特征向量的相似度包括:基于所述多个第二语义特征向量与第一语义特征向量的距离,计算第一语义特征向量与所述多个第二语义特征向量中每一个第二语义特征向量的第一相似度;基于所述多个第二语义特征向量与第一语义特征向量之间的夹角的余弦,计算第一语义特征向量与所述多个第二语义特征向量中每一个第二语义特征向量的第二相似度;基于第一相似度和第二相似度中至少一个,确定第一语义特征向量与所述多个第二语义特征向量中每一个第二语义特征向量的相似度。4.根据权利要求2所述的方法,其中所述获取所述第一文本信息对应的第一语义特征向量以及所述多个第二文本信息分别对应的多个第二语义特征向量包括:利用语义理解模型确定第一文本信息对应的第一语义特征向量;从预设的语义特征向量索引库中获取所述多个第二文本信息分别对应的多个第二语义特征向量,所述预设的语义特征向量索引库中存储有预先利用所述语义理解模型确定的所述多个第二语义特征向量。5.根据权利要求4所述的方法,其中所述从所述至少一个待检索文本信息中提取与第一文本信息语义相关的至少一个第三文本信息包括:针对所述至少一个待检索文本信息中每一个待检索文本信息,执行下述步骤:将第一文本信息和所述待检索文本信息输入阅读理解模型;利用所述阅读理解模型确定所述待检索文本信息中每一个分词对应的第一概率和第二概率,所述每一个分词对应的第一概率指示该分词是与第一文本信息语义相关的第三文本信息的开始分词的概率,且所述每一个分词对应的第二概率指示该分词是所述第三文本信息的结束分词的概率;根据所述待检索文本信息中每一个分词对应的第一概率和第二概率,从所述待检索文
本信息的各个分词中确定第三文本信息的开始分词和结束分词;根据所确定的开始分词和结束分词,从所述待检索文本信息中提取第三文本信息。6.根据权利要求5所述的方法,其中所述根据所述至少一个第三文本信息,确定信息检索结果,包括:针对所述至少一个第三文本信息中每一个第三文本信息,根据所述开始分词对应的第一概率和所述结束分词对应的第二概率中至少一个,确定所述第三文本信息的检索匹配度;根据每一个第三文本信息的检索匹配度,对所述至少一个第三文本信息进行排序;根据所述至少一个第三文本信息的排序,确定信息检索结果。7.根据权利要求6所述的方法,其中所述针对所述至少一个第三文本信息中每一个第三文本信息,根据所述开始分词对应的第一概率和所述结束分词对应的第二概率中至少一个,确定所述第三文本信息的检索匹配度,包括:基于下述数值中至少一个,确定所述第三文本信息的检索匹配度:所述开始分词对应的第一概率和所述结束分词对应的第二概率的算术平均值;所述开始分词对应的第一概率和所述结束分词对应的第二概率的几何平均值;所述开始分词对应的第一概率和所述结...

【专利技术属性】
技术研发人员:王寒石智中梁霄雷涛
申请(专利权)人:中国国际金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1