基于语义理解的信息检索方法和装置制造方法及图纸

技术编号:37974537 阅读:21 留言:0更新日期:2023-06-30 09:49
公开了一种基于语义理解的信息检索方法和装置。该信息检索方法包括:获取第一文本信息和多个第二文本信息;确定第一文本信息与每一个第二文本信息的语义相似度;根据第一文本信息与每一个第二文本信息的语义相似度,从多个第二文本信息中选取至少一个待检索文本信息;从至少一个待检索文本信息中分别提取与第一文本信息语义相关的第三文本信息,以形成第三文本信息集合;获取第三文本信息集合中至少两个第三文本信息对应的多文本摘要;基于多文本摘要,确定第一文本信息对应的检索结果。根据本申请一些实施例的信息检索方法通过信息筛选、提取、摘要等数据处理操作,能够高效、精确地完成诸如智能问答之类的高级信息检索任务。务。务。

【技术实现步骤摘要】
基于语义理解的信息检索方法和装置


[0001]本申请涉及自然语言处理领域,特别涉及基于语义理解的信息检索方法和装置、计算设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]随着互联网的快速发展,通过搜索引擎可以从互联网中检索到越来越多的信息,搜索结果呈现出数据海量化,形态多样化,覆盖全面化等特点。这一方面提升了用户搜索到结果的可能性,另一方面用户面对海量的搜索结果会显得无所适从,无法短时间获取准确的答案。例如传统的基于关键词匹配和单文档摘要的搜索引擎局限于返回与用户检索问题相关的网页或文档列表,而无法给出问题的准确答案(用户需要结合标题和摘要等信息从相关网页或文档中查找或得出问题答案),无法满足用快速获取信息的需求和期望。
[0003]随着用户对搜索引擎的期望越来越高,信息检索的形态开始由诸如基本的相关网页或文档列表的召回之类的初级形态向诸如智能问答检索之类的高级形态转变。智能问答检索的目的是用简洁、准确的自然语言回答用户的问题,它的出现致力于提供更有效的信息获取工具。为了实现智能问答之类的高级信息检索形态,基于语义理解或本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于语义理解的信息检索方法,包括:获取指示检索目标的第一文本信息和指示候选检索对象的多个第二文本信息;确定所述第一文本信息与所述多个第二文本信息中每一个第二文本信息的语义相似度;根据所述第一文本信息与所述多个第二文本信息中每一个第二文本信息的语义相似度,从所述多个第二文本信息中选取至少一个待检索文本信息;从所述至少一个待检索文本信息中分别提取与第一文本信息语义相关的第三文本信息,以形成第三文本信息集合;获取所述第三文本信息集合中至少两个第三文本信息对应的多文本摘要;基于所述多文本摘要,确定所述第一文本信息对应的检索结果。2.根据权利要求1所述的方法,其中,所述多文本摘要包括生成式多文本摘要。3.根据权利要求1或2所述的方法,其中,所述确定所述第一文本信息与所述多个第二文本信息中每一个第二文本信息的语义相似度,包括:获取所述第一文本信息对应的第一语义特征向量以及所述多个第二文本信息分别对应的多个第二语义特征向量;计算第一语义特征向量与所述多个第二语义特征向量中每一个第二语义特征向量的相似度;根据第一语义特征向量与每一个第二语义特征向量的相似度,确定所述第一文本信息与所述多个第二文本信息中每一个第二文本信息的语义相似度。4.根据权利要求3所述的方法,其中,所述计算第一语义特征向量与所述多个第二语义特征向量中每一个第二语义特征向量的相似度包括:基于所述多个第二语义特征向量与第一语义特征向量的距离,计算第一语义特征向量与所述多个第二语义特征向量中每一个第二语义特征向量的第一相似度;基于所述多个第二语义特征向量与第一语义特征向量之间的夹角的余弦,计算第一语义特征向量与所述多个第二语义特征向量中每一个第二语义特征向量的第二相似度;基于第一相似度和第二相似度中至少一个,确定第一语义特征向量与所述多个第二语义特征向量中每一个第二语义特征向量的相似度。5.根据权利要求3所述的方法,其中,所述获取所述第一文本信息对应的第一语义特征向量以及所述多个第二文本信息分别对应的多个第二语义特征向量包括:利用语义理解模型确定第一文本信息对应的第一语义特征向量;从预设的语义特征向量索引库中获取所述多个第二文本信息分别对应的多个第二语义特征向量,所述预设的语义特征向量索引库中存储有利用所述语义理解模型确定的所述多个第二语义特征向量。6.根据权利要求1或2所述的方法,其中,所述从所述至少一个待检索文本信息中分别提取与第一文本信息语义相关的第三文本信息,以形成第三文本信息集合,包括:针对所述至少一个待检索文本信息中每一个待检索文本信息,利用阅读理解模型从所述待检索文本信息中确定指示与所述第一文本信息对应的候选检索结果的第四文本信息;从每一个待检索文本信息中提取包含第四文本信息的第三文本信息;基于从每一个待检索文本信息中提取的第三文本信息,构建第三文本信息集合。
7.根据权利要求6所述的方法,其中,所述从每一个待检索文本信息中提取包含第四文本信息的第三文本信息,包括下述步骤之一:从每一个待检索文本信息中提取第四文本信息所在的语句,作为第三文本信息;从每一个待检索文本信息中提取第四文本信息所在的自然段落,作为第三文本信息;从每一个待检索文本信息中提取第四文本信息,作为第三文本信息。8.根据权利要求6所述的方法,其中,所述针对每一个待检索文本信息,利用所述阅读理解模型从所述待检索文本信息中确定指示与所述第一文本信息对应的候选检索结果的第四文本信息,包括:针对每一个待检索文本信息执行下述步骤:通过拼接第一文本信息和所述待检索文本信息形成第一待处理文本信息;将第一待处理文本信息进行分词处理以得到分词序列,所述分词序列包含第一文本信息对应的第一分词序列和所述待检索文本信息对应的第二分词序列;将所述分词序列输入阅读理解模型以获得所述第二分词序列中每一个分词对应的第一概率和第二概率,所述每一个分词对应的第一概率表示该分词是第四文本信息的开始分词的概率,且所述每一个分词对应的第二概率表示该分词是第四文本信息的结束分词的概率;根据第二...

【专利技术属性】
技术研发人员:王寒石智中梁霄雷涛
申请(专利权)人:中国国际金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1