信息检索方法、服务器、介质及产品技术

技术编号:35949017 阅读:17 留言:0更新日期:2022-12-14 10:40
本申请涉及知识图谱领域,提供一种信息检索方法、服务器、介质及产品。该方法包括:在接收到用户终端输入的检索请求之后,获取检索请求中的检索信息对应的查询词;根据预设的知识图谱对查询词进行扩展处理,以得到查询词的扩展词;确定查询词以及查询词的扩展词对应的词向量;将词向量输入训练好的文档多视图表示模型中,以得到词向量与预设的文档集中每一文档的相似度得分;根据相似度得分确定查询词对应的文档序列,并根据文档序列向用户终端输出检索结果。本申请的方法,提高了信息检索的准确性。性。性。

【技术实现步骤摘要】
信息检索方法、服务器、介质及产品


[0001]本申请涉及知识图谱领域,尤其涉及一种信息检索方法、服务器、介质及产品。

技术介绍

[0002]随着互联网技术的发展和社会的进步,数据呈爆发式增长,如何从大量的数据中进行准确的信息检索变得越来越重要。
[0003]信息检索指的是根据用户的输入,即关键词,从大量的文章中进行相关度匹配和查找,然后将匹配到的文章根据相关度进行排序并提供给用户。现有的信息检索方式主要是稠密检索。具体的,服务器会预先将数据库中的文档进行预处理,即采用双编码器架构对文档进行处理,以得到每一文档对应的嵌入向量。当服务器接收到用户终端输入的检索请求后,会获取检索请求中的查询词,之后采用双编码器架构对查询词进行处理,以得到查询词对应的词向量。最后,服务器会计算词向量与每一文档对应的嵌入向量之间的相似度,并根据相似度确定查询词对应的文档列表,然后将文档列表作为检索结果发送至用户终端。上述检索方法中一个文档预处理后只对应一个嵌入向量,但是,事实上通常一个文档中包括的内容是很多的,用一个嵌入向量来表示会遗漏文档中该嵌入向量不能代表的内容,从而影响信息检索的准确性。此外,由于用户输入的查询词通常非常简洁,包含的语义信息非常有限,并且可能存在一词多义的现象,也会影响信息检索的准确性。
[0004]因此,需要一种准确性更高的信息检索方案。

技术实现思路

[0005]本申请提供一种信息检索方法、服务器、介质及产品,用以解决现有的信息及检索准确性低的技术问题。
[0006]第一方面,本申请提供一种信息检索方法,包括:
[0007]在接收到用户终端输入的检索请求之后,获取所述检索请求中的检索信息对应的查询词;
[0008]根据预设的知识图谱对所述查询词进行扩展处理,以得到所述查询词的扩展词;
[0009]确定所述查询词以及所述查询词的扩展词对应的词向量;
[0010]将所述词向量输入训练好的文档多视图表示模型中,以得到所述词向量与预设的文档集中每一文档的相似度得分;
[0011]根据所述相似度得分确定所述查询词对应的文档序列,并根据所述文档序列向所述用户终端输出检索结果。
[0012]在一种可能的实施方式中,所述根据预设的知识图谱对所述查询词进行扩展处理,以得到所述查询词的扩展词,具体包括:
[0013]确定所述查询词在所述知识图谱中对应的第一实体;
[0014]确定所述知识图谱中与每一所述第一实体存在关系的第二实体;
[0015]确定所述知识图谱中与每一所述第二实体存在关系的第三实体;
[0016]根据每一所述第二实体和每一所述第三实体确定所述查询词的扩展词。
[0017]在一种可能的实施方式中,所述预设的知识图谱是通过下列方式获得的:
[0018]确定所述用户终端中用户的历史查询词,以及每一所述历史查询词对应的查询文档集;
[0019]对所述历史查询词以及每一所述历史查询词对应的查询文档集进行实体抽取以及关系抽取,并根据抽取到的实体和关系构建初始的知识图谱;
[0020]根据标准知识图谱对所述初始的知识图谱进行融合处理,以得到预设的知识图谱;
[0021]其中,所述标准知识图谱是根据标准词汇集、业务概念集、实体定义词典中的一种或多种构建得到的。
[0022]在一种可能的实施方式中,所述将所述词向量输入训练好的文档多视图表示模型中,以得到所述词向量与预设的文档集中每一文档的相似度得分,具体包括:
[0023]将所述词向量输入训练好的文档多视图表示模型中,对于每一词向量,利用下列公式计算得到所述词向量与预设的文档集中每一文档的相似度得分:
[0024]f(q,d
j
)=max(f
i
(q,d
j
))=max(sim(E0(q),E
i
(d
j
)))
[0025]E0(q)=Enc
q
([VIE0]·
q
·
[SEP])
[0026][0027]其中,所述f(q,d
j
)表示词向量q与预设的文档集中第j个文档d
j
的相似度得分,j=1,2,

k,k表示预设的文档集中文档的个数;所述f
i
(q,d
j
)表示词向量q与第j个文档d
j
中第i个多视图词项的相似度得分,i=1,2,

n,n表示文档中添加的多视图词项[VIE]的个数,所述max(f
i
(q,d
j
))表示词向量q与第j个文档d
j
中各多视图词项的相似度得分的最大池化,所述sim(
·
)表示相似度计算函数,所述sim(E0(q),E
i
(d
j
))表示计算词向量q与第j个文档d
j
中第i个多视图词项[VIE
i
]的相似度得分;
[0028]所述E0(q)表示词向量q的编码向量,所述Enc
q
表示词向量编码器,所述E
i
(d
j
)表示第j个文档d
j
的编码向量,所述表示文档向量编码器,所述[VIE0]表示词向量q对应的多视图词项,所述[SEP]表示词项结束标志,所述
·
表示连接操作符,所述[VIE
i
]表示第j个文档d
j
中的第i个多视图词项。
[0029]在一种可能的实施方式中,所述文档多视图表示模型是利用包括正样本和负样本的训练样本集训练得到的;
[0030]其中,所述正样本为所述用户终端中用户的历史查询词,以及每一所述历史查询词对应的查询文档集;所述负样本为所述用户终端中用户的历史查询词,以及除所述查询文档集之外的未查询文档集。
[0031]在一种可能的实施方式中,所述未查询文档集是通过下列方式获得的:
[0032]根据所述用户的历史查询词确定历史查询主题;
[0033]确定所述历史查询主题对应的未查询主题,以及每一所述未查询主题对应的采样数目;
[0034]利用聚类模型对除所述查询文档集之外的全部文档进行聚类处理,以得到每一所述未查询主题对应的文档样本;
[0035]根据每一所述未查询主题对应的采样数目,对所述未查询主题对应的文档样本进行采样,并根据采集到的样本生成所述未查询文档集。
[0036]在一种可能的实施方式中,所述根据所述相似度得分确定所述查询词对应的文档序列,具体包括:
[0037]确定所述预设的文档集中相似度得分大于预设的分数阈值的文档;
[0038]按照相似度得分由大到小的顺序,对所述相似度得分大于预设的分数阈值的文档进行排序,以生成所述查询词对应的文档序列。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息检索方法,其特征在于,包括:在接收到用户终端输入的检索请求之后,获取所述检索请求中的检索信息对应的查询词;根据预设的知识图谱对所述查询词进行扩展处理,以得到所述查询词的扩展词;确定所述查询词以及所述查询词的扩展词对应的词向量;将所述词向量输入训练好的文档多视图表示模型中,以得到所述词向量与预设的文档集中每一文档的相似度得分;根据所述相似度得分确定所述查询词对应的文档序列,并根据所述文档序列向所述用户终端输出检索结果。2.根据权利要求1所述的方法,其特征在于,所述根据预设的知识图谱对所述查询词进行扩展处理,以得到所述查询词的扩展词,具体包括:确定所述查询词在所述知识图谱中对应的第一实体;确定所述知识图谱中与每一所述第一实体存在关系的第二实体;确定所述知识图谱中与每一所述第二实体存在关系的第三实体;根据每一所述第二实体和每一所述第三实体确定所述查询词的扩展词。3.根据权利要求1所述的方法,其特征在于,所述预设的知识图谱是通过下列方式获得的:确定所述用户终端中用户的历史查询词,以及每一所述历史查询词对应的查询文档集;对所述历史查询词以及每一所述历史查询词对应的查询文档集进行实体抽取以及关系抽取,并根据抽取到的实体和关系构建初始的知识图谱;根据标准知识图谱对所述初始的知识图谱进行融合处理,以得到预设的知识图谱;其中,所述标准知识图谱是根据标准词汇集、业务概念集、实体定义词典中的一种或多种构建得到的。4.根据权利要求1

3中任一项所述的方法,其特征在于,所述将所述词向量输入训练好的文档多视图表示模型中,以得到所述词向量与预设的文档集中每一文档的相似度得分,具体包括:将所述词向量输入训练好的文档多视图表示模型中,对于每一词向量,利用下列公式计算得到所述词向量与预设的文档集中每一文档的相似度得分:f(q,d
j
)=max(f
i
(q,d
j
))=max(sim(E0(q),E
i
(d
j
)))E0(q)=Enc
q
([VIE0]
·
q
·
[SEP])其中,所述f(q,d
j
)表示词向量q与预设的文档集中第j个文档d
j
的相似度得分,j=1,2,

,k,k表示预设的文档集中文档的个数;所述f
i
(q,d
j
)表示词向量q与第j个文档d
j
中第i个多视图词项的相似度得分,i=1,2,

n,n表示文档中添加的多视图词项[VIE]的个数,所述max(f
i
(q,d
j
))表示词向量q与第j个文档d
j
中各多视图词项的相似度得分的最大池化,所述sim(
·
)表示相似度计算函数,所述sim(E0(q),E
i
(d
...

【专利技术属性】
技术研发人员:陈达纲李昱王全礼张晨蒲柯锐
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1