【技术实现步骤摘要】
信息检索方法、服务器、介质及产品
[0001]本申请涉及知识图谱领域,尤其涉及一种信息检索方法、服务器、介质及产品。
技术介绍
[0002]随着互联网技术的发展和社会的进步,数据呈爆发式增长,如何从大量的数据中进行准确的信息检索变得越来越重要。
[0003]信息检索指的是根据用户的输入,即关键词,从大量的文章中进行相关度匹配和查找,然后将匹配到的文章根据相关度进行排序并提供给用户。现有的信息检索方式主要是稠密检索。具体的,服务器会预先将数据库中的文档进行预处理,即采用双编码器架构对文档进行处理,以得到每一文档对应的嵌入向量。当服务器接收到用户终端输入的检索请求后,会获取检索请求中的查询词,之后采用双编码器架构对查询词进行处理,以得到查询词对应的词向量。最后,服务器会计算词向量与每一文档对应的嵌入向量之间的相似度,并根据相似度确定查询词对应的文档列表,然后将文档列表作为检索结果发送至用户终端。上述检索方法中一个文档预处理后只对应一个嵌入向量,但是,事实上通常一个文档中包括的内容是很多的,用一个嵌入向量来表示会遗漏文档中该嵌入向量不能代表的内容,从而影响信息检索的准确性。此外,由于用户输入的查询词通常非常简洁,包含的语义信息非常有限,并且可能存在一词多义的现象,也会影响信息检索的准确性。
[0004]因此,需要一种准确性更高的信息检索方案。
技术实现思路
[0005]本申请提供一种信息检索方法、服务器、介质及产品,用以解决现有的信息及检索准确性低的技术问题。
[0006]第一方面, ...
【技术保护点】
【技术特征摘要】
1.一种信息检索方法,其特征在于,包括:在接收到用户终端输入的检索请求之后,获取所述检索请求中的检索信息对应的查询词;根据预设的知识图谱对所述查询词进行扩展处理,以得到所述查询词的扩展词;确定所述查询词以及所述查询词的扩展词对应的词向量;将所述词向量输入训练好的文档多视图表示模型中,以得到所述词向量与预设的文档集中每一文档的相似度得分;根据所述相似度得分确定所述查询词对应的文档序列,并根据所述文档序列向所述用户终端输出检索结果。2.根据权利要求1所述的方法,其特征在于,所述根据预设的知识图谱对所述查询词进行扩展处理,以得到所述查询词的扩展词,具体包括:确定所述查询词在所述知识图谱中对应的第一实体;确定所述知识图谱中与每一所述第一实体存在关系的第二实体;确定所述知识图谱中与每一所述第二实体存在关系的第三实体;根据每一所述第二实体和每一所述第三实体确定所述查询词的扩展词。3.根据权利要求1所述的方法,其特征在于,所述预设的知识图谱是通过下列方式获得的:确定所述用户终端中用户的历史查询词,以及每一所述历史查询词对应的查询文档集;对所述历史查询词以及每一所述历史查询词对应的查询文档集进行实体抽取以及关系抽取,并根据抽取到的实体和关系构建初始的知识图谱;根据标准知识图谱对所述初始的知识图谱进行融合处理,以得到预设的知识图谱;其中,所述标准知识图谱是根据标准词汇集、业务概念集、实体定义词典中的一种或多种构建得到的。4.根据权利要求1
‑
3中任一项所述的方法,其特征在于,所述将所述词向量输入训练好的文档多视图表示模型中,以得到所述词向量与预设的文档集中每一文档的相似度得分,具体包括:将所述词向量输入训练好的文档多视图表示模型中,对于每一词向量,利用下列公式计算得到所述词向量与预设的文档集中每一文档的相似度得分:f(q,d
j
)=max(f
i
(q,d
j
))=max(sim(E0(q),E
i
(d
j
)))E0(q)=Enc
q
([VIE0]
·
q
·
[SEP])其中,所述f(q,d
j
)表示词向量q与预设的文档集中第j个文档d
j
的相似度得分,j=1,2,
…
,k,k表示预设的文档集中文档的个数;所述f
i
(q,d
j
)表示词向量q与第j个文档d
j
中第i个多视图词项的相似度得分,i=1,2,
…
n,n表示文档中添加的多视图词项[VIE]的个数,所述max(f
i
(q,d
j
))表示词向量q与第j个文档d
j
中各多视图词项的相似度得分的最大池化,所述sim(
·
)表示相似度计算函数,所述sim(E0(q),E
i
(d
...
【专利技术属性】
技术研发人员:陈达纲,李昱,王全礼,张晨,蒲柯锐,
申请(专利权)人:建信金融科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。