数据检索方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:37434145 阅读:19 留言:0更新日期:2023-05-06 09:06
本申请涉及一种数据检索方法、装置、计算机设备和存储介质。本申请涉及大数据技术领域。所述方法包括:获取用户输入的文本信息;通过语句划分模型,将所述文本信息划分为多个语句,并对各所述语句进行编码转化处理,得到各所述语句对应的高维语句特征向量;通过哈希函数,生成所述高维语句特征向量对应的哈希码,在数据库中查询与所述高维语句特征向量的哈希码相同的哈希码,并将所述相同哈希码对应的待选数据作为文本信息对应的目标检索数据。采用本方法能够提升检索的精准度。用本方法能够提升检索的精准度。用本方法能够提升检索的精准度。

【技术实现步骤摘要】
数据检索方法、装置、计算机设备和存储介质


[0001]本申请涉及大数据
,特别是涉及一种数据检索方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着大数据信息的发展,数据复杂化和数据多样化使得数据精细化处理出现很大的困难。因此,一个高效的数据检索方法是现阶段需要研究的重点。
[0003]传统的数据检索方法是通过哈希函数将高维的特征向量转化为低维的二值哈希码,在检索时,只需将待检索数据通过训练好的哈希函数转化成哈希码,再将该哈希码与数据库中所有数据的哈希码进行相似性计算,根据计算出的相似性高低返回检索结果。但是哈希函数在转化为而二值哈希码的过程中,对文本信息进行降维处理,导致该哈希码中包含文本信息的语句信息较少,导致数据检索的精准度较低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种数据检索方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种数据检索方法。所述方法包括:
[0006]获取用户输入的文本信息;
[0007]通过语句划分模型,将所述文本信息划分为多个语句,并对各所述语句进行编码转化处理,得到各所述语句对应的高维语句特征向量;
[0008]通过哈希函数,生成所述高维语句特征向量对应的哈希码,在数据库中查询与所述高维语句特征向量的哈希码相同的哈希码,并将所述相同哈希码对应的待选数据作为文本信息对应的目标检索数据。
[0009]可选的,所述语句划分模型包括词嵌入层和划分层,所述通过语句划分模型,将所述文本信息划分为多个语句,并对各所述语句进行编码转化处理,得到各所述语句对应的高维语句特征向量,包括:
[0010]将所述文本信息中的每个分词,通过所述词嵌入层,确定多个词嵌入向量,并对每个分词在所述文本信息中的前后顺序,进行位置编码,得到所述分词的位置编码向量;
[0011]将所述文本信息中的每个语句,通过所述划分层,划分为多个短语句,并对各所述短语句进行转化处理,得到所述语句对应的多个短语句向量;
[0012]根据所述文本信息中的语句所包含的分词的词嵌入向量、所述语句所包含的分词的位置编码向量、以及所述语句对应的短语句向量,确定所述文本信息中的各语句的高维语句特征向量。
[0013]可选的,所述根据所述文本信息中的语句所包含的分词的词嵌入向量、所述语句所包含的分词的位置编码向量、以及所述语句对应的短语句向量,确定所述文本信息中的各语句的高维语句特征向量,包括:
[0014]针对每个语句,将所述语句的所包含的分词的词嵌入向量、所述语句所包含的分词的位置编码向量、以及所述语句对应的短语句向量进行向量叠加处理,得到所述语句的高维语句特征向量。
[0015]可选的,所述通过哈希函数,生成所述高维语句特征向量对应的哈希码,在数据库中查询与所述高维语句特征向量的哈希码相同的哈希码所对应的待选数据,并将所述相同哈希码的待选数据作为文本信息对应的目标检索数据,包括:
[0016]针对每个高维语句特征向量,通过哈希函数,生成所述高维语句特征向量对应的哈希码;
[0017]在数据库中选择任意一个待选数据,并判断所述待选数据的哈希码中的哈希位是否与所述高维语句特征向量对应的哈希码中的哈希位一致;
[0018]在所述待选数据的哈希码中的哈希位与所述高维语句特征向量对应的哈希码中的哈希位不一致的情况下,返回执行在数据库中选择任意一个待选数据步骤,直到选取的待选数据的哈希码中的哈希位与所述高维语句特征向量对应的哈希码中的哈希位一致时,将所述哈希位一致的待选数据,作为文本信息对应的目标检索数据。
[0019]可选的,所述方法还包括:
[0020]获取样本文本信息、以及所述样本文本信息中各高维样本语句特征向量的哈希码;
[0021]通过初始语句划分模型,将所述样本文本信息划分为多个语句,并对各所述语句进行编码转化处理,得到各所述语句的高维语句特征向量;
[0022]通过哈希函数,生成各所述高维语句特征向量对应的哈希码,并根据各所述高维样本语句特征向量的哈希码、以及各所述高维语句特征向量的哈希码,对所述初始语句划分模型进行训练,得到语句划分模型。
[0023]可选的,所述根据各所述高维样本语句特征向量的哈希码、以及各所述高维语句特征向量的哈希码,对所述初始语句划分模型进行训练,得到语句划分模型,包括:
[0024]判断是否存在与所述高维样本语句特征向量的哈希码不相同的高维语句特征向量的哈希码;
[0025]在存在与所述高维样本语句特征向量的哈希码不相同的高维语句特征向量的哈希码的情况下,根据所述高维样本语句特征向量的哈希码与所述高维语句特征向量的哈希码之间的差异值,调整所述初始语句划分模型的划分参数,并返回执行通过初始语句划分模型,将所述样本文本信息划分为多个语句,并对各所述语句进行编码转化处理,得到各所述语句的高维语句特征向量步骤,直到不存在与所述高维样本语句特征向量的哈希码不相同的高维语句特征向量的哈希码;
[0026]将不存在与所述高维样本语句特征向量的哈希码不相同的高维语句特征向量的哈希码对应的初始语句划分模型,作为语句划分模型。
[0027]可选的,所述方法还包括:
[0028]获取高维样本语句特征向量、与所述高维样本语句特征向量对应的样本数据;
[0029]通过初始哈希函数,计算每个高维样本语句特征向量的哈希码、以及每个样本数据的哈希码,并计算每个高维样本语句特征向量的哈希码与每个样本数据的哈希码之间的相似度;
[0030]在存在不相同的高维样本语句特征向量的哈希码、与样本数据的哈希码之间的相似度大于相似度阈值的情况下,调整所述初始哈希函数的哈希码生成参数,并返回执行通过初始哈希函数,计算每个高维样本语句特征向量的哈希码、以及每个样本数据的哈希码步骤,直到只存在所述高维样本语句特征向量的哈希码、与所述高维样本语句特征向量对应的样本数据的哈希码之间的相似度大于相似度阈值;
[0031]将只存在所述高维样本语句特征向量的哈希码、与所述高维样本语句特征向量对应的样本数据的哈希码之间的相似度大于相似度阈值的初始哈希函数,作为哈希函数。
[0032]第二方面,本申请还提供了一种数据检索装置。所述装置包括:
[0033]获取模块,用于获取用户输入的文本信息;所述文本信息为用户需要检索的文本数据;
[0034]划分模块,用于通过语句划分模型,将所述文本信息划分为多个语句,并对各所述语句进行编码转化处理,得到各所述语句对应的高维语句特征向量;
[0035]筛选模块,用于通过哈希函数,生成所述高维语句特征向量对应的哈希码,在数据库中查询与所述高维语句特征向量的哈希码相同的哈希码所对应的待选数据,并将所述相同哈希码的待选数据作为目标数据。
[0036]可选的,所述划分模块,具体用于:
[0037]将所述文本信息中的每个分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据检索方法,其特征在于,所述方法包括:获取用户输入的文本信息;通过语句划分模型,将所述文本信息划分为多个语句,并对各所述语句进行编码转化处理,得到各所述语句对应的高维语句特征向量;通过哈希函数,生成所述高维语句特征向量对应的哈希码,在数据库中查询与所述高维语句特征向量的哈希码相同的哈希码,并将所述相同哈希码对应的待选数据作为文本信息对应的目标检索数据。2.根据权利要求1所述的方法,其特征在于,所述语句划分模型包括词嵌入层和划分层,所述通过语句划分模型,将所述文本信息划分为多个语句,并对各所述语句进行编码转化处理,得到各所述语句对应的高维语句特征向量,包括:将所述文本信息中的每个分词,通过所述词嵌入层,确定多个词嵌入向量,并对每个分词在所述文本信息中的前后顺序,进行位置编码,得到所述分词的位置编码向量;将所述文本信息中的每个语句,通过所述划分层,划分为多个短语句,并对各所述短语句进行转化处理,得到所述语句对应的多个短语句向量;根据所述文本信息中的语句所包含的分词的词嵌入向量、所述语句所包含的分词的位置编码向量、以及所述语句对应的短语句向量,确定所述文本信息中的各语句的高维语句特征向量。3.根据权利要求2所述的方法,其特征在于,所述根据所述文本信息中的语句所包含的分词的词嵌入向量、所述语句所包含的分词的位置编码向量、以及所述语句对应的短语句向量,确定所述文本信息中的各语句的高维语句特征向量,包括:针对每个语句,将所述语句的所包含的分词的词嵌入向量、所述语句所包含的分词的位置编码向量、以及所述语句对应的短语句向量进行向量叠加处理,得到所述语句的高维语句特征向量。4.根据权利要求1所述的方法,其特征在于,所述通过哈希函数,生成所述高维语句特征向量对应的哈希码,在数据库中查询与所述高维语句特征向量的哈希码相同的哈希码所对应的待选数据,并将所述相同哈希码的待选数据作为文本信息对应的目标检索数据,包括:针对每个高维语句特征向量,通过哈希函数,生成所述高维语句特征向量对应的哈希码;在数据库中选择任意一个待选数据,并判断所述待选数据的哈希码中的哈希位是否与所述高维语句特征向量对应的哈希码中的哈希位一致;在所述待选数据的哈希码中的哈希位与所述高维语句特征向量对应的哈希码中的哈希位不一致的情况下,返回执行在数据库中选择任意一个待选数据步骤,直到选取的待选数据的哈希码中的哈希位与所述高维语句特征向量对应的哈希码中的哈希位一致时,将所述哈希位一致的待选数据,作为文本信息对应的目标检索数据。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取样本文本信息、以及所述样本文本信息中各高维样本语句特征向量的哈希码;通过初始语句划分模型,将所述样本文本信息划分为多个语句,并对各所述语句进行编码转化处理,得到各所述语句的高维语句特征向量;
通过哈希函数,生成各所述高维语句特征向量对应的哈希码,并根据各所述高维样本语句特征向量的哈希码、以及各所述高维语句特征向量的哈...

【专利技术属性】
技术研发人员:李慧琼张悦
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1