【技术实现步骤摘要】
数据检索方法、装置、计算机设备和存储介质
[0001]本申请涉及大数据
,特别是涉及一种数据检索方法、装置、计算机设备和存储介质。
技术介绍
[0002]随着大数据信息的发展,数据复杂化和数据多样化使得数据精细化处理出现很大的困难。因此,一个高效的数据检索方法是现阶段需要研究的重点。
[0003]传统的数据检索方法是通过哈希函数将高维的特征向量转化为低维的二值哈希码,在检索时,只需将待检索数据通过训练好的哈希函数转化成哈希码,再将该哈希码与数据库中所有数据的哈希码进行相似性计算,根据计算出的相似性高低返回检索结果。但是哈希函数在转化为而二值哈希码的过程中,对文本信息进行降维处理,导致该哈希码中包含文本信息的语句信息较少,导致数据检索的精准度较低。
技术实现思路
[0004]基于此,有必要针对上述技术问题,提供一种数据检索方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种数据检索方法。所述方法包括:
[0006]获取用户输入的文本信息;
[0007]通过语句划分模型,将所述文本信息划分为多个语句,并对各所述语句进行编码转化处理,得到各所述语句对应的高维语句特征向量;
[0008]通过哈希函数,生成所述高维语句特征向量对应的哈希码,在数据库中查询与所述高维语句特征向量的哈希码相同的哈希码,并将所述相同哈希码对应的待选数据作为文本信息对应的目标检索数据。
[0009]可选的,所述语句划分模型包括词嵌入层和 ...
【技术保护点】
【技术特征摘要】
1.一种数据检索方法,其特征在于,所述方法包括:获取用户输入的文本信息;通过语句划分模型,将所述文本信息划分为多个语句,并对各所述语句进行编码转化处理,得到各所述语句对应的高维语句特征向量;通过哈希函数,生成所述高维语句特征向量对应的哈希码,在数据库中查询与所述高维语句特征向量的哈希码相同的哈希码,并将所述相同哈希码对应的待选数据作为文本信息对应的目标检索数据。2.根据权利要求1所述的方法,其特征在于,所述语句划分模型包括词嵌入层和划分层,所述通过语句划分模型,将所述文本信息划分为多个语句,并对各所述语句进行编码转化处理,得到各所述语句对应的高维语句特征向量,包括:将所述文本信息中的每个分词,通过所述词嵌入层,确定多个词嵌入向量,并对每个分词在所述文本信息中的前后顺序,进行位置编码,得到所述分词的位置编码向量;将所述文本信息中的每个语句,通过所述划分层,划分为多个短语句,并对各所述短语句进行转化处理,得到所述语句对应的多个短语句向量;根据所述文本信息中的语句所包含的分词的词嵌入向量、所述语句所包含的分词的位置编码向量、以及所述语句对应的短语句向量,确定所述文本信息中的各语句的高维语句特征向量。3.根据权利要求2所述的方法,其特征在于,所述根据所述文本信息中的语句所包含的分词的词嵌入向量、所述语句所包含的分词的位置编码向量、以及所述语句对应的短语句向量,确定所述文本信息中的各语句的高维语句特征向量,包括:针对每个语句,将所述语句的所包含的分词的词嵌入向量、所述语句所包含的分词的位置编码向量、以及所述语句对应的短语句向量进行向量叠加处理,得到所述语句的高维语句特征向量。4.根据权利要求1所述的方法,其特征在于,所述通过哈希函数,生成所述高维语句特征向量对应的哈希码,在数据库中查询与所述高维语句特征向量的哈希码相同的哈希码所对应的待选数据,并将所述相同哈希码的待选数据作为文本信息对应的目标检索数据,包括:针对每个高维语句特征向量,通过哈希函数,生成所述高维语句特征向量对应的哈希码;在数据库中选择任意一个待选数据,并判断所述待选数据的哈希码中的哈希位是否与所述高维语句特征向量对应的哈希码中的哈希位一致;在所述待选数据的哈希码中的哈希位与所述高维语句特征向量对应的哈希码中的哈希位不一致的情况下,返回执行在数据库中选择任意一个待选数据步骤,直到选取的待选数据的哈希码中的哈希位与所述高维语句特征向量对应的哈希码中的哈希位一致时,将所述哈希位一致的待选数据,作为文本信息对应的目标检索数据。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取样本文本信息、以及所述样本文本信息中各高维样本语句特征向量的哈希码;通过初始语句划分模型,将所述样本文本信息划分为多个语句,并对各所述语句进行编码转化处理,得到各所述语句的高维语句特征向量;
通过哈希函数,生成各所述高维语句特征向量对应的哈希码,并根据各所述高维样本语句特征向量的哈希码、以及各所述高维语句特征向量的哈...
【专利技术属性】
技术研发人员:李慧琼,张悦,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。