数据搜索方法及装置制造方法及图纸

技术编号:29156610 阅读:20 留言:0更新日期:2021-07-06 22:55
本发明专利技术公开了一种数据搜索方法及装置,其中,该方法包括:获得待搜索词数据;将待搜索词数据输入到预先建立的whoosh库中,输出待搜索词数据对应的第一相关搜索内容;利用词向量工具gensim对待搜索词数据进行分析,得到待搜索词数据对应的词向量;将待搜索词数据对应的词向量输入到预先建立的faiss库中,输出词向量对应的索引id;将索引id输入到预先建立的whoosh库中,输出索引id对应的第二相关搜索内容;根据第一相关搜索内容和第二相关搜索内容,生成待搜索词数据对应的联想词;根据联想词,进行数据搜索。本发明专利技术能够避免出现搜索结果不准确、搜索效率十分低下的问题,提升用户体验感。

【技术实现步骤摘要】
数据搜索方法及装置
本专利技术涉及大数据
,尤其涉及一种数据搜索方法及装置。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。企业与应用的飞速发展,业务需求,数据存储模型变得越来越复杂,数据间的协同越来越多,数据量越来越多,搜索面临服务间的强依赖,数据孤岛,数据量过大导致性能瓶颈等问题。传统搜索是通过对关系型数据库进行基本查询来搜索出用户想要的信息,而且只能搜索单个应用的数据,现有的关系型数据库比如Mysql。随着业务的发展,模型复杂度的增加,数据量的增加,关系型表模型变得越来越复杂,数据库的性能也逐渐吃紧。数据量增加和模型复杂化使得数据库索引不再是解决查询性能,导致搜索结果不准确、搜索效率十分低下,用户体验感不好。针对上述问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例中提供了一种数据搜索方法,用以解决现有搜索方法依靠数据库索引容易出现搜索结果不准确、搜索效率十分低下的问题,提升用户体验感,该方法包括:本文档来自技高网...

【技术保护点】
1.一种数据搜索方法,其特征在于,包括:/n获得待搜索词数据;/n将所述待搜索词数据输入到预先建立的whoosh库中,输出所述待搜索词数据对应的第一相关搜索内容;/n利用词向量工具gensim对所述待搜索词数据进行分析,得到所述待搜索词数据对应的词向量;/n将所述待搜索词数据对应的词向量输入到预先建立的faiss库中,输出所述词向量对应的索引id;/n将所述索引id输入到预先建立的whoosh库中,输出所述索引id对应的第二相关搜索内容;/n根据所述第一相关搜索内容和第二相关搜索内容,生成所述待搜索词数据对应的联想词;/n根据所述联想词,进行数据搜索。/n

【技术特征摘要】
1.一种数据搜索方法,其特征在于,包括:
获得待搜索词数据;
将所述待搜索词数据输入到预先建立的whoosh库中,输出所述待搜索词数据对应的第一相关搜索内容;
利用词向量工具gensim对所述待搜索词数据进行分析,得到所述待搜索词数据对应的词向量;
将所述待搜索词数据对应的词向量输入到预先建立的faiss库中,输出所述词向量对应的索引id;
将所述索引id输入到预先建立的whoosh库中,输出所述索引id对应的第二相关搜索内容;
根据所述第一相关搜索内容和第二相关搜索内容,生成所述待搜索词数据对应的联想词;
根据所述联想词,进行数据搜索。


2.如权利要求1所述的数据搜索方法,其特征在于,按如下方式预先建立whoosh库:
获得ES库中的应用加工数据;
根据所述应用加工数据,确定对应的索引字段;
根据所述应用加工数据和对应的索引字段,建立whoosh库。


3.如权利要求2所述的数据搜索方法,其特征在于,将所述待搜索词数据输入到预先建立的whoosh库中,输出所述待搜索词数据对应的第一相关搜索内容,包括:
将所述待搜索词数据与whoosh库中的应用加工数据进行匹配;
根据匹配的结果,输出所述待搜索词数据对应的第一相关搜索内容。


4.如权利要求1所述的数据搜索方法,其特征在于,利用词向量工具gensim对所述待搜索词数据进行分析,得到所述待搜索词数据对应的词向量,包括:
将所述待搜索词数据输入词向量工具gensim中的lsi模型,输出所述待搜索词数据对应的潜在语义索引向量;
将所述待搜索词数据输入词向量工具gensim中的word2vec模型,输出所述待搜索词数据对应的word2vec词向量;
根据所述待搜索词数据对应的潜在语义索引向量和word2vec词向量,得到所述待搜索词数据对应的词向量。


5.如权利要求1所述的数据搜索方法,其特征在于,按如下方式预先建立faiss库:
获得ES库中的应用加工数据;
利用词向量工具gensim对所述应用加工数据进行分析,得到所述应用加工数据对应的词向量;
根据所述应用加工数据对应的词向量建立faiss库。


6.如权利要求5所述的数据搜索方法,其特征在于,利用词向量工具gensim对所述应用加工数据进行分析,得到所述应用加工数据对应的词向量,包括:
将所述应用加工数据输入词向量工具gensim中的lsi模型,输出所述应用加工数据对应的潜在语义索引向量;
将所述应用加工数据输入词向量工具gensim中的word2vec模型,输出所述应用加工数据对应的word2vec词向量;
根据所述应用加工数据对应的潜在语义索引向量和word2vec词向量,得到所述应用加工数据对应的词向量。


7.如权利要求1所述的数据搜索方法,其特征在于,将所述待搜索词数据对应的词向量输入到预先建立的faiss库中,输出所述词向量对应的索引id,包括:
在faiss库中查询与所述待搜索词数据对应的词向量最邻近的一个或多个词向量;
确定所述一个或多个词向量对应的索引id。


8.如权利要求1所述的数据搜索方法,其特征在于,根据所述第一相关搜索内容和第二相关搜索内容,生成所述待搜索词数据对应的联想词,包括:
对所述第一相关搜索内容和第二相关搜索内容进行去重融合处理;
根据去重融合处理的结果,生成所述待搜索词数据对应的联想词。


9.一种数据搜索装置,其特征在于,包括:
数据获得模块,用于获得待搜索词数据;

【专利技术属性】
技术研发人员:马腾
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1