一种文本编码检索的方法、装置及介质制造方法及图纸

技术编号：26342555 阅读：81 留言：0更新日期：2020-11-13 20:35

本发明专利技术提供一种文本编码检索的方法、装置及介质，本发明专利技术方法包括：将待检索文本进行倒排索引输出第一结果；同时将检索文本进行Bert神经网络句编码模型筛选输出第二结果；将所述第一结果和所述第二结果前后排序组合取前K个以生成TopK最相关的检索结果。利用倒排索引和Bert神经网络句编码模型，解决了文本检索过程中检索不到位，检索结果不准确的问题，使检索的结果更加准确，更像需要得到的结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本编码检索的方法、装置及介质
本专利技术涉及自然语言处理领域，特别涉及一种文本编码检索的方法、装置及介质。
技术介绍
传统的倒排索引结果进行topk排序时，大部分会基于卡方值,Pretrainword-embedding和普通的TF-IDF词编码进行加或减或平均进行句编码。卡方值是非参数检验中的一个统计量，主要用于非参数统计分析中。它的作用是检验数据的相关性。如果卡方值的显著性小于0.05，说明两个变量是显著相关的。WordEmbedding的概念，如果将word看作文本的最小单元，可以将WordEmbedding理解为一种映射，其过程是：将文本空间中的某个word，通过一定的方法，映射或者说嵌入(embedding)到另一个数值向量空间。TF-IDF(termfrequency–inversedocumentfrequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(TermFrequency)，IDF是逆文本频率指数(InverseDocumentFrequency)。TF-IDF是一种统计...

【技术保护点】
1.一种文本编码检索的方法，其特征在于：/nS100：将待检索文本进行倒排索引输出第一结果；/nS200：同时将检索文本进行Bert神经网络句编码模型筛选输出第二结果；/nS300：将所述第一结果和所述第二结果前后排序组合取前K个以生成TopK最相关的检索结果。/n

【技术特征摘要】
1.一种文本编码检索的方法，其特征在于：
S100：将待检索文本进行倒排索引输出第一结果；
S200：同时将检索文本进行Bert神经网络句编码模型筛选输出第二结果；
S300：将所述第一结果和所述第二结果前后排序组合取前K个以生成TopK最相关的检索结果。

2.根据权利要求1所述的文本编码检索的方法，其特征在于：
若Bert神经网络句编码模型筛选出的排序结果和倒排索引有重复时，则删去Bert神经网络句编码模型结果中重复的部分；
若倒排索引候选文档名的排序相同时，则查找其在Bert神经网络句编码模型中的排序结果作为参考。

3.根据权利要求1所述的文本编码检索的方法，其特征在于，所述倒排索引的步骤如下：
S101：对数据库中的文档名进行Jieba分词，根据所述文档名Jieba分词进行对全数据库文档的搜索得到倒排索引列表和TF-IDF值；
S102：用户进行输入搜索文本时，对搜索文本进行Jieba分词，根据所述搜索文本Jieba分词得到TF-IDF值，根据所述搜索文本分词的TF-IDF值对搜索文本的所有词向量进行加权平均得到搜索文本向量；
S103：根据所述搜索文本Jieba分词，对词汇扩展处理得到候选名称，由所述候选名称根据所述倒排索引列表得到候选文档名，去重汇整后得到N个对应的候选文档名；
S104：所述N个候选文档名根据数据库里已经得到的所述文档名分词的TF-IDF值对文档名所有词向量进行加权平均得到N个候选文档向量；
S105：根据所述搜索文本向量和所述N个候选文档向量依次进行判断余弦相似度，根据余弦相似度由大到小排序得到最终结果。

4.根据权利要求3所述的文本编码检索的方法，其特征在于：所述S103中的扩展处理包括：设有智能学习模型，所述学习模型可以主动对新词汇进行学习汇总，对不同语义的词汇学习和区分。

5.根据权利要求4所述的文本...

【专利技术属性】
技术研发人员：吴昊，游海涛，王琳，杨丰佳，梁兴通，
申请(专利权)人：易联众信息技术股份有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人