【技术实现步骤摘要】
一种文本编码检索的方法、装置及介质
本专利技术涉及自然语言处理领域,特别涉及一种文本编码检索的方法、装置及介质。
技术介绍
传统的倒排索引结果进行topk排序时,大部分会基于卡方值,Pretrainword-embedding和普通的TF-IDF词编码进行加或减或平均进行句编码。卡方值是非参数检验中的一个统计量,主要用于非参数统计分析中。它的作用是检验数据的相关性。如果卡方值的显著性小于0.05,说明两个变量是显著相关的。WordEmbedding的概念,如果将word看作文本的最小单元,可以将WordEmbedding理解为一种映射,其过程是:将文本空间中的某个word,通过一定的方法,映射或者说嵌入(embedding)到另一个数值向量空间。TF-IDF(termfrequency–inversedocumentfrequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(TermFrequency),IDF是逆文本频率指数(InverseDocumentFrequency)。TF-IDF是一种统计 ...
【技术保护点】
1.一种文本编码检索的方法,其特征在于:/nS100:将待检索文本进行倒排索引输出第一结果;/nS200:同时将检索文本进行Bert神经网络句编码模型筛选输出第二结果;/nS300:将所述第一结果和所述第二结果前后排序组合取前K个以生成TopK最相关的检索结果。/n
【技术特征摘要】
1.一种文本编码检索的方法,其特征在于:
S100:将待检索文本进行倒排索引输出第一结果;
S200:同时将检索文本进行Bert神经网络句编码模型筛选输出第二结果;
S300:将所述第一结果和所述第二结果前后排序组合取前K个以生成TopK最相关的检索结果。
2.根据权利要求1所述的文本编码检索的方法,其特征在于:
若Bert神经网络句编码模型筛选出的排序结果和倒排索引有重复时,则删去Bert神经网络句编码模型结果中重复的部分;
若倒排索引候选文档名的排序相同时,则查找其在Bert神经网络句编码模型中的排序结果作为参考。
3.根据权利要求1所述的文本编码检索的方法,其特征在于,所述倒排索引的步骤如下:
S101:对数据库中的文档名进行Jieba分词,根据所述文档名Jieba分词进行对全数据库文档的搜索得到倒排索引列表和TF-IDF值;
S102:用户进行输入搜索文本时,对搜索文本进行Jieba分词,根据所述搜索文本Jieba分词得到TF-IDF值,根据所述搜索文本分词的TF-IDF值对搜索文本的所有词向量进行加权平均得到搜索文本向量;
S103:根据所述搜索文本Jieba分词,对词汇扩展处理得到候选名称,由所述候选名称根据所述倒排索引列表得到候选文档名,去重汇整后得到N个对应的候选文档名;
S104:所述N个候选文档名根据数据库里已经得到的所述文档名分词的TF-IDF值对文档名所有词向量进行加权平均得到N个候选文档向量;
S105:根据所述搜索文本向量和所述N个候选文档向量依次进行判断余弦相似度,根据余弦相似度由大到小排序得到最终结果。
4.根据权利要求3所述的文本编码检索的方法,其特征在于:所述S103中的扩展处理包括:设有智能学习模型,所述学习模型可以主动对新词汇进行学习汇总,对不同语义的词汇学习和区分。
5.根据权利要求4所述的文本...
【专利技术属性】
技术研发人员:吴昊,游海涛,王琳,杨丰佳,梁兴通,
申请(专利权)人:易联众信息技术股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。