一种文本编码检索的方法、装置及介质制造方法及图纸

技术编号:26342555 阅读:63 留言:0更新日期:2020-11-13 20:35
本发明专利技术提供一种文本编码检索的方法、装置及介质,本发明专利技术方法包括:将待检索文本进行倒排索引输出第一结果;同时将检索文本进行Bert神经网络句编码模型筛选输出第二结果;将所述第一结果和所述第二结果前后排序组合取前K个以生成TopK最相关的检索结果。利用倒排索引和Bert神经网络句编码模型,解决了文本检索过程中检索不到位,检索结果不准确的问题,使检索的结果更加准确,更像需要得到的结果。

【技术实现步骤摘要】
一种文本编码检索的方法、装置及介质
本专利技术涉及自然语言处理领域,特别涉及一种文本编码检索的方法、装置及介质。
技术介绍
传统的倒排索引结果进行topk排序时,大部分会基于卡方值,Pretrainword-embedding和普通的TF-IDF词编码进行加或减或平均进行句编码。卡方值是非参数检验中的一个统计量,主要用于非参数统计分析中。它的作用是检验数据的相关性。如果卡方值的显著性小于0.05,说明两个变量是显著相关的。WordEmbedding的概念,如果将word看作文本的最小单元,可以将WordEmbedding理解为一种映射,其过程是:将文本空间中的某个word,通过一定的方法,映射或者说嵌入(embedding)到另一个数值向量空间。TF-IDF(termfrequency–inversedocumentfrequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(TermFrequency),IDF是逆文本频率指数(InverseDocumentFrequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。这些方法要么包含的文字信息不足,要么不契合当前场景,造成检索不到位,检索结果不准确的问题。
技术实现思路
为解决现有技术文本检索过程中检索不到位,检索结果不准确的问题,本专利技术提供的一种文本编码检索的方法、装置及介质,可以解决文本检索过程中检索不到位,检索结果不准确的问题,使检索的结果更加准确,更像需要得到的结果。第一方面,本申请提供了一种文本编码检索的方法;S100:将待检索文本进行倒排索引输出第一结果;S200:同时将检索文本进行Bert神经网络句编码模型筛选输出第二结果;S300:将所述第一结果和所述第二结果前后排序组合取前K个以生成TopK最相关的检索结果。进一步地,若Bert神经网络句编码模型筛选出的排序结果和倒排索引有重复时,则删去Bert神经网络句编码模型结果中重复的部分;若倒排索引候选文档名的排序相同时,则查找其在Bert神经网络句编码模型中的排序结果作为参考。进一步地,所述倒排索引的步骤如下:S101:对数据库中的文档名进行Jieba分词,根据所述文档名Jieba分词进行对全数据库文档的搜索得到倒排索引列表和TF-IDF值;S102:用户进行输入搜索文本时,对搜索文本进行Jieba分词,根据所述搜索文本Jieba分词得到TF-IDF值,根据所述搜索文本分词的TF-IDF值对搜索文本的所有词向量进行加权平均得到搜索文本向量;S103:根据所述搜索文本Jieba分词,对词汇扩展处理得到候选名称,由所述候选名称根据所述倒排索引列表得到候选文档名,去重汇整后得到N个对应的候选文档名;S104:所述N个候选文档名根据数据库里已经得到的所述文档名分词的TF-IDF值对文档名所有词向量进行加权平均得到N个候选文档向量;S105:根据所述搜索文本向量和所述N个候选文档向量依次进行判断余弦相似度,根据余弦相似度由大到小排序得到最终结果。进一步地,所述S103中的扩展处理包括:设有智能学习模型,所述学习模型可以主动对新词汇进行学习汇总,对不同语义的词汇学习和区分。进一步地,所述的智能学习模型包括:语法分析树,同义词扩展,同义词库;由各词汇的词向量计算之间的相似度,大于阈值的判定两者为同义词,并存入同义词库里。进一步地,所述的同义词扩展包括:定制化用户选择词性的词组扩展或不扩展,定制化词性改变扩展或不扩展,使用同义词库扩充文档名Jieba分词的结果,将每个单词以及其同义词皆作为进入倒排索引的备选。进一步地,所述扩展同义词,将搜索文本下的词的所有同义词和Jieba分词的结果一起输入倒排索引;将搜索文本中的符合用户要求词性的词组挖掘出来,并设置其不作为倒排索引的输入,在搜索文本判断各词组的词性后和它的同义词比对词性,词性相同则拓展其同义词,若不同则舍弃该同义词。进一步地,所述Bert神经网络句编码模型筛选的步骤如下:S201:将数据库中所有文档名输入Bert神经网络句编码模型得到文档数目个文档名句向量;S202:用户输入搜索文本,将其输入Bert神经网络句编码模型得到搜索文本句向量;S203:根据所述搜索文本句向量和所述文档名句向量依次进行判断余弦相似度,根据余弦相似度由大到小排序得到最终结果。第二方面,本申请提供了一种文本编码检索的装置,所述装置包括:倒排索引模块,用于将待检索文本进行倒排索引输出第一结果;Bert模型模块,用于将检索文本进行Bert模型神经网络句编码筛选输出的第二结果;组合模块,用于将所述第一结果和所述第二结果前后排序组合取前K个以生成TopK最相关的检索结果。第三方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机被处理器执行时实现如上述任一项所述的文本编码检索的方法。与现有技术相比,本专利技术提供的一种文本编码检索的方法、装置及介质,利用倒排索引和Bert神经网络句编码模型,得到第一结果和第二结果再进行前后排序组合,得到TopK最相关的检索结果,实现了文本的准确检索,解决文本检索过程中检索不到位,检索结果不准确的问题;利用倒排索引,快速准确的检索到所需的内容,利用同义词扩展,检索到更多所需要的内容;有Bert神经网络句编码机制作为倒排索引的辅助,用Bert神经网络预训练的方法进行句编码可以学习到上下文更全面的特征,是与加权平均编码不同角度的编码方式,得以找出更多元的符合条件的搜索结果,当倒排索引结果过少时,能扩充候选结果,有BERT句编码机制,故排序较后的会让人有推荐算法的感觉。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的一种文本编码检索的方法的实施例的流程示意图;图2为本专利技术提供的一种文本编码检索的方法的实施例的流程示意图;图3为本专利技术提供的一种文本编码检索的方法的实施例的流程示意图;图4为本专利技术提供的一种文本编码检索的装置的实施例的架构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没本文档来自技高网...

【技术保护点】
1.一种文本编码检索的方法,其特征在于:/nS100:将待检索文本进行倒排索引输出第一结果;/nS200:同时将检索文本进行Bert神经网络句编码模型筛选输出第二结果;/nS300:将所述第一结果和所述第二结果前后排序组合取前K个以生成TopK最相关的检索结果。/n

【技术特征摘要】
1.一种文本编码检索的方法,其特征在于:
S100:将待检索文本进行倒排索引输出第一结果;
S200:同时将检索文本进行Bert神经网络句编码模型筛选输出第二结果;
S300:将所述第一结果和所述第二结果前后排序组合取前K个以生成TopK最相关的检索结果。


2.根据权利要求1所述的文本编码检索的方法,其特征在于:
若Bert神经网络句编码模型筛选出的排序结果和倒排索引有重复时,则删去Bert神经网络句编码模型结果中重复的部分;
若倒排索引候选文档名的排序相同时,则查找其在Bert神经网络句编码模型中的排序结果作为参考。


3.根据权利要求1所述的文本编码检索的方法,其特征在于,所述倒排索引的步骤如下:
S101:对数据库中的文档名进行Jieba分词,根据所述文档名Jieba分词进行对全数据库文档的搜索得到倒排索引列表和TF-IDF值;
S102:用户进行输入搜索文本时,对搜索文本进行Jieba分词,根据所述搜索文本Jieba分词得到TF-IDF值,根据所述搜索文本分词的TF-IDF值对搜索文本的所有词向量进行加权平均得到搜索文本向量;
S103:根据所述搜索文本Jieba分词,对词汇扩展处理得到候选名称,由所述候选名称根据所述倒排索引列表得到候选文档名,去重汇整后得到N个对应的候选文档名;
S104:所述N个候选文档名根据数据库里已经得到的所述文档名分词的TF-IDF值对文档名所有词向量进行加权平均得到N个候选文档向量;
S105:根据所述搜索文本向量和所述N个候选文档向量依次进行判断余弦相似度,根据余弦相似度由大到小排序得到最终结果。


4.根据权利要求3所述的文本编码检索的方法,其特征在于:所述S103中的扩展处理包括:设有智能学习模型,所述学习模型可以主动对新词汇进行学习汇总,对不同语义的词汇学习和区分。


5.根据权利要求4所述的文本...

【专利技术属性】
技术研发人员:吴昊游海涛王琳杨丰佳梁兴通
申请(专利权)人:易联众信息技术股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1