面向电力设备领域的检索方法、装置、存储器及计算设备制造方法及图纸

技术编号:35035778 阅读:30 留言:0更新日期:2022-09-24 23:12
本发明专利技术公开了一种面向电力设备领域的检索方法、装置、存储器及计算设备,该方法包括:对面向电力设备领域的文本进行预处理并分词,以及,对分词后的文本建立索引;对用户问题基于所建立的索引从面向电力设备领域的文本中进行检索,得到候选文档集合;对所述候选文档集合中的候选文档基于语义进行重新排序,筛选得到与用户问题相关的检索结果。本发明专利技术通过对面向电力设备领域的标准文档基于分词建立索引,能有效降低误检,漏检的情况,并且通过索引的方式保证了在文档数据量庞大的情况下较高的查询响应速度;本发明专利技术提高了检索结果与用户问题的相关性,提升搜索准确率。提升搜索准确率。提升搜索准确率。

【技术实现步骤摘要】
面向电力设备领域的检索方法、装置、存储器及计算设备


[0001]本专利技术涉及一种面向电力设备领域的检索方法、装置、存储器及计算设备,属于电力设备运维


技术介绍

[0002]随着信息技术的不断发展与数字化建设的不断加深,知识型文档的规模也呈爆发式增长。以设备领域为例,各种设备如变压器等的标准文件、说明文档、检测报告等纷繁复杂,要从这些文档中获取相关的知识可谓困难重重。相比于传统检索,面向领域的检索更难准确把握用户意图,同时专业术语的出现也让检索难度大大提高。
[0003]目前基于传统的搜索技术包括以下方式:一是通过目录点选的方式,逐级找到对应文档知识。二是基于关键词的简单、模糊匹配,给出与查询条件相符的结果。其中第二种方式更为广泛使用。
[0004]然而,传统搜索方式在面向垂直领域(垂直领域指某个特定行业的领域)时会存在以下问题:一、针对结构化数据(文档的标题、关键词、作者等)进行查询,易出现误检,漏检的现象,无法满足用户对文档内容的搜索;二、基于关键词的模糊匹配,无法准确识别用户意图,难以满足用户搜索需求。

技术实现思路

[0005]本专利技术的目的在于提供一种面向电力设备领域的检索方法、装置、存储器及计算设备,通过索引筛选和语义重排,实现设备知识的智能文档检索。
[0006]为达到上述目的,本专利技术采用的技术方案如下:本专利技术一方面提供一种面向电力设备领域的检索方法,包括:对面向电力设备领域的标准文档和用户输入问题进行预处理,得到预处理结果,其中,预处理结果包括预处理后的面向电力设备领域的标准文档、预处理后的用户输入问题和分词结果;基于分词结果,对预处理后的面向电力设备领域的标准文档建立索引,基于分词结果及所建立的索引从预处理后的面向电力设备领域的标准文档中进行检索,得到与预处理后的用户输入问题相关的候选文档集合;基于语义对所述候选文档集合中的候选文档进行重新排序,得到排序结果,并将排序结果反馈给用户。
[0007]进一步的,所述对面向电力设备领域的标准文档和用户输入问题进行预处理,包括:将面向电力设备领域的标准文档和用户输入问题通过编码解码的方式转为utf

8编码格式;构建N

gram语言模型,根据最大路径算法分别计算出格式转换后的面向电力设备领域的标准文档和用户输入问题的分词路径;
获取预先构建的设备领域专业词典,基于设备领域专业词典分别按照所得到的分词路径对格式转换后的面向电力设备领域的标准文档和用户输入问题进行分词。
[0008]进一步的,进行预处理前,还包括:对用户输入问题进行纠错和补全。
[0009]进一步的,所述分词结果包括多个用户输入问题分词,所述基于分词结果及所建立的索引从预处理后的面向电力设备领域的标准文档中进行检索,得到与用户输入问题相关的候选文档集合,包括:对预处理后的面向电力设备领域的标准文档分词采用倒排索引通过Elasticsearch自动构建索引;对每个用户输入问题分词进行词权重分配;将每个用户输入问题分词与词权重基于所建立的索引从预处理后的面向电力设备领域的标准文档中采用ES检索,得出与各用户输入问题相关的候选文档集合。
[0010]进一步的,所述对每个用户输入问题分词进行词权重分配,包括:针对每个用户输入问题分词,确定该用户输入问题分词是否包括预配置的词权重,若包括,则将预配置的词权重作为该用户输入问题分词的词权重;若不包括,则通过预先训练的词权重模型对该用户输入问题分词进行动态词权重分配。
[0011]进一步的,所述词权重模型采用语言模型BERT,所述词权重模型的训练过程为:获取历史用户问题和用户对该问题的相关点击文档;对历史用户问题和相关点击文档进行分词;对历史用户问题和相关点击文档两者间重叠的词,设定权重值;通过词权重模型学习词与权重值之间的映射关系,得到训练好的词权重模型。
[0012]进一步的,所述将每个用户输入问题分词与词权重基于所建立的索引从预处理后的面向电力设备领域的标准文档中采用ES检索,得出与各用户输入问题相关的候选文档集合,包括:根据用户输入问题的分词结果与词权重,通过ES检索将包含分词结果中至少一个词的所有候选文档提取出来;通过TF

IDF计算每个候选文档与用户输入问题的得分;按照每篇候选文档的TF

IDF得分从高到低对候选文档进行排序;结合用户历史点击行为,剔除不包含用户历史点击行为的候选文档,选择前K个候选文档作为与用户输入问题相关的候选文档集合。
[0013]进一步的,所述基于语义对所述候选文档集合中的候选文档进行重新排序,包括:将与用户输入问题相关的候选文档集合中的候选文档分别与用户输入问题拼接在一起逐一输入训练好的Bert

Search模型,得出用户输入问题与所拼接的候选文档的相关性得分;根据相关性得分对候选文档集合中的候选文档进行重新排序。
[0014]进一步的,所述将与用户输入问题相关的候选文档集合中的候选文档分别与用户输入问题拼接在一起逐一输入训练好的Bert

Search模型,包括:对候选文档进行分词,计算每个词的TF

IDF值;选取TF

IDF值最大的前预设数量的关键词,拼接在候选文档后;
将用户输入问题与拼接了关键词的候选文档拼接在一起输入训练好的Bert

Search模型。
[0015]本专利技术第二方面提供面向电力设备领域的检索装置,包括:预处理模块,用于对面向电力设备领域的标准文档和用户输入问题进行预处理,得到预处理结果,其中,预处理结果包括预处理后的面向电力设备领域的标准文档、预处理后的用户输入问题和分词结果;第一筛选模块,用于基于分词结果,对预处理后的面向电力设备领域的标准文档建立索引,基于分词结果及所建立的索引从预处理后的面向电力设备领域的标准文档中进行检索,得到与预处理后的用户输入问题相关的候选文档集合;以及,第二筛选模块,用于基于语义对所述候选文档集合中的候选文档进行重新排序,得到排序结果,并将排序结果反馈给用户。
[0016]进一步的,所述预处理模块具体用于,将面向电力设备领域的标准文档和用户输入问题通过编码解码的方式转为utf

8编码格式;构建N

gram语言模型,根据最大路径算法分别计算出格式转换后的面向电力设备领域的标准文档和用户输入问题的分词路径;获取预先构建的设备领域专业词典,基于设备领域专业词典分别按照所得到的分词路径对格式转换后的面向电力设备领域的标准文档和用户输入问题进行分词。
[0017]进一步的,所述第一筛选模块具体用于,对预处理后的面向电力设备领域的标准文档分词采用倒排索引通过Elasticsearch自动构建索引;对每个用户输入问题分词进行词权重分配;将每个用户输入问题分词与词权重基于所建立的索引从预处理后的面向电力设备领域的标准文档中采用ES检索,得出与各用户输入问题相关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向电力设备领域的检索方法,其特征在于,包括:对面向电力设备领域的标准文档和用户输入问题进行预处理,得到预处理结果,其中,预处理结果包括预处理后的面向电力设备领域的标准文档、预处理后的用户输入问题和分词结果;基于分词结果,对预处理后的面向电力设备领域的标准文档建立索引,基于分词结果及所建立的索引从预处理后的面向电力设备领域的标准文档中进行检索,得到与预处理后的用户输入问题相关的候选文档集合;基于语义对所述候选文档集合中的候选文档进行重新排序,得到排序结果,并将排序结果反馈给用户。2.根据权利要求1所述的面向电力设备领域的检索方法,其特征在于,所述对面向电力设备领域的标准文档和用户输入问题进行预处理,包括:将面向电力设备领域的标准文档和用户输入问题通过编码解码的方式转为utf

8编码格式;构建N

gram语言模型,根据最大路径算法分别计算出格式转换后的面向电力设备领域的标准文档和用户输入问题的分词路径;获取预先构建的设备领域专业词典,基于设备领域专业词典分别按照所得到的分词路径对格式转换后的面向电力设备领域的标准文档和用户输入问题进行分词。3.根据权利要求1所述的面向电力设备领域的检索方法,其特征在于,进行预处理前,还包括:对用户输入问题进行纠错和补全。4.根据权利要求1所述的面向电力设备领域的检索方法,其特征在于,所述分词结果包括多个用户输入问题分词,所述基于分词结果及所建立的索引从预处理后的面向电力设备领域的标准文档中进行检索,得到与用户输入问题相关的候选文档集合,包括:对预处理后的面向电力设备领域的标准文档分词采用倒排索引通过Elasticsearch自动构建索引;对每个用户输入问题分词进行词权重分配;将每个用户输入问题分词与词权重基于所建立的索引从预处理后的面向电力设备领域的标准文档中采用ES检索,得出与各用户输入问题相关的候选文档集合。5.根据权利要求4所述的面向电力设备领域的检索方法,其特征在于,所述对每个用户输入问题分词进行词权重分配,包括:针对每个用户输入问题分词,确定该用户输入问题分词是否包括预配置的词权重,若包括,则将预配置的词权重作为该用户输入问题分词的词权重;若不包括,则通过预先训练的词权重模型对该用户输入问题分词进行动态词权重分配。6.根据权利要求5所述的面向电力设备领域的检索方法,其特征在于,所述词权重模型采用语言模型BERT,所述词权重模型的训练过程为:获取历史用户问题和用户对该问题的相关点击文档;对历史用户问题和相关点击文档进行分词;对历史用户问题和相关点击文档两者间重叠的词,设定权重值;通过词权重模型学习词与权重值之间的映射关系,得到训练好的词权重模型。
7.根据权利要求4所述的面向电力设备领域的检索方法,其特征在于,所述将每个用户输入问题分词与词权重基于所建立的索引从预处理后的面向电力设备领域的标准文档中采用ES检索,得出与各用户输入问题相关的候选文档集合,包括:根据用户输入问题的分词结果与词权重,通过ES检索将包含分词结果中至少一个词的所有候选文档提取出来;通过TF

IDF计算每个候选文档与用户输入问题的得分;按照每篇候选文档的TF

IDF得分从高到低对候选文档进行排序;结合用户历史点击行为,剔除不包含用户历史点击行为的候选文档,选择前K个候选文档作为与用户输入问题相关的候选文档集合。8.根据权利要求1所述的面向电力设备领域的检索方法,其特征在于,所述基于语义对...

【专利技术属性】
技术研发人员:张国江付慧景巍巍李双伟杨景刚胡成博赵科马径坦贾骏刘子全
申请(专利权)人:国网江苏省电力有限公司电力科学研究院国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1