电网领域问题智能检索方法、装置及终端设备制造方法及图纸

技术编号:37778042 阅读:10 留言:0更新日期:2023-06-09 09:08
本申请适用于电网智能检索技术领域,提供了电网领域问题智能检索方法、装置及终端设备,该方法包括:获取电网知识数据库和用户提出的电网领域问题;对用户提出的电网领域问题进行分词和分字操作,得到多个字符、多个词和多个词组,多个词组由多个词中的任一词和与该任一词相邻的词组成;基于多个字符、多个词、多个词组和电网领域高频词词典,得到第一主题实体,电网领域高频词词典基于多个电网领域问题和多个问题解决方案构建;基于电网知识数据库对第一主题实体进行匹配,得到用户提出的电网领域问题的解决方案。本申请能够提高电网领域相关问题智能检索的准确性。相关问题智能检索的准确性。相关问题智能检索的准确性。

【技术实现步骤摘要】
电网领域问题智能检索方法、装置及终端设备


[0001]本申请属于电网智能检索
,尤其涉及电网领域问题智能检索方法、装置及终端设备。

技术介绍

[0002]电力相关的智能客服系统基于命名实体识别(Named Entity Recognition),简称NER,现有的中文NER方法主要是单独的基于字符的NER方法或是单独的基于词的NER方法。
[0003]对于单独的基于字符的NER方法来说,通过直接对每个字符进行向量化的操作避免了分词边界划分错误的发生,但是将文本切分为字符级的序列将会舍弃大部分词中包含的信息。
[0004]对于单独的基于词的NER方法来说,尽管目前中文分词工具的性能很强大,但是不可避免的仍会出现一些分词边界划分错误的问题,这会导致后续的训练以及预测也会出现一系列的问题。
[0005]目前也有一些将基于词的NER方法与基于字符的NER方法结合的尝试,但在面对电网领域相关的文本时不能做到很好的匹配,造成某些字符的相关词汇信息的缺失,影响NER的表现。

技术实现思路

[0006]本申请实施例提供了一种电网领域问题智能检索方法、装置及终端设备,以解决NER方法在电网领域相关问题中表现效果不好的问题。
[0007]本申请是通过如下技术方案实现的:
[0008]第一方面,本申请实施例提供了一种电网领域问题智能检索方法,包括:
[0009]获取电网知识数据库和用户提出的电网领域问题;
[0010]对用户提出的电网领域问题进行分词和分字操作,得到多个字符、多个词和多个词组,多个词组由多个词中的任一词和与该任一词相邻的词组成;
[0011]基于多个字符、多个词、多个词组和电网领域高频词词典,得到第一主题实体,电网领域高频词词典基于多个电网领域问题和多个问题解决方案构建;
[0012]基于电网知识数据库对第一主题实体进行匹配,得到用户提出的电网领域问题的解决方案。
[0013]结合第一方面,在一些可能的实现方式中,构建电网领域高频词词典的过程包括:基于电网知识数据库得到多个电网领域问题和多个问题解决方案;滤除多个电网领域问题和多个问题解决方案中的无效的电网领域问题和无效的问题解决方案,得到第一问题集合和第一解决方案集合;将第一问题集合和第一解决方案集合进行对应的组合,得到问答数据集;使用HanLP工具识别问答数据集的主题实体,得到第二主题实体;对第二主题实体使用BIO标注法进行标注、校验和修改,得到第三主题实体;基于第三主题实体中出现频次最高的预设个数的主题实体建立电网领域高频词词典。
[0014]结合第一方面,在一些可能的实现方式中,无效的电网领域问题为电网系统中不会再出现的问题;无效的问题解决方案为无法解决对应问题的解决方案或者电网系统中不会再出现的问题的解决方案。
[0015]结合第一方面,在一些可能的实现方式中,基于多个字符、多个词、多个词组和电网领域高频词词典,得到第一主题实体,具体包括:基于BMES标注法和多个字符,得到多个词集向量,其中,多个词集向量包括B词集向量、M词集向量、E词集向量和S词集向量;基于多个词和多个词组,得到前向词组向量和后向词组向量;基于多个词集向量、前向词组向量和后向词组向量,得到字符向量;基于电网领域高频词词典和SoftLexicon技术,建立联合特征模型;将字符向量输入联合特征模型,得到第一主题实体。
[0016]结合第一方面,在一些可能的实现方式中,联合特征模型,包括:输入层、编码层、解码层和输出层;输入层,用于获取输入联合特征模型的字符向量;编码层,用于使用Bi

LSTM模型对输入的字符向量进行处理,得到第一处理信息;解码层,用于基于第一处理信息,使用归一化指数函数预测其对应的标签,根据标签得到第一主题实体;输出层,用于输出第一主题实体。
[0017]结合第一方面,在一些可能的实现方式中,字符向量为:其中,c为任一字符,W
gf
(c)为字符c的前向词组向量,W
gb
(c)为字符c的后向词组向量,字符的词组向量公式为:L为电网领域高频词词典,e
ω
(w
i
)为词组中词的向量;)为词组中词的向量;其中,z(ω)为词ω在第三主题实体中出现的次数,e
ω
(ω)为词集中词的向量。
[0018]结合第一方面,在一些可能的实现方式中,基于电网知识数据库对第一主题实体进行匹配,得到用户提出的电网领域问题的解决方案,具体包括:当第一主题实体与电网知识数据库中的实体精确匹配时,直接得到用户提出的电网领域问题的解决方案;当第一主题实体无法与电网知识数据库中的实体精确匹配时,对第一主题实体进行模糊匹配,得到相似实体集合,基于相似实体集合和电网知识数据库中的实体,得到用户提出的电网领域问题的解决方案。
[0019]第二方面,本申请实施例提供了一种电网领域问题智能检索装置,包括:
[0020]获取模块,用于获取电网知识数据库和用户提出的电网领域问题;
[0021]处理模块,用于对用户提出的电网领域问题进行分词和分字操作,得到多个字符、多个词和多个词组,多个词组由多个词中的任一词和与该任一词相邻的词组成;
[0022]识别模块,用于基于多个字符、多个词、多个词组和电网领域高频词词典,得到第一主题实体,电网领域高频词词典基于多个电网领域问题和多个问题解决方案构建;
[0023]结果模块,用于基于电网知识数据库对第一主题实体进行匹配,得到用户提出的电网领域问题的解决方案。
[0024]第三方面,本申请实施例提供了一种终端设备,包括:处理器和存储器,该存储器用于存储计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的电网领域问题智能检索方法。
[0025]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的电网领域问题智能检索方法。
[0026]第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的电网领域问题智能检索方法。
[0027]可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
[0028]本申请实施例与现有技术相比存在的有益效果是:
[0029]本申请对用户提出的电网领域问题进行分词分子操作,得到多个字符、多个词和多个词组,基于多个字符、多个词和多个词组得到用户提出的电网领域问题的第一主题实体,第一主题实体与电网知识数据库进行匹配,得到用户提出问题的解决方案,其中,多个字符在得到第一主题实体中起到的作用是避免分词边界划分错误丢失信息的情况出现,多个词在得到第一主题实体中起到的作用是避免分成字符之后丢失原本词的本身的信息,多个词组在得到第一主题实体中起到的作用是将多个词之间的相互的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电网领域问题智能检索方法,其特征在于,包括:获取电网知识数据库和用户提出的电网领域问题;对所述用户提出的电网领域问题进行分词和分字操作,得到多个字符、多个词和多个词组,所述多个词组由所述多个词中的任一词和与该任一词相邻的词组成;基于所述多个字符、多个词、多个词组和电网领域高频词词典,得到第一主题实体,所述电网领域高频词词典基于多个电网领域问题和多个问题解决方案构建;基于所述电网知识数据库对所述第一主题实体进行匹配,得到用户提出的电网领域问题的解决方案。2.如权利要求1所述的电网领域问题智能检索方法,其特征在于,构建所述电网领域高频词词典的过程包括:基于电网知识数据库得到多个电网领域问题和多个问题解决方案;滤除所述多个电网领域问题和所述多个问题解决方案中的无效的电网领域问题和无效的问题解决方案,得到第一问题集合和第一解决方案集合;将所述第一问题集合和所述第一解决方案集合进行对应的组合,得到问答数据集;使用HanLP工具识别所述问答数据集的主题实体,得到第二主题实体;对所述第二主题实体使用BIO标注法进行标注、校验和修改,得到第三主题实体;基于所述第三主题实体中出现频次最高的预设个数的主题实体建立电网领域高频词词典。3.如权利要求2所述的电网领域问题智能检索方法,其特征在于,所述无效的电网领域问题为电网系统中不会再出现的问题;所述无效的问题解决方案为无法解决对应问题的解决方案或者电网系统中不会再出现的问题的解决方案。4.如权利要求2所述的电网领域问题智能检索方法,其特征在于,基于所述多个字符、多个词、多个词组和电网领域高频词词典,得到所述第一主题实体,具体包括:基于BMES标注法和所述多个字符,得到多个词集向量,其中,所述多个词集向量包括B词集向量、M词集向量、E词集向量和S词集向量;基于所述多个词和所述多个词组,得到前向词组向量和后向词组向量;基于所述多个词集向量、所述前向词组向量和所述后向词组向量,得到字符向量;基于电网领域高频词词典和SoftLexicon技术,建立联合特征模型;将所述字符向量输入所述联合特征模型,得到所述第一主题实体。5.如权利要求4所述的电网领域问题智能检索方法,其特征在于,所述联合特征模型,包括:输入层、编码层、解码层和输出层;所述输入层,用于获取输入联合特征模型的字符向量;所述编码层,用于使用Bi

LSTM模型对输入的字符向量进行处理,得到第一处理信息;所述解码层,用于基于所述第一处理信息,使用归一化指数函数预测其对应的标签,根据所述标签得到所述第一主题实体;所述输出层,用于输出...

【专利技术属性】
技术研发人员:赵炜成思远殷娣娣赵小萌杨会峰石子昊魏勇付强王冬宇刁首人刘少帅侯卓言
申请(专利权)人:国家电网有限公司北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1