面向电网技术标准的FAQ生成方法、装置、存储介质及计算设备制造方法及图纸

技术编号:35065648 阅读:27 留言:0更新日期:2022-09-28 11:22
本发明专利技术公开了一种面向电网技术标准的FAQ生成方法、装置、存储介质及计算设备,该方法通过多层Transformer解码器进行建模,建立文本自动生成问答模型,采用自注意力机制对输入序列中词向量之间的关联度进行计算,并引入稀疏softmax机制,对FAQ生成进行优化,解决了技术标准领域FAQ拆解效率不高,提高FAQ生成准确性。性。性。

【技术实现步骤摘要】
面向电网技术标准的FAQ生成方法、装置、存储介质及计算设备


[0001]本专利技术涉及一种面向电网技术标准的FAQ生成方法、装置、存储介质及计算设备,属于电力运维


技术介绍

[0002]当前随着人工智能领域数据规模和算力的突破,基于深度卷积神经网络的自然语言生成技术为人类语言处理加工带来了新的发展机遇。常见问题解答(frequently

asked questions,FAQ)作为自然处理领域的一种重要任务分支,可以自动地对给定的一段文本内容进行文本分析理解,自动生成一个或多个相关联的问题,并根据问题引用该部分文本内容中的句子或段落进行回答,自动生成FAQ对。该技术有着许多实际的应用,例如在文本回答或者搜索引擎当中生成候选问题,在英文教育领域中进行自动的阅读理解问题生成。因此,利用计算机自动生成有意义且质量更高的自然语言问题,吸引了大量的研究人员的目光,也在很多领域取得了不菲的效果。
[0003]然而目前的FAQ自动生成技术大都应用于通用领域文本,在特定领域的生成效果不佳,特别是电力运维
,面向电网技术标准的FAQ自动生成技术目前在领域内的研究还很欠缺,且通用领域的FAQ生成方法在电力领域易产生拆解效率不高、准确率低等问题,所以需要进行面向电网技术标准的FAQ自动生成方法的技术研究。

技术实现思路

[0004]本专利技术的目的在于提出一种面向电网技术标准的FAQ生成方法、装置、存储介质及计算设备,通过多层Transformer解码器进行建模,并引入稀疏softmax机制,对FAQ生成进行优化,解决了技术标准领域FAQ拆解效率不高,生成FAQ准确率低等问题。
[0005]为达到上述目的,本专利技术采用的技术方案如下:
[0006]本专利技术一方面提供一种面向电网技术标准的FAQ生成方法,包括:
[0007]对电网技术标准原始文档进行数据预处理并进行段落拆分,以及对每个段落进行答案信息提取,得到段落

答案要素信息集合;
[0008]对获取的段落

答案要素信息集合进行审核及提问,构建答案

段落

问题训练集;
[0009]采用所构建的答案

段落

问题训练集进行模型训练,生成文本自动生成问答模型;
[0010]采用用户提供的文档,通过训练好的文本自动生成问答模型,生成FAQ候选集。
[0011]进一步的,所述对电网技术标准原始文档进行数据预处理包括:
[0012]对电网技术标准原始文档中的文字进行统一编码,转换成docx文本,并通过正则方式对文本中的无效字符进行剔除。
[0013]进一步的,所述进行段落拆分,包括:
[0014]通过python

docx和正则约束的方式对预处理后的文本中的段落标题与正文进行
区分,拆分为段落。
[0015]进一步的,所述对每个段落进行答案信息提取,得到段落

答案要素信息集合,包括:
[0016]将每个段落分别通过两种不同的方式获得答案候选信息集合;所述两种不同的方式为采用序列标注模型的方式和新词发现、分词和过滤的方式;
[0017]分别计算两种方式下获得的答案候选信息在目标语料库和背景语料库中的频率之比,并按照从大到小进行排序;所述目标语料库为拆分后的段落构成的语料库;所述背景语料库为电力领域通用语料库;
[0018]分别选取两种方式下计算的频率之比排名靠前的N个答案候选信息,再次按照计算的频率之比从大到小进行排序,获得答案信息集合,作为段落

答案要素信息集合。
[0019]进一步的,所述采用所构建的答案

段落

问题训练集进行模型训练,生成文本自动生成问答模型,包括:
[0020]将输入训练集文本中的词通过预先构建的词嵌入矩阵转化为词向量;
[0021]根据输入训练集文本中的词的位置信息给每一个词构建与词向量维度一样的位置编码向量;
[0022]将所述位置编码向量和词向量相加后输入N层的Transformer模块中进行训练,生成文本自动生成问答模型。
[0023]进一步的,还包括:
[0024]在输入训练集的文本后增加两个字段:
[0025]问题类型字段和关于统计类问题的回答字段。
[0026]进一步的,训练过程中,采用稀疏Softmax机制对Transformer模块中自注意力单元输出的向量进行归一化。
[0027]本专利技术第二方面提供一种面向电网技术标准的FAQ生成装置,包括:
[0028]答案提取模块,用于对电网技术标准原始文档进行数据预处理并进行段落拆分,以及对每个段落进行答案信息提取,得到段落

答案要素信息集合;
[0029]训练集构建模块,用于对获取的段落

答案要素信息集合进行审核及提问,构建答案

段落

问题训练集;
[0030]模型训练模块,用于采用所构建的答案

段落

问题训练集进行模型训练,生成文本自动生成问答模型;
[0031]以及,
[0032]预测模块,用于采用用户提供的文档,通过训练好的文本自动生成问答模型,生成FAQ候选集。
[0033]进一步的,所述答案提取模块具体用于,
[0034]对电网技术标准原始文档中的文字进行统一编码,转换成docx文本,并通过正则方式对文本中的无效字符进行剔除;
[0035]通过python

docx和正则约束的方式对预处理后的文本中的段落标题与正文进行区分,拆分为段落。
[0036]进一步的,所述答案提取模块具体用于,
[0037]将每个段落分别通过两种不同的方式获得答案候选信息集合;所述两种不同的方
式为采用序列标注模型的方式和新词发现、分词和过滤的方式;
[0038]分别计算两种方式下获得的答案候选信息在目标语料库和背景语料库中的频率之比,并按照从大到小进行排序;所述目标语料库为拆分后的段落构成的语料库;所述背景语料库为电力领域通用语料库;
[0039]分别选取两种方式下计算的频率之比排名靠前的N个答案候选信息,再次按照计算的频率之比从大到小进行排序,获得答案信息集合,作为段落

答案要素信息集合。
[0040]进一步的,所述模型训练模块包括:
[0041]词嵌入层,用于将输入训练集文本中的词通过预先构建的词嵌入矩阵转化为词向量;所述输入训练集的文本后增加两个字段:问题类型字段和关于统计类问题的回答字段;
[0042]位置嵌入层,用于根据输入训练集文本中的词的位置信息给每一个词构建与词向量维度一样的位置编码向量;以及将所述位置编码向量和词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向电网技术标准的FAQ生成方法,其特征在于,包括:对电网技术标准原始文档进行数据预处理并进行段落拆分,以及对每个段落进行答案信息提取,得到段落

答案要素信息集合;对获取的段落

答案要素信息集合进行审核及提问,构建答案

段落

问题训练集;采用所构建的答案

段落

问题训练集进行模型训练,生成文本自动生成问答模型;采用用户提供的文档,通过训练好的文本自动生成问答模型,生成FAQ候选集。2.根据权利要求1所述的面向电网技术标准的FAQ生成方法,其特征在于,所述对电网技术标准原始文档进行数据预处理包括:对电网技术标准原始文档中的文字进行统一编码,转换成docx文本,并通过正则方式对文本中的无效字符进行剔除。3.根据权利要求2所述的面向电网技术标准的FAQ生成方法,其特征在于,所述进行段落拆分,包括:通过python

docx和正则约束的方式对预处理后的文本中的段落标题与正文进行区分,拆分为段落。4.根据权利要求3所述的面向电网技术标准的FAQ生成方法,其特征在于,所述对每个段落进行答案信息提取,得到段落

答案要素信息集合,包括:将每个段落分别通过两种不同的方式获得答案候选信息集合;所述两种不同的方式为采用序列标注模型的方式和新词发现、分词和过滤的方式;分别计算两种方式下获得的答案候选信息在目标语料库和背景语料库中的频率之比,并按照从大到小进行排序;所述目标语料库为拆分后的段落构成的语料库;所述背景语料库为电力领域通用语料库;分别选取两种方式下计算的频率之比排名靠前的N个答案候选信息,再次按照计算的频率之比从大到小进行排序,获得答案信息集合,作为段落

答案要素信息集合。5.根据权利要求1所述的面向电网技术标准的FAQ生成方法,其特征在于,所述采用所构建的答案

段落

问题训练集进行模型训练,生成文本自动生成问答模型,包括:将输入训练集文本中的词通过预先构建的词嵌入矩阵转化为词向量;根据输入训练集文本中的词的位置信息给每一个词构建与词向量维度一样的位置编码向量;将所述位置编码向量和词向量相加后输入N层的Transformer模块中进行训练,生成文本自动生成问答模型。6.根据权利要求5所述的面向电网技术标准的FAQ生成方法,其特征在于,还包括:在输入训练集的文本后增加两个字段:问题类型字段和关于统计类问题的回答字段。7.根据权利要求5所述的面向电网技术标准的FAQ生成方法,其特征在于,所述训练过程中,采用稀疏Softmax机制对Transformer模块中自注意力单元输出的向量进行归一化。8.面向电网技术标准的FAQ生成装置,其特征在于,包括:答案提取...

【专利技术属性】
技术研发人员:杨景刚胡成博马径坦贾骏景巍巍张国江付慧李双伟赵科刘子全
申请(专利权)人:国网江苏省电力有限公司电力科学研究院国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1