【技术实现步骤摘要】
面向电网技术标准的FAQ生成方法、装置、存储介质及计算设备
[0001]本专利技术涉及一种面向电网技术标准的FAQ生成方法、装置、存储介质及计算设备,属于电力运维
技术介绍
[0002]当前随着人工智能领域数据规模和算力的突破,基于深度卷积神经网络的自然语言生成技术为人类语言处理加工带来了新的发展机遇。常见问题解答(frequently
‑
asked questions,FAQ)作为自然处理领域的一种重要任务分支,可以自动地对给定的一段文本内容进行文本分析理解,自动生成一个或多个相关联的问题,并根据问题引用该部分文本内容中的句子或段落进行回答,自动生成FAQ对。该技术有着许多实际的应用,例如在文本回答或者搜索引擎当中生成候选问题,在英文教育领域中进行自动的阅读理解问题生成。因此,利用计算机自动生成有意义且质量更高的自然语言问题,吸引了大量的研究人员的目光,也在很多领域取得了不菲的效果。
[0003]然而目前的FAQ自动生成技术大都应用于通用领域文本,在特定领域的生成效果不佳,特别是电力运维
,面向电网技术标准的FAQ自动生成技术目前在领域内的研究还很欠缺,且通用领域的FAQ生成方法在电力领域易产生拆解效率不高、准确率低等问题,所以需要进行面向电网技术标准的FAQ自动生成方法的技术研究。
技术实现思路
[0004]本专利技术的目的在于提出一种面向电网技术标准的FAQ生成方法、装置、存储介质及计算设备,通过多层Transformer解码器进行建模,并引入稀疏sof ...
【技术保护点】
【技术特征摘要】
1.面向电网技术标准的FAQ生成方法,其特征在于,包括:对电网技术标准原始文档进行数据预处理并进行段落拆分,以及对每个段落进行答案信息提取,得到段落
‑
答案要素信息集合;对获取的段落
‑
答案要素信息集合进行审核及提问,构建答案
‑
段落
‑
问题训练集;采用所构建的答案
‑
段落
‑
问题训练集进行模型训练,生成文本自动生成问答模型;采用用户提供的文档,通过训练好的文本自动生成问答模型,生成FAQ候选集。2.根据权利要求1所述的面向电网技术标准的FAQ生成方法,其特征在于,所述对电网技术标准原始文档进行数据预处理包括:对电网技术标准原始文档中的文字进行统一编码,转换成docx文本,并通过正则方式对文本中的无效字符进行剔除。3.根据权利要求2所述的面向电网技术标准的FAQ生成方法,其特征在于,所述进行段落拆分,包括:通过python
‑
docx和正则约束的方式对预处理后的文本中的段落标题与正文进行区分,拆分为段落。4.根据权利要求3所述的面向电网技术标准的FAQ生成方法,其特征在于,所述对每个段落进行答案信息提取,得到段落
‑
答案要素信息集合,包括:将每个段落分别通过两种不同的方式获得答案候选信息集合;所述两种不同的方式为采用序列标注模型的方式和新词发现、分词和过滤的方式;分别计算两种方式下获得的答案候选信息在目标语料库和背景语料库中的频率之比,并按照从大到小进行排序;所述目标语料库为拆分后的段落构成的语料库;所述背景语料库为电力领域通用语料库;分别选取两种方式下计算的频率之比排名靠前的N个答案候选信息,再次按照计算的频率之比从大到小进行排序,获得答案信息集合,作为段落
‑
答案要素信息集合。5.根据权利要求1所述的面向电网技术标准的FAQ生成方法,其特征在于,所述采用所构建的答案
‑
段落
‑
问题训练集进行模型训练,生成文本自动生成问答模型,包括:将输入训练集文本中的词通过预先构建的词嵌入矩阵转化为词向量;根据输入训练集文本中的词的位置信息给每一个词构建与词向量维度一样的位置编码向量;将所述位置编码向量和词向量相加后输入N层的Transformer模块中进行训练,生成文本自动生成问答模型。6.根据权利要求5所述的面向电网技术标准的FAQ生成方法,其特征在于,还包括:在输入训练集的文本后增加两个字段:问题类型字段和关于统计类问题的回答字段。7.根据权利要求5所述的面向电网技术标准的FAQ生成方法,其特征在于,所述训练过程中,采用稀疏Softmax机制对Transformer模块中自注意力单元输出的向量进行归一化。8.面向电网技术标准的FAQ生成装置,其特征在于,包括:答案提取...
【专利技术属性】
技术研发人员:杨景刚,胡成博,马径坦,贾骏,景巍巍,张国江,付慧,李双伟,赵科,刘子全,
申请(专利权)人:国网江苏省电力有限公司电力科学研究院国家电网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。