当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于参考规范的专业文本生成方法及装置制造方法及图纸

技术编号:29673412 阅读:31 留言:0更新日期:2021-08-13 21:55
一种基于参考规范的专业文本生成方法,采用k个生成器,分别负责生成一种知识点匹配程度的专业文本,各生成器均为结合注意力机制的自编码器结构,包括编码器和解码器两部分。在训练过程中,生成器每次生成一个词语,n次迭代后生成完整的文本,对不完整的文本需要进行文本补全。本发明专利技术还采用两个判别器从多个角度评价生成文本,其中连贯性判别器用于评价生成文本的语言规范和鼓励文本多样性,专业性判别器用于评价生成文本与参考规范的语义相关性和知识点匹配性,通过两个判别器得到一个综合评分,并将其返回给生成器,生成器通过这个综合评分来更新相应的参数,以使生成文本获得更高的综合评分,从而训练获得一种专业文本生成方法及装置。

【技术实现步骤摘要】
一种基于参考规范的专业文本生成方法及装置
本专利技术公开一种基于参考规范的专业文本生成方法及装置,属于自然语言处理的

技术介绍
文本自动生成任务是指面向特定目标,对输入的数据进行加工处理,自动生成一段满足条件的文本,具有广泛的应用场景,如新闻生成、作文生成等。一些场景中需要对生成文本进行语义控制,如生成不同情绪类别的诗歌。在基于参考规范的专业文本生成场景中,参考规范是对知识点的相关描述,不同参考规范描述不同知识点的相关内容,用于指导生成文本满足与参考规范的语义相关性和知识点匹配性,知识点的匹配程度有多种,如完全正确描述了知识点,或是与知识点矛盾。在特定匹配程度下,生成的专业文本和真实的专业文本在知识点描述上的相似性即为知识点匹配性。基于参考规范的专业文本生成有重要的应用价值,例如在自动文本评阅系统中,通过一个评阅模型来对文本进行打分,而训练模型过程需要大量标注样本,在实际场景中难以满足,可以使用基于参考规范的专业文本生成技术产生标注样本,辅助训练评阅模型。这种应用在其他类似的监督学习任务中同样适用,本专利技术探索面向自然语言文本处理的本文档来自技高网...

【技术保护点】
1.一种基于参考规范的专业文本生成方法,其特征在于,包括:/n1)对输入的参考规范文本,利用生成器进行处理,输出已生成文本;/n2)对已生成文本进行补全后,输入至判别器模块,经判别后得到综合评分;其中所述判别器模块包括连贯性判别器和专业性判别器:/n所述连贯性判别器的输入为已生成的部分文本,简称PartT,用于评价生成文本的语言规范,其中PartT是指生成器迭代生成文本过程中某一时刻已经生成的不完整文本;/n所述专业性判别器的输入为参考规范文本和将PartT补全后文本,后者简称PartTA,用于评价生成文本PartTA与参考规范的语义相关性和知识点匹配性;/n3)利用综合评分对所述生成器进行训...

【技术特征摘要】
1.一种基于参考规范的专业文本生成方法,其特征在于,包括:
1)对输入的参考规范文本,利用生成器进行处理,输出已生成文本;
2)对已生成文本进行补全后,输入至判别器模块,经判别后得到综合评分;其中所述判别器模块包括连贯性判别器和专业性判别器:
所述连贯性判别器的输入为已生成的部分文本,简称PartT,用于评价生成文本的语言规范,其中PartT是指生成器迭代生成文本过程中某一时刻已经生成的不完整文本;
所述专业性判别器的输入为参考规范文本和将PartT补全后文本,后者简称PartTA,用于评价生成文本PartTA与参考规范的语义相关性和知识点匹配性;
3)利用综合评分对所述生成器进行训练;
所述生成器、连贯性判别器和专业性判别器均为神经网络,所述步骤1)中包括k个生成器,其中,每个生成器包括编码器和解码器,生成器的个数和知识点匹配程度的种类数k相同;
所述编码器用于提取参考规范文本中的特征信息,使用单向循环神经网络,简记为,令一条参考规范文本为,本发明采用预训练词嵌入,的第i个词的词嵌入为,表示编码器第i个时间步的隐藏状态:

(1)

为参考规范文本R的特征信息:

(2)
其中,r为参考规范文本的长度;
所述解码器根据参考规范文本的特征信息生成文本:使用单向循环神经网络,简记为,使用注意力机制将参考规范文本R的特征信息融合到生成文本过程,为解码器第t个时间步的隐藏状态:

(3)
其中,表示t-1时刻生成的词语的词向量;
在生成器的解码器中,使用双线性注意力机制将与生成器对参考规范文本R的特征信息进行交互,以提取关键信息,其中为权重矩阵,r为参考规范文本的长度,得到向量序列:

(4)
使用softmax函数对进行归一化得到权重序列:

(5)
根据和计算得到相关性信息,即为参考规范文本R的特征信息中对生成器当前时刻最重要的信息,其中,为向量中的第i个元素:

(6)
将和相加得到,作为该时间步的输出:

(7)
最后采用softmax函数对计算得到字典中各词语作为当前生成词语的概率,字典为数据集中所有词语及词语对应的索引组成的集合:

(8)
其中,依据进行随机采样,得到当前时刻生成的词语;

(9)
其中,所述表示在给定参考规范和已生成的文本情况下,第i个生成器在第t步生成词汇的概率,其中为第i个生成器中的所有的参数;
所述连贯性判别器的工作流程,包括:
所述连贯性判别器,简记为,用于评价生成文本是否符合语言学规范,采用经过预训练的语言模型,步骤如下:
2-1)通过预训练的语言模型提取已生成的文本的特征向量,该提取过程记为;
2-2)输入到softmax函数中,得到字典中各词语作为下一个词语的概率:

(10)
其中,t时刻生成的词语为,对应作为已生成的文本的下一个词语的概率即为;
2-3)对连贯性进行评价,同时鼓励文本多样性,故采用如下动态阈值方式:
首先,设置两个超参数i和,i为上述词汇选择概率中由高到低排序的第i个排名;
对上述中的概率值由大到小进行排序,得到,中第i大的概率值即为;选择阈值:

(11)
然后,对已生成文本的连贯性评分记为

(12)
其中,当大于等于时,的值均设置为1;当小于时,的值设置为;
所述专业性判别器的工作流程,包括:
专业性判别器为一个多分类器,用于评价生成文本与参考规范的语义相关性和知识点匹配性,简记为;
2-4)将所述生成文本按照与参考规范的关系,分为相关和不相关两大类;根据知识点匹配程度的不同,将与参考规范相关的文本分为相应的匹配种类,令知识点匹配程度的种类数为k;
加上与参考规范不相关的种类,最终需要将文本分为k+1类;
2-5)仅能对完整的文本进行评价,因此需要先将生成的不完整文本补全:经过补全后的文本记为L,文本补全过程为将生成的不完整文本输入到步骤1)所述生成器中,再依次生成下一个词语,直到达到最大生成文本长度;
在中分别对补全的文本L和参考规范文本进行编码,均采用卷积神经网络CNN:
对参考规范文本先使用多种不同窗口大小的卷积操作分别特征编码,然后再通...

【专利技术属性】
技术研发人员:孙宇清胡宇
申请(专利权)人:山东大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1