基于单词重要性加权的问题生成方法技术

技术编号:29307446 阅读:12 留言:0更新日期:2021-07-17 01:57
本发明专利技术公开了一种基于单词重要性加权的问题生成方法,对文本段落中的每个词进行词频分析,以获取每个词的重要程度,并对输入文本段落中的每个词构建与答案词之间的相对关系,以获取每个词对答案而言的重要性,最后利用词频分析特征与相对关系特征来训练问题生成模型,该方案能更有效地抓取段落中的关键信息生成问题文本,具有良好的应用前景。具有良好的应用前景。具有良好的应用前景。

【技术实现步骤摘要】
基于单词重要性加权的问题生成方法


[0001]本专利技术涉及自然语言生成
,尤其涉及一种基于单词重要性加权的问题生成方法。

技术介绍

[0002]随着对话机器人、机器人客服等智能人机对话系统的广泛应用,越来越需要计算机系统能够更准确地理解和使用人类语言。“段落

问题

答案”数据是训练计算机模型实现自然语言理解和自然语言生成任务地重要数据来源,然而人工标注数据需要耗费大量的人力、物力、财力,且效率低下、数据总量少。而互联网上拥有海量无标注文本数据,可以从无标注文本段落数据中选择一个或者多个连续的词语作为答案,再使用问题生成技术生成问题,获取海量“段落

问题

答案”数据。因此,问题生成技术具有很高的研究价值与实用价值。
[0003]现有的问题生成技术多采用基于预训练语言模型进行微调的方法,然而普遍存在一个问题:无法准确抓取最关键内容,常常从不重要的角度进行提问,生成无价值的问题。这是由于问题生成任务的“一对多”特性所导致的,根据给定的文本段落和答案,人类可以提出多个问题,并且很容易分辨哪些问题有价值,哪些问题无价值,而对计算机系统而言,可以生成问题但是无法判断问题的价值性。生成的问题缺乏实际使用价值会导致整个“段落

问题

答案”数据集的可用性降低。

技术实现思路

[0004]本专利技术的目的是提供一种基于单词重要性加权的问题生成方法,从词频与单词与答案之间的相对关系两个方面衡量单词的重要性,从而提升生成的问题文本的价值,进而提升“段落

问题

答案”数据集的可用性。
[0005]本专利技术的目的是通过以下技术方案实现的:
[0006]一种基于单词重要性加权的问题生成方法,包括:
[0007]训练阶段:通过统计数据集中所有文本段落每个单词出现的频率以及单个文本段落中每个单词出现的频率,确定各个文本段落中每个单词的重要程度,并得到重要程度排序向量;同时,对于单个文本段落,通过依存句法分析建立单词与答案之间的相对关系矩阵;将文本段落及相应的问题文本、文本段落的重要程度排序向量与每个单词的重要程度、以及单词与答案之间的相对关系矩阵输入至问题生成模型;所述问题生成模型计算问题文本中每个单词的嵌入向量,以及根据文本段落与重要程度排序向量计算文本段落每个单词的嵌入向量,并将所有单词的嵌入向量输入至添加有单词之间的相对关系矩阵的自注意力编码器中,获得所有单词的编码向量构成的隐向量矩阵,最终结合单词的重要程度预测出问题文本中每个单词的概率分布;结合输入的文本段落对应的问题文本与预测出的问题文本中每个单词的概率分布训练问题生成模型,直至满足终止条件;
[0008]测试阶段:给定待生成的问题文本的长度,将输入的文本段落、文本段落的重要程
度排序向量与每个单词的重要程度、以及单词与答案之间的相对关系矩阵输入至训练后的问题生成模型,预测出不超过给定长度的问题文本。
[0009]由上述本专利技术提供的技术方案可以看出,对文本段落中的每个单词进行词频分析,以获取每个单词的重要程度,并对输入文本段落中的每个单词构建与答案词之间的相对关系,以获取每个单词对答案而言的重要性,最后利用词频分析特征与相对关系特征来训练问题生成模型,该方案能更有效地抓取段落中的关键信息生成问题文本,具有良好的应用前景。
附图说明
[0010]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0011]图1为本专利技术实施例提供的一种基于单词重要性加权的问题生成方法训练阶段的流程图;
[0012]图2为本专利技术实施例提供的单词与答案相对关系构建示意图;
[0013]图3为本专利技术实施例提供的相对关系矩阵示意图。
具体实施方式
[0014]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0015]为了解决现有技术所存在的上述技术缺陷,本专利技术实施例提供一种基于单词重要性加权的问题生成方法,以提升所生成问题的价值。本专利技术提出两个方法衡量单词重要性。一个方法是词频分析:比较文本段落中各个单词出现的频率同整个数据集的大量文本中单词出现的频率,并对各个单词进行排名,以此确定文本段落中各单词的重要程度,最后将词频分析的结果作为特征既加到问题生成模型的嵌入向量中,又加到生成结果概率分布的加权调整中。另一个方法是单词与答案之间的相对关系构建:首先对输入的文本段落进行依存句法分析,然后构建每一个单词与答案之间的相对关系路线图,以建立单词之间的逻辑关系,从而捕捉对于答案而言原文中每个单词的重要程度,最后将相对关系以关系矩阵的方式添加到问题生成模型的自注意力编码器中。
[0016]本专利技术实施例提供一种基于单词重要性加权的问题生成方法,包含训练与测试两个阶段,如图1所示,为训练阶段的主要流程,包括:
[0017]1、词频分析。通过统计数据集中所有文本段落每个单词出现的频率以及单个文本段落中每个单词出现的频率,确定各个文本段落中每个单词的重要程度,并得到重要程度排序向量。
[0018]2、建立相关关系。对于单个文本段落,通过依存句法分析建立单词与答案之间的相对关系矩阵。
[0019]3、问题生成。将文本段落、答案及相应的问题文本、文本段落的重要程度排序向量与每个单词的重要程度、以及单词与答案之间的相对关系矩阵输入至问题生成模型;所述问题生成模型计算问题文本中每个单词的嵌入向量,以及根据文本段落与重要程度排序向量计算文本段落中每个单词的嵌入向量,并将所有单词的嵌入向量输入至添加有单词之间的相对关系矩阵的自注意力编码器中,获得所有单词的编码向量构成的隐向量矩阵,最终结合单词的重要程度预测出问题文本中每个单词的概率分布;结合输入的文本段落对应的问题文本与预测出的问题文本中每个单词的概率分布训练问题生成模型,直至满足终止条件(例如,训练达到设定次数)。
[0020]测试阶段:给定待生成的问题文本的长度,将输入的文本段落、文本段落的重要程度排序向量与每个单词的重要程度、以及单词与答案之间的相对关系矩阵输入至训练后的问题生成模型,预测出不超过给定长度的问题文本。
[0021]本领域技术人员可以理解,测试阶段与训练阶段都各自具有相应的数据集(称为测试集与训练集),测试阶段利用测试集进行词频分析,以及对各文本段落建立相关关系,操作流程与训练阶段相同,故不再赘述。
[0022]为了便于理解,下面针对上述流程中的三个部分做详细的说明。...

【技术保护点】

【技术特征摘要】
1.一种基于单词重要性加权的问题生成方法,其特征在于,包括:训练阶段:通过统计数据集中所有文本段落每个单词出现的频率以及单个文本段落中每个单词出现的频率,确定各个文本段落中每个单词的重要程度,并得到重要程度排序向量;同时,对于单个文本段落,通过依存句法分析建立单词与答案之间的相对关系矩阵;将文本段落及相应的问题文本、文本段落的重要程度排序向量与每个单词的重要程度、以及单词与答案之间的相对关系矩阵输入至问题生成模型;所述问题生成模型计算问题文本中每个单词的嵌入向量,以及根据文本段落与重要程度排序向量计算文本段落每个单词的嵌入向量,并将所有单词的嵌入向量输入至添加有单词之间的相对关系矩阵的自注意力编码器中,获得所有单词的编码向量构成的隐向量矩阵,最终结合单词的重要程度预测出问题文本中每个单词的概率分布;结合输入的文本段落对应的问题文本与预测出的问题文本中每个单词的概率分布训练问题生成模型,直至满足终止条件;测试阶段:给定待生成的问题文本的长度,将输入的文本段落、文本段落的重要程度排序向量与每个单词的重要程度、以及单词与答案之间的相对关系矩阵输入至训练后的问题生成模型,预测出不超过给定长度的问题文本。2.根据权利要求1所述的一种基于单词重要性加权的问题生成方法,其特征在于,所述通过统计数据集中所有文本段落每个单词出现的频率以及单个文本段落中每个单词出现的频率,确定各个文本段落中每个单词的重要程度以及重要程度排序向量包括:统计整个数据集中所有文本段落中每个单词出现的频率,将所有单词按出现的频率降序排序,所得序列向量记为S1;每一文本段落,统计其中每个单词出现的频率,并按频率按出现的降序排序,所得序列向量记为S2;对于每一文本段落,比较其中每个单词在序列向量在S1和S2中的排名,将其在序列向量S2中的排名和其在序列向量S1中的排名作差,得到单词的重要程度D(T
i
);之后,将文本段落中各单词按照重要程度降序排序,得到重要程度排序向量ΔS,并以此可以确定各单词在重要程度排序向量中的位置;公式表示为:D(T
i
)=S2(T
i
)

S1(T
i
)ΔS=sort(D(T
i
)),i=1,

,L
T
其中,S2(T
i
)表示文本段落中第i个单词T
i
在序列向量S2中的排名,S1(T
i
)表示文本段落中第i个单词T
i
在序列向量S1中的排名,L
T
为文本段落的长度,sort(.)为排序函数。3.根据权利要求1所述的一种基于单词重要性加权的问题生成方法,其特征在于,所述对于单个文本段落,通过依存句法分析建立单词与答案之间的相对关系矩阵的步骤包括:提取文本段落中包含答案的句子,并构建单向树:单向树中每个节点表示一个单词,答案中所包含的单词作为根节点词语,两个节点之间的连接表示两个单词之间的单向依存关系;所述答案为文本段落中的连续文本;在得到的单词之间的单向依存关系基础上,对每个单向关系均添加一个反向的关系,形成双向关系的树结构;最后,遍历整个双向关系的树结构,保留其他单词到答案词的路径上的依存关系,而删除答案词到其他单词的路径上的依存关系,剩余的单向关系作为最终的相对关系,并根据最终的相对关系构建相对关系矩阵。
4.根据权利要求1所述的一种基于单词重要性加权的问题生成方法,其特征在于,所述问题生成模型包括:嵌入向量层、编码器层、输出层;其中:所述嵌入向量层,用于生成问题文本中每个问题单词的嵌入向量,以及根据文本段落与重要程度排序向量ΔS获得每个段落单词的嵌入向量;所述编码器层为添加有单词之间的相对关系矩阵的自注意力编码器,用于根据每个单词的嵌入向量获得每个单词的隐向量,从而构成隐向量矩阵;所述输出层,用于结合单词的重要程度D(T
i
)预测出问题文本中每个单词的概率分布。5.根据权利要求1或4所述的一种基于单词重要性加权的问题生成方法,其特征在于,所述生成问题文本中每个单词的嵌入向量,以及根据文本段落与重要程度排序向量获得每个单词的嵌入向量包括:对于嵌入向量层将每个单词的词嵌入向量Emb
word
、句子嵌入向量Emb
sen
、以及位置嵌入向量Emb
pos
按元素相加作为最终的嵌入向量Emb,表示为:Emb=Emb
word
+Emb
sen
+Emb
pos
对于文本段落,将每个单词的词嵌入向量Emb
word
、句子嵌入向量Emb
sen
、...

【专利技术属性】
技术研发人员:毛震东张勇东于尊瑞
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1