【技术实现步骤摘要】
基于单词重要性加权的问题生成方法
[0001]本专利技术涉及自然语言生成
,尤其涉及一种基于单词重要性加权的问题生成方法。
技术介绍
[0002]随着对话机器人、机器人客服等智能人机对话系统的广泛应用,越来越需要计算机系统能够更准确地理解和使用人类语言。“段落
‑
问题
‑
答案”数据是训练计算机模型实现自然语言理解和自然语言生成任务地重要数据来源,然而人工标注数据需要耗费大量的人力、物力、财力,且效率低下、数据总量少。而互联网上拥有海量无标注文本数据,可以从无标注文本段落数据中选择一个或者多个连续的词语作为答案,再使用问题生成技术生成问题,获取海量“段落
‑
问题
‑
答案”数据。因此,问题生成技术具有很高的研究价值与实用价值。
[0003]现有的问题生成技术多采用基于预训练语言模型进行微调的方法,然而普遍存在一个问题:无法准确抓取最关键内容,常常从不重要的角度进行提问,生成无价值的问题。这是由于问题生成任务的“一对多”特性所导致的,根据给定的文本段落和答案,人类可以提出多个问题,并且很容易分辨哪些问题有价值,哪些问题无价值,而对计算机系统而言,可以生成问题但是无法判断问题的价值性。生成的问题缺乏实际使用价值会导致整个“段落
‑
问题
‑
答案”数据集的可用性降低。
技术实现思路
[0004]本专利技术的目的是提供一种基于单词重要性加权的问题生成方法,从词频与单词与答案之间的相对关系两个方面
【技术保护点】
【技术特征摘要】
1.一种基于单词重要性加权的问题生成方法,其特征在于,包括:训练阶段:通过统计数据集中所有文本段落每个单词出现的频率以及单个文本段落中每个单词出现的频率,确定各个文本段落中每个单词的重要程度,并得到重要程度排序向量;同时,对于单个文本段落,通过依存句法分析建立单词与答案之间的相对关系矩阵;将文本段落及相应的问题文本、文本段落的重要程度排序向量与每个单词的重要程度、以及单词与答案之间的相对关系矩阵输入至问题生成模型;所述问题生成模型计算问题文本中每个单词的嵌入向量,以及根据文本段落与重要程度排序向量计算文本段落每个单词的嵌入向量,并将所有单词的嵌入向量输入至添加有单词之间的相对关系矩阵的自注意力编码器中,获得所有单词的编码向量构成的隐向量矩阵,最终结合单词的重要程度预测出问题文本中每个单词的概率分布;结合输入的文本段落对应的问题文本与预测出的问题文本中每个单词的概率分布训练问题生成模型,直至满足终止条件;测试阶段:给定待生成的问题文本的长度,将输入的文本段落、文本段落的重要程度排序向量与每个单词的重要程度、以及单词与答案之间的相对关系矩阵输入至训练后的问题生成模型,预测出不超过给定长度的问题文本。2.根据权利要求1所述的一种基于单词重要性加权的问题生成方法,其特征在于,所述通过统计数据集中所有文本段落每个单词出现的频率以及单个文本段落中每个单词出现的频率,确定各个文本段落中每个单词的重要程度以及重要程度排序向量包括:统计整个数据集中所有文本段落中每个单词出现的频率,将所有单词按出现的频率降序排序,所得序列向量记为S1;每一文本段落,统计其中每个单词出现的频率,并按频率按出现的降序排序,所得序列向量记为S2;对于每一文本段落,比较其中每个单词在序列向量在S1和S2中的排名,将其在序列向量S2中的排名和其在序列向量S1中的排名作差,得到单词的重要程度D(T
i
);之后,将文本段落中各单词按照重要程度降序排序,得到重要程度排序向量ΔS,并以此可以确定各单词在重要程度排序向量中的位置;公式表示为:D(T
i
)=S2(T
i
)
‑
S1(T
i
)ΔS=sort(D(T
i
)),i=1,
…
,L
T
其中,S2(T
i
)表示文本段落中第i个单词T
i
在序列向量S2中的排名,S1(T
i
)表示文本段落中第i个单词T
i
在序列向量S1中的排名,L
T
为文本段落的长度,sort(.)为排序函数。3.根据权利要求1所述的一种基于单词重要性加权的问题生成方法,其特征在于,所述对于单个文本段落,通过依存句法分析建立单词与答案之间的相对关系矩阵的步骤包括:提取文本段落中包含答案的句子,并构建单向树:单向树中每个节点表示一个单词,答案中所包含的单词作为根节点词语,两个节点之间的连接表示两个单词之间的单向依存关系;所述答案为文本段落中的连续文本;在得到的单词之间的单向依存关系基础上,对每个单向关系均添加一个反向的关系,形成双向关系的树结构;最后,遍历整个双向关系的树结构,保留其他单词到答案词的路径上的依存关系,而删除答案词到其他单词的路径上的依存关系,剩余的单向关系作为最终的相对关系,并根据最终的相对关系构建相对关系矩阵。
4.根据权利要求1所述的一种基于单词重要性加权的问题生成方法,其特征在于,所述问题生成模型包括:嵌入向量层、编码器层、输出层;其中:所述嵌入向量层,用于生成问题文本中每个问题单词的嵌入向量,以及根据文本段落与重要程度排序向量ΔS获得每个段落单词的嵌入向量;所述编码器层为添加有单词之间的相对关系矩阵的自注意力编码器,用于根据每个单词的嵌入向量获得每个单词的隐向量,从而构成隐向量矩阵;所述输出层,用于结合单词的重要程度D(T
i
)预测出问题文本中每个单词的概率分布。5.根据权利要求1或4所述的一种基于单词重要性加权的问题生成方法,其特征在于,所述生成问题文本中每个单词的嵌入向量,以及根据文本段落与重要程度排序向量获得每个单词的嵌入向量包括:对于嵌入向量层将每个单词的词嵌入向量Emb
word
、句子嵌入向量Emb
sen
、以及位置嵌入向量Emb
pos
按元素相加作为最终的嵌入向量Emb,表示为:Emb=Emb
word
+Emb
sen
+Emb
pos
对于文本段落,将每个单词的词嵌入向量Emb
word
、句子嵌入向量Emb
sen
、...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。