【技术实现步骤摘要】
一种基于自适应对话分割的对话摘要生成方法
[0001]本专利技术涉及自然语言处理
,特别是涉及一种基于自适应对话分割的对话摘要生成方法。
技术介绍
[0002]摘要生成是自然语言处理中的一个重要研究课题,其是指对给定的单个或者多个文档进行梗概,即在保证能够反映原文档的重要内容的情况下,尽可能地保持简明扼要。文本摘要任务作为传统的自然语言处理核心任务之一,至今依旧有新的发展和创新,这一方面得益于模型、方法、语料的支撑,另一方面也是由于摘要任务自身的重要性。传统的摘要任务主要应用在新闻报道上,分析文本意图、理解内容、挖掘有价值信息,生成精炼的摘要。
[0003]近年来摘要生成任务主要是基于神经网络的抽取式摘要方法,将问题建模为序列标注和句子排序两类任务,但是这并不能很好地适用在对话文本中。
[0004]对话摘要是一项旨在浓缩对话,同时保留重要信息的任务。该任务旨在提高服务效率,避免耗时的对话阅读和理解。与文本摘要不同的是,对话形式表现为:多角色交流信息,内容更丰富、价值更大,而且一段对话往往包含多个主题,每 ...
【技术保护点】
【技术特征摘要】
1.一种基于自适应对话分割的对话摘要生成方法,其特征在于,包括:步骤1,采用Oracle操作提取出初始对话中的重要句子,对重要句子进行分词操作与串联操作,然后对重要句子进行编码,以获得重要句子的语义特征表示,将重要句子的语义特征表示输入到摘要生成模型,以生成训练阶段摘要,对训练阶段摘要与标准摘要计算损失值,再将损失值反馈到摘要生成模型中,优化摘要生成模型的参数,得到初步优化的摘要生成模型;步骤2,设计基于摘要匹配段落算法,并通过基于摘要匹配段落算法将初始对话划分为多个段落,所述基于摘要匹配段落算法用于对初始对话包含的标准摘要进行切分,得到多个子标准摘要句,然后将每个切分好的子标准摘要句进行编码,得到子标准摘要的语义特征表示,最后,按顺序计算相邻两个子标准摘要的语义特征表示之间的余弦相似度,将相似度高于阈值的子标准摘要的语义特征表示划分到同一集合中,形成多个子标准摘要集合,对多个子标准摘要集合与初始对话中的每一句话计算一元组公共子序列分值,采用贪婪搜索策略将初始对话中的每一句话都分配到对应的子标准摘要集合中,得到的子标准摘要集合即为分好的段落;步骤3,将步骤2得到的段落输入到初步优化的摘要生成模型中,以生成每个段落对应的子摘要,将每个子摘要分别与步骤2中得到的子标准摘要集合一一对应,计算每个子标准摘要集合与生成的子摘要之间的子损失值,然后对所有的子损失值求和取平均值,再次反馈到初步优化的摘要生成模型中,优化摘要生成模型的参数,得到训练完成的摘要生成模型;步骤4,设计自适应对话聚类算法,并通过自适应对话聚类算法对初始对话进行处理,得到聚类好的段落,所述自适应对话聚类算法用于对初始对话按句子切分,再将切分得到的句子进行编码得到句子语义特征表示,计算句子语义特征表示之间的文本相似度,在计算文本相似度时,只计算同一角色此刻的话语与其上一句所说的话语之间的文本相似度,设定相似度分数阈值,超过相似度分数阈值的两个句子即属于同一个段落,最终自适应地将所有切分得到的句子聚类成若干段落;步骤5,基于步骤4得到的段落,通过段落级注意力机制与句子级注意力机制进行信息交互,以获得段落交互语义特征;步骤6,利用步骤3中训练完成的摘要生成模型,对所述段落交互语义特征按时间步进行解码,生成相应段落的子摘要句,最终聚合所有段落的子摘要句,形成最终摘要。2.根据权利要求1所述的基于自适应对话分割的对话摘要生成方法,其特征在于,步骤1中,对初始对话进行Oracle操作,以提取初始对话中的重要句子,其中,分别为初始对话中的第1个、第2个、第N个句子;Oracle操作的具体过程为:给定一个空集,迭代地从初始对话中挑选句子,将挑选好的句子拼接成话语片段,当话语片段与标准摘要计算的ROUGE
‑
1、ROUGE
‑
2和ROUGE
‑
L的平均分数最高时,选取当前最高分数的片段作为Oracle操作的输出,其中,ROUGE
‑
1、ROUGE
‑
2和ROUGE
‑
L分别代表一元组子序列重合率、二元组子序列重合率与最长公共子序列重合率,其中,ROUGE
‑
L对应的公式表述为:
;;;其中,S表示标准摘要,表示S的长度,表示C的长度,表示C与S的最长公共子序列,表示召回率,表示精确率,为ROUGE
‑
L的分值,为超参数。3.根据权利要求2所述的基于自适应对话分割的对话摘要生成方法,其特征在于,步骤1中,对训练阶段摘要与标准摘要计算损失值时,损失函数的表达式为: ; ; ; ;其中,表示对于C和输出摘要,生成下一个词的概率;为根据C和输出摘要计算出的解码器在第t个位置的隐藏状态,表示位置总数,softmax为归一化函数,和b为可训练参数,为从编码器获得的C中的第k个句子的语义特征表示,m表示特征维度,Encoder和Decoder分别代表编码器和解码器。4.根据权利要求3所述的基于自适应对话分割的对话摘要生成方法,其特征在于,步骤2中,通过基于摘要匹配段落算法先将标准摘要S按句子切分得到集合,分别表示切分出的第1个、第2个、第个子标准摘要句,然后将集合S进行编码得到子标准摘要的语义特征表示,再按顺序计算相邻两个子标准摘要的语义特征表示之间的余弦相似度,余弦相似度的计算公式表述为: ; ;其中,表示第 n 组包含 kk 个词的编码向量,分别表示第
n组编码向量中的第1个词、第2个词、第kk个词,表...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。