对话摘要训练数据的生成方法、装置、设备及存储介质制造方法及图纸

技术编号:33533967 阅读:20 留言:0更新日期:2022-05-19 02:10
本公开提出了一种对话摘要训练数据的生成方法、装置、电子设备及存储介质,涉及计算机技术领域,具体涉及深度学习、自然语言处理等人工智能技术领域,具体实现方案为:获取多个参考文本及每个所述参考文本对应的参考摘要;基于每个所述参考文本中包含的语句,生成对话语句集;将所述对话语句集中的各个语句进行随机排列,以生成对话文本;将多个所述参考摘要随机排列,以生成与所述对话文本对应的目标摘要。本公开采用非对话形式的文本及对应的摘要,构建对话文本及对话摘要,实现了获取大量的对话摘要训练数据,为训练得到对话摘要算法模型提供了支撑。模型提供了支撑。模型提供了支撑。

【技术实现步骤摘要】
对话摘要训练数据的生成方法、装置、设备及存储介质


[0001]本公开涉及计算机
,具体涉及自然语言处理、深度学习等人工智能
,尤其涉及一种对话摘要训练数据的生成方法、装置、设备及存储介质。

技术介绍

[0002]目前,各种形式的对话数据日益增多,比如会议、闲聊、客服对话、医患对话等。对话摘要可以从复杂的对话数据中提取关键信息,从而降低人们理解对话数据的难度。其中,建立对话摘要算法模型,是从对话数据中获取对话摘要的方式之一。然而,人工标注对话摘要费时费力。因此,研究如何生成大量的对话摘要训练数据,具有重要意义。

技术实现思路

[0003]本公开提供了一种对话摘要训练数据的生成方法、装置、设备以及存储介质。
[0004]根据本公开的第一方面,提供了一种对话摘要训练数据的生成方法,包括:
[0005]获取多个参考文本及每个所述参考文本对应的参考摘要;
[0006]基于每个所述参考文本中包含的语句,生成对话语句集;
[0007]将所述对话语句集中的各个语句进行随机排列,以生成对话文本;
[0008]将多个所述参考摘要随机排列,以生成与所述对话文本对应的目标摘要。
[0009]根据本公开的第二方面,提供了一种对话摘要训练数据的生成装置,包括:
[0010]获取模块,用于获取多个参考文本及每个所述参考文本对应的参考摘要;
[0011]第一生成模块,用于基于每个所述参考文本中包含的语句,生成对话语句集;
[0012]第二生成模块,用于将所述对话语句集中的各个语句进行随机排列,以生成对话文本;
[0013]第三生成模块,用于将多个所述参考摘要随机排列,以生成与所述对话文本对应的目标摘要。
[0014]本公开第三方面实施例提出了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本公开第一方面实施例提出的方法。
[0015]本公开第四方面实施例提出了一种非临时性计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如本公开第一方面实施例提出的方法。
[0016]本公开第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行本公开第一方面实施例提出的方法。
[0017]本公开提供的对话摘要训练数据的生成方法、装置、设备以及存储介质至少存在以下有益效果:
[0018]首先获取多个参考文本及每个所述参考文本对应的参考摘要;然后基于每个参考文本中包含的语句,生成对话语句集;之后将对话语句集中的各个语句进行随机排列,以生成对话文本;最后将多个参考摘要随机排列,以生成与对话文本对应的目标摘要。由此,实
现了采用非对话形式的文本及对应的摘要,构建对话文本及对话摘要,从而得到大量的对话摘要训练数据,为训练得到对话摘要算法模型提供了支撑。
[0019]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0020]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0021]图1是根据本公开一实施例提供的一种对话摘要训练数据的生成方法的流程示意图;
[0022]图2是根据本公开另一实施例提供的一种对话摘要训练数据的生成方法的流程示意图;
[0023]图3是根据本公开另一实施例提供的一种对话摘要训练数据的生成方法的流程示意图;
[0024]图4是根据本公开另一实施例提供的一种对话摘要训练数据的生成方法的流程示意图;
[0025]图5是根据本公开一实施例提供的一种对话摘要训练数据的生成装置的结构示意图;
[0026]图6是用来实现本公开实施例的对话摘要训练数据的生成方法的电子设备的框图。
具体实施方式
[0027]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0028]为了方便对本公开的理解,下面首先对本公开涉及的
进行简单解释说明书。
[0029]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。
[0030]深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
[0031]自然语言处理(Natura lLanguage Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。摘要是自然语言处理领域一个经典的任务,其核心目的是从输入中选取关键
信息,转为一段简短的概括。比如,给定一段新闻,通过摘要技术,可以生成一段简短的概括,该概括可以节省读者时间,帮助读者快速理解原文重要内容。
[0032]下面结合参考附图对本公开提供的对话摘要训练数据的生成方法、装置、计算机设备及存储介质进行详细描述。
[0033]本公开提供了一种对话摘要训练数据的生成方法,该方法可以由本公开提供的一种对话摘要训练数据的生成装置执行,也可以由本公开提供的电子设备执行,其中,电子设备可以包括但不限于手机、台式电脑、平板电脑等终端设备,也可以是服务器,下面以由本公开提供的对话摘要训练数据的生成装置来执行本公开提供的一种对话摘要训练数据的生成方法,而不作为对本公开的限定,以下简称为“装置”。
[0034]图1是根据本公开一实施例的一种对话摘要训练数据的生成方法的流程示意图。
[0035]如图1所示,该对话摘要训练数据的生成方法可以包括以下步骤:
[0036]步骤S101,获取多个参考文本及每个参考文本对应的参考摘要。
[0037]需要说明的是,根据摘要的数据类型,可以分为新闻摘要、论文摘要、对话摘要等。
[0038]其中,对话摘要属于摘要中的一种,其来源于对话数据。对话数据可以有不同的形式,比如会议、闲聊、邮件、辩论等等。
[0039]可以理解的是,对话摘要包含对话数据中的关键信息。通过对话摘要可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对话摘要训练数据的生成方法,包括:获取多个参考文本及每个所述参考文本对应的参考摘要;基于每个所述参考文本中包含的语句,生成对话语句集;将所述对话语句集中的各个语句进行随机排列,以生成对话文本;将多个所述参考摘要随机排列,以生成与所述对话文本对应的目标摘要。2.如权利要求1所述的方法,其中,所述获取多个参考文本及每个所述参考文本对应的参考摘要,包括:确定候选词语;确定文本数据集中包含所述候选词语的各个候选摘要的数量;响应于所述候选摘要的数量大于第一阈值,从所述各个候选摘要中选取所述参考摘要,其中,所述候选摘要对应的候选文本为所述参考文本。3.如权利要求2所述的方法,其中,所述从所述各个候选摘要中选取所述参考摘要,包括:响应于所述候选摘要的数量小于或等于第二阈值,确定所述各个候选摘要为所述参考摘要;或者,响应于所述候选摘要的数量大于所述第二阈值,将所述各个候选摘要中的任意数量个候选摘要确定为一组参考摘要。4.如权利要求2所述的方法,其中,所述从所述各个候选摘要中选取所述参考摘要,包括:根据所述各个候选摘要对应的所述候选文本间的字符数量差值,从所述各个候选摘要中选取所述参考摘要;或者,根据所述各个候选摘要对应的所述候选文本包含的语句数量间的差值,从所述各个候选摘要中选取所述参考摘要。5.如权利要求2所述的方法,其中,所述确定候选词语,包括:根据所述文本数据集中每个文本对应的摘要中包含的各个词语,确定候选词集;将所述候选词集中每个词语,依次确定为所述候选词语。6.如权利要求1-5任一所述的方法,其中,所述基于每个所述参考文本中包含的语句,生成对话语句集,包括:根据每个所述参考摘要,从每个所述参考文本包含的多个语句中筛选目标语句;基于每个所述参考文本中包含的目标语句,生成所述对话语句集。7.如权利要求6所述的方法,其中,所述根据每个所述参考摘要,从每个所述参考文本包含的多个语句中筛选目标语句,包括:将所述参考文本对应的所述参考摘要划分为多个摘要语句;确定所述参考文本中每个语句与每个所述摘要语句间的关联度;将关联度大于第二阈值的语句,确定为目标语句。8.如权利要求6所述的方法,其中,所述根据每个所述参考摘要,从每个所述参考文本包含的多个语句中筛选目标语句,包括:确定每个所述参考摘要对应的关键词集;
确定每个所述语句中包含所述关键词集中关键词的数量;根据各个所述语句包含所述关键词的数量,从所述多个语句中筛选目标语句。9.一种对话摘要训练数据的生成装置,包括:获取模块,用于获取多个参考文本及每个所述参考文本对应的参考摘要;第一生成模块,用于基于每个所述参考文本中包含的语句,生成对话语句集;第二生成模块,用于将所述对话语句...

【专利技术属性】
技术研发人员:陈默也李伟刘家辰肖欣延
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1