生成跨类型对话数据的方法和装置制造方法及图纸

技术编号：37123148 阅读：25 留言：0更新日期：2023-04-01 05:19

本公开提供了生成跨类型对话数据的方法和装置，涉及人工智能领域，尤其涉及深度学习，自然语言处理领域，可应用智慧城市场景。具体实现方案为：获取包括不同类型对话片段的候选对话池；从候选对话池中随机选择一段对话作为起始对话，并从候选对话池中选择与起始对话的内容相似但类型不同的预定数目段候选对话；将起始对话中的最后一轮对话分别与预定数目段候选对话中每一轮对话计算语义匹配度；将语义匹配度最高的一轮对话确定为嫁接点，并将嫁接点以及嫁接点之后的对话确定为目标对话；将起始对话与目标对话拼接起来，得到跨类型对话。该实施方式能够在缺乏标注的情况下生成多种类型的跨类型对话数据。类型的跨类型对话数据。类型的跨类型对话数据。

全部详细技术资料下载

【技术实现步骤摘要】
生成跨类型对话数据的方法和装置

[0001]本公开涉及人工智能领域，尤其涉及深度学习，自然语言处理领域，可应用智慧城市场景。

技术介绍

[0002]目前开源的中文数据集大多是任务型对话，闲聊型对话，知识型对话等单一类型对话数据集，这严重限制了当前端到端对话系统的性能，现有的生成跨类型对话数据的方式对数据集的标注要求较高，且生成的类型较为单一，例如仅能够生成闲聊转任务式等。
[0003]现有技术中生成闲聊转任务式的跨类型对话数据的方式需要通过两个开放域对话机器人生成闲聊对话，同时训练一个对话转换意图检测模型，对每轮生成的对话进行意图检测，一旦检测到匹配的意图，后续则拼接这个意图对应的任务型对话片段(或通过任务型对话机器人生成任务型对话)。这种方式只有在检测到意图时才能进行转换，依赖意图标注且能够被检测到的意图有限。此外该方式的应用场景有限，只包含电影，音乐，旅行三个场景。

技术实现思路

[0004]本公开提供了一种生成跨类型对话数据的方法、装置、设备、存储介质以及计算机程序产品。
[0005]根据本公开的第一方面，提供了一种生成跨类型对话数据的方法，包括：获取包括不同类型对话片段的候选对话池；从所述候选对话池中随机选择一段对话作为起始对话，并从所述候选对话池中选择与所述起始对话的内容相似但类型不同的预定数目段候选对话；将所述起始对话中的最后一轮对话分别与所述预定数目段候选对话中每一轮对话计算语义匹配度；将语义匹配度最高的一轮对话确定为嫁接点，并将所述嫁接点以及所述嫁接点之后的对话确定为目...

【技术保护点】

【技术特征摘要】
1.一种生成跨类型对话数据的方法，包括：获取包括不同类型对话片段的候选对话池；从所述候选对话池中随机选择一段对话作为起始对话，并从所述候选对话池中选择与所述起始对话的内容相似但类型不同的预定数目段候选对话；将所述起始对话中的最后一轮对话分别与所述预定数目段候选对话中每一轮对话计算语义匹配度；将语义匹配度最高的一轮对话确定为嫁接点，并将所述嫁接点以及所述嫁接点之后的对话确定为目标对话；将所述起始对话与所述目标对话拼接起来，得到跨类型对话。2.根据权利要求1所述的方法，其中，所述方法还包括：将所述跨类型对话中嫁接点处的连续三轮对话输入预先训练的流畅度判别模型，输出流畅得分；若流畅得分大于预定阈值，则将所述跨类型对话保存为样本数据。3.根据权利要求2所述的方法，其中，所述方法还包括：若流畅得分小于等于预定阈值，则识别所述目标对话中的关键实体；根据所述关键实体生成引导对话；在所述跨类型对话中将所述引导对话插入在所述嫁接点之前。4.根据权利要求1所述的方法，其中，所述方法还包括：若所述跨类型对话的对话轮数小于预定轮数，则将所述跨类型对话作为起始对话，重新从所述候选对话池中查找嫁接点和目标对话进行拼接，直到拼接后的跨类型对话的轮数大于等于预定轮数。5.根据权利要求1所述的方法，其中，所述获取包括不同类型对话片段的候选对话池，包括：通过开源对话数据集获取任务型对话、知识型对话、闲聊型对话；通过开放域对话机器人互聊生成闲聊型对话。6.根据权利要求1所述的方法，其中，所述从所述候选对话池中选择与所述起始对话的内容相似但类型不同的预定数目段候选对话，包括：确定所述起始对话的关键字；根据所述关键字在所述候选对话池中不同类型的对话的权重值计算所述起始对话与所述候选对话池中不同类型的对话之间的相关度得分，其中，所述权重值根据词频逆文档频率算法计算；选取相关度得分最高的预定数目段候选对话。7.一种生成跨类型对话数据的装置，包括：获取单元，被配置成获取包括不同类型对话片段的候选对话池；选择单元，被配置成从所述候选对话池中随机选择一段对话作为起始对话，并从所述候选对话池中选择与所述起始对话的内容相似但类型不同的预定数目段候选对话；匹配单元，被配置成将所述起始对话中的最后一轮对话分别与所述预定数目段候选对话中每一轮对话计...

【专利技术属性】
技术研发人员：董苏慧，张红阳，焦振宇，孙叔琦，常月，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人