一种对话文本处理方法技术

技术编号:39487891 阅读:7 留言:0更新日期:2023-11-24 11:07
本申请涉及人工智能技术领域,尤其涉及一种对话文本处理方法

【技术实现步骤摘要】
一种对话文本处理方法、装置、电子设备和存储介质


[0001]本申请涉及人工智能
,尤其涉及一种对话文本处理方法

装置

电子设备和存储介质


技术介绍

[0002]随着人工智能技术的发展,一些对话形态的人工智能产品被广泛应用,例如:智能音箱

智能客服

智能手机助手等任务型对话产品

任务型对话产品的对话系统能够帮助使用者完成某些特定的任务,例如:点播歌曲

购买火车票

预订餐厅等

[0003]任务型对话产品在对话过程中,对于使用者的
Query
(询问),先将
Query
与预先配置的对话模板(
Pattern
)进行匹配;当匹配成功时,可以根据匹配的
Pattern
确定使用者的对话需求信息;当匹配失败时,需要通过文本分类模型对
Query
进行文本分类

[0004]相关技术中,
Query

Pattern
的匹配是精确匹配,当
Query
相比于
Pattern
,多字

少字或者存在同义词时,将无法精确匹配上;比如:
Query
是:“帮我买一个
{
时间
}

{
地点
}
的火车票”,而对应的
Pattern
是:“给我购买一张
{
时间
}

{
地点
}
的火车票”,此时将无法匹配成功

[0005]为了提高
Pattern
的泛化能力,使
Query

Pattern
更容易匹配成功,通常将
Pattern
中的各词语进行同义词扩展;例如,将“给我购买一张
{
时间
}

{
地点
}
的火车票”,修改为“(
帮我|给我|我要
)
(购买|买)(一个|一张)
{
时间
}

{
地点
}
的火车票”,这导致配置成本较高,并且,同义词扩展容易出现歧义,导致
Pattern
的误召回

此外,目前还需要针对具体的对话任务训练文本分类模型,引入了额外的模型训练成本

[0006]因此,目前在提高
Pattern
的泛化能力时,需要消耗较高的成本,且容易出现误召回


技术实现思路

[0007]本申请实施例提供一种对话文本处理方法

装置

电子设备和存储介质,用以保证原始对话模板的泛化能力,同时保证模板召回的准确率,以及降低成本

[0008]一方面,本申请实施例提供的一种对话文本处理方法,所述方法包括:对输入的原始对话文本进行实体识别,获得所述原始对话文本包含的至少一个候选实体;将所述至少一个候选实体,分别与预设的各模板槽位进行匹配,当存在匹配成功的至少一个目标实体时,在所述原始对话文本中,将所述至少一个目标实体替换为相匹配的模板槽位关联的预设实体,获得改写对话文本;对所述改写对话文本进行语义特征提取,获得相应的第一语义特征;将所述第一语义特征,分别与各原始对话模板各自对应的改写对话模板的第二语义特征进行相似度匹配;其中,每个改写对话模板是将对应的原始对话模板中的模板槽位,替换为关联的预设实体后获得的;
基于相似度匹配结果,从各原始对话模板中获得与所述原始对话文本相匹配的目标对话模板

[0009]一方面,本申请实施例提供的一种对话文本处理装置,包括:实体识别单元,用于对输入的原始对话文本进行实体识别,获得所述原始对话文本包含的至少一个候选实体;替换单元,用于将所述至少一个候选实体,分别与预设的各模板槽位进行匹配,当存在匹配成功的至少一个目标实体时,在所述原始对话文本中,将所述至少一个目标实体替换为相匹配的模板槽位关联的预设实体,获得改写对话文本;提取单元,用于对所述改写对话文本进行语义特征提取,获得相应的第一语义特征;语义匹配单元,用于将所述第一语义特征,分别与各原始对话模板各自对应的改写对话模板的第二语义特征进行相似度匹配;其中,每个改写对话模板是将对应的原始对话模板中的模板槽位,替换为关联的预设实体后获得的;模板匹配单元,用于基于相似度匹配结果,从各原始对话模板中获得与所述原始对话文本相匹配的目标对话模板

[0010]可选的,所述基于相似度匹配结果,从各原始对话模板中获得与所述原始对话文本相匹配的目标对话模板时,所述模板匹配单元具体用于:当所述相似度匹配结果中包括一个第二语义特征时,将所述一个第二语义特征对应的原始对话模板,作为与所述原始对话文本相匹配的目标对话模板;其中,所述一个第二语义特征与所述第一语义特征的相似度满足第一相似度条件

[0011]可选的,所述基于相似度匹配结果,从各原始对话模板中获得与所述原始对话文本相匹配的目标对话模板时,所述模板匹配单元具体用于:当所述相似度匹配结果中包括多个第二语义特征时,从所述多个第二语义特征各自对应的原始对话模板中,选择与所述原始对话文本相匹配的目标对话模板;其中,所述多个第二语义特征各自与所述第一语义特征的相似度满足第二相似度条件

[0012]可选的,所述从所述多个第二语义特征各自对应的原始对话模板中,选择与所述原始对话文本相匹配的目标对话模板时,所述模板匹配单元具体用于:针对所述多个第二语义特征各自对应的原始对话模板,分别执行以下操作:获得一个原始对话模板对应的改写对话模板,并确定所述改写对话模板与所述改写对话文本的文本相似度;将文本相似度满足第三相似度条件的改写对话模板对应的原始对话模板,作为与所述原始对话文本相匹配的目标对话模板

[0013]可选的,所述装置还包括精确匹配单元,用于:将所述原始对话文本对应的字符串,分别与所述各原始对话模板各自对应的字符串进行逐字符匹配,获得精确匹配结果;则所述基于相似度匹配结果,从各原始对话模板中获得与所述原始对话文本相匹配的目标对话模板时,所述模板匹配单元具体用于:
若所述精确匹配结果为匹配失败,则基于所述相似度匹配结果中的相匹配的至少一个第二语义特征,获得相应的至少一个原始对话模板,并从所述至少一个原始对话模板中选择所述目标对话模板

[0014]可选的,所述对输入的原始对话文本进行实体识别,获得所述原始对话文本包含的至少一个候选实体时,所述实体识别单元具体用于:将所述原始对话文本进行分词处理,获得至少一个分词;从所述至少本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种对话文本处理方法,其特征在于,所述方法包括:对输入的原始对话文本进行实体识别,获得所述原始对话文本包含的至少一个候选实体;将所述至少一个候选实体,分别与预设的各模板槽位进行匹配,当存在匹配成功的至少一个目标实体时,在所述原始对话文本中,将所述至少一个目标实体替换为相匹配的模板槽位关联的预设实体,获得改写对话文本;对所述改写对话文本进行语义特征提取,获得相应的第一语义特征;将所述第一语义特征,分别与各原始对话模板各自对应的改写对话模板的第二语义特征进行相似度匹配;其中,每个改写对话模板是将对应的原始对话模板中的模板槽位,替换为关联的预设实体后获得的;基于相似度匹配结果,从各原始对话模板中获得与所述原始对话文本相匹配的目标对话模板
。2.
根据权利要求1所述的方法,其特征在于,所述方法还包括:针对预设的各原始对话模板,分别执行以下操作:将一个原始对话模板中的至少一个模板槽位,分别替换为各自关联的预设实体,获得相应的改写对话模板;对所述改写对话模板进行语义特征提取,获得相应的第二语义特征;将所述一个原始对话模板

所述至少一个模板槽位各自关联的预设实体以及所述第二语义特征的对应关系进行存储
。3.
根据权利要求1所述的方法,其特征在于,所述将所述至少一个候选实体,分别与预设的各模板槽位进行匹配,包括:针对所述至少一个候选实体,分别执行以下操作:基于一个候选实体的第一实体类型,与预设的所述各模板槽位各自对应的第二实体类型进行匹配;若所述第一实体类型与目标模板槽位对应的第二实体类型相同,则确定所述一个候选实体与所述目标模板槽位相匹配
。4.
根据权利要求
1~3
任一项所述的方法,其特征在于,所述基于相似度匹配结果,从各原始对话模板中获得与所述原始对话文本相匹配的目标对话模板,包括:当所述相似度匹配结果中包括多个第二语义特征时,从所述多个第二语义特征各自对应的原始对话模板中,选择与所述原始对话文本相匹配的目标对话模板;其中,所述多个第二语义特征各自与所述第一语义特征的相似度满足第二相似度条件
。5.
根据权利要求4所述的方法,其特征在于,所述从所述多个第二语义特征各自对应的原始对话模板中,选择与所述原始对话文本相匹配的目标对话模板,包括;针对所述多个第二语义特征各自对应的原始对话模板,分别执行以下操作:获得一个原始对话模板对应的改写对话模板,并确定所述改写对话模板与所述改写对话文本的文本相似度;将文本相似度满足第三相似度条件的改写对话模板对应的原始对话模板,作为与所述原始对话文本相匹配的目标对话模板

6.
根据权利要求
1~3
任一项所述的方法,其特征在于,所述基于相似度匹配结果,从各原始对话模板中获得与所述原始对话文本相匹配的目标对话模板,包括:当所述相似度匹配结果中包括一个第二语义特征时,将所述一个第二语义特征对应的原始对话模板,作为与所述原始对话文本相匹配的目标对话模板;其中,所述一个第二语义特征与所述第一语义特征的相似度满足第一相似度条件
。7.
根据权利要求
1~3
任一项所述的方法,其特征在于,所述方法还包括:将所述原始对话文本对应的字符串,分别与所述各原始对话模板各自对应的字符串进行逐字符匹配,获得精确匹配结果;则所述基于相似度匹配结果,从各原始对话模板中获得与所述原始对话文本相匹配的目标对话模板,包括:若所述精确匹配结果为匹配失败,则基于所述相似度匹配结果中的相匹配的至少一个第二语义特征,获得相应的至少一个原始对话模板...

【专利技术属性】
技术研发人员:黄斌张鼓华
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1