会话内容识别方法、装置、设备及计算机可读介质制造方法及图纸

技术编号:31012216 阅读:20 留言:0更新日期:2021-11-30 00:40
本申请涉及一种会话内容识别方法、装置、设备及计算机可读介质。该方法包括:获取会话文本,并将会话文本分割为至少一个目标会话片段;将目标会话片段输入预设的会话类型识别模型,以对目标会话片段添加分类标签;基于目标会话片段抽取出分类标签对应的目标事件。本申请通过分割会话并进行事件抽取,能够根据会话的上下文逻辑关系识别会话的核心内容,从而使得会话内容的识别更加符合用户的真实想法,准确度更高,解决了存在逻辑的会话内容提取不准确的技术问题。确的技术问题。确的技术问题。

【技术实现步骤摘要】
会话内容识别方法、装置、设备及计算机可读介质


[0001]本申请涉及自然语言处理
,尤其涉及一种会话内容识别方法、装置、设备及计算机可读介质。

技术介绍

[0002]随着即时通讯技术的迅猛发展,企业与客户之间除了面对面沟通、电话沟通这类传统的交流方式之外,在线即时通讯沟通也开始占据重要的一隅,甚至由于兼具实时、便捷、可存证等优点而被广泛使用。企业为了更快速、精准地抓住客户的需求、偏好,也诞生了利用深度学习对客服人员与客户的即时通讯会话来提取会话内容的技术手段,以为挖掘客户潜在需求和偏好奠定基础。企业也可以通过了解客服人员与客户的会话内容,来及时发现服务存在的问题,还能够挖掘到客户对产品的真实评价,以及新的需求,为改进现有产品,研发新产品提供线索和灵感。
[0003]目前,相关技术中,主要是将会话进行分词后,通过词频高低来形成词云,进而利用词云来分析会话内容。但是,由于会话中存在人与人之间沟通交流的语言逻辑,而且不只是单句中存在逻辑关系,会话的上下文之间也存在前后关联的逻辑,因此分词、词频、词云等技术特征不足以准确的反映会话的核心内容,也就难以准确的为企业提供支持。
[0004]针对存在逻辑的会话内容识别不准确的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请提供了一种会话内容识别方法、装置、设备及计算机可读介质,以解决存在逻辑的会话内容提取不准确的技术问题。
[0006]根据本申请实施例的一个方面,本申请提供了一种会话内容识别方法,包括:获取会话文本,并将会话文本分割为至少一个目标会话片段;将目标会话片段输入预设的会话类型识别模型,以对目标会话片段添加分类标签;基于目标会话片段抽取出分类标签对应的目标事件。
[0007]可选地,将会话文本分割为至少一个目标会话片段包括以下方式中的至少之一:确定会话文本中各条消息的发送时间戳;在相邻两条消息的发送时间戳的时间间隔大于或等于第一阈值的情况下,在相邻两条消息处进行片段分割,其中,相邻两条消息被划分至不同的会话片段;确定会话文本中各条消息的发送时间戳;按照各条消息的发送时间戳所在的时间区间对会话文本进行片段分割;识别会话文本中的目标关键词,并将目标关键词作为会话片段的结尾对会话文本进行片段分割;确定会话文本中的会话标识组,其中,会话标识组中包括相匹配的会话开始标识和会话结束标识,不同会话标识组中的标识不匹配;将同一组的会话开始标识至会话结束
标识之间的会话消息作为目标会话片段进行分割。
[0008]可选地,基于目标会话片段抽取出分类标签对应的目标事件包括:确定分类标签对应的代表句,其中,代表句为预先从具有相同分类标签的多个训练语料中提取出来的,代表句用于表示分类标签对应的事件类型的事件特征;将代表句作为特征句标签添加到目标会话片段;按照特征句标签的预设事件模板,从目标会话片段中抽取代表句中的属性对应的元素,其中,属性包括人物属性、事件属性、位置属性以及时间属性;按照特征句标签的形式,利用抽取出来的元素组成目标特征句作为事件标签添加到目标会话片段,其中,事件标签用于表示目标事件。
[0009]可选地,确定分类标签对应的代表句之前,所述方法还包括按照如下方式从具有分类标签的多个训练语料中提取出代表句:抽取多个训练语料中的句子,并确定各个句子与分类标签的相关度;提取出与分类标签的相关度大于或等于第二阈值的句子作为核心句;统计多个训练语料中核心句的出现次数,并按照出现次数对所有核心句进行排序;选取排序结果中排名最高的核心句作为目标核心句;将目标核心句作为所代表句,并基于目标核心句创建预设事件模板。
[0010]可选地,抽取出分类标签对应的目标事件之后,所述方法还包括:利用预设的突发事件判别模型分析具有相同分类标签的会话在时间变化基础上的数量变化特征;根据数量变化特征确定目标事件的异常度;在异常度处于异常度阈值范围之外的情况下,确定目标事件为突发事件;按照各个突发事件的异常度的排序结果,生成突发事件排序列表,并将突发事件排序列表推送至目标终端进行展示。
[0011]可选地,抽取出分类标签对应的目标事件之后,所述方法还包括:利用预设的热门事件判别模型分析具有相同分类标签的会话在业务基础上的当前时段的数量特征;根据数量特征确定目标事件的热度;在热度大于或等于业务基础的热度阈值的情况下,确定目标事件为热门事件;按照各个热门事件的热度的排序结果,生成热门事件排序列表,并将热门事件排序列表推送至目标终端进行展示。
[0012]可选地,抽取出分类标签对应的目标事件之后,所述方法还包括:将目标事件作为结果事件,并将结果事件和目标会话片段输入预设的因果关系识别模型,以利用因果关系识别模型根据目标会话片段的上下文内容确定导致结果事件发生的原因事件;利用原因事件和结果事件生成事件分析报告,并将事件分析报告推送至目标终端进行展示。
[0013]根据本申请实施例的另一方面,本申请提供了一种会话内容识别装置,包括:获取模块,用于获取会话文本,并将会话文本分割为至少一个目标会话片段;
分类模块,用于将目标会话片段输入预设的会话类型识别模型,以对目标会话片段添加分类标签;事件抽取模块,用于基于目标会话片段抽取出分类标签对应的目标事件。
[0014]根据本申请实施例的另一方面,本申请提供了一种电子设备,包括存储器、处理器、通信接口及通信总线,存储器中存储有可在处理器上运行的计算机程序,存储器、处理器通过通信总线和通信接口进行通信,处理器执行计算机程序时实现上述方法的步骤。
[0015]根据本申请实施例的另一方面,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述的方法。
[0016]本方案可以应用于深度学习领域进行自然语言处理,本申请实施例提供的上述技术方案与相关技术相比具有如下优点:本申请技术方案为获取会话文本,并将会话文本分割为至少一个目标会话片段;将目标会话片段输入预设的会话类型识别模型,以对目标会话片段添加分类标签;基于目标会话片段抽取出分类标签对应的目标事件。本申请通过分割会话并进行事件抽取,能够根据会话的上下文逻辑关系识别会话的核心内容,从而使得会话内容的识别更加符合用户的真实想法,准确度更高,解决了存在逻辑的会话内容提取不准确的技术问题。
附图说明
[0017]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0018]为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为根据本申请实施例提供的一种可选的会话内容识别方法硬件环境示意图;图2为根据本申请实施例提供的一种可选的会话内容识别方法流程图;图3为根据本申请实施例提供的一种可选的会话内容识别装置框图;图4本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种会话内容识别方法,其特征在于,包括:获取会话文本,并将所述会话文本分割为至少一个目标会话片段;将所述目标会话片段输入预设的会话类型识别模型,以对所述目标会话片段添加分类标签;基于所述目标会话片段抽取出所述分类标签对应的目标事件。2.根据权利要求1所述的方法,其特征在于,将所述会话文本分割为至少一个目标会话片段包括以下方式中的至少之一:确定所述会话文本中各条消息的发送时间戳;在相邻两条消息的所述发送时间戳的时间间隔大于或等于第一阈值的情况下,在所述相邻两条消息处进行片段分割,其中,所述相邻两条消息被划分至不同的会话片段;确定所述会话文本中各条消息的发送时间戳;按照各条消息的所述发送时间戳所在的时间区间对所述会话文本进行片段分割;识别所述会话文本中的目标关键词,并将所述目标关键词作为会话片段的结尾对所述会话文本进行片段分割;确定所述会话文本中的会话标识组,其中,所述会话标识组中包括相匹配的会话开始标识和会话结束标识,不同会话标识组中的标识不匹配;将同一组的所述会话开始标识至所述会话结束标识之间的会话消息作为所述目标会话片段进行分割。3.根据权利要求1所述的方法,其特征在于,基于所述目标会话片段抽取出所述分类标签对应的目标事件包括:确定所述分类标签对应的代表句,其中,所述代表句为预先从具有相同所述分类标签的多个训练语料中提取出来的,所述代表句用于表示所述分类标签对应的事件类型的事件特征;将所述代表句作为特征句标签添加到所述目标会话片段;按照所述特征句标签的预设事件模板,从所述目标会话片段中抽取所述代表句中的属性对应的元素,其中,所述属性包括人物属性、事件属性、位置属性以及时间属性;按照所述特征句标签的形式,利用抽取出来的元素组成目标特征句作为事件标签添加到所述目标会话片段,其中,所述事件标签用于表示所述目标事件。4.根据权利要求3所述的方法,其特征在于,确定所述分类标签对应的代表句之前,所述方法还包括按照如下方式从具有所述分类标签的多个训练语料中提取出所述代表句:抽取所述多个训练语料中的句子,并确定各个句子与所述分类标签的相关度;提取出与所述分类标签的相关度大于或等于第二阈值的句子作为核心句;统计所述多个训练语料中所述核心句的出现次数,并按照所述出现次数对所有核心句进行排序;选取排序结果中排名最高的所述核心句作为目标核心句;将所述目标核...

【专利技术属性】
技术研发人员:向宇杨怡雯
申请(专利权)人:北京明略昭辉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1