会话内容的信息提取方法技术

技术编号:39739995 阅读:9 留言:0更新日期:2023-12-17 23:41
本申请实施例公开了一种会话内容的信息提取方法

【技术实现步骤摘要】
会话内容的信息提取方法、装置、计算机设备及存储介质


[0001]本申请实施例涉及人工智能领域,特别涉及一种会话内容的信息提取方法

装置

计算机设备及存储介质


技术介绍

[0002]关键信息提取是指从文本中提取出与特定领域匹配的关键信息

例如,在人机交互对话过程中,需要从对话文本中提取出包含关键信息的文本

[0003]相关技术中,可以采用基于预训练模型的有监督学习方法,通过采集特定领域的带标注的训练数据,对预训练模型进行微调,以实现对特定领域的信息提取

[0004]然而,采用上述方法往往需要高昂的成本以获取带标注的训练数据


技术实现思路

[0005]本申请实施例提供了一种会话内容的信息提取方法

装置

计算机设备及存储介质

所述技术方案如下:一方面,本申请实施例提供了一种会话内容的信息提取方法,所述方法包括:基于第一提示信息,通过样本生成模型生成陈述语料对应的样本问答语料,所述样本问答语料中包括提问和回答;基于第二提示信息,通过所述样本生成模型提取所述样本问答语料的样本关键信息;基于所述样本问答语料和所述样本关键信息构建得到的训练样本,训练关键信息提取模型;通过训练得到的所述关键信息提取模型,从会话内容中提取关键信息

[0006]另一方面,本申请实施例提供了一种会话内容的信息提取装置,所述装置包括:语料生成模块,用于基于第一提示信息,通过样本生成模型生成陈述语料对应的样本问答语料,所述样本问答语料中包括提问和回答;所述语料生成模块,还用于基于第二提示信息,通过所述样本生成模型提取所述样本问答语料的样本关键信息;模型训练模块,用于基于所述样本问答语料和所述样本关键信息构建得到的训练样本,训练关键信息提取模型;信息提取模块,用于通过训练得到的所述关键信息提取模型,从会话内容中提取关键信息

[0007]另一方面,本申请实施例提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条指令,至少一条指令由处理器加载并执行,以实现如上述方面所述的会话内容的信息提取方法

[0008]另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如上述方面所述的会话
内容的信息提取方法

[0009]另一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中

计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如上述方面所述的会话内容的信息提取方法

[0010]本申请实施例中,通过样本生成模型生成陈述语料对应的样本问答语料,并从样本问答语料中提取出样本关键信息,可以基于样本问答语料和样本关键信息构建用于训练关键信息提取模型的训练样本,从而大大减小了采集和标注训练样本带来的高昂成本;同时,通过训练得到的关键信息提取模型,可以从会话内容中提取出较为准确的关键信息

附图说明
[0011]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0012]图1是本申请一个示例性实施例提供的会话内容的信息提取方法的流程图;图2是本申请一个示例性实施例提供的基于样本生成模型构建训练样本的示意图;图3是本申请一个示例性实施例提供的对训练样本中的噪声样本进行过滤得到干净样本,并基于干净样本训练关键信息提取模型的流程图;图4是本申请一个示例性实施例提供的高斯混合模型的示意图;图5是本申请一个示例性实施例提供的关键信息提取模型的训练过程的示意图;图6是本申请一个示例性实施例提供的关键信息提取模型的应用过程的示意图;图7是本申请另一个示例性实施例提供的关键信息提取模型的训练过程的示意图;图8是本申请一个示例性实施例提供的关键信息提取流程的示意图;图9是本申请另一个示例性实施例提供的关键信息提取模型的应用过程的示意图;图
10
是本申请一个示例性实施例提供的会话内容的信息提取装置的结构框图;图
11
是本申请一个示例性实施例提供的计算机设备的结构示意图

具体实施方式
[0013]为使本申请的目的

技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述

[0014]人工智能(
Artificial Intelligence

AI
)是利用数字计算机或者数字计算机控制的机器模拟

延伸和扩展人的智能,感知环境

获取知识并使用知识获得最佳结果的理论

方法

技术及应用系统

人工智能研究各种智能机器的设计原理与实现方法,使机器具有感知

推理与决策的功能

[0015]关键信息提取是指从文本中提取出与特定领域匹配的关键信息

本申请以人机交
互对话过程中的关键信息提取为例进行说明

在人机交互对话的场景下,可能需要从对话文本中提取用户基本信息

对特定问题的回答等信息

例如,用户可以基于终端,通过语音或文字的形式回答终端提出的一系列问题,在人机交互对话过程中实现数据的采集

[0016]在人机交互对话过程中,终端可以依照会话顺序逻辑,依次显示预先定义好的多轮问题

例如第一轮问题询问基本信息,第二轮问题询问针对
A
信息的相关问题,第三轮问题询问针对
B
信息的相关问题等

[0017]相关技术中,可以采用基于预训练模型的有监督学习方法,通过采集特定领域的带标注的训练数据,对预训练模型进行微调,以实现对特定领域的信息提取

然而,采用上述方法往往需要高昂的成本以获取带标注的训练数据

在人机交互对话的场景下,包含多轮会话内容及训练标签的训练样本数量较少,采集训练数据的成本较高

[0018]需要说明的是,本申请以人机交互对话场景下的关键信息提取为例进行说明,但不构成对具体使用场景的任何限定,本申请提出的会话内容的信息提取方法可以应用于各种会话内容场景,例如人口普查

市场调研

用户研究或访谈中

[0019]需要说本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种会话内容的信息提取方法,其特征在于,所述方法包括:基于第一提示信息,通过样本生成模型生成陈述语料对应的样本问答语料,所述样本问答语料中包括提问和回答;基于第二提示信息,通过所述样本生成模型提取所述样本问答语料的样本关键信息;基于所述样本问答语料和所述样本关键信息构建得到的训练样本,训练关键信息提取模型;通过训练得到的所述关键信息提取模型,从会话内容中提取关键信息
。2.
根据权利要求1所述的方法,其特征在于,所述基于第一提示信息,通过样本生成模型生成陈述语料对应的样本问答语料,包括:基于所述第一提示信息,通过所述样本生成模型生成所述陈述语料对应的原始提问;在所述原始提问与至少一个标准提问的相似度大于相似度阈值的情况下,基于相似度最高的所述标准提问和所述陈述语料,生成所述样本问答语料
。3.
根据权利要求2所述的方法,其特征在于,所述基于所述样本问答语料和所述样本关键信息构建得到的训练样本,训练关键信息提取模型,包括:将所述样本问答语料中所述标准提问对应的提问类型标识符,以及所述陈述语料输入至所述关键信息提取模型,得到关键信息提取结果;基于所述关键信息提取结果与所述样本关键信息的差异,确定信息提取损失;基于所述信息提取损失训练所述关键信息提取模型;所述通过训练得到的所述关键信息提取模型,从会话内容中提取关键信息,包括:确定所述会话内容中提问对应的所述提问类型标识符;将所述提问类型标识符以及所述会话内容中的回答输入至所述关键信息提取模型,得到所述关键信息
。4.
根据权利要求3所述的方法,其特征在于,所述方法还包括:对所述样本关键信息进行格式转化,得到结构化提取语言
SEL
格式的所述样本关键信息,其中,所述
SEL
格式用于对不同类型的关键信息提取任务进行统一编码,所述关键信息提取任务的类型包括实体提取任务

实体关系提取任务和事件提取任务中的至少一种;所述将所述样本问答语料中所述标准提问对应的提问类型标识符,以及所述陈述语料输入至所述关键信息提取模型,得到关键信息提取结果,包括:对结构模式指导文本
SSI
和所述陈述语料进行拼接,得到样本拼接文本,所述
SSI
为不同类型的关键信息提取任务的提示信息;将所述样本问答语料中所述标准提问对应的提问类型标识符,以及所述样本拼接文本输入所述关键信息提取模型,得到所述关键信息提取结果,所述关键信息提取结果采用所述
SEL
格式;所述将所述提问类型标识符以及所述会话内容中的回答输入至所述关键信息提取模型,得到所述关键信息,包括:对所述
SSI
和所述会话内容中的回答进行拼接,得到拼接文本;将所述提问类型标识符,以及所述拼接文本输入所述关键信息提取模型,得到所述关键信息,所述关键信息采用所述
SEL
格式
。5.
根据权利要求1至4任一所述的方法,其特征在于,在所述样本问答语料中包含按照
顺序进行的多轮会话的情况下,所述基于所述样本问答语料和所述样本关键信息构建得到的训练样本,训练关键信息提取模型,包括:基于会话顺序,确定当前轮样本问答语料对应的前轮样本问答语料;将所述当前轮样本问答语料,以及所述前轮样本问答语料对应的前轮样本关键信息输入所述关键信息提取模型,得到关键信息提取结果;其中,所述前轮样本关键信息由所述关键信息提取模型提取得到;基于所述关键信息提取结果和所述样本关键信息的差异,确定信息提取损失;基于所述信息提取损失训练所述关键信息提取模型;在所述会话内容包括按照顺序进行的多轮会话的情况下,所述通过训练得到的所述关键信息提取模型,从会话内容中提取关键信息,包括:将所述会话内容中的第
i
轮会话内容,以及所述第
i
轮会话内容的前轮会话内容对应的前轮关键信息输入至所述关键信息提取模型,提取得到所述第
i
轮会话内容中的第
i
轮关键信息,其中,所述前轮关键信息由所述关键信息提取模型提取得到,
i
为大于1的整数
。6.
根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:获取样本监督语料,所述样本监督语料包括提问

回答和关键信息标注;将所述第二提示信息

所述样本监督语料中的提问以及回答作为所述样本生成模型的输入,将所述关键信息标注作为监督,训练所述样本生成模型
。7.

【专利技术属性】
技术研发人员:梁鑫邵纪春
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1