会话内容的信息提取方法技术

技术编号：39739995 阅读：9 留言：0更新日期：2023-12-17 23:41

本申请实施例公开了一种会话内容的信息提取方法

全部详细技术资料下载

【技术实现步骤摘要】
会话内容的信息提取方法、装置、计算机设备及存储介质

[0001]本申请实施例涉及人工智能领域，特别涉及一种会话内容的信息提取方法
、
装置
、
计算机设备及存储介质
。

技术介绍

[0002]关键信息提取是指从文本中提取出与特定领域匹配的关键信息
。
例如，在人机交互对话过程中，需要从对话文本中提取出包含关键信息的文本
。
[0003]相关技术中，可以采用基于预训练模型的有监督学习方法，通过采集特定领域的带标注的训练数据，对预训练模型进行微调，以实现对特定领域的信息提取
。
[0004]然而，采用上述方法往往需要高昂的成本以获取带标注的训练数据
。

技术实现思路

[0005]本申请实施例提供了一种会话内容的信息提取方法
、
装置
、
计算机设备及存储介质
。
所述技术方案如下：一方面，本申请实施例提供了一种会话内容的信息提取方法，所述方法包括：基于第一提示信息，通过样本生成模型生成陈述语料对应的样本问答语料，所述样本问答语料中包括提问和回答；基于第二提示信息，通过所述样本生成模型提取所述样本问答语料的样本关键信息；基于所述样本问答语料和所述样本关键信息构建得到的训练样本，训练关键信息提取模型；通过训练得到的所述关键信息提取模型，从会话内容中提取关键信息
。
[0006]另一方面，本申请实施例提供了一种会话内容的信息提取装置，所述装置包括：语料生...

【技术保护点】

【技术特征摘要】
1.
一种会话内容的信息提取方法，其特征在于，所述方法包括：基于第一提示信息，通过样本生成模型生成陈述语料对应的样本问答语料，所述样本问答语料中包括提问和回答；基于第二提示信息，通过所述样本生成模型提取所述样本问答语料的样本关键信息；基于所述样本问答语料和所述样本关键信息构建得到的训练样本，训练关键信息提取模型；通过训练得到的所述关键信息提取模型，从会话内容中提取关键信息
。2.
根据权利要求1所述的方法，其特征在于，所述基于第一提示信息，通过样本生成模型生成陈述语料对应的样本问答语料，包括：基于所述第一提示信息，通过所述样本生成模型生成所述陈述语料对应的原始提问；在所述原始提问与至少一个标准提问的相似度大于相似度阈值的情况下，基于相似度最高的所述标准提问和所述陈述语料，生成所述样本问答语料
。3.
根据权利要求2所述的方法，其特征在于，所述基于所述样本问答语料和所述样本关键信息构建得到的训练样本，训练关键信息提取模型，包括：将所述样本问答语料中所述标准提问对应的提问类型标识符，以及所述陈述语料输入至所述关键信息提取模型，得到关键信息提取结果；基于所述关键信息提取结果与所述样本关键信息的差异，确定信息提取损失；基于所述信息提取损失训练所述关键信息提取模型；所述通过训练得到的所述关键信息提取模型，从会话内容中提取关键信息，包括：确定所述会话内容中提问对应的所述提问类型标识符；将所述提问类型标识符以及所述会话内容中的回答输入至所述关键信息提取模型，得到所述关键信息
。4.
根据权利要求3所述的方法，其特征在于，所述方法还包括：对所述样本关键信息进行格式转化，得到结构化提取语言
SEL
格式的所述样本关键信息，其中，所述
SEL
格式用于对不同类型的关键信息提取任务进行统一编码，所述关键信息提取任务的类型包括实体提取任务
、
实体关系提取任务和事件提取任务中的至少一种；所述将所述样本问答语料中所述标准提问对应的提问类型标识符，以及所述陈述语料输入至所述关键信息提取模型，得到关键信息提取结果，包括：对结构模式指导文本
SSI
和所述陈述语料进行拼接，得到样本拼接文本，所述
SSI
为不同类型的关键信息提取任务的提示信息；将所述样本问答语料中所述标准提问对应的提问类型标识符，以及所述样本拼接文本输入所述关键信息提取模型，得到所述关键信息提取结果，所述关键信息提取结果采用所述
SEL
格式；所述将所述提问类型标识符以及所述会话内容中的回答输入至所述关键信息提取模型，得到所述关键信息，包括：对所述
SSI
和所述会话内容中的回答进行拼接，得到拼接文本；将所述提问类型标识符，以及所述拼接文本输入所述关键信息提取模型，得到所述关键信息，所述关键信息采用所述
SEL
格式
。5.
根据权利要求1至4任一所述的方法，其特征在于，在所述样本问答语料中包含按照
顺序进行的多轮会话的情况下，所述基于所述样本问答语料和所述样本关键信息构建得到的训练样本，训练关键信息提取模型，包括：基于会话顺序，确定当前轮样本问答语料对应的前轮样本问答语料；将所述当前轮样本问答语料，以及所述前轮样本问答语料对应的前轮样本关键信息输入所述关键信息提取模型，得到关键信息提取结果；其中，所述前轮样本关键信息由所述关键信息提取模型提取得到；基于所述关键信息提取结果和所述样本关键信息的差异，确定信息提取损失；基于所述信息提取损失训练所述关键信息提取模型；在所述会话内容包括按照顺序进行的多轮会话的情况下，所述通过训练得到的所述关键信息提取模型，从会话内容中提取关键信息，包括：将所述会话内容中的第
i
轮会话内容，以及所述第
i
轮会话内容的前轮会话内容对应的前轮关键信息输入至所述关键信息提取模型，提取得到所述第
i
轮会话内容中的第
i
轮关键信息，其中，所述前轮关键信息由所述关键信息提取模型提取得到，
i
为大于1的整数
。6.
根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：获取样本监督语料，所述样本监督语料包括提问
、
回答和关键信息标注；将所述第二提示信息
、
所述样本监督语料中的提问以及回答作为所述样本生成模型的输入，将所述关键信息标注作为监督，训练所述样本生成模型
。7.

【专利技术属性】
技术研发人员：梁鑫，邵纪春，
申请(专利权)人：深圳市腾讯计算机系统有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人