一种会话信息抽取方法、系统、电子设备及存储介质技术方案

技术编号:31237411 阅读:18 留言:0更新日期:2021-12-08 10:22
本发明专利技术提出一种会话信息抽取方法、系统、电子设备及存储介质,其方法技术方案包括对于待抽取对话的领域,构建一领域知识图谱,对对话进行序列划分,并对序列中涉及领域知识图谱的内容进行标注;获取序列中的字符实体表示和字符属性表示,并进一步获取领域知识图谱的候选实体表示和候选属性表示;根据候选实体表示通过注意力机制对字符实体表示计算第一嵌入,并根据候选属性表示通过注意力机制对字符属性表示计算第二嵌入;将第一嵌入和第二嵌入进行交互,获取对话的最终特征矩阵;根据最终特征矩阵进行打分和模型训练,并通过训练完成的模型进行会话信息的抽取。本申请解决了现有方法灵活度低、难以应对复杂结构和高专业度对话的问题。的问题。的问题。

【技术实现步骤摘要】
一种会话信息抽取方法、系统、电子设备及存储介质


[0001]本专利技术属于语言处理
,尤其涉及一种会话信息抽取方法、系统、电子设备及存储介质。

技术介绍

[0002]基于会话数据的信息抽取有广泛的应用场景。特定行业(例如:医生、金融从业者等)的人工时十分昂贵,如何使用数据挖掘技术自动地抽取专业性会话所包含的重要的结构化的信息是本
面临的技术问题,现有技术中,包括基于语法规则的模型和基于统计机器学习的模型,但是,会话比书面表达更加灵活多变,传统NLP处理工具效果明显下降。比如:“一阵一阵的”专业说法是“阵发性”;会话类型数据普遍具有多轮结构,待抽取信息分布在多轮对话中,结构复杂;没有利用背景知识,高专业度的行业往往存在术语或者黑话,难以通过通用方法识别。

技术实现思路

[0003]本申请实施例提供了一种会话信息抽取方法、系统、电子设备及存储介质,以至少解决现有方法灵活度低、难以应对复杂结构和高专业度对话的问题。
[0004]第一方面,本申请实施例提供了一种会话信息抽取方法,包括:序列划分标注步骤,对于待抽取对话所述的领域,构建一领域知识图谱,对所述对话进行序列划分,并对所述序列中涉及所述领域知识图谱的内容进行标注;实体属性编码步骤,获取所述序列中的字符实体表示和字符属性表示,并进一步获取所述领域知识图谱的候选实体表示和候选属性表示;嵌入匹配计算步骤,根据所述候选实体表示通过注意力机制对所述字符实体表示计算第一嵌入,并根据所述候选属性表示通过注意力机制对所述字符属性表示计算第二嵌入;嵌入集成交互步骤,将所述第一嵌入和所述第二嵌入进行交互,获取所述对话的最终特征矩阵;模型构建实施步骤,根据所述最终特征矩阵进行打分和模型训练,并通过训练完成的所述模型进行会话信息的抽取。
[0005]优选的,将所述对话切分为若干对话阶段,再通过滑窗方式将每个所述对话阶段划分为所述序列。
[0006]优选的,编码器结构为在双向LSTM结构输出的结果之上堆叠自注意力机制层。
[0007]优选的,将所述第一嵌入和所述第二嵌入中的每个字符的嵌入向量逐个拼接,获得所述最终特征矩阵。
[0008]第二方面,本申请实施例提供了一种会话信息抽取系统,适用于上述一种会话信息抽取方法,包括:序列划分标注模块,对于待抽取对话所述的领域,构建一领域知识图谱,对所述对话进行序列划分,并对所述序列中涉及所述领域知识图谱的内容进行标注;实体属性编码模块,获取所述序列中的字符实体表示和字符属性表示,并进一步获取所述领域知识图谱的候选实体表示和候选属性表示;嵌入匹配计算模块,根据所述候选实体表示通过注意力机制对所述字符实体表示计算第一嵌入,并根据所述候选属性表示通过注意力机
制对所述字符属性表示计算第二嵌入;嵌入集成交互模块,将所述第一嵌入和所述第二嵌入进行交互,获取所述对话的最终特征矩阵;模型构建实施模块,根据所述最终特征矩阵进行打分和模型训练,并通过训练完成的所述模型进行会话信息的抽取。
[0009]在其中一些实施例中,所述序列划分标注模块进一步包括:将所述对话切分为若干对话阶段,再通过滑窗方式将每个所述对话阶段划分为所述序列。
[0010]在其中一些实施例中,所述序列划分标注模块进一步包括:编码器结构为在双向LSTM结构输出的结果之上堆叠自注意力机制层。
[0011]在其中一些实施例中,所述嵌入集成交互模块进一步包括:将所述第一嵌入和所述第二嵌入中的每个字符的嵌入向量逐个拼接,获得所述最终特征矩阵。
[0012]第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的一种会话信息抽取方法。
[0013]第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的一种会话信息抽取方法。
[0014]本申请可应用于知识图谱
相比于相关技术,本申请实施例提供的一种基于深度神经网络对对话类型数据进行关键信息抽取的方法,通过设计级联的多个部分(包括编码、匹配与集成等),聚合跨多个话轮的序列,并利用已经构建好的领域知识图谱,完成对话中与知识库条目有关的关键信息的抽取工作。本专利技术标注方式便捷,比起序列标注的标记方法要容易上手,并且打标签的标注者不需要是某个特定领域的专家;可以有效地处理同一个标签被多个话轮同时覆盖的场景;可以有效地将分步在多轮对话中、结构复杂的信息有效聚合,作为最终信息抽取的输出结果。
附图说明
[0015]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0016]图1为本专利技术的会话信息抽取方法流程图;
[0017]图2为本专利技术的会话信息抽取系统的框架图;
[0018]图3为本专利技术的电子设备的框架图;
[0019]以上图中:
[0020]1、序列划分标注模块;2、实体属性编码模块;3、嵌入匹配计算模块;4、嵌入集成交互模块;5、模型构建实施模块;60、总线;61、处理器;62、存储器;63、通信接口。
具体实施方式
[0021]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0022]显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用
于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的
技术实现思路
的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
[0023]在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
[0024]除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属
内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种会话信息抽取方法,其特征在于,包括:序列划分标注步骤,对于待抽取对话所述的领域,构建一领域知识图谱,对所述对话进行序列划分,并对所述序列中涉及所述领域知识图谱的内容进行标注;实体属性编码步骤,获取所述序列中的字符实体表示和字符属性表示,并进一步获取所述领域知识图谱的候选实体表示和候选属性表示;嵌入匹配计算步骤,根据所述候选实体表示通过注意力机制对所述字符实体表示计算第一嵌入,并根据所述候选属性表示通过注意力机制对所述字符属性表示计算第二嵌入;嵌入集成交互步骤,将所述第一嵌入和所述第二嵌入进行交互,获取所述对话的最终特征矩阵;模型构建实施步骤,根据所述最终特征矩阵进行打分和模型训练,并通过训练完成的所述模型进行会话信息的抽取。2.根据权利要求1所述的会话信息抽取方法,其特征在于,所述序列划分标注步骤进一步包括:将所述对话切分为若干对话阶段,再通过滑窗方式将每个所述对话阶段划分为所述序列。3.根据权利要求1所述的会话信息抽取方法,其特征在于,所述实体属性编码步骤进一步包括:编码器结构为在双向LSTM结构输出的结果之上堆叠自注意力机制层。4.根据权利要求1所述的会话信息抽取方法,其特征在于,所述嵌入集成交互步骤进一步包括:将所述第一嵌入和所述第二嵌入中的每个字符的嵌入向量逐个拼接,获得所述最终特征矩阵。5.一种会话信息抽取系统,其特征在于,包括:序列划分标注模块,对于待抽取对话所述的领域,构建一领域知识图谱,对所述对话进行序列划分,并对所述序列中涉及所述领域知识图谱的内容进行...

【专利技术属性】
技术研发人员:付骁弈吴信东黄艳香
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1