对话标注模型的训练方法、对话标注方法及装置制造方法及图纸

技术编号:35530919 阅读:10 留言:0更新日期:2022-11-09 14:54
本发明专利技术提供了一种对话标注模型的训练方法、对话标注方法及装置,应用于人工智能领域,所述训练方法将训练样本输入对话标注模型中,得到所述对话标注模型的多个子模型的精度和标签概率,再获取所述训练样本中对话数据的特征向量,根据所述特征向量、所述精度和所述标签概率训练所述对话标注模型,其中,所述标签概率为所述子模型用于标注所述训练样本的标签的概率。本发明专利技术训练得到的对话标注模型包括多个基于NLP(自然语言处理)的子模型,标注时可以根据待标注对话数据的特征向量选取使用所述对话标注模型中的子模型,通过调整子模型的使用可以提高对话标注的准确率。的使用可以提高对话标注的准确率。的使用可以提高对话标注的准确率。

【技术实现步骤摘要】
对话标注模型的训练方法、对话标注方法及装置


[0001]本专利技术涉及人工智能领域,尤其涉及一种对话标注模型的训练方法、对话标注方法及装置。

技术介绍

[0002]伴随着人工智能的浪潮,问答系统、智能助手、聊天机器人等成为了研究的热门,人们希望机器能够像人一样思考,与人类对话,这就要求机器要能够理解、处理人的对话内容,因此对话分析就显得尤为重要。
[0003]目前,对话分析大多是对书面语言进行分析,现有的对话标注系统大多是对有规范格式的书面语言进行标注,而口语对话中存在很多的名词的省略和指代不清楚的情况;在对口语对话分析时还需要考虑上下文的关系和对话之间的应答关系等,因此使用传统的对话标注系统对口语对话进行标注的效果很差。

技术实现思路

[0004]本专利技术提供了一种对话标注模型的训练方法、对话标注方法、装置、电子设备及存储介质;本专利技术训练得到的对话标注模型包括多个基于NLP(自然语言处理)的子模型,标注时可以根据待标注对话数据的特征向量确定子模型的使用,通过调整子模型的使用可以提高对话标注的准确率。
[0005]第一方面,本专利技术的实施例提供了一种对话标注模型的训练方法,包括:
[0006]将训练样本输入对话标注模型中,得到对话标注模型的多个子模型的精度和标签概率,所述标签概率为子模型用于标注训练样本的标签的概率;
[0007]获取训练样本中对话数据的特征向量;
[0008]根据特征向量、精度和标签概率训练对话标注模型。
[0009]可选地,训练方法还包括设置标签,标签包括如下一项或多项:实体标签、文本含义标签、或上下文联系标签。
[0010]第二方面,本专利技术的实施例提供了一种对话标注方法,包括:
[0011]获取待标注对话数据的特征向量;
[0012]根据特征向量选取对话标注模型的子模型;
[0013]使用子模型标注待标注对话数据。
[0014]可选地,使用子模型标注待标注对话数据,包括:
[0015]根据子模型的权重和输出概率标注待标注对话数据。
[0016]可选地,对话标注方法还包括:
[0017]使用规则模型对待标注对话数据进行标注,规则模型根据规则表达式匹配或过滤待标注对话数据中的信息,规则表达式包括如下一项或多项:模糊匹配、正则匹配、相似匹配、或关键词匹配。
[0018]可选地,对话标注方法还包括:
[0019]调整所述对话标注模型和所述规则模型的权重。
[0020]第三方面本,本专利技术的实施例提供了一种对话标注模型的训练装置,包括:
[0021]输入模块,用于将训练样本输入对话标注模型中,得到所述对话标注模型的多个子模型的精度和标签概率,所述标签概率为所述子模型用于标注所述训练样本的标签的概率;
[0022]获取模块,用于获取所述训练样本中对话数据的特征向量;
[0023]训练模块,根据所述特征向量、所述精度和所述标签概率训练所述对话标注模型。
[0024]第四方面,本专利技术的实施例提供了一种对话标注装置,包括:
[0025]获取模块,获取待标注对话数据的特征向量;
[0026]选取模块,根据所述特征向量选取对话标注模型的子模型;
[0027]标注模块,使用所述子模型标注所述待标注对话数据。
[0028]第五方面,本专利技术的实施例提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如第一方面或第二方面中任一实现方式所述的方法。
[0029]第六方面,本专利技术的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第二方面中任一实现方式所述的方法。
[0030]本专利技术提供了一种对话标注模型的训练方法、对话标注方法及装置,所述训练方法将训练样本输入对话标注模型中,得到所述对话标注模型的多个子模型的精度和标签概率,再获取所述训练样本中对话数据的特征向量,根据所述特征向量、所述精度和所述标签概率训练所述对话标注模型,其中,所述标签概率为所述子模型用于标注所述训练样本的标签的概率。本专利技术训练得到的对话标注模型包括多个基于NLP(自然语言处理)的子模型,标注时可以根据待标注对话数据的特征向量选取使用所述对话标注模型中的子模型,通过调整子模型的使用可以提高对话标注的准确率。
[0031]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本专利技术的实施例的关键或重要特征,亦非用于限制本专利技术的范围。本专利技术的其它特征将通过以下的描述变得容易理解。
附图说明
[0032]结合附图并参考以下详细说明,本专利技术各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素。
[0033]图1为本专利技术实施例的一种对话标注模型的训练方法的流程图;
[0034]图2为本专利技术另一实施例的一种对话标注模型的训练方法的流程图;
[0035]图3为本专利技术实施例的一种对话标注方法的流程图;
[0036]图4为本专利技术实施例的一种对话标注模型的训练装置的结构示意图;
[0037]图5为本专利技术实施例的一种对话标注装置的结构示意图;
[0038]图6为本专利技术实施例的一种电子设备的结构图。
具体实施方式
[0039]为了使本
的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
[0040]需要说明的是,本专利技术实施例描述的仅仅是为了更加清楚的说明本专利技术实施例的技术方案,并不构成对本专利技术实施例提供的技术方案的限定。
[0041]图1为本专利技术实施例的一种对话标注模型的训练方法的流程图。如图1所示,训练方法包括:
[0042]S101、将训练样本输入对话标注模型中,得到所述对话标注模型的多个子模型的精度和标签概率。
[0043]其中,所述标签概率为所述子模型用于标注所述训练样本的标签的概率。
[0044]可选地,获取训练样本,包括:
[0045]示例性地,可以调用http接口和mq接口导入对话数据,对话数据为对话通过语音转化得到的文本数据,且可以调整文本数据的格式,适用于不同的系统需求。
[0046]可选地,可以调用http接口批量导入对话数据,也可以调用mq接口实时的导入对话数据。
[0047]示例性地,根据表达式对对话数据进行筛选得到训练样本。
[0048]可选地,在筛选时,把每一条数据都放入表达式中进行匹配,若满足表达式,则将这条数据放入训练样本中,若不满足表达式,则将这条数据丢弃。其中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对话标注模型的训练方法,其特征在于,包括:将训练样本输入对话标注模型中,得到所述对话标注模型的多个子模型的精度和标签概率,所述标签概率为所述子模型用于标注所述训练样本的标签的概率;获取所述训练样本中对话数据的特征向量;根据所述特征向量、所述精度和所述标签概率训练所述对话标注模型。2.根据权利要求1所述的训练方法,其特征在于,还包括设置标签,所述标签包括如下一项或多项:实体标签、文本含义标签、或上下文联系标签。3.一种对话标注方法,其特征在于,包括:获取待标注对话数据的特征向量;根据所述特征向量选取对话标注模型的子模型;使用所述子模型标注所述待标注对话数据。4.根据权利要求3所述的对话标注方法,其特征在于,所述使用所述子模型标注所述待标注对话数据,包括:根据所述子模型的权重和输出概率标注所述待标注对话数据。5.根据权利要求3所述的对话标注方法,其特征在于,还包括:使用规则模型对所述待标注对话数据进行标注,所述规则模型用于根据规则表达式匹配或过滤所述待标注对话数据中的信息,所述规则表达式包括如下一项或多项:模糊匹配...

【专利技术属性】
技术研发人员:肖齐梁曲道俊
申请(专利权)人:北京合力亿捷科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1