一种聊天语料标注方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24091418 阅读:30 留言:0更新日期:2020-05-09 08:14
本发明专利技术提供了一种聊天语料标注方法,包括:获取聊天语料相匹配的问题文本集合,其中,所述问题文本集合包括至少一个未获得相应答复语句的问题文本;通过聊天语料标注模型中的问题文本扩充模型网络对所述问题文本集合中的问题文本进行扩充,以实现获取相应的问题文本对;响应于所获取的问题文本对,通过所述聊天语料标注模型中的问答模型网络,确定与所述问题文本集合中的问题文本相对应的答复语句;对所述问题文本对和所述答复语句进行修正,并建立所述问题文本对和所述答复语句的关联。本发明专利技术还提供了聊天语料标注装置、电子设备及存储介质。本发明专利技术能够实现对所述聊天语料的标注。

A tagging method, device, electronic equipment and storage medium for chat corpus

【技术实现步骤摘要】
一种聊天语料标注方法、装置、电子设备及存储介质
本专利技术涉及信息处理技术,尤其涉及聊天语料标注方法、装置、电子设备及存储介质。
技术介绍
人机交互(HCIHuman–ComputerInteraction)是指人与计算机之间使用某种对话语言,以一定的交互方式确定人与计算机之间的信息交换过程。随着人机交互技术的发展,越来越多的基于人机交互技术的智能产品应运而生,例如聊天机器人(chatterbot)等。这些智能产品可以和用户进行聊天交流,并根据用户的问题生成相应的回答信息。但是,传统技术中,通常使用预定义响应的数据库和某种启发式推理来根据输入和上下文选择适当的响应。这一过程中需要构建聊天FAQ,存储请求-响应对(Query-ReplyPair),之后用检索的方式从该FAQ中返回相似的问题文本(Query)的答复语句(Reply)。因此,聊天机器人的智能化会受限于FAQ库的质量和数量,数量少,质量低的FAQ库将会影响用户的使用体验。
技术实现思路
有鉴于此,本专利技术实施例提供一种聊天语料标注方法、装置、电子设备及存储介质,本专利技术实施例的技术方案是这样实现的:本专利技术实施例通过了一种聊天语料标注方法,包括:获取聊天语料相匹配的问题文本集合,其中,所述问题文本集合包括至少一个未获得相应答复语句的问题文本;通过聊天语料标注模型中的问题文本扩充模型网络对所述问题文本集合中的问题文本进行扩充,以实现获取相应的问题文本对;响应于所获取的问题文本对,通过所述聊天语料标注模型中的问答模型网络,确定与所述问题文本集合中的问题文本相对应的答复语句;对所述问题文本对和所述答复语句进行修正,并建立所述问题文本对和所述答复语句的关联,以实现对所述聊天语料的标注。本专利技术实施例还提供了一种聊天语料标注装置,其特征在于,所述装置包括:信息传输模块,用于获取聊天语料相匹配的问题文本集合,其中,所述问题文本集合包括至少一个未获得相应答复语句的问题文本;信息处理模块,用于通过聊天语料标注模型中的问题文本扩充模型网络对所述问题文本集合中的问题文本进行扩充,以实现获取相应的问题文本对;所述信息处理模块,用于响应于所获取的问题文本对,通过所述聊天语料标注模型中的问答模型网络,确定与所述问题文本集合中的问题文本相对应的答复语句;所述信息处理模块,用于对所述问题文本对和所述答复语句进行修正,并建立所述问题文本对和所述答复语句的关联,以实现对所述聊天语料的标注。上述方案中,所述信息处理模块,用于根据所述问题文本所携带的文本参数信息,触发相应的分词库;所述信息处理模块,用于通过所触发的所述分词库单词词典对所述问题文本进行分词处理,形成不同的词语级特征向量;所述信息处理模块,用于对所述不同的词语级特征向量进行除噪处理,形成与所述问题文本相对应的词语级特征向量集合;所述信息处理模块,用于通过所述聊天语料标注模型中的问题文本扩充模型网络对与所述问题文本相对应的词语级特征向量集合进行扩充处理,以形成新的问题文本;所述信息处理模块,用于关联所述问题文本与所述新的问题文本,以形成相应的问题文本对。上述方案中,所述信息处理模块,用于通过所述问答模型网络中的隐变量生成网络,确定与问题文本所对应的至少一个词语级的隐变量;所述信息处理模块,用于通过所述问答模型网络中的答复语句生成网络,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的答复词语以及所述答复词语的被选取概率;所述信息处理模块,用于根据所述答复词语的被选取概率,选取至少一个答复词语组成与所述问题文本相对应的答复语句,以实现确定与所述问题文本集合中的问题文本相对应的答复语句。上述方案中,所述信息处理模块,用于根据所述问题文本所携带的文本参数信息,触发相应的分词库;所述信息处理模块,用于通过所触发的所述分词库单词词典对所述问题文本进行分词处理,形成不同的词语级特征向量;所述信息处理模块,用于通过所述问答模型网络中的隐变量生成网络,对所述不同的词语级特征向量进行除噪处理,确定与问题文本所对应的至少一个词语级的隐变量。上述方案中,所述信息处理模块,用于确定与所述聊天语料标注模型的使用环境相匹配的动态噪声阈值;所述信息处理模块,用于根据所述动态噪声阈值对所述问题文本集合进行去噪处理,并触发与所述动态噪声阈值相匹配的动态分词策略;所述信息处理模块,用于根据与所述动态噪声阈值相匹配的动态分词策略,对所述问题文本进行分词处理,形成与所述问题文本相对应的动态词语级特征向量集合。上述方案中,所述信息处理模块,用于确定与所述聊天语料标注模型的使用环境相对应的固定噪声阈值;所述信息处理模块,用于根据所述固定噪声阈值对所述问题文本集合进行去噪处理,并触发与所述固定噪声阈值相匹配的固定分词策略;所述信息处理模块,用于根据与所述固定噪声阈值相匹配的固定分词策略,对所述问题文本进行分词处理,与所述问题文本相对应的固定词语级特征向量集合。上述方案中,所述信息处理模块,用于确定与所述聊天语料标注模型的使用环境的特征;所述信息处理模块,用于在数据源中,获取与所述聊天语料标注模型的使用环境的特征相匹配的训练样本集合;所述信息处理模块,用于根据与所述训练样本相匹配的特征集合和相应的问题文本标签对所述聊天语料标注模型进行训练,以实现确定与所述聊天语料标注模型中的问题文本扩充模型网络相适配的模型参数;所述信息处理模块,用于根据与所述训练样本相匹配的特征集合和相应的问题文本标签对所述聊天语料标注模型进行训练,以实现确定与所述聊天语料标注模型中的问答模型网络相适配的模型参数。本专利技术实施例还提供了一种电子设备,所述电子设备包括:存储器,用于存储可执行指令;处理器,用于运行所述存储器存储的可执行指令时,实现前序的聊天语料标注方法。本专利技术实施例还提供了一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时实现前序的聊天语料标注方法。本专利技术实施例具有以下有益效果:通过获取聊天语料相匹配的问题文本集合,其中,所述问题文本集合包括至少一个未获得相应答复语句的问题文本;通过聊天语料标注模型中的问题文本扩充模型网络对所述问题文本集合中的问题文本进行扩充,以实现获取相应的问题文本对;响应于所获取的问题文本对,通过所述聊天语料标注模型中的问答模型网络,确定与所述问题文本集合中的问题文本相对应的答复语句;对所述问题文本对和所述答复语句进行修正,并建立所述问题文本对和所述答复语句的关联,以实现对所述聊天语料的标注。由此,不但实现了对问题文本的增广,扩展了文本的表述形式,并且建立所述问题文本对和所述答复语句的关联,以实现对所述聊天语料的标注,减轻了传统技术中人工作处理的负担,扩大了语料库的内容,从而可以提升回复的丰富度和前瞻性,提升用户的使用体验。本文档来自技高网...

【技术保护点】
1.一种聊天语料标注方法,其特征在于,所述方法包括:/n获取聊天语料相匹配的问题文本集合,其中,所述问题文本集合包括至少一个未获得相应答复语句的问题文本;/n通过聊天语料标注模型中的问题文本扩充模型网络对所述问题文本集合中的问题文本进行扩充,以实现获取相应的问题文本对;/n响应于所获取的问题文本对,通过所述聊天语料标注模型中的问答模型网络,确定与所述问题文本集合中的问题文本相对应的答复语句;/n对所述问题文本对和所述答复语句进行修正,并建立所述问题文本对和所述答复语句的关联,以实现对所述聊天语料的标注。/n

【技术特征摘要】
1.一种聊天语料标注方法,其特征在于,所述方法包括:
获取聊天语料相匹配的问题文本集合,其中,所述问题文本集合包括至少一个未获得相应答复语句的问题文本;
通过聊天语料标注模型中的问题文本扩充模型网络对所述问题文本集合中的问题文本进行扩充,以实现获取相应的问题文本对;
响应于所获取的问题文本对,通过所述聊天语料标注模型中的问答模型网络,确定与所述问题文本集合中的问题文本相对应的答复语句;
对所述问题文本对和所述答复语句进行修正,并建立所述问题文本对和所述答复语句的关联,以实现对所述聊天语料的标注。


2.根据权利要求1所述的方法,其特征在于,所述通过聊天语料标注模型中的问题文本扩充模型网络对所述问题文本集合中的问题文本进行扩充,以实现获取相应的问题文本对,包括:
根据所述问题文本所携带的文本参数信息,触发相应的分词库;
通过所触发的所述分词库单词词典对所述问题文本进行分词处理,形成不同的词语级特征向量;
对所述不同的词语级特征向量进行除噪处理,形成与所述问题文本相对应的词语级特征向量集合;
通过所述聊天语料标注模型中的问题文本扩充模型网络对与所述问题文本相对应的词语级特征向量集合进行扩充处理,以形成新的问题文本;
关联所述问题文本与所述新的问题文本,以形成相应的问题文本对。


3.根据权利要求1所述的方法,其特征在于,所述响应于所获取的问题文本对,通过所述聊天语料标注模型中的问答模型网络,确定与所述问题文本集合中的问题文本相对应的答复语句,包括:
通过所述问答模型网络中的隐变量生成网络,确定与问题文本所对应的至少一个词语级的隐变量;
通过所述问答模型网络中的答复语句生成网络,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的答复词语以及所述答复词语的被选取概率;
根据所述答复词语的被选取概率,选取至少一个答复词语组成与所述问题文本相对应的答复语句,以实现确定与所述问题文本集合中的问题文本相对应的答复语句。


4.根据权利要求3所述的方法,其特征在于,所述通过所述问答模型网络中的隐变量生成网络,确定与问题文本所对应的至少一个词语级的隐变量,包括:
根据所述问题文本所携带的文本参数信息,触发相应的分词库;
通过所触发的所述分词库单词词典对所述问题文本进行分词处理,形成不同的词语级特征向量;
通过所述问答模型网络中的隐变量生成网络,对所述不同的词语级特征向量进行除噪处理,确定与问题文本所对应的至少一个词语级的隐变量。


5.根据权利要求4所述的方法,其特征在于,所述通过所述问答模型网络中的隐变量生成网络,对所述不同的词语级特征向量进行除噪处理,确定与问题文本所对应...

【专利技术属性】
技术研发人员:李勤曹云波周昊黄民烈
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1