一种聊天语料标注方法、装置、电子设备及存储介质制造方法及图纸

技术编号：24091418 阅读：48 留言：0更新日期：2020-05-09 08:14

本发明专利技术提供了一种聊天语料标注方法，包括：获取聊天语料相匹配的问题文本集合，其中，所述问题文本集合包括至少一个未获得相应答复语句的问题文本；通过聊天语料标注模型中的问题文本扩充模型网络对所述问题文本集合中的问题文本进行扩充，以实现获取相应的问题文本对；响应于所获取的问题文本对，通过所述聊天语料标注模型中的问答模型网络，确定与所述问题文本集合中的问题文本相对应的答复语句；对所述问题文本对和所述答复语句进行修正，并建立所述问题文本对和所述答复语句的关联。本发明专利技术还提供了聊天语料标注装置、电子设备及存储介质。本发明专利技术能够实现对所述聊天语料的标注。

A tagging method, device, electronic equipment and storage medium for chat corpus

全部详细技术资料下载

【技术实现步骤摘要】
一种聊天语料标注方法、装置、电子设备及存储介质
本专利技术涉及信息处理技术，尤其涉及聊天语料标注方法、装置、电子设备及存储介质。
技术介绍
人机交互(HCIHuman–ComputerInteraction)是指人与计算机之间使用某种对话语言，以一定的交互方式确定人与计算机之间的信息交换过程。随着人机交互技术的发展，越来越多的基于人机交互技术的智能产品应运而生，例如聊天机器人(chatterbot)等。这些智能产品可以和用户进行聊天交流，并根据用户的问题生成相应的回答信息。但是，传统技术中，通常使用预定义响应的数据库和某种启发式推理来根据输入和上下文选择适当的响应。这一过程中需要构建聊天FAQ，存储请求-响应对(Query-ReplyPair)，之后用检索的方式从该FAQ中返回相似的问题文本(Query)的答复语句(Reply)。因此，聊天机器人的智能化会受限于FAQ库的质量和数量，数量少，质量低的FAQ库将会影响用户的使用体验。
技术实现思路
有鉴于此，本专利技术实施例提供一种聊天语料标注方法、装置、电...

【技术保护点】
1.一种聊天语料标注方法，其特征在于，所述方法包括：/n获取聊天语料相匹配的问题文本集合，其中，所述问题文本集合包括至少一个未获得相应答复语句的问题文本；/n通过聊天语料标注模型中的问题文本扩充模型网络对所述问题文本集合中的问题文本进行扩充，以实现获取相应的问题文本对；/n响应于所获取的问题文本对，通过所述聊天语料标注模型中的问答模型网络，确定与所述问题文本集合中的问题文本相对应的答复语句；/n对所述问题文本对和所述答复语句进行修正，并建立所述问题文本对和所述答复语句的关联，以实现对所述聊天语料的标注。/n

【技术特征摘要】
1.一种聊天语料标注方法，其特征在于，所述方法包括：
获取聊天语料相匹配的问题文本集合，其中，所述问题文本集合包括至少一个未获得相应答复语句的问题文本；
通过聊天语料标注模型中的问题文本扩充模型网络对所述问题文本集合中的问题文本进行扩充，以实现获取相应的问题文本对；
响应于所获取的问题文本对，通过所述聊天语料标注模型中的问答模型网络，确定与所述问题文本集合中的问题文本相对应的答复语句；
对所述问题文本对和所述答复语句进行修正，并建立所述问题文本对和所述答复语句的关联，以实现对所述聊天语料的标注。

2.根据权利要求1所述的方法，其特征在于，所述通过聊天语料标注模型中的问题文本扩充模型网络对所述问题文本集合中的问题文本进行扩充，以实现获取相应的问题文本对，包括：
根据所述问题文本所携带的文本参数信息，触发相应的分词库；
通过所触发的所述分词库单词词典对所述问题文本进行分词处理，形成不同的词语级特征向量；
对所述不同的词语级特征向量进行除噪处理，形成与所述问题文本相对应的词语级特征向量集合；
通过所述聊天语料标注模型中的问题文本扩充模型网络对与所述问题文本相对应的词语级特征向量集合进行扩充处理，以形成新的问题文本；
关联所述问题文本与所述新的问题文本，以形成相应的问题文本对。

3.根据权利要求1所述的方法，其特征在于，所述响应于所获取的问题文本对，通过所述聊天语料标注模型中的问答模型网络，确定与所述问题文本集合中的问题文本相对应的答复语句，包括：
通过所述问答模型网络中的隐变量生成网络，确定与问题文本所对应的至少一个词语级的隐变量；
通过所述问答模型网络中的答复语句生成网络，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的答复词语以及所述答复词语的被选取概率；
根据所述答复词语的被选取概率，选取至少一个答复词语组成与所述问题文本相对应的答复语句，以实现确定与所述问题文本集合中的问题文本相对应的答复语句。

4.根据权利要求3所述的方法，其特征在于，所述通过所述问答模型网络中的隐变量生成网络，确定与问题文本所对应的至少一个词语级的隐变量，包括：
根据所述问题文本所携带的文本参数信息，触发相应的分词库；
通过所触发的所述分词库单词词典对所述问题文本进行分词处理，形成不同的词语级特征向量；
通过所述问答模型网络中的隐变量生成网络，对所述不同的词语级特征向量进行除噪处理，确定与问题文本所对应的至少一个词语级的隐变量。

5.根据权利要求4所述的方法，其特征在于，所述通过所述问答模型网络中的隐变量生成网络，对所述不同的词语级特征向量进行除噪处理，确定与问题文本所对应...

【专利技术属性】
技术研发人员：李勤，曹云波，周昊，黄民烈，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人