【技术实现步骤摘要】
语料的意图标注方法、装置、设备及存储介质
本专利技术涉及人工智能领域,尤其涉及一种语料的意图标注方法、装置、设备及存储介质。
技术介绍
语料,即语言材料,是构成语料库的基本单元。在人工智能领域中,标注了意图标签的语料被广泛运用,且在意图识别领域中起到重要作用,例如:通过采用标注了意图标签的语料对意图识别模型进行训练,让机器更智能地理解人的意图,实现了意图识别模型对语料的意图识别,语料的意图标注质量有利于增强意图识别模型对语料的意图识别效果。目前,采用以下方式进行语料的意图识别:根据查询语句查询获得语料的意图标注结果,从而实现对语料的意图标注。这种方式的缺陷在于:获取的语料数量少、类型单一,所得的意图标注结果存在较大的偏差,意图标注的途径和维度单一,进而,影响语料意图标注的质量,导致语料意图标注的准确性较低。
技术实现思路
本专利技术的主要目的在于解决语料意图标注的准确性较低的问题。本专利技术第一方面提供了一种语料的意图标注方法,包括:获取线下语料和线上语料,将所述线下语料和 ...
【技术保护点】
1.一种语料的意图标注方法,其特征在于,所述语料的意图标注方法包括:/n获取线下语料和线上语料,将所述线下语料和所述线上语料合并,得到语料集合,其中,所述线下语料为线下对话产生且线下标注了意图标签的语料,所述线上语料为线上对话产生且线上标注了意图标签的语料;/n将所述语料集合中的语料进行归类,根据归类结果将所述语料集合划分为多个语料子集合,其中,每个语料子集合中包含的语料属于同一语料类型;/n将所述多个语料子集合中的任一语料子集合确定为目标语料子集合,获取所述目标语料子集合中的语料所对应的意图标签,得到意图标签集合;/n对所述意图标签集合中的意图标签进行归类,并统计归类后的 ...
【技术特征摘要】
1.一种语料的意图标注方法,其特征在于,所述语料的意图标注方法包括:
获取线下语料和线上语料,将所述线下语料和所述线上语料合并,得到语料集合,其中,所述线下语料为线下对话产生且线下标注了意图标签的语料,所述线上语料为线上对话产生且线上标注了意图标签的语料;
将所述语料集合中的语料进行归类,根据归类结果将所述语料集合划分为多个语料子集合,其中,每个语料子集合中包含的语料属于同一语料类型;
将所述多个语料子集合中的任一语料子集合确定为目标语料子集合,获取所述目标语料子集合中的语料所对应的意图标签,得到意图标签集合;
对所述意图标签集合中的意图标签进行归类,并统计归类后的意图标签类型数量,判断所述意图标签类型数量是否大于或等于预设的数量阈值;
若所述意图标签类型数量大于或等于预设的数量阈值,则将所述目标语料子集合中的语料确定为待更正意图标签的语料,将所述待更正意图标签的语料发送至预置的更正端,以使所述更正端对所述待更正意图标签的语料进行意图标签的更正。
2.根据权利要求1所述的语料的意图标注方法,其特征在于,所述将所述语料集合中的语料进行归类,包括:
通过预置的文本主题模型,获取所述语料集合中的每个语料对应的语义特征,通过预置的卷积神经网络模型,获取所述语料集合中的每个语料对应的情感特征;
对所述语义特征和所述情感特征分别进行向量转换处理,得到语义特征向量和情感特征向量;
对于所述语料集合中的任意两个语料,计算与所述任意两个语料对应的两个语义特征向量之间的第一相似度,以及与所述任意两个语料对应的两个情感特征向量之间的第二相似度;
计算所述第一相似度和所述第二相似度的加权均值,得到综合相似度;
判断所述综合相似度是否大于或等于预设的第一相似度阈值;
若所述综合相似度大于或等于预设的第一相似度阈值,则将所述任意两个语料归为同一语料类型。
3.根据权利要求1所述的语料的意图标注方法,其特征在于,所述对所述意图标签集合中的意图标签进行归类,包括:
获取所述意图标签集合中的每个意图标签对应的文本特征,对所述文本特征进行向量转换处理,得到文本特征向量;
计算每两个文本特征向量之间的相似度;
根据每两个文本特征向量之间的相似度,对所述意图标签集合中的意图标签进行归类。
4.根据权利要求3所述的语料的意图标注方法,其特征在于,所述根据每两个文本特征向量之间的相似度,对所述意图标签集合中的意图标签进行归类,包括:
判断是否存在两个文本特征向量之间的相似度大于或等于预设的第二相似度阈值;
若存在两个文本特征向量之间的相似度大于或等于预设的第二相似度阈值,则将与所述两个文本特征向量对应的意图标签归为同一意图标签类型。
5.根据权利要求1所述的语料的意图标注方法,其特征在于,所述获取线下语料和线上语料,将所述线下语料和所述线上语料合并,得到语料集合,其中,所述线下语料为线下对话产生且线下标注了意图标签的语料,所述线上语料为线上对话产生且线上标注了意图标签的语料,包括:
...
【专利技术属性】
技术研发人员:邹芳,李沛恒,李俊蓉,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。