【技术实现步骤摘要】
用于生成意图标签的方法、电子设备、介质和程序产品
[0001]本公开涉及一种用于生成意图标签的方法、电子设备、介质和计算机程序产品。
技术介绍
[0002]在智能对话系统中,通常需要根据用户的对话内容识别出用户的意图,然后根据用户的意图在语料库中选取出匹配度最高的回复语料。可见,意图识别的准确度直接关系到智能对话的准确度和针对性。
[0003]相关技术中,语料的意图标签通常是由开发人员预先根据对话场景编写的。当需要增加新的意图标签时,通常采用以下两种方式:一种是由开发人员根据具体需求人工编写新的意图标签;一种由开发人员对意图识别失败的语料进行分析,从中确定出新的意图标签。
技术实现思路
[0004]本公开实施例提供一种用于生成意图标签的方法、电子设备、介质和计算机程序产品,以提高意图标签的生成效率。
[0005]根据本公开的实施例的一个方面,提供了一种用于生成意图标签的方法,包括:获取原始文本集,原始文本集包括至少一个未被识别出意图的原始文本;基于预设的聚类算法,从原始文本集中确定出至少一个文 ...
【技术保护点】
【技术特征摘要】
1.一种用于生成意图标签的方法,其特征在于,包括:获取原始文本集,所述原始文本集包括至少一个未被识别出意图的原始文本;基于预设的聚类算法,从所述原始文本集中确定出至少一个文本子集,每个所述文本子集包括至少一个所述原始文本;基于所述原始文本集,确定所述原始文本中包含的各个词对应于该原始文本的第一特征值;对于每个所述文本子集,基于每个词与该文本子集中的各所述原始文本对应的第一特征值,确定该词对应于该文本子集的第二特征值;基于所述第二特征值,从该文本子集中选取出第一预设数量的关键词,并生成每个所述关键词的词嵌入;基于各所述关键词的第二特征值与词嵌入,确定该文本子集的特征向量;基于各所述关键词的词嵌入分别与所述特征向量的相似度,从各所述关键词中确定出目标关键词,并将所述目标关键词确定为该文本子集的意图标签。2.根据权利要求1所述的方法,其特征在于,所述确定所述原始文本中包含的各个词对应于该原始文本的第一特征值,包括:对所述原始文本进行分词,得到所述原始文本中包括的各个词;确定所述原始文本中包括的各个词各自在所述原始文本集中的词频和逆文本频率指数;基于所述词频和所述逆文本频率指数,确定所述原始文本中包括的各个词的第一特征值。3.根据权利要求1所述的方法,其特征在于,基于每个词与该文本子集中的各所述原始文本对应的第一特征值,确定该词对应于该文本子集的第二特征值,包括:将每个词与该文本子集中的各所述原始文本对应的第一特征值之和,确定为该词对应于该文本子集的第二特征值。4.根据权利要求1所述的方法,其特征在于,基于各所述关键词的第二特征值与词嵌入,确定该文本子集的特征向量,包括:将各所述关键词的第二特征值与各自的词嵌入的乘积之和,确定该文本子集的特征向量。5.根据权利要求1所述的方法,其特征在于,获取原始文本集,包括:获取智能会话系统的历史对话日志以及预设的意图分类器针对所述历史对话日志的分类结果;基于所述分类结果,从所述历史对话日志中提取未被...
【专利技术属性】
技术研发人员:许健智,
申请(专利权)人:北京房江湖科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。