【技术实现步骤摘要】
一种语料分类方法、装置及服务器
本专利技术涉及自然语言处理
,更具体的说,是涉及一种语料分类方法、装置及服务器。
技术介绍
人机对话系统目前已经广泛应用于客服、电销以及催收等领域,在人机对话处理过程中,机器在接收到用户的语音之后,会将用户的语音转换成文本,然后对转换成的文本进行意图分析,确定用户的意图,最后从自身保存的语料集合中筛选出与用户意图对应的语料,将与用户意图对应的语料转化成语音输出,从而实现人机对话。目前针对人机对话系统所需的语料都是采用人工的方式进行分类,而人工分类方式明显存在着效率低的问题。
技术实现思路
有鉴于此,本专利技术提供了一种语料分类方法、装置及服务器,以克服现有技术中人工分类方式存在的效率低的问题。为实现上述目的,本专利技术提供如下技术方案:一种语料分类方法,所述方法包括:获取多个目标语料集;确定每两个目标语料集之间的语料距离,所述语料距离表征两个不同目标语料集之间的语义相似度;将语料距离符合预设距离条件的两个目标语料集执行合 ...
【技术保护点】
1.一种语料分类方法,其特征在于,所述方法包括:/n获取多个目标语料集;/n确定每两个目标语料集之间的语料距离,所述语料距离表征两个不同目标语料集之间的语义相似度;/n将语料距离符合预设距离条件的两个目标语料集执行合并操作,得到合并后的语料集;/n将合并后的语料集以及未执行合并操作的目标语料集均作为新的目标语料集,返回执行所述确定每两个目标语料集之间的语料距离的步骤,直到满足预设分类终止条件时终止操作,得到语料分类结果。/n
【技术特征摘要】
1.一种语料分类方法,其特征在于,所述方法包括:
获取多个目标语料集;
确定每两个目标语料集之间的语料距离,所述语料距离表征两个不同目标语料集之间的语义相似度;
将语料距离符合预设距离条件的两个目标语料集执行合并操作,得到合并后的语料集;
将合并后的语料集以及未执行合并操作的目标语料集均作为新的目标语料集,返回执行所述确定每两个目标语料集之间的语料距离的步骤,直到满足预设分类终止条件时终止操作,得到语料分类结果。
2.根据权利要求1所述的方法,其特征在于,所述确定每两个目标语料集之间的语料距离包括:
确定每一个目标语料集各自对应的中心文本以及中心语义向量;
基于每一个目标语料集各自对应的中心文本以及中心语义向量,确定每两个目标语料集之间的语料距离。
3.根据权利要求2所述的方法,其特征在于,所述确定每一个目标语料集各自对应的中心文本包括:
确定每一个目标语料集中各自包含的所有目标语料中文本长度最长的目标语料;
将确定的每一个目标语料集各自对应的文本长度最长的目标语料,作为每一个目标语料集各自对应的中心文本。
4.根据权利要求2所述的方法,其特征在于,所述确定每一个目标语料集各自对应的中心语义向量包括:
对每一个目标语料集中各自包含的每一个目标语料对应的语义向量做平均运算,得到每一个目标语料集各自对应的平均语义向量;
将所述每一个目标语料集各自对应的平均语义向量作为每一个目标语料集各自对应的中心语义向量。
5.根据权利要求2所述的方法,其特征在于,所述基于每一个目标语料集各自对应的中心文本以及中心语义向量,确定每两个目标语料集之间的语料距离包括:
基于每一个目标语料集各自对应的中心文本,确定每两个目标语料集之间的文本距离;
基于每一个目标语料集各自对应的中心语义向量,确定每两个目标语料集之间的向量距离;
基于每两个目标语料集之间的文本距离以及向量距离,确定每两个目标语料集之间的语料距离。
6.根据权利要求5所述的方法,其特征在于,所述基于每一个目标语料集各自对应的中心文本,确定每两个目标语料集之间的文本距离包括:<...
【专利技术属性】
技术研发人员:付红雷,梁欣欣,井玉欣,
申请(专利权)人:普信恒业科技发展北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。