一种语料分类方法、装置及服务器制造方法及图纸

技术编号:26478738 阅读:26 留言:0更新日期:2020-11-25 19:22
本发明专利技术提供了一种语料分类方法、装置及服务器,该方法包括:获取多个目标语料集;确定每两个目标语料集之间的语料距离,语料距离表征两个不同目标语料集之间的语义相似度;将语料距离符合预设距离条件的两个目标语料集执行合并操作,得到合并后的语料集;将合并后的语料集以及未执行合并操作的目标语料集均作为新的目标语料集,返回执行所述确定每两个目标语料集之间的语料距离的步骤,直到满足预设分类终止条件时终止操作,得到语料分类结果。本发明专利技术通过循环执行将语料距离符合预设距离条件的两个目标语料集进行合并的操作,实现了依据语料距离对语料进行自动、快速分类的目的,提高了语料分类效率。

【技术实现步骤摘要】
一种语料分类方法、装置及服务器
本专利技术涉及自然语言处理
,更具体的说,是涉及一种语料分类方法、装置及服务器。
技术介绍
人机对话系统目前已经广泛应用于客服、电销以及催收等领域,在人机对话处理过程中,机器在接收到用户的语音之后,会将用户的语音转换成文本,然后对转换成的文本进行意图分析,确定用户的意图,最后从自身保存的语料集合中筛选出与用户意图对应的语料,将与用户意图对应的语料转化成语音输出,从而实现人机对话。目前针对人机对话系统所需的语料都是采用人工的方式进行分类,而人工分类方式明显存在着效率低的问题。
技术实现思路
有鉴于此,本专利技术提供了一种语料分类方法、装置及服务器,以克服现有技术中人工分类方式存在的效率低的问题。为实现上述目的,本专利技术提供如下技术方案:一种语料分类方法,所述方法包括:获取多个目标语料集;确定每两个目标语料集之间的语料距离,所述语料距离表征两个不同目标语料集之间的语义相似度;将语料距离符合预设距离条件的两个目标语料集执行合并操作,得到合并后的语料集;将合并后的语料集以及未执行合并操作的目标语料集均作为新的目标语料集,返回执行所述确定每两个目标语料集之间的语料距离的步骤,直到满足预设分类终止条件时终止操作,得到语料分类结果。优选的,所述确定每两个目标语料集之间的语料距离包括:确定每一个目标语料集各自对应的中心文本以及中心语义向量;基于每一个目标语料集各自对应的中心文本以及中心语义向量,确定每两个目标语料集之间的语料距离。优选的,所述确定每一个目标语料集各自对应的中心文本包括:确定每一个目标语料集中各自包含的所有目标语料中文本长度最长的目标语料;将确定的每一个目标语料集各自对应的文本长度最长的目标语料,作为每一个目标语料集各自对应的中心文本。优选的,所述确定每一个目标语料集各自对应的中心语义向量包括:对每一个目标语料集中各自包含的每一个目标语料对应的语义向量做平均运算,得到每一个目标语料集各自对应的平均语义向量;将所述每一个目标语料集各自对应的平均语义向量作为每一个目标语料集各自对应的中心语义向量。优选的,所述基于每一个目标语料集各自对应的中心文本以及中心语义向量,确定每两个目标语料集之间的语料距离包括:基于每一个目标语料集各自对应的中心文本,确定每两个目标语料集之间的文本距离;基于每一个目标语料集各自对应的中心语义向量,确定每两个目标语料集之间的向量距离;基于每两个目标语料集之间的文本距离以及向量距离,确定每两个目标语料集之间的语料距离。优选的,所述基于每一个目标语料集各自对应的中心文本,确定每两个目标语料集之间的文本距离包括:基于每一个目标语料集各自对应的中心文本,确定每两个目标语料集对应的公共最长子序列的长度;基于每一个目标语料集各自对应的中心文本,确定所述每两个目标语料集各自对应的中心文本的文本字数;基于所述每两个目标语料集对应的公共最长子序列的长度、所述每两个目标语料集各自对应的中心文本的文本字数,确定每两个目标语料集之间的文本距离。优选的,所述基于每一个目标语料集各自对应的中心语义向量,确定每两个目标语料集之间的向量距离包括:基于每一个目标语料集各自对应的中心语义向量,确定每两个目标语料集对应的中心语义向量点积;基于每一个目标语料集各自对应的中心语义向量,确定所述每两个目标语料集对应的中心语义向量n阶范数乘积,n大于或等于1;基于每两个目标语料集对应的中心语义向量点积,以及每两个目标语料集对应的中心语义向量n阶范数乘积,确定每两个目标语料集之间的向量距离。优选的,所述基于每两个目标语料集之间的文本距离以及向量距离,确定每两个目标语料集之间的语料距离包括:将每两个目标语料集之间的文本距离以及向量距离中数值小的一个作为每两个目标语料集之间的语料距离。一种语料分类装置,所述装置包括:目标语料集获取单元,用于获取多个目标语料集;合并单元,用于确定每两个目标语料集之间的语料距离,所述语料距离表征两个不同目标语料集之间的语义相似度;将语料距离符合预设距离条件的两个目标语料集执行合并操作,得到合并后的语料集;将合并后的语料集以及未执行合并操作的目标语料集均作为新的目标语料集,返回执行所述确定每两个目标语料集之间的语料距离的步骤,直到满足预设分类终止条件时终止操作,得到语料分类结果。一种服务器,包括:存储器和处理器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器中存储的计算机程序;所述计算机程序用于执行如上所述的语料分类方法。经由上述技术方案可知,与现有技术相比,本专利技术提供了一种语料分类方法、装置及服务器,该方法包括:获取多个目标语料集;确定每两个目标语料集之间的语料距离,语料距离表征两个不同目标语料集之间的语义相似度;将语料距离符合预设距离条件的两个目标语料集执行合并操作,得到合并后的语料集;将合并后的语料集以及未执行合并操作的目标语料集均作为新的目标语料集,返回执行所述确定每两个目标语料集之间的语料距离的步骤,直到满足预设分类终止条件时终止操作,得到语料分类结果。本专利技术通过循环执行将语料距离符合预设距离条件的两个目标语料集进行合并的操作,实现了依据语料距离对语料进行自动、快速分类的目的,提高了语料分类效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例提供的一种语料分类方法的流程图;图2为本专利技术实施例提供的一种确定每两个目标语料集之间的语料距离的方法流程图;图3为本专利技术实施例提供的一种基于每一个目标语料集各自对应的中心文本以及中心语义向量,确定每两个目标语料集之间的语料距离方法流程图;图4为本专利技术实施例提供的语料分类装置的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。人机对话系统目前已经广泛应用于客服、电销以及催收等领域,在人机对话处理过程中,机器在接收到用户的语音之后,会先通过语音识别技术将用户的语音转换成文本,然后通过自然语言处理技术对转换成的文本进行意图分析,确定用户的意图,最后从当前对话状态跳转到下一个对话状态,从自身保存的语料集合中筛选出与用户意图对应的语料,将与用户意图对应的语料转化成作为对用户进行应答的语音返回给用户,从而实现人机对话,最本文档来自技高网...

【技术保护点】
1.一种语料分类方法,其特征在于,所述方法包括:/n获取多个目标语料集;/n确定每两个目标语料集之间的语料距离,所述语料距离表征两个不同目标语料集之间的语义相似度;/n将语料距离符合预设距离条件的两个目标语料集执行合并操作,得到合并后的语料集;/n将合并后的语料集以及未执行合并操作的目标语料集均作为新的目标语料集,返回执行所述确定每两个目标语料集之间的语料距离的步骤,直到满足预设分类终止条件时终止操作,得到语料分类结果。/n

【技术特征摘要】
1.一种语料分类方法,其特征在于,所述方法包括:
获取多个目标语料集;
确定每两个目标语料集之间的语料距离,所述语料距离表征两个不同目标语料集之间的语义相似度;
将语料距离符合预设距离条件的两个目标语料集执行合并操作,得到合并后的语料集;
将合并后的语料集以及未执行合并操作的目标语料集均作为新的目标语料集,返回执行所述确定每两个目标语料集之间的语料距离的步骤,直到满足预设分类终止条件时终止操作,得到语料分类结果。


2.根据权利要求1所述的方法,其特征在于,所述确定每两个目标语料集之间的语料距离包括:
确定每一个目标语料集各自对应的中心文本以及中心语义向量;
基于每一个目标语料集各自对应的中心文本以及中心语义向量,确定每两个目标语料集之间的语料距离。


3.根据权利要求2所述的方法,其特征在于,所述确定每一个目标语料集各自对应的中心文本包括:
确定每一个目标语料集中各自包含的所有目标语料中文本长度最长的目标语料;
将确定的每一个目标语料集各自对应的文本长度最长的目标语料,作为每一个目标语料集各自对应的中心文本。


4.根据权利要求2所述的方法,其特征在于,所述确定每一个目标语料集各自对应的中心语义向量包括:
对每一个目标语料集中各自包含的每一个目标语料对应的语义向量做平均运算,得到每一个目标语料集各自对应的平均语义向量;
将所述每一个目标语料集各自对应的平均语义向量作为每一个目标语料集各自对应的中心语义向量。


5.根据权利要求2所述的方法,其特征在于,所述基于每一个目标语料集各自对应的中心文本以及中心语义向量,确定每两个目标语料集之间的语料距离包括:
基于每一个目标语料集各自对应的中心文本,确定每两个目标语料集之间的文本距离;
基于每一个目标语料集各自对应的中心语义向量,确定每两个目标语料集之间的向量距离;
基于每两个目标语料集之间的文本距离以及向量距离,确定每两个目标语料集之间的语料距离。


6.根据权利要求5所述的方法,其特征在于,所述基于每一个目标语料集各自对应的中心文本,确定每两个目标语料集之间的文本距离包括:<...

【专利技术属性】
技术研发人员:付红雷梁欣欣井玉欣
申请(专利权)人:普信恒业科技发展北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1