语料扩充方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:24251580 阅读:31 留言:0更新日期:2020-05-22 23:35
本申请涉及一种语料扩充方法、装置、计算机设备和存储介质。所述方法包括:获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;获取未标注语料集合中未标注语料对应的第二特征表达,及所述未标注语料属于所述目标类别的可信度;根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度;当所述相似度大于相似度阈值时,将所述未标注语料保存至所述标注语料集合。采用本方法可以实现标注语料的自动添加,提高语料扩充的效率。

Corpus expansion methods, devices, computer equipment and storage media

【技术实现步骤摘要】
语料扩充方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种语料扩充方法、装置、计算机设备和计算机可读存储介质。
技术介绍
随着计算机技术的快速发展,自然语言处理技术的应用越来越广泛。目前,自然语言处理技术主要应用于语音交互、问答系统、聊天机器人、设备控制等场景。为了提高自然语言处理的准确性,通常需要采用大量的标注语料训练文本分类模型,以使训练的文本分类模型可以根据输入文本输出准确的语义理解分类。然而,标注语料需要花费大量的人工精力进行筛选和标注,存在语料扩充效率低下的问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提供语料扩充效率的语料扩充方法、装置、计算机设备和计算机可读存储介质。一种语料扩充方法,所述方法包括:获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;获取未标注语料集合中未标注语料对应的第二特征表达,及所述未标注语料属于所述目标类别的可信度;根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度;当所述相似度大于相似度阈值时,将所述未标注语料保存至所述标注语料集合。在其中一个实施例中,所述根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度,还包括:获取所述第一特征表达和所述第二特征表达之间的距离值;根据所述可信度对所述距离值进行加权处理,得到所述未标注语料与标注语料之间的相似度。在其中一个实施例中,所述获取所述未标注语料属于所述目标类别的可信度,包括:将所述未标注语料输入文本分类模型,获取输出的分类向量;所述分类向量包含所述未标注语料属于不同的类别的可信度;从所述分类向量中获取所述目标类别对应的可信度。在其中一个实施例中,所述根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度之前,还包括:确定所述可信度是否大于可信度阈值;当所述可信度超过所述可信度阈值时,则执行所述根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度的操作。在其中一个实施例中,所述获取未标注语料集合中未标注语料对应的第二特征表达,包括:对所述未标注语料进行固定特征识别,得到所述未标注语料的固定特征表达;对所述未标注语料进行动态特征识别,得到所述未标注语料的动态特征表达;拼接所述固定特征表达与所述动态特征表达,得到所述未标注语料对应的第二特征表达。在其中一个实施例中,还包括:获取对话日志,所述对话日志包括问题语句和答复语句;将所述答复语句转换为标准语句;将所述问题语句与所述标准语句作为未标注语料保存至所述未标注语料集合。在其中一个实施例中,所述将所述问题语句与所述标准语句作为未标注语料保存至所述未标注语料集合,还包括:剔除所述对话日志中包含的词语数量小于数量阈值的问题语句;将剔除后不存在于所述未标注语料集合的问题语句与所述标准语句,保存至所述未标注语料集合。在其中一个实施例中,所述将所述未标注语料保存至所述标注语料集合,包括:将所述未标注语料按照所述目标类别保存至所述标注语料集合。一种语料扩充装置,所述装置包括:第一获取模块,用于获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;第二获取模块,用于获取未标注语料集合中未标注语料对应的第二特征表达,及所述未标注语料属于所述目标类别的可信度;相似度确定模块,用于根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度;保存模块,用于当所述相似度大于相似度阈值时,将所述未标注语料保存至所述标注语料集合。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;获取未标注语料集合中未标注语料对应的第二特征表达,及所述未标注语料属于所述目标类别的可信度;根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度;当所述相似度大于相似度阈值时,将所述未标注语料保存至所述标注语料集合。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;获取未标注语料集合中未标注语料对应的第二特征表达,及所述未标注语料属于所述目标类别的可信度;根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度;当所述相似度大于相似度阈值时,将所述未标注语料保存至所述标注语料集合。上述语料扩充方法、装置、计算机设备和计算机可读存储介质,通过获取语料标注集合中标注语料对应的第一特征表达及所属的目标类别、未标注语料对应的第二特征表达及属于目标类别的可信度,根据可信度、第一特征表达和第二特征表达确定未标注语料与标注语料之间的相似度,将相似度大于相似度阈值的未标注语料保存至标注语料集合,可以实现标注语料的自动添加,提高语料扩充的效率。附图说明图1为一个实施例中计算机设备的内部结构示意图;图2为一个实施例中语料扩充方法的流程图;图3为一个实施例中获取未标注语料的特征表达的流程图;图4为一个实施例中保存未标注语料的流程图;图5为一个实施例中语料扩充装置的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。图1为一个实施例中计算机设备的内部结构示意图。如图1所示,在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器或终端,其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语料扩充数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语料扩充方法。图2为一个实施例中语料扩充方法的流程图。在一个实施例中,如图2所示,提供了一种语料扩充方法,以该方法应用于图1中的计算机设备为例进行说明,包括以下步骤:步骤202,获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别。标注语料集合保存有标注语料。标注语料是指标注有所属类别的语料。计算机设备可以获取标注语料及所属的目标类本文档来自技高网...

【技术保护点】
1.一种语料扩充方法,所述方法包括:/n获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;/n获取未标注语料集合中未标注语料对应的第二特征表达,及所述未标注语料属于所述目标类别的可信度;/n根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度;/n当所述相似度大于相似度阈值时,将所述未标注语料保存至所述标注语料集合。/n

【技术特征摘要】
1.一种语料扩充方法,所述方法包括:
获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;
获取未标注语料集合中未标注语料对应的第二特征表达,及所述未标注语料属于所述目标类别的可信度;
根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度;
当所述相似度大于相似度阈值时,将所述未标注语料保存至所述标注语料集合。


2.根据权利要求1所述的方法,其特征在于,所述根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度,包括:
获取所述第一特征表达和所述第二特征表达之间的距离值;
根据所述可信度对所述距离值进行加权处理,得到所述未标注语料与标注语料之间的相似度。


3.根据权利要求1所述的方法,其特征在于,所述获取所述未标注语料属于所述目标类别的可信度,包括:
将所述未标注语料输入文本分类模型,获取输出的分类向量;所述分类向量包含所述未标注语料属于不同的类别的可信度;
从所述分类向量中获取所述目标类别对应的可信度。


4.根据权利要求1所述的方法,其特征在于,所述根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度之前,还包括:
确定所述可信度是否大于可信度阈值;
当所述可信度超过所述可信度阈值时,则执行所述根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度的操作。


5.根据权利要求1所述的方法,其特征在于,所述获取未标注语料集合中未标注语料对应的第二特征表达,包括:
对所述未标注语料进行固定特征识别,得到所述未标注语料的固定特征表达;
对所述未标注语料进行动态特征识别,得到所述未标注语料的动态特征表达;
拼接所述固定特征表...

【专利技术属性】
技术研发人员:张文泽
申请(专利权)人:深圳追一科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1