样本确认方法和装置及系统制造方法及图纸

技术编号:15437226 阅读:134 留言:0更新日期:2017-05-25 19:24
本申请提出一种样本确认方法和装置及系统,该方法包括:获取待确认样本集合中每个待确认样本的置信度;确定待确认样本集合中每个待确认样本的相似样本;根据所述相似样本对每个待确认样本的置信度进行修正,得到每个待确认样本的修正后的置信度;根据每个待确认样本的修正后的置信度对每个待确认样本进行确认。该方法能够提高样本确认的准确度,进而提高应用效果。

Sample confirmation method, device and system

The invention provides a sample confirmation method and device and system, the method includes: obtaining the sample to be confirmed to be confirmed in each set of sample confidence; to determine the samples identified in each set to be confirmed similar samples for each sample to be confirmed; similar confidence is modified according to the samples, each stay confirm the sample confidence after correction; according to each pending confirmation of confidence for each sample to confirm the sample to be confirmed after correction. This method can improve the accuracy of sample confirmation and improve the application effect.

【技术实现步骤摘要】
样本确认方法和装置及系统
本申请涉及自然语言处理
,尤其涉及一种样本确认方法和装置及系统。
技术介绍
随着人工智能技术的日益成熟,越来越多的应用系统使用了人工智能相关技术,如关键词检索、身份认证、说话人分离、说话人性别确认等,都需要对候选样本进行最终的确认,以确认候选样本是否是目标样本,因此,样本确认的准确度直接影响最终的应用效果。相关技术中,一般直接根据待确认样本的置信度进行样本确认,具体确认时,设定置信度阈值,判断待确认样本的置信度是否超过预先设定的阈值,如果超过,则样本确认成功;否则,样本确认失败。上述方法在样本确认时,仅考虑了单一样本的信息,而待确认样本在实际应用中经常受环境或信道等外部因素的干扰,单一样本信息易发生改变,如果只考虑单一样本的信息,在样本确认时,常常会导致待确认样本被确认错误,即目标待确认样本被错误的确认为非目标样本或非目标待确认样本被错误的确认为目标样本,大大降低了样本确认的准确度,影响应用效果。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的一个目的在于提出一种样本确认方法,该方法可以提高样本确认的准确度,进而提高应用效果。本申请的另一个目的在于提出一种样本确认装置。本申请的另一个目的在于提出一种样本确认系统。为达到上述目的,本申请第一方面实施例提出的样本确认方法,包括:获取待确认样本集合中每个待确认样本的置信度;确定待确认样本集合中每个待确认样本的相似样本;根据所述相似样本对每个待确认样本的置信度进行修正,得到每个待确认样本的修正后的置信度;根据每个待确认样本的修正后的置信度对每个待确认样本进行确认。为达到上述目的,本申请第二方面实施例提出的样本确认装置,包括:获取模块,用于获取待确认样本集合中每个待确认样本的置信度;确定模块,用于确定待确认样本集合中每个待确认样本的相似样本;修正模块,用于根据所述相似样本对每个待确认样本的置信度进行修正,得到每个待确认样本的修正后的置信度;确认模块,用于根据每个待确认样本的修正后的置信度对每个待确认样本进行确认。为达到上述目的,本申请第三方面实施例提出的样本确认系统,包括:客户端,用于接收用户输入的待确认样本;服务端,用于接收客户端发送的待确认样本,获取待确认样本集合中每个待确认样本的置信度;确定待确认样本集合中每个待确认样本的相似样本;根据所述相似样本对每个待确认样本的置信度进行修正,得到每个待确认样本的修正后的置信度;根据每个待确认样本的修正后的置信度对每个待确认样本进行确认。本申请实施例,通过确定待确认样本的相似样本,并根据相似样本对待确认样本的置信度进行修正,以及根据修正后的置信度进行样本确认,可以有效提升样本确认的准确度,尤其是修正前置信度在置信度阈值附近的样本,提升效果更明显。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本申请一个实施例提出的样本确认方法的流程示意图;图2是本申请实施例中使用修正前置信度和修正后置信度分别进行样本确认的对比示意图;图3是本申请实施例中确定待确认样本的相似样本的方法的流程示意图;图4是本申请另一个实施例提出的样本确认方法的流程示意图;图5是本申请一个实施例提出的样本确认装置的结构示意图;图6是本申请另一个实施例提出的样本确认装置的结构示意图;图7是本申请一个实施例提出的样本确认系统的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1是本申请一个实施例提出的样本确认方法的流程示意图。如图1所示,本实施例的方法包括:S11:获取待确认样本集合中每个待确认样本的置信度。所述待确认样本集合为需要确认的多个候选样本组成的集合,如关键词检索时,将多个候选关键词组成待确认样本集合,以确认每个候选关键词是否是目标关键词。所述待确认样本的置信度一般根据应用需求,利用待确认样本与目标确认模型的匹配度得到,如关键词检索时,可以通过关键词训练数据构建得到关键词确认模型,依次计算待确认关键词与所述关键词确认模型的匹配度,即可得到每个待确认关键词的置信度;如说话人确认时,可以通过计算待确认说话人的语音数据与说话人确认模型的匹配度得到待确认说话人的置信度。所述置信度的计算方法可以采用包括现有技术在内的各种相关技术,本申请对所述置信度的获取方法不作限定。S12:确定待确认样本集合中每个待确认样本的相似样本。S13:根据所述相似样本的置信度对每个待确认样本的置信度进行修正,得到每个待确认样本的修正后的置信度。具体过程如下所述。S14:根据每个待确认样本的修正后的置信度对每个待确认样本进行确认。具体确认时,直接判断每个待确认样本的修正后的置信度是否大于预先设定的阈值,如果大于,则确认成功,即待确认样本为目标样本;否则,确认失败,即待确认样本不是目标样本。如图2为使用待确认样本修正后置信度进行样本确认示意图,待确认样本集合中共18个待确认样本,虚线表示待确认样本置信度阈值分界线,实心圈表示正例样本,空心圈表示负例样本,所述正例样本即置信度大于置信度阈值的待确认样本,所述负例样本即置信度小于置信度阈值的待确认样本;由于受环境等外部因素的影响,使用现有方法进行样本确认时,容易出现确认错误的待确认样本,如图2(a)中被错误确认的样本1和样本2;通过本申请所述方法,根据待确认样本的相似样本对待确认样本的置信度进行修正后,使修正后的置信度包含了更多样本的信息,如待确认样本1的置信度,同时包含了待确认样本1和它的3个相似样本的信息,采用所述修正后的置信度进行样本确认时,可以将之前确认错误的样本正确确认,从而提升样本确认的准确度;如图2(b)中,使用待确认样本修正后的置信度进行样本确认,可以将之前确认错误的样本1和样本2正确确认。下面对相似样本的确定以及置信度的修正过程进行说明。为了提高样本确认的准确性,本申请从待确认样本集合中找到每个待确认样本的相似样本;利用每个待确认样本的相似样本的置信度对每个待确认样本的置信度进行修正,使得修正后的置信度利用了每个待确认样本的相似样本的信息,具体修正方法如下所述。如图3所示,确定待确认样本集合中每个待确认样本的相似样本的方法包括:S31:计算待确认样本集合中每个待确认样本与其它待确认样本的相似度。所述相似度一般使用待确认样本之间的距离描述,如欧式距离、余弦距离,所述距离的计算方法可以参见包括现有技术在内的各种相关技术,具体计算方法不作限定。如关键词检索时,通过计算训练数据中待确认关键词与其它关键词的动态时间规整(DynamicTimeWarping,DTW)距离得到;如说话人确认时,可以通过计算说话人语音数据声纹特征之间的余弦距离得到,所述声纹特征如Ivector特征;一般情况下,样本之间的距离越小,相似度越大本文档来自技高网...
样本确认方法和装置及系统

【技术保护点】
一种样本确认方法,其特征在于,包括:获取待确认样本集合中每个待确认样本的置信度;确定待确认样本集合中每个待确认样本的相似样本;根据所述相似样本对每个待确认样本的置信度进行修正,得到每个待确认样本的修正后的置信度;根据每个待确认样本的修正后的置信度对每个待确认样本进行确认。

【技术特征摘要】
1.一种样本确认方法,其特征在于,包括:获取待确认样本集合中每个待确认样本的置信度;确定待确认样本集合中每个待确认样本的相似样本;根据所述相似样本对每个待确认样本的置信度进行修正,得到每个待确认样本的修正后的置信度;根据每个待确认样本的修正后的置信度对每个待确认样本进行确认。2.根据权利要求1所述的方法,其特征在于,所述确定待确认样本集合中每个待确认样本的相似样本,包括:计算待确认样本集合中每个待确认样本与其它待确认样本的相似度;根据每个待确认样本与其它待确认样本的相似度,确定每个待确认样本的相似样本。3.根据权利要求2所述的方法,其特征在于,所述根据每个待确认样本与其它待确认样本的相似度,确定每个待确认样本的相似样本,包括:对每个待确认样本与其它待确认样本的相似度进行规整,得到规整后的相似度;根据规整后的相似度,确定每个待确认样本的相似样本。4.根据权利要求3所述的方法,其特征在于,所述根据规整后的相似度,确定每个待确认样本的相似样本,包括:将大于预设阈值的规整后的相似度所对应的其它待确认样本,确定为每个待确认样本的相似样本;或者,对规整后的相似度按照从大到小的顺序排序,选择排序在前的预设个数的规整后的相似度,将选择的规整后的相似度所对应的其它待确认样本,确定为每个待确认的相似样本。5.根据权利要求1所述的方法,其特征在于,所述根据所述相似样本对每个待确认样本的置信度进行修正,得到每个待确认样本的修正后的置信度,包括:将每个待确认样本分别作为当前待确认样本,并对应当前待确认样本执行如下步骤:根据当前待确认样本与每个相似样本的规整后的相似度以及每个相似样本的置信度,计算当前待确认样本的所有相似样本的贡献率;对当前待确认样本的置信度和所述贡献率进行加权求和,得到当前待确认样本的修正后的置信度;其中,所述贡献率为当前待确认样本的所有相似样本的贡献度与当前待确认样本与所有相似样本的规整后的相似度和的比值,所述贡献度为当前待确认样本与每个相似样本的规整后的相似度与每个相似样本的置信度的乘积和。6.一种样本确认装置,其特征在于,包括:获取模块,用于获取待确认样本集合中每个待确认样本的置信度;确定模块,用于确定待确认样本集合中每个待确认样本的相似样本;修正模块,用于根据所述相似样本对每个待确认样本的置信度进行修正,得到每个待确认样本的...

【专利技术属性】
技术研发人员:方昕刘俊华魏思胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1