This invention discloses a training method of target domain classifier, sample recognition method, terminal and storage medium. In view of the problem of creating a high cost of the existing classifier, the training method of the target domain classifier is provided. At least two iterations are classified by the training data, and the classification is processed according to each iteration. The classification result adjusts the data classification weight vectors of each sample in training data. After the N iterations are processed, the classification weight vectors of various cases can match the actual data distribution in the target domain. The invention also provides a sample recognition method, a terminal and a storage medium, which uses the same characteristics of the source sample in the target domain and the sample data to be identified, and creates a classifier which belongs to the target domain in combination with a large number of labeled auxiliary sample data in the source domain, and classifies unlabeled samples in the target domain. The number of source samples in target domain is not high, easy to implement and low in cost.
【技术实现步骤摘要】
目标域分类器训练方法、样本识别方法、终端及存储介质
本专利技术涉及计算机领域,更具体地说,涉及一种目标域分类器训练方法、样本识别方法、终端及存储介质。
技术介绍
语音识别领域当中,庞大、全面的语音数据库是准确识别的基础,若期望实现对某种语言的语音识别,则需要针对该语言均建立语音数据库。不过全球目前已查明的语言有5651种,若要针对每一种语言建立一个全面的数据库,则成本代价是首先需要考虑的问题。即便仅针对使用最为广泛的汉语建立数据库也是非常困难的,因为不同地区存在发音不同的问题:对于某些词语,可能仅仅是在不同大区之间存在不同发音,例如西南片区和东南沿海片区的发音不同;但有一些词或字,不同县级区域的发音不同;甚至在一些情况下,不同村镇对同样的词或字的发音都是不同的。在这种情况下,若针对每一个村落均建立语音数据路,基本是不可能实现的。在传统的机器学习中,要求处理的数据属于同一分布,也就是训练数据和测试数据来自同一数据集。以语音识别为例,若A和B来自语言习惯类似的地区,则将A的语音信号进行特征提取得到的数据作为训练数据,对训练数据进行训练得到分类器后,可以对B的语音信号进 ...
【技术保护点】
一种目标域分类器训练方法,其特征在于,所述目标域分类器训练方法包括:对训练样例进行特征提取得到训练数据,所述训练数据包括来自源域的辅助样例数据和来自目标域的源样例数据;对所述训练数据进行多次迭代分类训练得到适用于对所述目标域中测试样例进行分类的分类器;所述迭代分类训练包括:获取所述训练数据中各样例数据的分类权重向量;根据各样例的分类权重向量对所述训练数据中的样例数据进行分类处理;根据分类结果对所述训练数据中各样例数据的分类权重向量进行调整。
【技术特征摘要】
1.一种目标域分类器训练方法,其特征在于,所述目标域分类器训练方法包括:对训练样例进行特征提取得到训练数据,所述训练数据包括来自源域的辅助样例数据和来自目标域的源样例数据;对所述训练数据进行多次迭代分类训练得到适用于对所述目标域中测试样例进行分类的分类器;所述迭代分类训练包括:获取所述训练数据中各样例数据的分类权重向量;根据各样例的分类权重向量对所述训练数据中的样例数据进行分类处理;根据分类结果对所述训练数据中各样例数据的分类权重向量进行调整。2.如权利要求1所述的目标域分类器训练方法,其特征在于,所述根据分类结果对所述训练数据中各样例数据的分类权重向量进行调整包括:若所述训练数据中的某一辅助样例数据分类错误,则降低所述辅助样例数据的分类权重向量;若所述训练数据中的某一源样例数据分类错误,则提升所述源样例数据的分类权重向量。3.如权利要求2所述的目标域分类器训练方法,其特征在于,所述降低所述辅助样例数据的分类权重向量之前,还包括:基于辅助样例数据的数目计算用于对分类错误的辅助样例数据进行分类权重降低的降低调整率;所述提升所述源样例数据的分类权重向量之前,还包括:计算在当前的分类权重向量下,所述训练数据中源样例数据分类错误的错误率;基于所述错误率计算用于对分类错误的源样例数据进行分类权重提升的提升调整率。4.如权利要求3所述的目标域分类器训练方法,其特征在于,所述基于所述错误率计算用于对分类错误的源样例数据进行分类权重提升的提升调整率之前,还包括:根据所述错误率计算当前的错误计算值;根据所述错误计算值采用根据以下公式计算所述提升调整率:所述βt为提升调整率,所述t为当前迭代分类训练的次数,所述∈t为第t...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。