The present invention relates to a data classification method and device, wherein the method comprises the following steps: first, extract the corpus contains testimony from gender specific corpus database; the first corpus for gender classification; according to the classification mark command is received, the gender classification mark of the corpus database in second corpora which. The second corpus is different from the first use of labeled corpus; the second corpora and libshortext) algorithm for training, get the gender classification model; using the gender classification model for gender classification of the third except the first and the second corpus corpus the corpus database is expected to have sex the classification results of the corresponding corpus. Through this technique, we can improve the efficiency of corpus classification and reduce the user's operation, thus enhancing the user's experience.
【技术实现步骤摘要】
语料分类方法及装置
本专利技术涉及语音分类
,尤其涉及一种语料分类方法及装置。
技术介绍
目前,如果需要对语料库中的语料进行分类,需要人工进行标注,这样,在语料库中的语料较多时,用户操作时间则会很久,用户体验不佳。
技术实现思路
本专利技术实施例提供一种语料分类方法及装置,用以实现在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。根据本专利技术实施例的第一方面,提供一种语料分类方法,包括:从语料数据库中提取出包含性别特证词的第一语料;将所述第一语料进行性别分类;根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;利用标记后的所述第二语料和libshortext(支持向量机短分类)算法进行训练,得到性别分类模型;使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果。在该实施例中,通过上述训练方法得到的性别分类模型,其特征词和分类算法的选择都与性别有关,具有性别的一致性,并且,通过这种方法对语料数据库进行性别分类,在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。在一个实施例中,所述利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型,包括:根据文本向量化算法将所述第二语料中的每个语料数据进行向量转化,得到第一向量数据;根据预设性别特征词将所述第二语料中的每个语料数据进行向量转化,得到第二向量数据;根据PLDA(并行隐 ...
【技术保护点】
一种语料分类方法,其特征在于,包括:从语料数据库中提取出包含性别特证词的第一语料;将所述第一语料进行性别分类;根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型;使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果。
【技术特征摘要】
1.一种语料分类方法,其特征在于,包括:从语料数据库中提取出包含性别特证词的第一语料;将所述第一语料进行性别分类;根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型;使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果。2.根据权利要求1所述的方法,其特征在于,所述利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型,包括:根据文本向量化算法将所述第二语料中的每个语料数据进行向量转化,得到第一向量数据;根据预设性别特征词将所述第二语料中的每个语料数据进行向量转化,得到第二向量数据;根据PLDA算法模型将所述第二语料中的每个语料数据进行向量转化,得到第三向量数据;将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据;将所述第四向量数据作为所述libshortext算法的输入向量,使用所述libshortext算法进行训练,得到所述性别分类模型。3.根据权利要求2所述的方法,其特征在于,所述将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据,包括:分别将所述第一向量数据、所述第二向量数据和所述第三向量数据中同一语料数据对应的向量数据进行拼接,得到所述第四向量数据。4.根据权利要求2所述的方法,其特征在于,所述使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果,包括:根据文本向量化算法将所述第三语料中的每个语料数据进行向量转化,得到第五向量数据;根据预设性别特征词将所述第三语料中的每个语料数据进行向量转化,得到第六向量数据;根据所述PLDA算法模型将所述第三语料中的每个语料数据进行向量转化,得到第七向量数据;将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据;利用所述性别分类模型对所述第八向量数据进行分类,以得到所述语料数据库对应的性别分类结果。5.根据权利要求4所述的方法,其特征在于,所述将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据,包括:分别将所述第五向量数据、所述第六向量数据和所述第七向量数据中同一语料数据对应的向量数据进行拼...
【专利技术属性】
技术研发人员:张勇,
申请(专利权)人:北京云知声信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。