语料分类方法及装置制造方法及图纸

技术编号:15507861 阅读:42 留言:0更新日期:2017-06-04 02:22
本发明专利技术是关于一种语料分类方法及装置,其中,方法包括:从语料数据库中提取出包含性别特证词的第一语料;将所述第一语料进行性别分类;根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;利用标记后的所述第二语料和libshortext)算法进行训练,得到性别分类模型;使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果。通过该技术方案,可以在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。

Data classification method and apparatus

The present invention relates to a data classification method and device, wherein the method comprises the following steps: first, extract the corpus contains testimony from gender specific corpus database; the first corpus for gender classification; according to the classification mark command is received, the gender classification mark of the corpus database in second corpora which. The second corpus is different from the first use of labeled corpus; the second corpora and libshortext) algorithm for training, get the gender classification model; using the gender classification model for gender classification of the third except the first and the second corpus corpus the corpus database is expected to have sex the classification results of the corresponding corpus. Through this technique, we can improve the efficiency of corpus classification and reduce the user's operation, thus enhancing the user's experience.

【技术实现步骤摘要】
语料分类方法及装置
本专利技术涉及语音分类
,尤其涉及一种语料分类方法及装置。
技术介绍
目前,如果需要对语料库中的语料进行分类,需要人工进行标注,这样,在语料库中的语料较多时,用户操作时间则会很久,用户体验不佳。
技术实现思路
本专利技术实施例提供一种语料分类方法及装置,用以实现在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。根据本专利技术实施例的第一方面,提供一种语料分类方法,包括:从语料数据库中提取出包含性别特证词的第一语料;将所述第一语料进行性别分类;根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;利用标记后的所述第二语料和libshortext(支持向量机短分类)算法进行训练,得到性别分类模型;使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果。在该实施例中,通过上述训练方法得到的性别分类模型,其特征词和分类算法的选择都与性别有关,具有性别的一致性,并且,通过这种方法对语料数据库进行性别分类,在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。在一个实施例中,所述利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型,包括:根据文本向量化算法将所述第二语料中的每个语料数据进行向量转化,得到第一向量数据;根据预设性别特征词将所述第二语料中的每个语料数据进行向量转化,得到第二向量数据;根据PLDA(并行隐含狄利克雷分布)算法将所述第二语料中的每个语料数据进行向量转化,得到第三向量数据;将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据;将所述第四向量数据作为所述libshortext算法的输入向量,使用所述libshortext算法进行训练,得到所述性别分类模型。在该实施例中,将第二语料分别采用文本向量化算法、按照预设性别特征词和采用PLDA算法模型进行向量转化,并将三个转化后得到的向量数据进行拼接,将拼接后得到的向量数据作为libshortext算法的输入向量,进而得到性别分类模型,这样,可以使得得到的性别分类模型在进行语料分类时,分类准确性较高。在一个实施例中,所述将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据,包括:分别将所述第一向量数据、所述第二向量数据和所述第三向量数据中同一语料数据对应的向量数据进行拼接,得到所述第四向量数据。在该实施例中,每一个语料数据对应一个第一向量数据、一个第二向量数据和一个第三向量数据,将这三个向量数据进行拼接即得到第四向量数据。在一个实施例中,所述使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果,包括:根据文本向量化算法将所述第三语料中的每个语料数据进行向量转化,得到第五向量数据;根据预设性别特征词将所述第三语料中的每个语料数据进行向量转化,得到第六向量数据;根据PLDA算法模型将所述第三语料中的每个语料数据进行向量转化,得到第七向量数据;将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据;利用所述性别分类模型对所述第八向量数据进行分类,以得到所述语料数据库对应的性别分类结果。在该实施例中,在训练得到性别分类模型后,即可通过性别分类模型对语料数据库中未进行分类的剩余语料进行分类。这样,通过性别分类模型对语料进行性别分类,可以在保证语料分类的准确率的基础上,提高语料分类的效率,减少用户操作,从而提升用户的使用体验。在一个实施例中,所述将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据,包括:分别将所述第五向量数据、所述第六向量数据和所述第七向量数据中同一语料数据对应的向量数据进行拼接,得到所述第八向量数据。根据本专利技术实施例的第二方面,提供一种语料分类装置,包括:提取模块,用于从语料数据库中提取出包含性别特证词的第一语料;第一分类模块,用于将所述第一语料进行性别分类;标记模块,用于根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;训练模块,用于利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型;第二分类模块,用于使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果。在一个实施例中,所述训练模块包括:第一转化子模块,用于根据文本向量化算法将所述第二语料中的每个语料数据进行向量转化,得到第一向量数据;第二转化子模块,用于根据预设性别特征词将所述第二语料中的每个语料数据进行向量转化,得到第二向量数据;第三转化子模块,用于根据PLDA算法模型将所述第二语料中的每个语料数据进行向量转化,得到第三向量数据;第一拼接子模块,用于将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据;第一训练子模块,用于将所述第四向量数据作为所述libshortext算法的输入向量,使用所述libshortext算法进行训练,得到所述性别分类模型。在一个实施例中,所述第一拼接子模块用于:分别将所述第一向量数据、所述第二向量数据和所述第三向量数据中同一语料数据对应的向量数据进行拼接,得到所述第四向量数据。在一个实施例中,所述第二分类模块包括:第四转化子模块,用于根据文本向量化算法将所述第三语料中的每个语料数据进行向量转化,得到第五向量数据;第五转化子模块,用于根据预设性别特征词将所述第三语料中的每个语料数据进行向量转化,得到第六向量数据;第六转化子模块,用于根据PLDA算法模型将所述第三语料中的每个语料数据进行向量转化,得到第七向量数据;第二拼接子模块,用于将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据;第二分类子模块,用于利用所述性别分类模型对所述第八向量数据进行分类,以得到所述语料数据库对应的性别分类结果。在一个实施例中,所述第二拼接子模块用于:分别将所述第五向量数据、所述第六向量数据和所述第七向量数据中同一语料数据对应的向量数据进行拼接,得到所述第八向量数据。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1是根据一示例性实施例示出的一种语料分类方法的流程图。图2是根据一示例性实施例示出的另一种语料分类方法的流程图。图3是根据一示例性实施例示出的又一种语料分类方法的流程图。图4是根据一示例性实施例示出的本文档来自技高网...
语料分类方法及装置

【技术保护点】
一种语料分类方法,其特征在于,包括:从语料数据库中提取出包含性别特证词的第一语料;将所述第一语料进行性别分类;根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型;使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果。

【技术特征摘要】
1.一种语料分类方法,其特征在于,包括:从语料数据库中提取出包含性别特证词的第一语料;将所述第一语料进行性别分类;根据接收到的分类标记命令,对所述语料数据库中的第二语料进行性别分类标记,其中,所述第二语料不同于所述第一语料;利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型;使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果。2.根据权利要求1所述的方法,其特征在于,所述利用标记后的所述第二语料和libshortext算法进行训练,得到性别分类模型,包括:根据文本向量化算法将所述第二语料中的每个语料数据进行向量转化,得到第一向量数据;根据预设性别特征词将所述第二语料中的每个语料数据进行向量转化,得到第二向量数据;根据PLDA算法模型将所述第二语料中的每个语料数据进行向量转化,得到第三向量数据;将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据;将所述第四向量数据作为所述libshortext算法的输入向量,使用所述libshortext算法进行训练,得到所述性别分类模型。3.根据权利要求2所述的方法,其特征在于,所述将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接,得到第四向量数据,包括:分别将所述第一向量数据、所述第二向量数据和所述第三向量数据中同一语料数据对应的向量数据进行拼接,得到所述第四向量数据。4.根据权利要求2所述的方法,其特征在于,所述使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类,以得到所述语料数据库对应的性别分类结果,包括:根据文本向量化算法将所述第三语料中的每个语料数据进行向量转化,得到第五向量数据;根据预设性别特征词将所述第三语料中的每个语料数据进行向量转化,得到第六向量数据;根据所述PLDA算法模型将所述第三语料中的每个语料数据进行向量转化,得到第七向量数据;将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据;利用所述性别分类模型对所述第八向量数据进行分类,以得到所述语料数据库对应的性别分类结果。5.根据权利要求4所述的方法,其特征在于,所述将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接,得到第八向量数据,包括:分别将所述第五向量数据、所述第六向量数据和所述第七向量数据中同一语料数据对应的向量数据进行拼...

【专利技术属性】
技术研发人员:张勇
申请(专利权)人:北京云知声信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1