【技术实现步骤摘要】
本公开涉及文本筛选,特别涉及一种最少口型文本的筛选方法、装置、设备和存储介质。
技术介绍
1、在对虚拟人像的口型识别进行训练时,训练数据的采集具有重要的意义。如果能够采集到最少的训练文本,这些训练文本又能够覆盖所有的口型,既能节约大量的数据采集时间,同时能够大幅度提高口型识别的训练速度。
2、现有口型识别的训练数据的采集,通常是通过暴力检索的方式进行查找,算法复杂度较高,训练数据筛选所需的时间也较长。
技术实现思路
1、本公开目的在于:提供了一种最少口型文本的筛选方法、装置、设备和存储介质,其能够快速从待选语料中筛选到口型最全、数据量最少的音节口型文本。
2、为达上述目的,本公开采用以下技术方案:一种最少口型文本的筛选方法,包括:
3、获取待选语料和预定义口型词袋,所述待选语料包括多个待选文本,所述预定义口型词袋包含预设数量个发音口型,所述预定义口型词袋表征当前次需要收集的发音口型的集合;
4、分别获取各所述待选文本各自对应的所有相似音节口型
5、本文档来自技高网...
【技术保护点】
1.一种最少口型文本的筛选方法,其特征在于,包括:
2.根据权利要求1所述的最少音节口型文本的筛选方法,其特征在于,所述遍历各所述待选文本,逐次从各所述待选文本中筛选出被包含于所述预定义口型词袋的所述相似音节口型的数量最大的音节口型文本,并在每次选出一个所述音节口型文本时,从所述预定义口型词袋中剔除与所述音节口型文本的各所述相似音节口型对应的所述发音口型,直至所述预定义口型词袋剩余的所述发音口型的数量小于数量阈值的步骤,包括:
3.根据权利要求1所述的最少口型文本的筛选方法,其特征在于,所述分别获取各所述待选文本各自对应的所有相似音节口型的步骤
...【技术特征摘要】
1.一种最少口型文本的筛选方法,其特征在于,包括:
2.根据权利要求1所述的最少音节口型文本的筛选方法,其特征在于,所述遍历各所述待选文本,逐次从各所述待选文本中筛选出被包含于所述预定义口型词袋的所述相似音节口型的数量最大的音节口型文本,并在每次选出一个所述音节口型文本时,从所述预定义口型词袋中剔除与所述音节口型文本的各所述相似音节口型对应的所述发音口型,直至所述预定义口型词袋剩余的所述发音口型的数量小于数量阈值的步骤,包括:
3.根据权利要求1所述的最少口型文本的筛选方法,其特征在于,所述分别获取各所述待选文本各自对应的所有相似音节口型的步骤之前,包括:
4.根据权利要求3所述的最少口型文本的筛选方法,其特征在于,所述根据各所述常用口型编码构建得到混淆矩阵的步骤中,两个所述常用口型编码之间的相似度的计算步骤,包括:
5.根据权利要求4所述的最少口型文本的筛选方法,其特征在于,所述第一常用口型编...
【专利技术属性】
技术研发人员:李贤,张玉兵,王乃洲,
申请(专利权)人:广州视源电子科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。