最少口型文本的筛选方法、装置、设备和存储介质制造方法及图纸

技术编号:39952306 阅读:20 留言:0更新日期:2024-01-08 23:24
本公开提供了一种最少口型文本的筛选方法、装置、设备和存储介质,先获取待选语料和预定义口型词袋,再分别获取各个待选文本各自对应的所有相似音节口型。遍历各个待选文本,逐次从各个待选文本中筛选出被包含于预定义口型词袋的相似音节口型的数量最大的音节口型文本,在每次选出一个音节口型文本时,从预定义口型词袋中剔除与音节口型文本的各个相似音节口型对应的所述发音口型,直至预定义口型词袋剩余的发音口型的数量小于数量阈值。最后,将选出的各音节口型文本作为当前次口型识别的训练数据。本公开根据各个待选文本的所有相似音节口型在预定义口型词袋中的覆盖率进行逐级降序筛选,快速筛选到口型覆盖率最高、数量最少的音节口型文本。

【技术实现步骤摘要】

本公开涉及文本筛选,特别涉及一种最少口型文本的筛选方法、装置、设备和存储介质


技术介绍

1、在对虚拟人像的口型识别进行训练时,训练数据的采集具有重要的意义。如果能够采集到最少的训练文本,这些训练文本又能够覆盖所有的口型,既能节约大量的数据采集时间,同时能够大幅度提高口型识别的训练速度。

2、现有口型识别的训练数据的采集,通常是通过暴力检索的方式进行查找,算法复杂度较高,训练数据筛选所需的时间也较长。


技术实现思路

1、本公开目的在于:提供了一种最少口型文本的筛选方法、装置、设备和存储介质,其能够快速从待选语料中筛选到口型最全、数据量最少的音节口型文本。

2、为达上述目的,本公开采用以下技术方案:一种最少口型文本的筛选方法,包括:

3、获取待选语料和预定义口型词袋,所述待选语料包括多个待选文本,所述预定义口型词袋包含预设数量个发音口型,所述预定义口型词袋表征当前次需要收集的发音口型的集合;

4、分别获取各所述待选文本各自对应的所有相似音节口型

5、本文档来自技高网...

【技术保护点】

1.一种最少口型文本的筛选方法,其特征在于,包括:

2.根据权利要求1所述的最少音节口型文本的筛选方法,其特征在于,所述遍历各所述待选文本,逐次从各所述待选文本中筛选出被包含于所述预定义口型词袋的所述相似音节口型的数量最大的音节口型文本,并在每次选出一个所述音节口型文本时,从所述预定义口型词袋中剔除与所述音节口型文本的各所述相似音节口型对应的所述发音口型,直至所述预定义口型词袋剩余的所述发音口型的数量小于数量阈值的步骤,包括:

3.根据权利要求1所述的最少口型文本的筛选方法,其特征在于,所述分别获取各所述待选文本各自对应的所有相似音节口型的步骤之前,包括:

...

【技术特征摘要】

1.一种最少口型文本的筛选方法,其特征在于,包括:

2.根据权利要求1所述的最少音节口型文本的筛选方法,其特征在于,所述遍历各所述待选文本,逐次从各所述待选文本中筛选出被包含于所述预定义口型词袋的所述相似音节口型的数量最大的音节口型文本,并在每次选出一个所述音节口型文本时,从所述预定义口型词袋中剔除与所述音节口型文本的各所述相似音节口型对应的所述发音口型,直至所述预定义口型词袋剩余的所述发音口型的数量小于数量阈值的步骤,包括:

3.根据权利要求1所述的最少口型文本的筛选方法,其特征在于,所述分别获取各所述待选文本各自对应的所有相似音节口型的步骤之前,包括:

4.根据权利要求3所述的最少口型文本的筛选方法,其特征在于,所述根据各所述常用口型编码构建得到混淆矩阵的步骤中,两个所述常用口型编码之间的相似度的计算步骤,包括:

5.根据权利要求4所述的最少口型文本的筛选方法,其特征在于,所述第一常用口型编...

【专利技术属性】
技术研发人员:李贤张玉兵王乃洲
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1