System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 语音转文字的方法、装置、电子设备及可读存储介质制造方法及图纸_技高网

语音转文字的方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:42629311 阅读:23 留言:0更新日期:2024-09-06 01:30
本发明专利技术实施例提供了一种语音转文字的方法、装置、电子设备及可读存储介质,该方法包括:获取目标对象,其中,所述目标对象为视频片段或语音片段;获取所述目标对象的第一信息,其中,所述第一信息用于指示声纹特征,或者,所述第一信息用于指示声纹特征和唇部动作特征;获取所述目标对象的第一信息关联的目标词库,其中,所述目标词库包括至少一个词语;根据所述目标词库,将所述目标对象中的语音信息转换为文本信息。因此,本发明专利技术的实施例,可以解决现有技术中,语音转文字工具对一些方言或口语的识别准确率相对比较低的问题。

【技术实现步骤摘要】

本专利技术涉及移动通信,尤其涉及一种语音转文字的方法、装置、电子设备及可读存储介质


技术介绍

1、目前,线上会议逐渐取代线下会议成为沟通的主要方式,其中,线上会议直播打破了地理限制,任何人只需一台设备和网络连接就能参与;线上会议直播消除了与传统会议相关的巨额开销,如:场地租赁、交通费用和住宿费用;线上会议直播为参与者提供了更大的灵活性,无论是参与者还是演讲者,都可以在自己的时间表内选择参与或发表演讲,避免了因为行程安排冲突而无法参与的问题。

2、然而,线上会议受到信号或者其他因素影响,可能会有听不清(信号问题)或记不住讲话内容。如果能在屏幕上提示文字并在会后附上会议文档,就能很好解决这一问题。但是,目前的语音转文字工具对一些方言或口语的识别准确率相对比较低,因此文字呈现效果较差。


技术实现思路

1、本专利技术实施例提供一种语音转文字的方法、装置、电子设备及可读存储介质,以解决现有技术中,语音转文字工具对一些方言或口语的识别准确率相对比较低的问题。

2、第一方面,本专利技术实施例提供了一种语音转文字的方法,所述方法包括:

3、获取目标对象,其中,所述目标对象为视频片段或语音片段;

4、获取所述目标对象的第一信息,其中,所述第一信息用于指示声纹特征,或者,所述第一信息用于指示声纹特征和唇部动作特征;

5、获取所述目标对象的第一信息关联的目标词库,其中,所述目标词库包括至少一个词语;

6、根据所述目标词库,将所述目标对象中的语音信息转换为文本信息。

7、第二方面,本专利技术的实施例提供了一种语音转文字的装置,所述装置包括:

8、第一获取模块,用于获取目标对象,其中,所述目标对象为视频片段或语音片段;

9、第二获取模块,用于获取所述目标对象的第一信息,其中,所述第一信息用于指示声纹特征,或者,所述第一信息用于指示声纹特征和唇部动作特征;

10、第三获取模块,用于获取所述目标对象的第一信息关联的目标词库,其中,所述目标词库包括至少一个词语;

11、转换模块,用于根据所述目标词库,将所述目标对象中的语音信息转换为文本信息。

12、第三方面,本专利技术的实施例提供了一种电子设备,包括存储器,收发机,处理器:

13、存储器,用于存储计算机程序;收发机,用于在所述处理器的控制下收发数据;处理器,用于读取所述存储器中的计算机程序并执行上述第一方面所述的语音转文字的方法。

14、第四方面,本专利技术的实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的语音转文字的方法。

15、在本专利技术实施例中,能够获取目标对象,并获取目标对象的第一信息,其中,该目标对象可以为视频片段或语音片段,该第一信息用于指示声纹特征或者用于指示声纹特征和唇部动作特征;从而获取目标对象的第一信息关联的目标词库,进而根据该目标词库,将目标对象中的语音信息转换为文本信息。可见,在本专利技术实施例中,可以自动从目标对象中分离声纹特征或唇部动作特征,从而以声纹特征为标签来标识用户,或者以声纹特征和唇部动作特征为标签来标识用户,进而获取该标签关联的目标词库,即获取用户的常用语词库,这样,基于用户的常用语词库,将目标对象中的语音信息转换为文本信息,准确率更高,因此,本专利技术的实施例可以解决现有技术中,语音转文字工具对一些方言或口语的识别准确率相对比较低的问题。

本文档来自技高网...

【技术保护点】

1.一种语音转文字的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取所述目标对象的第一信息,包括:

3.根据权利要求2所述的方法,其特征在于,所述第一数据库中还包括所述至少一个关键词的权重值,所述目标片段包括权重值最大的所述第二关键词。

4.根据权利要求1所述的方法,其特征在于,在所述第一信息用于指示声纹特征的情况下,所述声纹特征包括声纹特征编码;

5.根据权利要求4所述的方法,其特征在于,所述采用散列方法,根据所述n个帧的声纹向量,得到所述目标对象的声纹特征编码,包括:

6.根据权利要求1所述的方法,其特征在于,所述获取所述目标对象的第一信息关联的目标词库,包括:

7.根据权利要求6所述的方法,其特征在于,在所述第一信息用于指示声纹特征和唇部动作特征的情况下,所述第一信息包括合并特征,其中,所述声纹特征和所述唇部动作特征输入至全连接层,输出二维的所述合并特征;

8.一种语音转文字的装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,包括存储器,收发机,处理器:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音转文字的方法。

...

【技术特征摘要】

1.一种语音转文字的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取所述目标对象的第一信息,包括:

3.根据权利要求2所述的方法,其特征在于,所述第一数据库中还包括所述至少一个关键词的权重值,所述目标片段包括权重值最大的所述第二关键词。

4.根据权利要求1所述的方法,其特征在于,在所述第一信息用于指示声纹特征的情况下,所述声纹特征包括声纹特征编码;

5.根据权利要求4所述的方法,其特征在于,所述采用散列方法,根据所述n个帧的声纹向量,得到所述目标对象的声纹特征编码,包括:

6.根据权利要求1所述的...

【专利技术属性】
技术研发人员:周江孙学斌
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1