语音数据转换方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:37163068 阅读:18 留言:0更新日期:2023-04-06 22:30
本申请提供了一种语音数据转换方法、装置、电子设备及可读存储介质,属于智能机器人技术领域。本申请通过,获取待转换为语音数据的目标文本数据,并基于预设字典确定所述目标文本数据中是否存在生僻字;在确定所述目标文本数据中存在所述生僻字的情况下,对所述生僻字进行拆分,得到所述生僻字对应的至少一个基础部件;基于所有的所述基础部件确定所述生僻字对应的生僻字读音;基于所述生僻字读音将所述目标文本数据转换为语音数据。如此,提高了确定生僻字读音的准确性,从而,提高了将目标文本数据转换为语音数据的准确性。文本数据转换为语音数据的准确性。文本数据转换为语音数据的准确性。

【技术实现步骤摘要】
语音数据转换方法、装置、电子设备及可读存储介质


[0001]本申请涉及智能机器人
,尤其涉及一种语音数据转换方法、装置、电子设备及可读存储介质。

技术介绍

[0002]语音聊天机器人实现的基础是存储了大量问答对(即,问题和与问题对应的答案文本)的数据库。实际应用中,用户往往是通过语音形式向语音聊天机器人进行询问或者对话。当将要输入的文本中存在生僻字时,用户可能会跳过该生僻字,或者任意读取该生僻字。如此,机器人在接收到该语音数据之后,无法准确识别出该语音数据对应的文本,进而查询到的答案文本准确率也较低,从而导致语音交互准确率较低。

技术实现思路

[0003]本申请提供了一种语音数据转换方法、装置、电子设备及可读存储介质,以解决现有技术中语音交互准确率较低的问题。
[0004]第一方面,提供了一种语音数据转换方法,所述方法包括:获取待转换为语音数据的目标文本数据,并基于预设字典确定所述目标文本数据中是否存在生僻字;在确定所述目标文本数据中存在所述生僻字的情况下,对所述生僻字进行拆分,得到所述生僻字对应的至少一个基础部件;基于所有的所述基础部件确定所述生僻字对应的生僻字读音;基于所述生僻字读音将所述目标文本数据转换为语音数据。
[0005]在一个可能的实施方式中,所述对所述生僻字进行拆分,得到所述生僻字对应的至少一个基础部件,包括:获取所述生僻字对应的字结构信息;基于所述字结构信息对所述生僻字进行拆分,得到至少一个所述基础部件。
[0006]在一个可能的实施方式中,所述字结构信息包含至少两个子结构信息;所述基于所述字结构信息对所述生僻字进行拆分,得到至少一个所述基础部件,包括:获取每个所述子结构信息对应的优先级;按照所述优先级由高到低的顺序,依次基于每个所述子结构信息对所述生僻字进行拆分,直至拆分得到的每个基础部件均符合预设条件;其中,所述预设条件包括:所述基础部件为不可拆分结构,或者,所述基础部件为所述预设字典中对应的文字。
[0007]在一个可能的实施方式中,所述基于所有的所述基础部件确定所述生僻字对应的生僻字读音,包括:确定每个所述基础部件的部件读音,并基于所有的所述基础部件的部件读音,生
成第一语音查询指令;将所述第一语音查询指令发送至预设的查询设备,以由所述查询设备按照所述第一语音查询指令的指示查询并返回所述生僻字对应的生僻字读音。
[0008]在一个可能的实施方式中,所述确定每个所述基础部件的部件读音,包括:针对每个基础部件,确定所述预设字典中是否存在所述基础部件对应的文字;在所述预设字典中存在所述基础部件对应的文字的情况下,将所述预设字典中记录的所述文字的读音,确定为所述基础部件对应的部件读音;在所述预设字典中不存在所述基础部件对应的文字的情况下,确定所述基础部件对应的部件笔画序列,将所述部件笔画序列的读音确定为所述基础部件对应的部件读音。
[0009]在一个可能的实施方式中,所述方法还包括:在确定所述目标文本数据中存在所述生僻字的情况下,确定所述生僻字对应的文字笔画序列;基于所述文字笔画序列的读音,生成第二语音查询指令;将所述第二语音查询指令发送至预设的查询设备,以由所述查询设备按照所述第二语音查询指令的指示查询并返回所述生僻字对应的生僻字读音。
[0010]在一个可能的实施方式中,所述预设字典包括基础字典和所述基础字典对应的字体转换关系字典,所述基于预设字典确定所述目标文本数据中是否存在生僻字,包括:针对目标文本数据中的每个文字,在所述基础字典中查找所述文字;若在所述基础字典中未查找到所述文字,在所述字体转换关系字典中查找所述文字;若在所述字体转换关系字典中未查找到所述文字,确定所述文字为生僻字。
[0011]第二方面,提供了一种语音数据转换装置,所述装置包括:获取模块,用于获取待转换为语音数据的目标文本数据,并基于预设字典确定所述目标文本数据中是否存在生僻字;拆分模块,用于在确定所述目标文本数据中存在所述生僻字的情况下,对所述生僻字进行拆分,得到所述生僻字对应的至少一个基础部件;读音确定模块,用于基于所有的所述基础部件确定所述生僻字对应的生僻字读音;转换模块,用于基于所述生僻字读音将所述目标文本数据转换为语音数据。
[0012]在一个可能的实施方式中,所述拆分模块,具体用于:获取所述生僻字对应的字结构信息;基于所述字结构信息对所述生僻字进行拆分,得到至少一个所述基础部件。
[0013]在一个可能的实施方式中,所述字结构信息包含至少两个子结构信息;所述拆分模块,还用于:获取每个所述子结构信息对应的优先级;按照所述优先级由高到低的顺序,依次基于每个所述子结构信息对所述生僻字进行拆分,直至拆分得到的每个基础部件均符合预设条件;其中,所述预设条件包括:所述基础部件为不可拆分结构,或者,所述基础部件为所述预设字典中对应的文字。
[0014]在一个可能的实施方式中,所述读音确定模块,具体用于:确定每个所述基础部件的部件读音,并基于所有的所述基础部件的部件读音,生成第一语音查询指令;将所述第一语音查询指令发送至预设的查询设备,以由所述查询设备按照所述第一语音查询指令的指示查询并返回所述生僻字对应的生僻字读音。
[0015]在一个可能的实施方式中,所述读音确定模块,还用于:针对每个基础部件,确定所述预设字典中是否存在所述基础部件对应的文字;在所述预设字典中存在所述基础部件对应的文字的情况下,将所述预设字典中记录的所述文字的读音,确定为所述基础部件对应的部件读音;在所述预设字典中不存在所述基础部件对应的文字的情况下,确定所述基础部件对应的部件笔画序列,将所述部件笔画序列的读音确定为所述基础部件对应的部件读音。
[0016]在一个可能的实施方式中,所述装置还包括:序列确定模块,用于在确定所述目标文本数据中存在所述生僻字的情况下,确定所述生僻字对应的文字笔画序列;生成模块,用于基于所述文字笔画序列的读音,生成第二语音查询指令;发送模块,用于将所述第二语音查询指令发送至预设的查询设备,以由所述查询设备按照所述第二语音查询指令的指示查询并返回所述生僻字对应的生僻字读音。
[0017]在一个可能的实施方式中,所述获取模块,具体用于:针对目标文本数据中的每个文字,在所述基础字典中查找所述文字;若在所述基础字典中未查找到所述文字,在所述字体转换关系字典中查找所述文字;若在所述字体转换关系字典中未查找到所述文字,确定所述文字为生僻字。
[0018]第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
[0019]第四方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。
[0020]第五方面,提供了一种包含指令的计算机程序产品,当其在计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音数据转换方法,其特征在于,所述方法包括:获取待转换为语音数据的目标文本数据,并基于预设字典确定所述目标文本数据中是否存在生僻字;在确定所述目标文本数据中存在所述生僻字的情况下,对所述生僻字进行拆分,得到所述生僻字对应的至少一个基础部件;基于所有的所述基础部件确定所述生僻字对应的生僻字读音;基于所述生僻字读音将所述目标文本数据转换为语音数据。2.根据权利要求1所述的方法,其特征在于,所述对所述生僻字进行拆分,得到所述生僻字对应的至少一个基础部件,包括:获取所述生僻字对应的字结构信息;基于所述字结构信息对所述生僻字进行拆分,得到至少一个所述基础部件。3.根据权利要求2所述的方法,其特征在于,所述字结构信息包含至少两个子结构信息;所述基于所述字结构信息对所述生僻字进行拆分,得到至少一个所述基础部件,包括:获取每个所述子结构信息对应的优先级;按照所述优先级由高到低的顺序,依次基于每个所述子结构信息对所述生僻字进行拆分,直至拆分得到的每个基础部件均符合预设条件;其中,所述预设条件包括:所述基础部件为不可拆分结构,或者,所述基础部件为所述预设字典中对应的文字。4.根据权利要求1所述的方法,其特征在于,所述基于所有的所述基础部件确定所述生僻字对应的生僻字读音,包括:确定每个所述基础部件的部件读音,并基于所有的所述基础部件的部件读音,生成第一语音查询指令;将所述第一语音查询指令发送至预设的查询设备,以由所述查询设备按照所述第一语音查询指令的指示查询并返回所述生僻字对应的生僻字读音。5.根据权利要求4所述的方法,其特征在于,所述确定每个所述基础部件的部件读音,包括:针对每个基础部件,确定所述预设字典中是否存在所述基础部件对应的文字;在所述预设字典中存在所述基础部件对应的文字的情况下,将所述预设字典中记录的所述文字的读音,确定为所述基础部件对应的部件读音;在所述预设字典中不存在所述基础部件对应的文字的情况下,确定所述基础部件...

【专利技术属性】
技术研发人员:黄仁杰刘金成洪秀贞刘代琴
申请(专利权)人:深圳市北科瑞讯信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1