【技术实现步骤摘要】
语音数据转换方法、装置、电子设备及可读存储介质
[0001]本申请涉及智能机器人
,尤其涉及一种语音数据转换方法、装置、电子设备及可读存储介质。
技术介绍
[0002]语音聊天机器人实现的基础是存储了大量问答对(即,问题和与问题对应的答案文本)的数据库。实际应用中,用户往往是通过语音形式向语音聊天机器人进行询问或者对话。当将要输入的文本中存在生僻字时,用户可能会跳过该生僻字,或者任意读取该生僻字。如此,机器人在接收到该语音数据之后,无法准确识别出该语音数据对应的文本,进而查询到的答案文本准确率也较低,从而导致语音交互准确率较低。
技术实现思路
[0003]本申请提供了一种语音数据转换方法、装置、电子设备及可读存储介质,以解决现有技术中语音交互准确率较低的问题。
[0004]第一方面,提供了一种语音数据转换方法,所述方法包括:获取待转换为语音数据的目标文本数据,并基于预设字典确定所述目标文本数据中是否存在生僻字;在确定所述目标文本数据中存在所述生僻字的情况下,对所述生僻字进行拆分,得到所述生僻字对 ...
【技术保护点】
【技术特征摘要】
1.一种语音数据转换方法,其特征在于,所述方法包括:获取待转换为语音数据的目标文本数据,并基于预设字典确定所述目标文本数据中是否存在生僻字;在确定所述目标文本数据中存在所述生僻字的情况下,对所述生僻字进行拆分,得到所述生僻字对应的至少一个基础部件;基于所有的所述基础部件确定所述生僻字对应的生僻字读音;基于所述生僻字读音将所述目标文本数据转换为语音数据。2.根据权利要求1所述的方法,其特征在于,所述对所述生僻字进行拆分,得到所述生僻字对应的至少一个基础部件,包括:获取所述生僻字对应的字结构信息;基于所述字结构信息对所述生僻字进行拆分,得到至少一个所述基础部件。3.根据权利要求2所述的方法,其特征在于,所述字结构信息包含至少两个子结构信息;所述基于所述字结构信息对所述生僻字进行拆分,得到至少一个所述基础部件,包括:获取每个所述子结构信息对应的优先级;按照所述优先级由高到低的顺序,依次基于每个所述子结构信息对所述生僻字进行拆分,直至拆分得到的每个基础部件均符合预设条件;其中,所述预设条件包括:所述基础部件为不可拆分结构,或者,所述基础部件为所述预设字典中对应的文字。4.根据权利要求1所述的方法,其特征在于,所述基于所有的所述基础部件确定所述生僻字对应的生僻字读音,包括:确定每个所述基础部件的部件读音,并基于所有的所述基础部件的部件读音,生成第一语音查询指令;将所述第一语音查询指令发送至预设的查询设备,以由所述查询设备按照所述第一语音查询指令的指示查询并返回所述生僻字对应的生僻字读音。5.根据权利要求4所述的方法,其特征在于,所述确定每个所述基础部件的部件读音,包括:针对每个基础部件,确定所述预设字典中是否存在所述基础部件对应的文字;在所述预设字典中存在所述基础部件对应的文字的情况下,将所述预设字典中记录的所述文字的读音,确定为所述基础部件对应的部件读音;在所述预设字典中不存在所述基础部件对应的文字的情况下,确定所述基础部件...
【专利技术属性】
技术研发人员:黄仁杰,刘金成,洪秀贞,刘代琴,
申请(专利权)人:深圳市北科瑞讯信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。