文件存储与查询的方法及装置、存储介质制造方法及图纸

技术编号：25479336 阅读：22 留言：0更新日期：2020-09-01 23:00

本发明专利技术提供一种文件存储与查询的方法及装置、存储介质，所述方法包括：获取待进行语音合成的文本，对所述文本进行HASH值计算，得到所述文本的HASH值；以所计算的HASH值作为文件名，在设定的语音文件目录下查询是否存在相同文件名的语音文件；查询到存在相同文件名的语音文件，调用所述相同文件名的语音文件，将所述相同文件名的语音文件作为所述文本的语音文件；未查询到相同文件名的语音文件时，基于所述文本进行语音合成，以所计算的HASH值作为所合成的语音文件的文件名，将所合成的语音文件存储在所述设定的语音文件目录中。本发明专利技术由于通过了严格的文本压缩算法，保证了文本精确去重，防止同样的文本合成多次，节约了处理资源。

全部详细技术资料下载

【技术实现步骤摘要】
文件存储与查询的方法及装置、存储介质
本专利技术涉及智能语音处理中的文件存储技术，尤其涉及一种文件存储与查询的方法及装置、存储介质。
技术介绍
在智能语音技术中，存在一个必不可少的环节，就是文本转语音(TTS，TextToSpeech)，语音合成时需要处理文本、文本转拼音、拼音转矩阵等一系列的消耗系统资源及耗时的过程，对于已经合成过的文本，希望通过缓存来查找语音。对于缓存方案，就是要找到合成文本与合成语音文件的对应关系，这种对应关系可以在数据库中保存，像关系型数据库管理系统(MySQL，StructuredQueryLanguage)、postgresql这种关系型数据库，通过表结构来反应对应关系，或者像redis、memcache这种非关系型数据库存储，通过键值对来反应对应关系，但是无论哪种对应关系的存储方案，都需要以下几个步骤：合成语音的生成、语音文件在文件系统的存储、保存或设置文本及文件存储路径的对应关系、查询文本及文件存储路径的对应关系是否存在、根据是否存在来合成语音或者返回存在的语音文件。这样的方式从开发上，会和数据库进行多次交互；从效率上讲，需要借助于数据库的插入和查询，会有一定的耗时；从安全上讲，数据库中的数据一旦丢失，就会丢失所有的对应关系。
技术实现思路
有鉴于此，本专利技术的一个方式提供一种文件存储与查询的方法及装置、存储介质。本专利技术一方面提供一种文件存储与查询的方法，包括：获取待进行语音合成的文本，对所述文本进行哈希HASH值计算，得到所述文本的H...

【技术保护点】
1.一种文件存储与查询的方法，其特征在于，所述方法包括：/n获取待进行语音合成的文本，对所述文本进行哈希HASH值计算，得到所述文本的HASH值；/n以所计算的HASH值作为文件名，在设定的语音文件目录下查询是否存在相同文件名的语音文件；/n查询到存在相同文件名的语音文件，调用所述相同文件名的语音文件，将所述相同文件名的语音文件作为所述文本的语音文件；未查询到相同文件名的语音文件时，基于所述文本进行语音合成，以所计算的HASH值作为所合成的语音文件的文件名，将所合成的语音文件存储在所述设定的语音文件目录中。/n

【技术特征摘要】
1.一种文件存储与查询的方法，其特征在于，所述方法包括：
获取待进行语音合成的文本，对所述文本进行哈希HASH值计算，得到所述文本的HASH值；
以所计算的HASH值作为文件名，在设定的语音文件目录下查询是否存在相同文件名的语音文件；
查询到存在相同文件名的语音文件，调用所述相同文件名的语音文件，将所述相同文件名的语音文件作为所述文本的语音文件；未查询到相同文件名的语音文件时，基于所述文本进行语音合成，以所计算的HASH值作为所合成的语音文件的文件名，将所合成的语音文件存储在所述设定的语音文件目录中。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
获取所述文本的声优、音量、语速、口音的信息至少之一，将所获取的声优、音量、语速、口音中的至少之一与所述文本拼接，形成拼接文本，对所述拼接文本进行哈希HASH值计算，得到所述拼接文本的HASH值；
以所计算的HASH值作为文件名，在设定的语音文件目录下查询是否存在相同文件名的语音文件；
查询到存在相同文件名的语音文件，调用所述相同文件名的语音文件，将所述相同文件名的语音文件作为所述拼接文本的语音文件；未查询到相同文件名的语音文件时，基于所述拼接文本进行语音合成，以所计算的HASH值作为所合成的语音文件的文件名，将所合成的语音文件存储在所述设定的语音文件目录中。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：
设定存储语音文件的固定地址池，将所述固定地址池作为所述语音文件目录；或者
获取所述文本的HASH散列值，将所述HASH散列值中指定开始位置和结束位置对应的字符串作为语音文件目录。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：
根据所述文本的HASH散列值，将所述文本对应的语音文件、所述文本的声优、音量、语速、口音的信息至少之一的属性信息进行多级分层存储。

5.一种文件存储与查询的装置，其特征在于，所述装置包括：
获取单元，用于获取待进行语音合成的文本；
计算单元，用于对所述文本进行哈希HASH值计算，得到所述文本的HASH值；
查询单元，用于以所计算的HASH值作为文件名，在设定的语音文件目录下查询是否存在相同文件名的语音文件；...

【专利技术属性】
技术研发人员：郑金磊，刘华，周伟东，喻凌，刘凯，
申请(专利权)人：北京太极华保科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人