一种声音数据管理方法、系统及存储介质技术方案

技术编号:21200056 阅读:22 留言:0更新日期:2019-05-25 01:18
本发明专利技术提供了一种声音数据管理方法、系统及存储介质。该方法包括:获取声音数据;将声音数据发送给多个评价者并接收多个评价者对所述声音数据的描述标签;根据描述标签确定标签集合;对标签集合中的标签元素进行频度排序,以得到按频度由高到低排序的标签序列;从标签序列中提取前N个标签作为声音数据的关键标签,其中,N为正整数;利用关键标签对声音数据进行存储和索引管理。上述方案从多个评价者对声音数据的描述标签中提取关键标签作为声音特征,从而可以依据声音特征对大量的声音数据进行管理。用户能够根据不同的声音特征需求选择相应的声音数据。由此,极大提升了声音数据的实用性,为语音处理技术提供了丰富的音源选择。

A Method, System and Storage Media for Sound Data Management

The invention provides a sound data management method, a system and a storage medium. The method includes: acquiring sound data; sending sound data to multiple evaluators and receiving descriptive tags from multiple evaluators; determining the label set according to descriptive tags; sorting the label elements in the label set by frequency to get the label sequence sorted by frequency from high to low; and extracting the first N labels from the label sequence as the gateway of sound data. Key tags, where N is a positive integer, use key tags to store and index sound data. The above scheme extracts key tags from descriptive tags of voice data by multiple evaluators as voice features, so that a large number of voice data can be managed according to voice features. Users can select the corresponding sound data according to different voice characteristics. As a result, the practicability of voice data has been greatly improved, which provides a rich choice of voice sources for voice processing technology.

【技术实现步骤摘要】
一种声音数据管理方法、系统及存储介质
本专利技术涉及语音数据处理领域,更具体地涉及一种声音数据管理方法、系统及存储介质。
技术介绍
随着科技的发展,语音数据处理越来越多地应用于各种应用领域。但目前的语音数据处理通常仅涉及少数几种声音,不能满足用户的多种需求。例如,语音合成技术是将文本转换成语音的技术。通过让机器发声可以实现人机交互。对于语音合成系统,可以预先对一个特定发音人的声音进行模型训练。利用训练好的模型和音库等数据,可以通过语音合成系统实现语音合成。随着物联网及人工智能技术的发展,越来越多的设备有了语音交互的需求。为了让不同设备或者产品具有自己的人设特点,往往需要采用不同特色的声音进行信息表达。目前大部分语音合成解决方案都只能提供少数几个声音,未能提供丰富的声音供用户进行挑选来实现更好的与产品角色匹配的声音效果。而即便有了丰富的声音数据或者拥有丰富的音色可供选择,由于声音无法用类似图片的方式进行展示,用户也难以进行快速有效的选择。因此,亟需一种新的声音数据管理技术,以解决上述问题。
技术实现思路
考虑到上述问题而提出了本专利技术。本专利技术提供了一种声音数据管理方法、系统及存储介质。根据本专利技术一方面,提供了一种声音数据管理方法,包括:获取声音数据;将所述声音数据发送给多个评价者并接收所述多个评价者对所述声音数据的描述标签;根据所述描述标签确定标签集合;对所述标签集合中的标签元素进行频度排序,以得到按频度由高到低排序的标签序列;从所述标签序列中提取前N个标签作为所述声音数据的关键标签,其中,N为正整数;利用所述关键标签对所述声音数据进行存储和索引管理。示例性地,所述根据所述描述标签确定标签集合包括:将所述描述标签作为标签元素加入所述标签集合;针对每个描述标签,以该描述标签为知识点对声音标签知识库进行检索,以获取与所述描述标签相关联的知识点作为扩展标签,并把所述扩展标签作为标签元素也加入所述标签集合。示例性地,所述方法还包括:利用所述描述标签更新所述声音标签知识库。示例性地,所述利用所述描述标签更新所述声音标签知识库包括:针对每个描述标签,确定所述声音标签知识库中是否包含该描述标签;对于所述声音标签知识库中没有包含该描述标签的情况,以该描述标签为知识点更新所述声音标签知识库。示例性地,所述以该描述标签为知识点更新所述声音标签知识库包括:在所述声音标签知识库中增加该描述标签为知识点;建立该描述标签与所述声音标签知识库中的其他知识点的关联关系。示例性地,所述建立该描述标签与所述声音标签知识库中的其他知识点的关联关系包括:针对所述声音标签知识库中的其他知识点中的每个知识点,利用自然语言处理技术确定该描述标签与该知识点的语义相似度;对于所述语义相似度大于相似阈值的情况,建立该描述标签与该知识点的关联关系。示例性地,所述建立该描述标签与所述声音标签知识库中的其他知识点的关联关系包括:对来自多个评价者的、对声音数据的描述标签进行分析;根据分析结果建立该描述标签与所述声音标签知识库中的其他知识点的关联关系。示例性地,所述接收所述多个评价者对所述声音数据的描述标签包括:接收所述多个评价者对所述声音数据的发音人属性、声学特征属性、感知属性、人文属性、地域属性和/或自定义属性的描述标签。示例性地,所述声音数据是真人发音数据或语音合成数据。示例性地,在所述对所述标签集合中的标签元素进行频度排序以得到按频度由高到低排序的标签序列之前,所述方法还包括:获取所述声音数据的原有标签,并把所述原有标签加入所述标签集合。根据本专利技术又一方面,提供了一种用于声音数据管理的系统,包括服务器和多个客户端,其中,所述服务器用于:获取声音数据;将所述声音数据发送给多个客户端并自所述多个客户端接收多个评价者对所述声音数据的描述标签;根据所述描述标签确定标签集合;对所述标签集合中的标签元素进行频度排序,以得到按频度由高到低排序的标签序列;从所述标签序列中提取前N个标签作为所述声音数据的关键标签,其中,N为正整数;利用所述关键标签对所述声音数据进行存储和索引管理;所述客户端用于:接收所述声音数据;响应于对应评价者的第一操作,播放所述声音数据;响应于所述对应评价者的第二操作,接收所述对应评价者对所述声音数据的描述标签。根据本专利技术再一方面,提供了一种存储介质,在所述存储介质上存储了程序指令,所述程序指令在运行时用于执行上述声音数据管理方法。根据本专利技术实施例的声音数据管理方法、系统及存储介质,从多个评价者对声音数据的描述标签中提取关键标签作为声音特征,从而可以依据声音特征对大量的声音数据进行管理。用户能够根据不同的声音特征需求选择相应的声音数据。由此,极大提升了声音数据的实用性,为语音处理技术提供了丰富的音源选择。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过结合附图对本专利技术实施例进行更详细的描述,本专利技术的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本专利技术实施例的进一步理解,并且构成说明书的一部分,与本专利技术实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中,相同的参考标号通常代表相同部件或步骤。图1示出了根据本专利技术一个实施例的声音数据管理方法的示意性流程图;图2示出了根据本专利技术一个实施例的声音标签知识库的示意图;图3示出了根据本专利技术另一个实施例的声音数据管理方法的示意性流程图;图4示出了根据本专利技术一个实施例的利用描述标签更新声音标签知识库的示意性流程图;图5示出了根据本专利技术一个实施例的以描述标签为知识点更新声音标签知识库的示意性流程图;图6示出了根据本专利技术一个实施例的建立描述标签与声音标签知识库中的其他知识点的关联关系的示意性流程图;图7示出了根据本专利技术另一个实施例的建立描述标签与声音标签知识库中的其他知识点的关联关系的示意性流程图;以及图8示出了根据本专利技术一个实施例的用于声音数据管理的系统的示意性框图。具体实施方式为了使得本专利技术的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本专利技术的示例实施例。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是本专利技术的全部实施例,应理解,本专利技术不受这里描述的示例实施例的限制。基于本专利技术中描述的本专利技术实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本专利技术的保护范围之内。目前,声音数据是一种特殊的数据。声音数据不像文本数据、图像数据一样,可以让人一览无余。当用户期望获得某种文本数据时,其可以简单浏览或检索就可以获得期望的文本数据。当用户期望获得某种图像数据,例如人脸图像,其可以简单浏览或者识别,即可获得期望的图像数据。而对于声音数据的描述,尚缺少系统性的描述和评价方法。当用户期望获得某种声音数据时,其可能需要长时间地认真倾听声音,以判断是否为期望的声音数据。此外,每个人由于之前的经验积累,对声音的描述也会明显不同。为此,本专利技术提出了一种声音数据管理方法,给声音数据“贴上”标签进行有效管理。由此,极大提升声音数据的实用性,为语音处理技术提供丰富的音源选择。从而,提供了一种更准确、全面的声音描述方法和系统,使得本文档来自技高网...

【技术保护点】
1.一种声音数据管理方法,包括:获取声音数据;将所述声音数据发送给多个评价者并接收所述多个评价者对所述声音数据的描述标签;根据所述描述标签确定标签集合;对所述标签集合中的标签元素进行频度排序,以得到按频度由高到低排序的标签序列;从所述标签序列中提取前N个标签作为所述声音数据的关键标签,其中,N为正整数;利用所述关键标签对所述声音数据进行存储和索引管理。

【技术特征摘要】
1.一种声音数据管理方法,包括:获取声音数据;将所述声音数据发送给多个评价者并接收所述多个评价者对所述声音数据的描述标签;根据所述描述标签确定标签集合;对所述标签集合中的标签元素进行频度排序,以得到按频度由高到低排序的标签序列;从所述标签序列中提取前N个标签作为所述声音数据的关键标签,其中,N为正整数;利用所述关键标签对所述声音数据进行存储和索引管理。2.如权利要求1所述方法,其中,所述根据所述描述标签确定标签集合包括:将所述描述标签作为标签元素加入所述标签集合;针对每个描述标签,以该描述标签为知识点对声音标签知识库进行检索,以获取与所述描述标签相关联的知识点作为扩展标签,并把所述扩展标签作为标签元素也加入所述标签集合。3.如权利要求2所述方法,其中,所述方法还包括:利用所述描述标签更新所述声音标签知识库。4.如权利要求3所述方法,其中,所述利用所述描述标签更新所述声音标签知识库包括:针对每个描述标签,确定所述声音标签知识库中是否包含该描述标签;对于所述声音标签知识库中没有包含该描述标签的情况,以该描述标签为知识点更新所述声音标签知识库。5.如权利要求4所述方法,其中,所述以该描述标签为知识点更新所述声音标签知识库包括:在所述声音标签知识库中增加该描述标签为知识点;建立该描述标签与所述声音标签知识库中的其他知识点的关联关系。6.如权利要求5所述方法,其中,所述建立该描述标签与所述声音标签知识库中的其他知识点的关联关系包括:针对所述声音标签知识库中的其他知识点中的每个知识点,利用自然语言处理技术确定该描述标签与该知识点的语义相似度;对于所述语义相似度大于相似阈值的情况,建立该描述标签与该知识点的关联关...

【专利技术属性】
技术研发人员:李舒扬
申请(专利权)人:标贝深圳科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1