语音数据的处理方法、装置及系统制造方法及图纸

技术编号:20007072 阅读:20 留言:0更新日期:2019-01-05 18:40
本发明专利技术提供了一种语音数据的处理方法、装置及系统,该方法首先获取当前语音数据,并将其转换为当前文本数据;对当前文本数据进行自然语言分词,得到分词数据;判断分词数据是否有特殊语义,如果有,对分词数据的语义进行去噪处理;判断去噪后的分词数据或者当前文本数据的语义与前一个文本数据的语义是否有联系;如果有联系,根据前一个文本数据的语义对应的信息,获取当前文本数据的语义对应的信息;如果没有联系,将分词数据的词组与预设的标准数据库中的词组进行比对,根据比对结果确定分词数据的词组对应的信息;最后将得到的信息返回至客户端。本发明专利技术在利用对语音数据的处理,提高了查找效率低,而且可对数据进行智能分析。

Processing method, device and system of voice data

The invention provides a processing method, device and system for voice data. The method first obtains the current voice data and converts it into the current text data; participle data is obtained by natural language participle segmentation of the current text data; whether the participle data has special semantics is judged; if so, the semantics of the participle data is denoised; and the number of participle words after denoising is judged. Whether the semantics of the current text data is related to the semantics of the previous text data or not; if there is a connection, the semantics corresponding information of the current text data can be obtained according to the semantics corresponding information of the previous text data; if there is no connection, the phrases of the segmentation data can be compared with the phrases in the preset standard database, and the segmentation data can be determined according to the results of the comparison. The information corresponding to the phrase; finally, the information is returned to the client. The invention improves the search efficiency by processing voice data, and intelligently analyses the data.

【技术实现步骤摘要】
语音数据的处理方法、装置及系统
本专利技术涉及语音数据处理
,尤其是涉及语音数据的处理方法、装置及系统。
技术介绍
现有技术中通过浏览器或手机App登录到指标报表查询页面,找到要查询的报表或指标的菜单目录,输入要查询的地区、时间等查询条件进行查询,然而对于电信行业数千张报表和KPI(KeyPerformanceIndicator,关键绩效指标)来说,菜单目录多,查找比较困难;而且随报表或指标的增加,需要频繁增加报表查询菜单,操作步骤复杂,菜单维护开发工作量大;同时,传统的数据结果的智能化程度较低,难以实现数据的多样化分析。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种语音数据的处理方法、装置及系统,以提高数据处理的效率和数据智能分析能力。第一方面,本专利技术实施例提供了一种语音数据的处理方法,该方法应用于服务器,该服务器与客户端通信连接;该方法包括:获取当前的语音数据;将当前的语音数据转换为当前文本数据;对当前文本数据进行自然语言分词,得到分词数据;判断分词数据是否有特殊语义,如果有特殊语义,对分词数据的语义进行去噪处理;判断去噪后的分词数据的语义或者当前文本数据的语义与前一个文本数据的语义是否有联系;如果有联系,根据前一个文本数据的语义对应的信息,获取当前文本数据的语义对应的信息;如果没有联系,将分词数据的词组与预设的标准数据库中的词组进行比对,根据比对结果确定分词数据的词组对应的信息;标准数据库中保存有预先设定的词组;将当前文本数据的语义对应的信息或者分词数据的词组对应的信息返回至客户端。进一步,上述方法还包括:通过ALS算法分析用户信息查询的喜好,以使不同的用户在登录客户端后,获得不同的推荐查询的信息。进一步,将当前的语音数据转换为当前文本数据的步骤,包括:通过调用DeepSpeech的API接口,将当前的语音数据转换为当前文本数据。进一步,对当前文本数据进行自然语言分词,得到分词数据的步骤,包括:采用jieba分词技术,以及预设的标准数据库中词组出现的权重,对当前文本数据进行分词,得到当前文本数据的分词数据;词组出现的权重根据当前行业领域,通过Trie树结构训练得到。进一步,根据所述前一个文本数据的语义对应的信息,获取所述当前文本数据的语义对应的信息的步骤,包括:采用遗传算法对当前文本数据的语义和前一个文本数据的语义进行解析;获取当前文本数据的语义和前一个文本数据的语义的维度;如果当前文本数据的语义的维度与前一个文本数据的语义的维度相同,根据前一个文本数据的语义对应的信息的查找范围,查找当前文本数据的语义对应的信息;如果当前文本数据的语义的维度少于前一个文本数据的语义的维度,生成提示信息,以提示输入缺少的维度;当接收到缺少的维度后,根据前一个文本数据的语义对应的信息的查找范围,查找当前文本数据的语义对应的信息。进一步,将分词数据的词组与预设的标准数据库中的词组进行比对,根据比对结果确定分词数据的词组对应的信息的步骤,包括:将分词数据的词组与标准数据库中的词组进行比对,得到词组的比对相识度;如果比对相识度大于75%,根据当前文本数据的词组的维度获得分词数据的词组对应的信息;如果比对相识度大于45%且小于75%,将比对相识度最高的当前文本数据的词组对应的信息,作为分词数据的词组对应的信息;如果比对相识度小于45%,从日常用语资料库中查询得到当前文本数据的词组对应的信息。第二方面,本专利技术实施例还提供一种语音数据的处理装置,该装置设置于服务器,该服务器与客户端通信连接;该装置包括:数据获取模块,用于获取当前的语音数据;语音转换模块,用于将当前的语音数据转换为当前文本数据;分词模块,用于对当前文本数据进行自然语言分词,得到分词数据;特殊语义判断模块,用于判断分词数据是否有特殊语义,如果有特殊语义,对分词数据的语义进行去噪处理;去噪模块,用于判断去噪后的分词数据的语义或者当前文本数据的语义与前一个文本数据的语义是否有联系;信息获取模块,用于如果有联系,根据前一个文本数据的语义对应的信息,获取当前文本数据的语义对应的信息;信息获取模块,还用于如果没有联系,将分词数据的词组与预设的标准数据库中的词组进行比对,根据比对结果确定分词数据的词组对应的信息;标准数据库中保存有预先设定的词组;信息返回模块,用于将当前文本数据的语义对应的信息或者分词数据的词组对应的信息返回至客户端。进一步,上述装置还包括:信息推荐模块,用于通过ALS算法分析用户信息查询的喜好,以使不同的用户在登录客户端后,获得不同的推荐查询的信息。进一步,语音转换模块,还用于通过调用DeepSpeech的API接口,将当前的语音数据转换为当前文本数据。第三方面,本专利技术实施例还提供一种语音数据的处理系统,该系统包括存储器以及处理器,所述存储器用于存储支持处理器执行第一方面的方法的程序,处理器被配置为用于执行所述存储器中存储的程序。本专利技术实施例带来了以下有益效果:本专利技术提供了一种语音数据的处理方法、装置及系统,该方法首先获取当前语音数据,并将其转换为当前文本数据;对当前文本数据进行自然语言分词,得到分词数据;判断分词数据是否有特殊语义,如果有,对分词数据的语义进行去噪处理;判断去噪后的分词数据或者当前文本数据的语义与前一个文本数据的语义是否有联系;如果有联系,根据前一个文本数据的语义对应的信息,获取当前文本数据的语义对应的信息;如果没有联系,将分词数据的词组与预设的标准数据库中的词组进行比对,根据比对结果确定分词数据的词组对应的信息;最后将得到的信息返回至客户端。本专利技术在语音数据查找工作量大的情况下,提高了查找效率低,而且可对语音数据进行智能分析。本专利技术的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本专利技术的上述技术即可得知。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施方式,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种语音数据的处理方法的流程图;图2为本专利技术实施例提供的另一种语音数据的处理方法中,获取当前文本数据的语义对应的信息的流程图;图3为本专利技术实施例提供的另一种语音数据的处理方法中,确定分词数据的词组对应的信息的流程图;图4为本专利技术实施例提供的另一种语音数据的处理方法的流程图;图5为本专利技术实施例提供的一种语音数据的处理系统的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。现有的通过浏览器或者手机APP登录到指标或者报表查询页面,对所需信息进行查找的方式,由于指标或者报表的增加,使得查找工作量大,效率低,而且难以对语音数据进行智能分本文档来自技高网...

【技术保护点】
1.一种语音数据的处理方法,其特征在于,所述方法应用于服务器,所述服务器与客户端通信连接;所述方法包括:获取当前的语音数据;将所述当前的语音数据转换为当前文本数据;对所述当前文本数据进行自然语言分词,得到分词数据;判断所述分词数据是否有特殊语义,如果有特殊语义,对所述分词数据的语义进行去噪处理;判断去噪后的所述分词数据的语义或者所述当前文本数据的语义与前一个文本数据的语义是否有联系;如果有联系,根据所述前一个文本数据的语义对应的信息,获取所述当前文本数据的语义对应的信息;如果没有联系,将所述分词数据的词组与预设的标准数据库中的词组进行比对,根据比对结果确定所述分词数据的词组对应的信息;所述标准数据库中保存有预先设定的词组;将所述当前文本数据的语义对应的信息或者所述分词数据的词组对应的信息返回至客户端。

【技术特征摘要】
1.一种语音数据的处理方法,其特征在于,所述方法应用于服务器,所述服务器与客户端通信连接;所述方法包括:获取当前的语音数据;将所述当前的语音数据转换为当前文本数据;对所述当前文本数据进行自然语言分词,得到分词数据;判断所述分词数据是否有特殊语义,如果有特殊语义,对所述分词数据的语义进行去噪处理;判断去噪后的所述分词数据的语义或者所述当前文本数据的语义与前一个文本数据的语义是否有联系;如果有联系,根据所述前一个文本数据的语义对应的信息,获取所述当前文本数据的语义对应的信息;如果没有联系,将所述分词数据的词组与预设的标准数据库中的词组进行比对,根据比对结果确定所述分词数据的词组对应的信息;所述标准数据库中保存有预先设定的词组;将所述当前文本数据的语义对应的信息或者所述分词数据的词组对应的信息返回至客户端。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:通过ALS算法分析用户信息查询的喜好,以使不同的用户在登录客户端后,获得不同的推荐查询的信息。3.根据权利要求1所述的方法,其特征在于,将所述当前的语音数据转换为当前文本数据的步骤,包括:通过调用DeepSpeech的API接口,将所述当前的语音数据转换为当前文本数据。4.根据权利要求1所述的方法,其特征在于,对所述当前文本数据进行自然语言分词,得到分词数据的步骤,包括:采用jieba分词技术,以及预设的标准数据库中词组出现的权重,对当前文本数据进行分词,得到所述当前文本数据的分词数据;所述词组出现的权重根据当前行业领域,通过Trie树结构训练得到。5.根据权利要求1所述的方法,其特征在于,根据所述前一个文本数据的语义对应的信息,获取所述当前文本数据的语义对应的信息的步骤,包括:采用遗传算法对所述当前文本数据的语义和所述前一个文本数据的语义进行解析;获取所述当前文本数据的语义和所述前一个文本数据的语义的维度;如果所述当前文本数据的语义的维度与所述前一个文本数据的语义的维度相同,根据所述前一个文本数据的语义对应的信息的查找范围,查找所述当前文本数据的语义对应的信息;如果所述当前文本数据的语义的维度少于所述前一个文本数据的语义的维度,生成提示信息,以提示输入缺少的维度;当接收到缺少的维度后,根据所述前一个文本数据的语义对应的信息的查找范围,查找当...

【专利技术属性】
技术研发人员:黄哲沈鹏程刘树权张祖齐
申请(专利权)人:南京星邺汇捷网络科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1