语音处理方法、计算机可读存储介质、计算机程序和电子设备技术

技术编号:24462208 阅读:18 留言:0更新日期:2020-06-10 17:21
本发明专利技术实施例提供一种语音处理方法、计算机可读存储介质、计算机程序和电子设备。语音处理方法包括:获取包含身份标识数据说话人的语音数据;对语音数据进行语音识别以及语义分析,至少获得识别标识数据;对所识别标识数据进行扩展处理,获得说话人的扩展标识数据;将扩展标识数据与用户信息数据库中存有的用户身份标识数据进行标识匹配,获得匹配的数据记录;对语音数据进行特征提取,获取说话人的特征数据;将特征数据分别与匹配到的数据记录中的用户身份特征数据进行特征匹配,确定说话人的身份以及身份认证结果。由此,在进行身份认证时可控地扩大搜索范围,同时提高命中率。

Speech processing method, computer readable storage medium, computer program and electronic equipment

【技术实现步骤摘要】
语音处理方法、计算机可读存储介质、计算机程序和电子设备
本专利技术实施例涉及信息处理技术,尤其涉及一种语音处理方法、计算机可读存储介质、计算机程序和电子设备。
技术介绍
身份认证技术是在计算机网络中确认操作者身份的过程而产生的有效解决方法。对用户的身份认证基本方法分为三种,即基于信息密码的身份认证、基于信任物体的身份认证、基于生物特征的身份认证。其中,基于生物特征的身份认证是根据独一无二的身体特征来证明操作者身份,比如指纹、人脸等。说话人识别是生物特征识别技术的一种,其理论基础是,每一个声音都具有独特的特征,通过该特征能将不同人的声音进行有效的区分。说话人识别技术通常用于说话人辨认和说话人确认等两种场景。在当前的生物特征识别中,说话人身份确认技术仅成熟于1:1和小规模的情况下;人脸的辨认应用也仅取相似度前几位的候选,而指纹识别、人脸识别技术目前也仅成熟于1:1的场景下,同时还面临这各种各样的隐私及假冒的问题。在现有的说话人识别技术中对于说话人身份的辨认,由于集合大,导致识别速度慢、准确率低。
技术实现思路
本专利技术实施例的目的在于,提供一种语音处理方案,以使得能够在对海量用户集合进行说话人辨认中提高命中率。根据本专利技术实施例的第一方面,提供一种语音处理方法,包括:获取说话人的语音数据,所述语音数据包含所述说话人的身份标识数据;对所述语音数据进行语音识别,获得相应的识别文本数据;对所述识别文本数据进行语义分析,至少获得识别标识数据;对所述识别标识数据进行扩展处理,获得所述说话人的扩展标识数据;将扩展标识数据与用户信息数据库中存有的用户身份标识数据进行标识匹配,获得匹配的数据记录,所述数据记录至少包括所述用户身份标识数据和用户身份特征数据;对所述语音数据进行特征提取,获取所述说话人的特征数据;将所述特征数据分别与匹配到的数据记录中的用户身份特征数据进行特征匹配,确定所述说话人的身份以及身份认证结果。可选地,所述对所述识别标识数据进行扩展处理,获得所述说话人的扩展标识数据,包括:将所述识别标识数据的字符串中的字符替换为容易与所述字符混淆的替换字符,获得所述扩展标识数据;和/或,将所述识别标识数据的字符串中处于端侧的字符删除,获得所述扩展标识数据。可选地,在对所述识别标识数据进行扩展处理,获得扩展标识数据之前,所述方法还包括:将所述识别标识数据与用户信息数据库中存有的用户身份标识数据进行标识匹配,获得匹配的数据记录;如果没有匹配得到数据记录,则执行对所述识别标识数据进行扩展处理,获得扩展标识数据的步骤;如果匹配得到数据记录,则执行对所述语音数据进行特征提取以及将所述特征数据分别与匹配到的数据记录中的用户身份特征数据进行特征匹配的处理。可选地,所述语音数据还包含所述说话人的交易数据,所述对所述识别文本数据进行语义分析,至少获得识别标识数据,包括:对所述识别文本数据进行语义分析,获得识别标识数据和识别交易数据。可选地,在将所述特征数据分别与匹配到的数据记录中的用户身份特征数据进行特征匹配,确定所述说话人的身份以及身份认证结果之后,所述方法还包括:根据所述识别交易数据,执行交易操作;提供所述交易操作的结果。可选地,在根据所述识别交易数据,执行交易操作之前,所述方法还包括:将所述用户身份标识数据和所述识别交易数据提供给用户端进行确认;在得到所述确认后,根据所述识别交易数据,执行交易操作,并且提供所述交易操作的结果。可选地,所述获取的特征数据和所述用户身份特征数据均为声纹特征数据。根据本专利技术实施例的第二方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,其中,所述程序指令被处理器执行时实现任一前述语音处理方法的步骤。根据本专利技术实施例的第三方面,提供一种计算机程序,其包括有计算机程序指令,其中,所述程序指令被处理器执行时实现任一前述语音处理方法的步骤。根据本专利技术实施例的第四方面,提供一种电子设备,包括:处理器、存储器、通信元件和通信总线,所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如任一前述语音处理方法对应的操作。根据本专利技术实施例提供的语音处理方案,在数据库中存在大量用户数据的情况下,能够对说话人讲出的包括其身份标识的语音数据进行分析和识别,对因发音错误或识别错误导致的语音识别偏差,能够通过扩展识别得到的标识数据有限地扩展搜索范围,再进行语音数据的特征提取以及与用户信息数据库中存档的用户特征数据的匹配,以确定说话人的身份以及身份认证结果,从而可控地扩大搜索范围,同时提高命中率。附图说明图1是示出根据本专利技术一些实施例的语音处理方法的流程图;图2是示出根据本专利技术另一些实施例的语音处理方法的流程图;图3是示出根据本专利技术一些实施例的语音处理方法的处理的示意图;图4是示出根据本专利技术实施例的电子设备的结构示意图。具体实施方式下面结合附图详细描述本专利技术实施例的示例性实施例。在本申请中,“多个”指两个或两个以上,“至少一个”指一个、两个或两个以上。对于本申请中提及的任一部件、数据或结构,在没有明确限定一个的情况下,可理解为一个或多个。如前所述,说话人识别技术是通过人说话时候的声音来验证其身份的技术。这项技术被广泛运用于各大领域。说话人识别根据应用范畴既包含了说话人身份的确认,也包含对说话人身份的辨认。说话人辨认(SpeakerIdentification)是指待识别的语音判断为属于X个说话人中的某一位,是一个多选一的问题,即1:N的问题。然而,说话人辨认技术因待识别集合大导致识别速度慢,精度低。说话人确认(SpeakerVerification)是指利用一段建模语音来确认一段语音是不是来自同一个人,即1:1的问题。现有的说话人识别技术通过服务器生成密码,由客户端给出文本提示后用户读取密码,再由网络传输的方式返回服务器上进行识别,然而密码信息和语音数据的传输不仅增加服务器和手机端的信息传递数量,同时存在因密码泄露带来的安全隐患。为解决在大规模身份认证过程中显现的问题,本专利技术实施例结合语音识别、说话人辨认及说话人确认技术,提出一种语音处理方法,针对大规模说话人的身份认证处理中,对在有限数据集合环境下具有典型差错概率的数据进行范围缩小处理,以控制执行说话人辨认及说话人确认的处理量。具体地,在存在对大规模用户的身份认证的情况下,从说话人的语音内容提取有效信息,并针对有限数据集合环境下典型差错概率的数据进行搜索,缩小识别范围后进行说话人身份辨认,利用说话人身份确认技术对辨认结果进行分析,在判定说话人为本人之后实现相关操作的方法。该技术包含了语音识别、语义分析、说话人辨认、说话人确认技术,有效解决各生物特征仅成熟于1:1和小规模情况无法满足大规模身份认证时的实际应用和现有技术方案的局限性问题,防止说话人识别过程中因发生差错导致搜索不出结果从而影响方案的可操作性。另外,还能够本文档来自技高网...

【技术保护点】
1.一种语音处理方法,包括:/n获取说话人的语音数据,所述语音数据包含所述说话人的身份标识数据;/n对所述语音数据进行语音识别,获得相应的识别文本数据;/n对所述识别文本数据进行语义分析,至少获得识别标识数据;/n对所述识别标识数据进行扩展处理,获得所述说话人的扩展标识数据;/n将扩展标识数据与用户信息数据库中存有的用户身份标识数据进行标识匹配,获得匹配的数据记录,所述数据记录至少包括所述用户身份标识数据和用户身份特征数据;/n对所述语音数据进行特征提取,获取所述说话人的特征数据;/n将所述特征数据分别与匹配到的数据记录中的用户身份特征数据进行特征匹配,确定所述说话人的身份以及身份认证结果。/n

【技术特征摘要】
1.一种语音处理方法,包括:
获取说话人的语音数据,所述语音数据包含所述说话人的身份标识数据;
对所述语音数据进行语音识别,获得相应的识别文本数据;
对所述识别文本数据进行语义分析,至少获得识别标识数据;
对所述识别标识数据进行扩展处理,获得所述说话人的扩展标识数据;
将扩展标识数据与用户信息数据库中存有的用户身份标识数据进行标识匹配,获得匹配的数据记录,所述数据记录至少包括所述用户身份标识数据和用户身份特征数据;
对所述语音数据进行特征提取,获取所述说话人的特征数据;
将所述特征数据分别与匹配到的数据记录中的用户身份特征数据进行特征匹配,确定所述说话人的身份以及身份认证结果。


2.根据权利要求1所述的方法,其特征在于,所述对所述识别标识数据进行扩展处理,获得所述说话人的扩展标识数据,包括:
将所述识别标识数据的字符串中的字符替换为容易与所述字符混淆的替换字符,获得所述扩展标识数据;和/或,
将所述识别标识数据的字符串中处于端侧的字符删除,获得所述扩展标识数据。


3.根据权利要求1或2所述的方法,其特征在于,在对所述识别标识数据进行扩展处理,获得扩展标识数据之前,所述方法还包括:
将所述识别标识数据与用户信息数据库中存有的用户身份标识数据进行标识匹配,获得匹配的数据记录;
如果没有匹配得到数据记录,则执行对所述识别标识数据进行扩展处理,获得扩展标识数据的步骤;
如果匹配得到数据记录,则执行对所述语音数据进行特征提取以及将所述特征数据分别与匹配到的数据记录中的用户身份特征数据进行特征匹配的处理。


4.根据权利要求1或2所...

【专利技术属性】
技术研发人员:郑方邬晓钧向银杉张慧方亚南
申请(专利权)人:北京得意音通技术有限责任公司贵州得意音通技术有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1