当前位置: 首页 > 专利查询>深港产学研基地北京大学香港科技大学深圳研修院专利>正文

实时语音识别方法、装置、设备及介质制造方法及图纸

技术编号：30405471 阅读：12 留言：0更新日期：2021-10-20 11:08

本申请涉及人工智能技术领域，揭露了一种实时语音识别方法，所述方法包括：获取用户输入的第一语音流，通过预设的第一声纹特征实时对所述第一语音流进行噪声去除，得到第二语音流，所述第一声纹特征为用户的历史语音集中所提取到的声纹特征；通过预设的断句特征对所述第二语音流实时进行端点检测，以判断是否出现语音开始点，所述断句特征为用户的历史语音集中所提取到的断句特征；在检测到语音开始点时，实时对所述第二语音流进行语音识别，得到语音文本。此外，本申请还涉及一种实时语音识别方法、装置、设备及存储介质。本申请可解决语音识别的效率较低以及识别结果的可读性较差的问题。的问题。的问题。

全部详细技术资料下载

【技术实现步骤摘要】
实时语音识别方法、装置、设备及介质

[0001]本申请涉及人工智能
，尤其涉及一种实时语音识别方法、装置及存储介质。

技术介绍

[0002]随着科技的发展，人工智能技术在各个领域的应用越来越广泛。语音识别作为人工智能技术的一项重要应用，被广泛应用于各个领域。例如，客服问答中，通过对用户语音的识别，可实现对用户意图的定位，进而实现针对性的对用户提供个性化服务，或者通过对客服语音的识别，可实现对不同客服的服务态度或业务水平的判断，进而对客服的工作进行监督。
[0003]目前的实时语音识别方法多为获取用户的整段语音，再对整段语音进行识别，将识别的第二语音文本输出给用户。该方法中，当整段语音较长时，语音包含的内容较多，会导致语音识别的效率低下，且直接将语音识别的内容作为结果输出，会导致语音识别结果中包含一些错误，以至于语音识别结果的可读性较低。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种实时语音识别方法、装置及存储介质。
[0005]第一方面，本申请提供了一种实时语音识别方法，所述方法包括：
[0006]获取用户输入的第一语音流，通过预设的第一声纹特征实时对所述第一语音流进行噪声去除，得到第二语音流，所述第一声纹特征为用户的历史语音集中所提取到的声纹特征；
[0007]通过预设的断句特征对所述第二语音流实时进行端点检测，以判断是否出现语音开始点，所述断句特征为用户的历史语音集中所提取到的断句特征；
[0008]在...

【技术保护点】

【技术特征摘要】
1.一种实时语音识别方法，其特征在于，所述方法包括：获取用户输入的第一语音流，通过预设的第一声纹特征实时对所述第一语音流进行噪声去除，得到第二语音流，所述第一声纹特征为用户的历史语音集中所提取到的声纹特征；通过预设的断句特征对所述第二语音流实时进行端点检测，以判断是否出现语音开始点，所述断句特征为用户的历史语音集中所提取到的断句特征；在检测到语音开始点时，实时对所述第二语音流进行语音识别，得到语音文本。2.根据权利要求1所述的实时语音识别方法，其特征在于，所述获取用户输入的第一语音流的步骤之前，包括：获取用户的所述历史语音集；从所述历史语音集中提取所述第一声纹特征和所述断句特征。3.根据权利要求1所述的实时语音识别方法，其特征在于，所述根据所述第一声纹特征对所述第一语音流进行噪声去除，得到第二语音流，包括：提取所述第一语音流中各时刻的第二声纹特征；计算所述第二声纹特征与所述第一声纹特征的相似度；剔除所述第一语音流中相似度小于预设相似度阈值的第二声纹特征，得到第二语音流。4.根据权利要求2所述的实时语音识别方法，其特征在于，所述断句特征包括断句时长阈值与习惯断句词，所述的从所述历史语音集中提取所述断句时长阈值，包括：统计所述历史语音集中用户每次断句的断句时长；根据所述断句时长计算用户断句的平均时长，并根据所述平均时长确定所述断句时长阈值；以及，所述的从所述历史语音集中提取所述习惯断句词，包括：统计所述历史语音集中用户每次断句前的词语，得到断句词语集计算所述断句词语集中各个词语出现的频率，将所述频率大于预设频率阈值的词语作为所述断句习惯词。5.根据权利要求4所述的实时语音识别方法，其特征在于，所述通过预设的断句特征对所述第二语音流实时进行端点检测，以判断是否出现语音开始点，包括：实时检测所述第二语音流是否出现停顿；在监测到停顿时，记录所述停顿的持续时间，并识别停顿前的单位时间内所述第二语音流中出现的词语；将所述持续时间与所述断句时长阈值进行比对，并将所述词语与所述习惯断句词进行比对；若所述持续时间大于所述断句时长阈值，且所述词语是所述习惯断句词，则确定所述停顿出未所述第二语音流的语音开始点。6.根据权利要求1至5中任意一项所述的实时语音识别方法，其特征在于，所述对所述第二语音流进行语音识别，得到语音文本，包括：对所述第...

【专利技术属性】
技术研发人员：刘轶，聂吉昌，
申请(专利权)人：深港产学研基地北京大学香港科技大学深圳研修院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人