语音处理方法及系统技术方案

技术编号:8301236 阅读:191 留言:0更新日期:2013-02-07 05:23
本发明专利技术涉及一种语音处理方法,其步骤如下:获取用户通话过程中的语音数据;检测所述语音数据中的词语;按预定要求提取所述词语供用户选取;将用户选取的词语作为候选词语加入到语音数据样本库中;在通话过程中如果检测到所述候选词语则进行提示。上述语音处理方法,按预定要求提取所述词语供用户选取并将用户选取的词语加入到语音样本数据库中,在通话过程中如果检测到所述候选词语则进行提示,由此可以根据实际的通话过程中的语音数据来确定候选词语,不会漏掉某些不易被察觉的口头禅,从而避免疏漏,更好地帮助用户改善不良的语言习惯。此外,还提出一种语音处理系统。

【技术实现步骤摘要】

本专利技术涉及语音识别
,特别是涉及一种基于语音识别技术的语音处理方法及系统
技术介绍
在日常通话中,每个人或多或少都会有一些经常挂在口头上而无多大实际意义的词,这种词人们称为口头禅。口头禅的形成大致跟使用者的性格、生活遭遇或是精神状态有关,可以算是个人标志,是个人习惯用语的代名词,往往不经过大脑直接说出。日常通话中口头禅的无意识使用,往往影响着他人对使用者的感觉或印象。如果口头禅是不够积极向上的,特别是如果某些口头禅被大众认为是脏话,则往往使他人对说话者造成误解,甚至会发生一些不必要的纠纷,还可能因此丧失一些机会。因此,人们普遍希望能够发现自己的口头禅、进而纠正自己不好的说话习惯。 早期,人们普遍采取由他人提醒的方式,但这种方式不太适合语音通话,因为人们很难要求对话对象来提醒自己。为此,传统技术中提出了一种在语音通话过程中检测脏话的方法,其方式为预先输入几个语音数据作为检测样本,一旦检测到与样本相匹配的语音,便通过蜂鸣器予以提示,警示用户说脏话。上述脏话检测方法,只能根据用户预先输入的语音数据作为样本,这样可能会漏掉某些不易被察觉的口头禅,这些被漏掉的口头禅很难被补充进语音数据样本库中,由此导致上述检测方法的使用效果有限。
技术实现思路
基于此,有必要针对根据用户预先输入的语音数据作为样本,会漏掉某些不易被察觉的口头禅的问题,提供一种能够对语音数据样本库进行完善的语音处理方法。一种语音处理方法,包括如下步骤获取用户通话过程中的语音数据;检测所述语音数据中的词语;按预定要求提取所述词语供用户选取;将用户选取的词语作为候选词语加入到语音数据样本库中;在通话过程中如果检测到所述候选词语则进行提示。在其中一个实施例中,所述在通话过程中如果检测到所述候选词语则进行提示的步骤包括检测用户通话过程中出现的词语;将检测到的词语与所述语音数据样本库中的候选词语进行对比;判断检测到的词语为候选词语时发出提示。在其中一个实施例中,语音数据样本库中的同一个候选词语允许出现的上限次数的剩余少于N时,更改提示方式。在其中一个实施例中,语音数据样本库中的同一个候选词语允许出现的上限次数的剩余为O时结束通话。在其中一个实施例中,当获取到的语音数据的容量大小超过预设内存空间时停止所述获取用户通话过程中的语音数据的步骤。在其中一个实施例中,在按预定要求提取所述词语供用户选取的步骤中,统计出现频率大于设定频率的词语并提取供用户选取,或统计所述词语的出现频率并按频率排序后供用户选取。在其中一个实施例中,记录供用户选取但未被选取的词语,将其标记为正常使用词语,在下次统计所述词语的出现频率中不予统计。此外,还提出一种语音处理系统,包括 获取模块,获取用户通话过程中的语音数据;检测模块,检测所述语音数据中的词语;提取模块,按预定要求提取所述词语供用户选取;加入模块,将用户选取的词语作为候选词语加入到语音数据样本库中;提示模块,在通话过程中如果检测到所述候选词语则进行提示。在其中一个实施例中,所述提示模块包括检测单元、比对单元和提示单元,所述检测单元检测用户通话过程中出现的词语,所述比对单元将检测到的词语与所述语音数据样本库中的候选词语进行对比;所述提示单元在判断检测到的词语为候选词语时发出提示。在其中一个实施例中,所述提示模块还包括计数单元,用以累积检测到所述候选词语的次数,当同一个候选词语允许出现的上限次数的剩余少于N时,所述计数单元通知所述提示单元更改提示方式。在其中一个实施例中,所述提示模块还包括通话结束单元,在所述计数单元统计到语音数据样本库中的同一个候选词语允许出现的上限次数的剩余为O时,所述通话结束单元结束通话。在其中一个实施例中,所述提取模块包括统计单元,所述统计单元统计出现频率大于设定频率的词语并提取供用户选取,或者统计所述词语的出现频率并按频率排序后供用户选取。在其中一个实施例中,所述加入模块包括加入单元和记录单元,所述加入单元用以将用户选取的词语作为候选词语加入到语音数据样本库中,所述记录单元将记录供用户选取但未被选取的词语,将其标记为正常使用词语并通知所述统计单元在下次统计所述词语的出现频率中不予统计。在其中一个实施例中,还包括容量检测模块,所述容量检测模块在所述获取模块获取到的语音数据的容量大小超过预设内存空间时停止所述获取模块继续获取用户通话过程中的语音数据。上述语音处理方法及系统,按预定要求提取所述词语供用户选取并将用户选取的词语加入到语音样本数据库中,在通话过程中如果检测到所述候选词语则进行提示,由此可以根据实际的通话过程中的语音数据来确定候选词语,不会漏掉某些不易被察觉的口头禅,从而避免疏漏,更好地帮助用户改善不良的语言习惯。附图说明图I为实施方式一的语音处理方法的工作流程图;图2为实施方式二的语音处理方法的工作流程图;图3为语音处理系统的模块图。 具体实施例方式以下本实施方式的语音处理方法能够利用实际的通话过程,对语音样本数据库进行完善,以保证通话过程中检测的全面性,有效帮助用户改善不良的语言习惯。如图I所示,实施方式一的语音处理方法包括如下步骤步骤SI 10,获取用户通话过程中的语音数据。本步骤中,可以通过麦克风采集语音获取语音数据。而这里的语音数据,可以是只获取单次通话的语音数据,也可以是获取多次通话的语音数据并进行累计存储。获取到的语音数据可以存储在手机自身内存中,也可以存储在扩展卡中。在其中一个实施例中,用户可以根据需要预设用以存储获取到的语音数据的存储空间的容量上限作为预设内存空间,避免占据手机过多内存,导致后续清理难度增大。当获取到的语音数据的容量大小超过预设内存空间时停止本步骤,即停止获取用户通话过程中的语音数据。当然,也可以采用自动删除的方式,即自动删除早前存储的语音数据。另外,也可以不设置容量上限。步骤S120,检测所述语音数据中的词语。本步骤中,可以采用语音识别技术获得语音数据中的词语。由于语音识别数据已经广泛使用,在此不再详述。如果步骤SllO中获得的是单次通话的语音数据,则检测该单次通话的语音数据中的词语,还可以进一步统计检测到的词语的出现频率;如果步骤S 110中获得的是多次通话的语音数据,则获得每次通话的语音数据中的词语并累计后得到词语的出现频率。检测出来词语后可以删掉原始语音数据,仅保留文本词语,节省存储空间。用户可以自定义统计基准,例如可以是统计每分钟(或每两分钟内等)同一词语的出现频率。统计的对象可以是语音数据中的所有词语,也可以是除某些特定词语之外的所有词语,即排除掉一些因为专业问题需要常说的词语,比如“专利”。步骤S130,按预定要求提取所述词语供用户选取。这里的预定要求可以是词语的出现频率大于设定频率,这个设定频率可以是默认值或是用户根据需要自行修改,用户可以设定将出现频率大于设定频率的词语全部提取或排序后提取前几名;预定要求还可以是直接按照词语的出现频率进行排序,将排序后的词语供用户选取,而不需要大于设定频率,这里可以预先设定提取排序靠前的要求,如提取排序前三、前五等。本步骤中,供用户选取的方式可以是将提取到的词语显示在用户终端屏幕上,或语音询问用户是否选择将该提取到的词语设为语音数据样本,然后通过语音识别技术获取用户选择的词语并设为语音数据样本。语音询本文档来自技高网...

【技术保护点】
一种语音处理方法,其特征在于,包括如下步骤:获取用户通话过程中的语音数据;检测所述语音数据中的词语;按预定要求提取所述词语供用户选取;将用户选取的词语作为候选词语加入到语音数据样本库中;在通话过程中如果检测到所述候选词语则进行提示。

【技术特征摘要】

【专利技术属性】
技术研发人员:黑吉昌丁兆刚
申请(专利权)人:东莞宇龙通信科技有限公司宇龙计算机通信科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1