一种语音信息提取方法及装置制造方法及图纸

技术编号:25989155 阅读:32 留言:0更新日期:2020-10-20 18:57
本发明专利技术实施例提供一种语音信息提取方法及装置,该方法包括:训练步骤:在多次迭代训练过程中,获取与不同主题类别对应的初始化词汇点对应的主题空间;将各个所述主题空间中的词汇用拼音和/或文字进行表示;将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式;预测步骤:利用得到的各个正则表达式在待处理语音文档中进行匹配,若匹配成功,则待处理文档中包含与相应正则表达式对应的主题空间对应的主题类别。本发明专利技术实施例提供的语音信息提取方法及装置,提高了感兴趣信息提取的准确率、快速性以及泛化能力。

【技术实现步骤摘要】
一种语音信息提取方法及装置
本专利技术涉及语音处理
,具体涉及一种语音信息提取方法及装置。
技术介绍
语音是信息的重要载体,现有技术中具有语音信息提取的需求。在现有技术中,为了验证客服人员的工作是否到位,常常需要去判断客服人员在与顾客对话中是否提到了某些预设的对话内容。通常,对这类信息的判断通过听取通话录音来进行,但是,听取通话录音的方式需要由专人听取全部录音才能做出判断,由此造成人力和时间成本的极大浪费。为解决上述从语音中提取信息的问题,现有的一种VIE(voiceinformationextract,语音信息提取)方法,是先把语音转化成文本,然后,利用业务关键字进行匹配。然而,在语音转换成文本的过程中,语音转换成的文本往往并不是语音所表达的意思,造成文本转换错误。比如,由于同音字识别错误造成文本转换错误;因为语音通话的背景太嘈杂,导致语音转文本的时候,没办法转化到正确的文本信息;因为说话的口音问题,导致转化时找不到准确的对应词汇,从而导致最终的文本和语音要表达的意思完全不同,等等。由于语音转换成的文本出现上述错误,因此导致后续利用业务关键字进行匹配时,语音信息提取结果的可信度较差。并且,由于业务关键字无法穷举,因此导致语音信息提取的泛化能力较差。
技术实现思路
为解决现有技术中的问题,本专利技术实施例提供一种语音信息提取方法及装置。第一方面,本专利技术实施例提供一种语音信息提取方法,包括:训练步骤,所述训练步骤包括:在多次迭代训练过程中,获取与不同主题类别对应的初始化词汇点对应的主题空间;将各个所述主题空间中的词汇用拼音和/或文字进行表示;将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式;预测步骤,所述预测步骤包括:利用得到的各个所述正则表达式在待处理语音文档中进行匹配,若匹配成功,则所述待处理文档中包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别;若匹配不成功,则所述待处理文档中不包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别。进一步地,所述获取与不同主题类别对应的初始化词汇点对应的主题空间,包括:将迭代训练样本通过预设算法转换为词向量并进行聚类,从而得到与不同主题类别对应的初始化词汇点对应的主题空间。进一步地,所述将各个所述主题空间中的词汇用拼音和/或文字进行表示,包括:将各个所述主题空间中所有的词汇先转换为拼音,然后利用预设拼音关键词进行匹配,匹配成功的所述词汇用相应所述拼音关键词表示,匹配不成功的所述词汇恢复成文字表示。进一步地,在第一次迭代时,所述迭代训练样本为初始语音文档,所述初始语音文档为对语音数据经过语音识别及初步分词处理后的文档;在后续迭代时,所述迭代训练样本为根据上一次迭代得到的所述正则表达式对上一次迭代对应的所述迭代训练样本中的相应词汇进行替换得到的语音文档。进一步地,在所述将迭代训练样本通过预设算法转换为词向量并进行聚类之前,所述方法还包括:将所述迭代训练样本进行词性标注,并根据预设的词性临接关系表对所述迭代训练样本进行进一步分词处理;其中,所述词性临接关系表包括预设的多个具有优先级别划分的词性临接关系组合。进一步地,所述根据预设的词性临接关系表对所述迭代训练样本进行进一步分词处理,包括:提取所述迭代训练样本的词性标注信息,根据预设的滑动窗口依次覆盖对应数量的多个相邻词性,将相邻的两个词性分别与所述词性临接关系表中包含的所述词性临接关系组合进行匹配,根据匹配成功的所述词性临接关系组合的优先级由高到低的顺序将所述相邻的两个词性对应的文本组合为一个词。进一步地,在所述根据预设的词性临接关系表对所述迭代训练样本进行进一步分词处理之后,所述将迭代训练样本通过预设算法转换为词向量并进行聚类之前,所述方法还包括:将所述迭代训练样本利用TF-IDF算法进行处理,获取所述迭代训练样本中不同词汇的权重;根据预设阈值,将低权重的词汇设置为停用词,利用高权重的词汇对所述迭代训练样本进行表达。进一步地,在所述后续迭代时,所述迭代训练样本为根据上一次迭代得到的所述正则表达式对上一次迭代对应的所述迭代训练样本中的相应词汇进行替换,并且利用上一次迭代得到的所述停用词进行过滤后得到的迭代训练样本。进一步地,所述方法还包括:从第二次迭代开始,利用得到的所述正则表达式在测试集中进行验证,当达到预设正确率时迭代终止。进一步地,所述预设算法包括word2vec算法。第二方面,本专利技术实施例提供一种语音信息提取装置,包括:训练模块,用于:在多次迭代训练过程中,获取与不同主题类别对应的初始化词汇点对应的主题空间;将各个所述主题空间中的词汇用拼音和/或文字进行表示;将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式;预测模块,用于:利用得到的各个所述正则表达式在待处理语音文档中进行匹配,若匹配成功,则所述待处理文档中包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别;若匹配不成功,则所述待处理文档中不包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别。第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所提供的方法的步骤。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。本专利技术实施例提供的语音信息提取方法及装置,通过在多次迭代训练过程中,获取与不同主题类别对应的初始化词汇点对应的主题空间;将各个所述主题空间中的词汇用拼音和/或文字进行表示;将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式;然后再利用得到的各个正则表达式在待处理语音文档中进行匹配,从而得到待处理文档中是否包含与相应正则表达式对应的主题空间对应的主题类别的信息,提高了感兴趣信息提取的准确率、快速性以及泛化能力。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例提供的语音信息提取方法流程图;图2是本专利技术另一实施例提供的语音信息提取方法流程图;图3是本专利技术一实施例提供的语音信息提取方法中的词性临接关系组合示例;图4是本专利技术一实施例提供的语音信息提取方法中的基于word2vec处理后的聚类结果示意图;图5是本专利技术一实施例提供的语音信息提取装置的结构示意图;图6是本专利技术一实施例提供的电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本专利技术一部分实施例,而不本文档来自技高网...

【技术保护点】
1.一种语音信息提取方法,其特征在于,包括:/n训练步骤,所述训练步骤包括:在多次迭代训练过程中,获取与不同主题类别对应的初始化词汇点对应的主题空间;将各个所述主题空间中的词汇用拼音和/或文字进行表示;将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式;/n预测步骤,所述预测步骤包括:利用得到的各个所述正则表达式在待处理语音文档中进行匹配,若匹配成功,则所述待处理文档中包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别;若匹配不成功,则所述待处理文档中不包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别。/n

【技术特征摘要】
1.一种语音信息提取方法,其特征在于,包括:
训练步骤,所述训练步骤包括:在多次迭代训练过程中,获取与不同主题类别对应的初始化词汇点对应的主题空间;将各个所述主题空间中的词汇用拼音和/或文字进行表示;将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式;
预测步骤,所述预测步骤包括:利用得到的各个所述正则表达式在待处理语音文档中进行匹配,若匹配成功,则所述待处理文档中包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别;若匹配不成功,则所述待处理文档中不包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别。


2.根据权利要求1所述的语音信息提取方法,其特征在于,所述获取与不同主题类别对应的初始化词汇点对应的主题空间,包括:将迭代训练样本通过预设算法转换为词向量并进行聚类,从而得到与不同主题类别对应的初始化词汇点对应的主题空间。


3.根据权利要求1所述的语音信息提取方法,其特征在于,所述将各个所述主题空间中的词汇用拼音和/或文字进行表示,包括:将各个所述主题空间中所有的词汇先转换为拼音,然后利用预设拼音关键词进行匹配,匹配成功的所述词汇用相应所述拼音关键词表示,匹配不成功的所述词汇恢复成文字表示。


4.根据权利要求2或3所述的语音信息提取方法,其特征在于,在第一次迭代时,所述迭代训练样本为初始语音文档,所述初始语音文档为对语音数据经过语音识别及初步分词处理后的文档;在后续迭代时,所述迭代训练样本为根据上一次迭代得到的所述正则表达式对上一次迭代对应的所述迭代训练样本中的相应词汇进行替换得到的语音文档。


5.根据权利要求2所述的语音信息提取方法,其特征在于,在所述将迭代训练样本通过预设算法转换为词向量并进行聚类之前,所述方法还包括:
将所述迭代训练样本进行词性标注,并根据预设的词性临接关系表对所述迭代训练样本进行进一步分词处理;其中,所述词性临接关系表包括预设的多个具有优先级别划分的词性临接关系组合。

【专利技术属性】
技术研发人员:郭流芳
申请(专利权)人:贝壳技术有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1