一种语音信息提取方法及装置制造方法及图纸

技术编号：25989155 阅读：32 留言：0更新日期：2020-10-20 18:57

本发明专利技术实施例提供一种语音信息提取方法及装置，该方法包括：训练步骤：在多次迭代训练过程中，获取与不同主题类别对应的初始化词汇点对应的主题空间；将各个所述主题空间中的词汇用拼音和/或文字进行表示；将各个所述主题空间进行正则化抽象，分别得到相应的正则表达式；预测步骤：利用得到的各个正则表达式在待处理语音文档中进行匹配，若匹配成功，则待处理文档中包含与相应正则表达式对应的主题空间对应的主题类别。本发明专利技术实施例提供的语音信息提取方法及装置，提高了感兴趣信息提取的准确率、快速性以及泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音信息提取方法及装置
本专利技术涉及语音处理
，具体涉及一种语音信息提取方法及装置。
技术介绍
语音是信息的重要载体，现有技术中具有语音信息提取的需求。在现有技术中，为了验证客服人员的工作是否到位，常常需要去判断客服人员在与顾客对话中是否提到了某些预设的对话内容。通常，对这类信息的判断通过听取通话录音来进行，但是，听取通话录音的方式需要由专人听取全部录音才能做出判断，由此造成人力和时间成本的极大浪费。为解决上述从语音中提取信息的问题，现有的一种VIE(voiceinformationextract，语音信息提取)方法，是先把语音转化成文本，然后，利用业务关键字进行匹配。然而，在语音转换成文本的过程中，语音转换成的文本往往并不是语音所表达的意思，造成文本转换错误。比如，由于同音字识别错误造成文本转换错误；因为语音通话的背景太嘈杂，导致语音转文本的时候，没办法转化到正确的文本信息；因为说话的口音问题，导致转化时找不到准确的对应词汇，从而导致最终的文本和语音要表达的意思完全不同，等等。由于语音转换成的文本出现上述错误，因此导致后续利用业务关键字进行匹配时，语音信息提取结果的可信度较差。并且，由于业务关键字无法穷举，因此导致语音信息提取的泛化能力较差。
技术实现思路
为解决现有技术中的问题，本专利技术实施例提供一种语音信息提取方法及装置。第一方面，本专利技术实施例提供一种语音信息提取方法，包括：训练步骤，所述训练步骤包括：在多次迭代训练过程中，获取与不同主题类别...

【技术保护点】
1.一种语音信息提取方法，其特征在于，包括：/n训练步骤，所述训练步骤包括：在多次迭代训练过程中，获取与不同主题类别对应的初始化词汇点对应的主题空间；将各个所述主题空间中的词汇用拼音和/或文字进行表示；将各个所述主题空间进行正则化抽象，分别得到相应的正则表达式；/n预测步骤，所述预测步骤包括：利用得到的各个所述正则表达式在待处理语音文档中进行匹配，若匹配成功，则所述待处理文档中包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别；若匹配不成功，则所述待处理文档中不包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别。/n

【技术特征摘要】
1.一种语音信息提取方法，其特征在于，包括：
训练步骤，所述训练步骤包括：在多次迭代训练过程中，获取与不同主题类别对应的初始化词汇点对应的主题空间；将各个所述主题空间中的词汇用拼音和/或文字进行表示；将各个所述主题空间进行正则化抽象，分别得到相应的正则表达式；
预测步骤，所述预测步骤包括：利用得到的各个所述正则表达式在待处理语音文档中进行匹配，若匹配成功，则所述待处理文档中包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别；若匹配不成功，则所述待处理文档中不包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别。

2.根据权利要求1所述的语音信息提取方法，其特征在于，所述获取与不同主题类别对应的初始化词汇点对应的主题空间，包括：将迭代训练样本通过预设算法转换为词向量并进行聚类，从而得到与不同主题类别对应的初始化词汇点对应的主题空间。

3.根据权利要求1所述的语音信息提取方法，其特征在于，所述将各个所述主题空间中的词汇用拼音和/或文字进行表示，包括：将各个所述主题空间中所有的词汇先转换为拼音，然后利用预设拼音关键词进行匹配，匹配成功的所述词汇用相应所述拼音关键词表示，匹配不成功的所述词汇恢复成文字表示。

4.根据权利要求2或3所述的语音信息提取方法，其特征在于，在第一次迭代时，所述迭代训练样本为初始语音文档，所述初始语音文档为对语音数据经过语音识别及初步分词处理后的文档；在后续迭代时，所述迭代训练样本为根据上一次迭代得到的所述正则表达式对上一次迭代对应的所述迭代训练样本中的相应词汇进行替换得到的语音文档。

5.根据权利要求2所述的语音信息提取方法，其特征在于，在所述将迭代训练样本通过预设算法转换为词向量并进行聚类之前，所述方法还包括：
将所述迭代训练样本进行词性标注，并根据预设的词性临接关系表对所述迭代训练样本进行进一步分词处理；其中，所述词性临接关系表包括预设的多个具有优先级别划分的词性临接关系组合。

【专利技术属性】
技术研发人员：郭流芳，
申请(专利权)人：贝壳技术有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人