语音识别后的文本标准化处理方法技术

技术编号:24011179 阅读:47 留言:0更新日期:2020-05-02 01:47
本发明专利技术实施例提供一种语音识别后的语音识别后的文本标准化处理方法。该方法包括:根据badcase模块中采集的客户服务反馈的ITN错误,在badcase模块中设定文本转换匹配规则集合;将语音识别后的待标准化的纯语言文本输入至badcase模块,并逆文本标记后输出;将badcase模块输出的文本中的逆文本标记的至少一个字符替换为对应数量的特殊符号,特殊符号选自神经网络模型无法转换的符号;将文本输入至二分类神经网络模型,输出0/1标签序列并确定模型能够转换第文本的置信度;通过置信度判断,确定不同规则的处理文本;利用缓存的一个词语对处理文本中的特殊符号进行替换,确定纯语言文本的文本标准化结果。本发明专利技术实施例提高文本标准化处理速度和精度,适用大规模的数据处理。

Text standardization after speech recognition

【技术实现步骤摘要】
语音识别后的文本标准化处理方法
本专利技术涉及文本处理领域,尤其涉及一种语音识别后的语音识别后的文本标准化处理方法。
技术介绍
为了防止语音识别中,将一些本不应转换的词语转换成了其他形式的词语,例如,将2018-08-08的日期,误转为二零一八-零八-零八的文本,通常会进行逆文本标准化。逆文本标准化会利用一组简单的规则和一些手工编写的语法将,需要逆文本标准化的内容转换为一个标记问题。对于标记问题,应用了一个紧凑的双向LSTM(Longshorttermmemory,长短时记忆)。给每个语音形式的输入标志分配一个标签,得到与之对应的书写形式片段和后续处理的开始结束位置;应用一定的编辑,生成书写形式字符串;将被标记区域使用后续处理语法进行处理。在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:完全由手工规则建立的逆文本标准化系统需要更多的语言方面专业知识,规则不能利用文本本身的语义信息,合理准确的基于规则的系统需要构建和维护大型、复杂的特定于语言的规则文件,此种方式不适合处理大规模数据;手工语法和统计模型的混合方法,本文档来自技高网...

【技术保护点】
1.一种语音识别后的文本标准化处理方法,包括:/n根据badcase模块中采集的客户服务反馈的ITN错误,在badcase模块中设定文本转换匹配规则集合;/n将语音识别后的待标准化的纯语言文本输入至所述badcase模块,若所述纯语言文本中的至少一个词语命中所述集合中的匹配规则时,将所述至少一个词语进行缓存,并逆文本标记后输出;/n将badcase模块输出的文本中的逆文本标记的至少一个字符替换为对应数量的特殊符号,得到第一处理文本,所述特殊符号选自神经网络模型无法转换的符号;/n将所述第一处理文本输入至二分类神经网络模型,输出0/1标签序列并确定模型能够转换所述第一处理文本的置信度,其中,0代...

【技术特征摘要】
1.一种语音识别后的文本标准化处理方法,包括:
根据badcase模块中采集的客户服务反馈的ITN错误,在badcase模块中设定文本转换匹配规则集合;
将语音识别后的待标准化的纯语言文本输入至所述badcase模块,若所述纯语言文本中的至少一个词语命中所述集合中的匹配规则时,将所述至少一个词语进行缓存,并逆文本标记后输出;
将badcase模块输出的文本中的逆文本标记的至少一个字符替换为对应数量的特殊符号,得到第一处理文本,所述特殊符号选自神经网络模型无法转换的符号;
将所述第一处理文本输入至二分类神经网络模型,输出0/1标签序列并确定模型能够转换所述第一处理文本的置信度,其中,0代表不转换字符,1代表转换字符;
-当所述置信度大于等于预设阈值时,将所述标签序列输入至第一规则集合中进行匹配,将标签1对应的字符进行文本标准化转换,得到第二处理文本;
-当所述置信度小于预设阈值时,将所述第一处理文本输入到第二规则集合中进行匹配,对所述纯语言文本进行文本标准化转换,得到第二处理文本,其中,所述第一规则集合中的规则数量少于所述第二规则集合中的规则数量;
利用缓存的至少一个词语对所述第二处理文本中的特殊符号进行替换,确定所述纯语言文本的文本标准化结果。


2.根据权利要求1所述的方法,其中,所述将标签1对应的字符进行文本标准化转换包括:将所述标签1对应的文本数字字符转化为阿拉伯数字字符。


3.根据权利要求2所述的方法,其中,所述纯语言文本至少包括:无...

【专利技术属性】
技术研发人员:邱瑾时猛
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1