【技术实现步骤摘要】
一种适用于法律热线语音识别的文本纠错和补全方法
本专利技术属于语音识别
,尤其涉及一种适用于法律热线语音识别的文本纠错和补全方法。
技术介绍
面向法律热线这一特定场景的语音识别,例如拨打12348、12368等司法服务热线时,因电话语音识别发展滞后、用户对法律不够熟悉、地方口音等原因,导致热点电话通话过程中的实时语音识别容易出现错漏,目前面向法律热线场景未有完善易用的语音识别文本纠错方法,法律热线领域是一个专业领域,通用的方法在该领域效果不佳。并且现有的语音识别文本纠错方法,没有提供补全方法,如果语音识别结果存在完整词汇的遗漏,就无法进行纠错。
技术实现思路
(一)专利技术目的本专利技术的目的是提供一种适用于法律热线语音识别的文本纠错和补全方法以解决现有技术中法律热线的语音识别经常出现错漏的问题。(二)技术方案为解决上述问题,本专利技术的第一方面提供了一种适用于法律热线语音识别的文本纠错和补全方法,包括:对语音识别的初始文本分词并注音,得到待纠错文本;计算所述待纠错文本与法律词汇的标 ...
【技术保护点】
1.一种适用于法律热线语音识别的文本纠错和补全方法,其特征在于,包括:/n对语音识别的初始文本分词并注音,得到待纠错文本;/n计算所述待纠错文本与法律词汇的标准拼音之间的编辑距离,得到编辑距离值;/n将所述待纠错文本传入预训练语言模型进行预测,得到第一概率预测值;/n采用抽象语义表示算法对收集的法律文本语料进行抽象语义表示,构建带权重的法律抽象语义知识图谱;/n采用抽象语义表示算法对所述纠错文本进行抽象语义表示,在所述法律抽象语义知识图谱中进行关联性分析,获得关联语义权重值;/n将所述编辑距离值、所述关联语义权重值和所述第一概率预测值使用打分法进行加权打分,得到第一分数;/ ...
【技术特征摘要】
1.一种适用于法律热线语音识别的文本纠错和补全方法,其特征在于,包括:
对语音识别的初始文本分词并注音,得到待纠错文本;
计算所述待纠错文本与法律词汇的标准拼音之间的编辑距离,得到编辑距离值;
将所述待纠错文本传入预训练语言模型进行预测,得到第一概率预测值;
采用抽象语义表示算法对收集的法律文本语料进行抽象语义表示,构建带权重的法律抽象语义知识图谱;
采用抽象语义表示算法对所述纠错文本进行抽象语义表示,在所述法律抽象语义知识图谱中进行关联性分析,获得关联语义权重值;
将所述编辑距离值、所述关联语义权重值和所述第一概率预测值使用打分法进行加权打分,得到第一分数;
将所述关联语义权重值和第一概率预测值使用打分法进行加权打分,得到第二分数;
根据所述第一分数判断是否需要纠错,并进行纠正;根据所述第二分数判断是否需要补全,并补全文本。
2.根据权利要求1所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,还包括:
将所述第一分数与第一阈值进行比较,若所述第一分数大于所述第一阈值,针对需要纠错的文本进行纠正;
将所述第二分数与第二阈值进行比较,若所述第二分数大于所述第二阈值,针对需要补全的文本进行补全;
所述第一阈值为0-1;
所述第二阈值为0-1。
3.根据权利要求2所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,还包括:
将所述待纠错文本传入预训练语言模型进行法律词汇类标的预测,得到第二概率预测值;
将所述第二概率预测值与第三阈值进行比较,将所述概率预测值大于所述第三阈值的词作为候选词汇;
所述第三阈值为0-1。
4.根据权利要求2所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,还包括:
将所述待纠错文本与法律词典中的词计算编辑距离,得到编辑距离值;
将所述编辑距离值与第四阈值进行比较,将所述编辑距离值小于所述第四阈值的词作为候选词汇;
所述第四阈值为0-1。
5.根据权...
【专利技术属性】
技术研发人员:郑茂盛,
申请(专利权)人:北京擎盾信息科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。