【技术实现步骤摘要】
文本处理方法、装置、金融业务数据的处理方法
[0001]本专利技术涉及人工智能领域,具体而言,涉及一种文本处理方法
、
装置
、
金融业务数据的处理方法
。
技术介绍
[0002]金融领域远程服务众多,如外呼等服务,在服务过程中,可能会对服务过程进行录音,进而通过听取录音
、
将录音转写等方式进行监督质检
、
以及对转写文本多方面分析统计等
。
[0003]然而,在转写过程中,相关技术中通常通过热词替换
、
强转写等方式进行语音转写与纠正,从而存在纠正准确度低的问题,进而影响后续的质检
、
会话展示
、
分析统计等工作
。
[0004]针对上述的问题,目前尚未提出有效的解决方案
。
技术实现思路
[0005]本专利技术实施例提供了一种文本处理方法
、
装置
、
金融业务数据的处理方法,以至少解决相关技术中对金融领域的语音转录文本进行纠正时,存在的纠正准确度低的技术问题
。
[0006]根据本专利技术实施例的一个方面,提供了一种文本处理方法,包括:获取为第一对象办理金融业务时生成的语音转录文本;获取目标词库,其中,目标词库包括金融类词语
、
通用类词语,通用类词语为使用场景数量大于预设数量的词语;从语音转录文本中确定待纠正词语,并根据待纠正词语,从目标词库中确定目标词语;采用目标词语 ...
【技术保护点】
【技术特征摘要】
1.
一种文本处理方法,其特征在于,包括:获取为第一对象办理金融业务时生成的语音转录文本;获取目标词库,其中,所述目标词库包括金融类词语
、
通用类词语,所述通用类词语为使用场景数量大于预设数量的词语;从所述语音转录文本中确定待纠正词语,并根据所述待纠正词语,从所述目标词库中确定目标词语;采用所述目标词语替换所述语音转录文本中的待纠正词语,得到纠正后的语音转录文本
。2.
根据权利要求1所述的方法,其特征在于,从所述语音转录文本中确定待纠正词语,包括:对所述语音转录文本进行分词处理,得到多个转录词语;对于每个转录词语,判断所述目标词库中是否存在所述转录词语;在所述目标词库中不存在所述转录词语的情况下,将所述转录词语确定为所述待纠正词语
。3.
根据权利要求1所述的方法,其特征在于,根据所述待纠正词语,从所述目标词库中确定目标词语,包括:确定所述待纠正词语的拼音,得到第一拼音;确定所述目标词库中每个词语的拼音,得到每个词语对应的第二拼音;根据所述第一拼音与所述第二拼音之间的编辑距离,从所述目标词库中确定所述目标词语
。4.
根据权利要求3所述的方法,其特征在于,所述目标词库中还包括各个词语的替换优先级,其中,根据所述第一拼音与所述第二拼音之间的编辑距离,从所述目标词库中确定所述目标词语,包括:根据所述第一拼音与所述第二拼音之间的编辑距离,从所述目标词库中确定候选词语;在所述候选词语为一个的情况下,将所述候选词语确定为所述目标词语;在所述候选词语为多个的情况下,将多个候选词语中替换优先级最高的候选词语确定为所述目标词语
。5.
根据权利要求4所述的方法,其特征在于,根据所述第一拼音与所述第二拼音之间的编辑距离,从所述目标词库中确定候选词语,包括:判断是否存在与所述第一拼音之间的编辑距离为零的第二拼音;在存在与所述第一拼音之间的编辑距离为零的第二拼音的情况下,将与所述第一拼音之间的编辑距离为零的第二拼音对应的词语确定为所述候选词语
。6.
根据权利要求5所述的方法,其特征在于,在判断是否存在与所述第一拼音之间的编辑距离为零的第二拼音之后,所述方法还包括:在不存在与所述第一拼音之间的编辑距离为零的第二拼音的情况下,确定所述待纠正词语中首个字符的拼音,得到第三拼音,并确定所述目标词库中的每个词语中首个字符的拼音,得到每个词语对应的第四拼音;判断是否存在与所述第三拼音之间的编辑距离为零的第四拼音;
在存在与所述第三拼音之间的编辑距离为零的第四拼音的情况下,将与所述第三拼音之间的编辑距离为零的第四拼音对应的词语确定为所述候选词语
。7.
根据权利要求6所述的方法,其特征在于,在判断是否存在与所述第三拼音之间的编辑距离为零的第四拼音之后,所述方法还包括:在不存在与所述第三拼音之间的编辑距离为零的第四拼音的情况下,将与所述第一拼音之间的编辑距离...
【专利技术属性】
技术研发人员:刘涛,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。