文本处理方法技术

技术编号:39815102 阅读:7 留言:0更新日期:2023-12-22 19:33
本发明专利技术公开了一种文本处理方法

【技术实现步骤摘要】
文本处理方法、装置、金融业务数据的处理方法


[0001]本专利技术涉及人工智能领域,具体而言,涉及一种文本处理方法

装置

金融业务数据的处理方法


技术介绍

[0002]金融领域远程服务众多,如外呼等服务,在服务过程中,可能会对服务过程进行录音,进而通过听取录音

将录音转写等方式进行监督质检

以及对转写文本多方面分析统计等

[0003]然而,在转写过程中,相关技术中通常通过热词替换

强转写等方式进行语音转写与纠正,从而存在纠正准确度低的问题,进而影响后续的质检

会话展示

分析统计等工作

[0004]针对上述的问题,目前尚未提出有效的解决方案


技术实现思路

[0005]本专利技术实施例提供了一种文本处理方法

装置

金融业务数据的处理方法,以至少解决相关技术中对金融领域的语音转录文本进行纠正时,存在的纠正准确度低的技术问题

[0006]根据本专利技术实施例的一个方面,提供了一种文本处理方法,包括:获取为第一对象办理金融业务时生成的语音转录文本;获取目标词库,其中,目标词库包括金融类词语

通用类词语,通用类词语为使用场景数量大于预设数量的词语;从语音转录文本中确定待纠正词语,并根据待纠正词语,从目标词库中确定目标词语;采用目标词语替换语音转录文本中的待纠正词语,得到纠正后的语音转录文本

[0007]进一步地,文本处理方法还包括:对语音转录文本进行分词处理,得到多个转录词语;对于每个转录词语,判断目标词库中是否存在转录词语;在目标词库中不存在转录词语的情况下,将转录词语确定为待纠正词语

[0008]进一步地,文本处理方法还包括:确定待纠正词语的拼音,得到第一拼音;确定目标词库中每个词语的拼音,得到每个词语对应的第二拼音;根据第一拼音与第二拼音之间的编辑距离,从目标词库中确定目标词语

[0009]进一步地,目标词库中还包括各个词语的替换优先级,其中,文本处理方法还包括:根据第一拼音与第二拼音之间的编辑距离,从目标词库中确定候选词语;在候选词语为一个的情况下,将候选词语确定为目标词语;在候选词语为多个的情况下,将多个候选词语中替换优先级最高的候选词语确定为目标词语

[0010]进一步地,文本处理方法还包括:判断是否存在与第一拼音之间的编辑距离为零的第二拼音;在存在与第一拼音之间的编辑距离为零的第二拼音的情况下,将与第一拼音之间的编辑距离为零的第二拼音对应的词语确定为候选词语

[0011]进一步地,文本处理方法还包括:在判断是否存在与第一拼音之间的编辑距离为零的第二拼音之后,在不存在与第一拼音之间的编辑距离为零的第二拼音的情况下,确定
待纠正词语中首个字符的拼音,得到第三拼音,并确定目标词库中的每个词语中首个字符的拼音,得到每个词语对应的第四拼音;判断是否存在与第三拼音之间的编辑距离为零的第四拼音;在存在与第三拼音之间的编辑距离为零的第四拼音的情况下,将与第三拼音之间的编辑距离为零的第四拼音对应的词语确定为候选词语

[0012]进一步地,文本处理方法还包括:在判断是否存在与第三拼音之间的编辑距离为零的第四拼音之后,在不存在与第三拼音之间的编辑距离为零的第四拼音的情况下,将与第一拼音之间的编辑距离小于或等于预设数值的第二拼音所对应的词语确定为候选词语,其中,预设数值大于
0。
[0013]进一步地,文本处理方法还包括:获取目标语料库,其中,目标语料库中包括多个与金融场景具有关联关系的语句以及多个通用语句,通用语句为使用场景数量大于预设数量的语句;从目标语料库包含的语句中提取出金融类词语

通用类词语;由金融类词语

通用类词语构成目标词库,并根据目标词库中的词语在目标语料库中的词频,确定词语的替换优先级

[0014]根据本专利技术实施例的另一方面,还提供了一种金融业务数据的处理方法,包括:在为第一对象远程办理金融业务的过程中,获取为第一对象办理金融业务时生成的纠正后的语音转录文本,其中,纠正后的语音转录文本为根据上述的文本处理方法生成的;从纠正后的语音转录文本中提取出第一对象对应的文本;根据第一对象对应的文本,识别第一对象的业务需求信息;根据业务需求信息为第一对象办理金融业务

[0015]根据本专利技术实施例的另一方面,还提供了一种金融业务数据的处理方法,包括:在第二对象为第一对象远程办理金融业务的过程中,获取为第一对象办理金融业务时生成的纠正后的语音转录文本,其中,纠正后的语音转录文本为根据上述的文本处理方法生成的;从纠正后的语音转录文本中提取出第二对象对应的文本;根据第二对象对应的文本,判断第二对象为第一对象办理金融业务时是否出现异常词语,得到判断结果;根据判断结果确定第二对象办理金融业务的规范等级

[0016]根据本专利技术实施例的另一方面,还提供了一种文本处理装置,包括:第一获取模块,用于获取为第一对象办理金融业务时生成的语音转录文本;第二获取模块,用于获取目标词库,其中,目标词库包括金融类词语

通用类词语,通用类词语为使用场景数量大于预设数量的词语;第一确定模块,用于从语音转录文本中确定待纠正词语,并根据待纠正词语,从目标词库中确定目标词语;替换模块,用于采用目标词语替换语音转录文本中的待纠正词语,得到纠正后的语音转录文本

[0017]根据本专利技术实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的文本处理方法

[0018]根据本专利技术实施例的另一方面,还提供了一种电子设备,电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的文本处理方法

[0019]在本专利技术实施例中,采用结合金融信息和通用信息对语音转录文本进行纠正的方式,通过获取为第一对象办理金融业务时生成的语音转录文本,然后获取目标词库,接着从
语音转录文本中确定待纠正词语,并根据待纠正词语,从目标词库中确定目标词语,从而采用目标词语替换语音转录文本中的待纠正词语,得到纠正后的语音转录文本

其中,目标词库包括金融类词语

通用类词语,通用类词语为使用场景数量大于预设数量的词语

[0020]在上述过程中,由于语音转录文本为金融场景下的,因此,通过获取包括金融类词语

通用类词语的目标词库,并从目标词库中的确定目标词语以对语音转录文本进行纠正,实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本处理方法,其特征在于,包括:获取为第一对象办理金融业务时生成的语音转录文本;获取目标词库,其中,所述目标词库包括金融类词语

通用类词语,所述通用类词语为使用场景数量大于预设数量的词语;从所述语音转录文本中确定待纠正词语,并根据所述待纠正词语,从所述目标词库中确定目标词语;采用所述目标词语替换所述语音转录文本中的待纠正词语,得到纠正后的语音转录文本
。2.
根据权利要求1所述的方法,其特征在于,从所述语音转录文本中确定待纠正词语,包括:对所述语音转录文本进行分词处理,得到多个转录词语;对于每个转录词语,判断所述目标词库中是否存在所述转录词语;在所述目标词库中不存在所述转录词语的情况下,将所述转录词语确定为所述待纠正词语
。3.
根据权利要求1所述的方法,其特征在于,根据所述待纠正词语,从所述目标词库中确定目标词语,包括:确定所述待纠正词语的拼音,得到第一拼音;确定所述目标词库中每个词语的拼音,得到每个词语对应的第二拼音;根据所述第一拼音与所述第二拼音之间的编辑距离,从所述目标词库中确定所述目标词语
。4.
根据权利要求3所述的方法,其特征在于,所述目标词库中还包括各个词语的替换优先级,其中,根据所述第一拼音与所述第二拼音之间的编辑距离,从所述目标词库中确定所述目标词语,包括:根据所述第一拼音与所述第二拼音之间的编辑距离,从所述目标词库中确定候选词语;在所述候选词语为一个的情况下,将所述候选词语确定为所述目标词语;在所述候选词语为多个的情况下,将多个候选词语中替换优先级最高的候选词语确定为所述目标词语
。5.
根据权利要求4所述的方法,其特征在于,根据所述第一拼音与所述第二拼音之间的编辑距离,从所述目标词库中确定候选词语,包括:判断是否存在与所述第一拼音之间的编辑距离为零的第二拼音;在存在与所述第一拼音之间的编辑距离为零的第二拼音的情况下,将与所述第一拼音之间的编辑距离为零的第二拼音对应的词语确定为所述候选词语
。6.
根据权利要求5所述的方法,其特征在于,在判断是否存在与所述第一拼音之间的编辑距离为零的第二拼音之后,所述方法还包括:在不存在与所述第一拼音之间的编辑距离为零的第二拼音的情况下,确定所述待纠正词语中首个字符的拼音,得到第三拼音,并确定所述目标词库中的每个词语中首个字符的拼音,得到每个词语对应的第四拼音;判断是否存在与所述第三拼音之间的编辑距离为零的第四拼音;
在存在与所述第三拼音之间的编辑距离为零的第四拼音的情况下,将与所述第三拼音之间的编辑距离为零的第四拼音对应的词语确定为所述候选词语
。7.
根据权利要求6所述的方法,其特征在于,在判断是否存在与所述第三拼音之间的编辑距离为零的第四拼音之后,所述方法还包括:在不存在与所述第三拼音之间的编辑距离为零的第四拼音的情况下,将与所述第一拼音之间的编辑距离...

【专利技术属性】
技术研发人员:刘涛
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1