地址信息识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38865050 阅读:56 留言:0更新日期:2023-09-17 10:05
本发明专利技术涉及金融科技领域、数据处理领域,揭露一种地址信息识别方法,包括:基于地址文本生成第一训练样本;对地址文本注入随机噪声生成第二训练样本;利用第一、第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型;获取语音对话任务的语音数据构建第三训练样本,利用第三训练样本对第一识别模型进行微调训练,得到目标识别模型,利用目标模型对待识别语音数据进行识别,得到待识别语音数据的地址文本。本发明专利技术应用在金融科技领域中,训练好的第一识别模型作为老师模型,迁移到语音对话任务进行训练,得到语音对话任务的地址识别模型,提高对语音对话任务转译后的文本内容的漏字及重复内容的识别准确率,提升金融交易双方的沟通效率。方的沟通效率。方的沟通效率。

【技术实现步骤摘要】
地址信息识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及金融科技领域、数据处理领域,尤其涉及一种地址信息识别方法、装置、电子设备及存储介质。

技术介绍

[0002]抽取文本内容的有效地址一直是自然语言处理的重要任务,同时在金融领域中的语音沟通场景、交易场景广泛地应用,例如在金融机构客服与客户的售前售后对话服务中,获取客户提供住址信息,公司地址文本等。
[0003]例如,由于对话服务时客户A可能出现的结巴,重复内容,漏字等现象,客户A给出的住址信息为
‑“
我购买的保险合同,可以寄往石家庄桥西区胜利南街胜利南街二百零六号”,导致经过ASR对语音信息转译后的文本内容存在错字、漏字及重复内容的问题,造成金融机构的客户不能准确、及时收到重要的金融文件。
[0004]目前,主流的识别方式基于bert模型对转译后的文本内容来完成错字的检测和纠正,并取得不错的效果,但bert模型对转译后的文本内容的漏字及重复内容进行识别过程中,依然存在识别准确率较低的问题。

技术实现思路

[0005]鉴于以上内容本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种地址信息识别方法,其特征在于,所述方法包括:基于预设的地址数据集的地址文本,生成第一训练样本;对所述地址文本注入随机噪声,生成第二训练样本;利用所述第一训练样本、所述第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型;获取预设的语音对话任务的语音数据构建第三训练样本,利用所述第三训练样本对所述第一识别模型进行微调训练,得到目标识别模型,利用所述目标模型对待识别语音数据进行识别,得到所述待识别语音数据的地址文本。2.如权利要求1所述的地址信息识别方法,其特征在于,所述基于预设的地址数据集的地址文本,生成第一训练样本,包括:将所述地址数据集进行预处理,得到文本序列;利用预设的分割模型对所述文本序列进行切割,得到所述文本序列的各级行政区的地址文本,基于所述地址文本生成所述第一训练样本。3.如权利要求2所述的地址信息识别方法,其特征在于,所述利用预设的分割模型对所述文本序列进行切割,得到所述文本序列的各级行政区的地址文本,包括:利用所述分割模型的BERT算法层对所述文本序列的各级行政区对应的词组添加标签;利用所述分割模型的CRF算法层计算每个词组的标签的预测值;选取预测值大于第一阈值的标签对应的词组,确定出所述地址文本。4.如权利要求1所述的地址信息识别方法,其特征在于,所述对所述地址文本注入随机噪声,生成第二训练样本,包括:利用预设的全国省市区地址知识库,对所述地址文本的各级行政区注入随机噪声,生成所述第二训练样本。5.如权利要求1所述的地址信息识别方法,其特征在于,在所述利用所述第一训练样本、所述第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型之前,该方法还包括:将所述第一训练样本、所述第二训练样本作为所述初始识别模型的第一输入序列;及将所述第一训练样本对应的标签作为所述初始识别模型的目标序列

6.如权利要求1或5所述的地址信息识别方法,其特征在于,所述利用所述第一训练样本、所述...

【专利技术属性】
技术研发人员:欧阳升王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1