【技术实现步骤摘要】
地址文本识别方法、装置、介质、电子设备
本公开涉及计算机
,特别地,涉及一种地址文本识别方法、装置、介质和电子设备。
技术介绍
在如今,地名地址的识别与匹配在物流、金融等各行各业都有着较为成熟的应用场景。目前,主流的地址识别技术,大多以机器学习分词与传统信息检索相结合的思路作为实现方案。然而,上述思路受限于分词效果,以及检索语料本身的丰富度,无法很好地识别乱序、文字错漏、信息缺失的地址样本,没有从语义层面去提取地址文本信息。可见,如何提高对地址文本进行识别的准确性是亟待解决的技术问题。
技术实现思路
本公开的目的在于提供一种地址文本识别方法及装置、计算机可读存储介质、电子设备,进而至少可以提高对地址文本进行识别的准确性。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开实施例的一个方面,提供了一种地址文本识别方法,所述方法包括:获取待识别的地址文本;对所述待识别的地址文本进行分词,得到包括至少一个字符串的字符串序列;根据预先训练的地址语言模型,对所述字符串 ...
【技术保护点】
1.一种地址文本识别方法,其特征在于,所述方法包括:/n获取待识别的地址文本;/n对所述待识别的地址文本进行分词,得到包括至少一个字符串的字符串序列;/n根据预先训练的地址语言模型,对所述字符串序列的至少一种特征进行检测;/n在所述字符串序列的至少一种特征存在错误时,通过所述地址语言模型对所述存在错误的至少一种特征进行修正,以识别出正确的地址文本。/n
【技术特征摘要】
1.一种地址文本识别方法,其特征在于,所述方法包括:
获取待识别的地址文本;
对所述待识别的地址文本进行分词,得到包括至少一个字符串的字符串序列;
根据预先训练的地址语言模型,对所述字符串序列的至少一种特征进行检测;
在所述字符串序列的至少一种特征存在错误时,通过所述地址语言模型对所述存在错误的至少一种特征进行修正,以识别出正确的地址文本。
2.根据权利要求1所述的方法,其特征在于,所述对所述待识别的地址文本进行分词,包括;
获取地址词典,所述地址词典中包括地址字符串;
基于所述地址词典中的地址字符串,对所述待识别的地址文本进行分词。
3.根据权利要求1所述的方法,所述地址语言模型通过如下方式获得:
获取全量地址的字符串集合,所述字符串集合中包括地址字符串,其中,所述字符串集合中的各个地址字符串对应有地址层级信息;
基于所述各个地址字符串以及地址字符串对应的地址层级信息,构建第一训练样本;
通过所述第一训练样本训练深度神经网络模型,得到所述地址语言模型。
4.根据权利要求1所述的方法,所述地址语言模型通过如下方式获得:
获取全量地址的字符串集合,所述字符串集合中包括地址字符串,其中,所述字符串集合中任意两个地址字符串之间对应有关系类别信息;
基于所述各个地址字符串以及任意两个地址字符串之间对应的关系类别信息,构建第二训练样本;
通过所述第二训练样本训练深度神经网络模型,得到所述地址语言模型。
5.根据权利要求1所述的方法,所述地址语言模型通过如下方式获得:
获取全量地址的字符串集合,所述字符串集合中包括地址字符串,其中,所述字符串集合中的各个地址字符串对应有相似地址字符串集合,所述相似地址字符串集合中的字符串与对应的地址字符串存在相似关系;
基于所述各个地址字符串以及地址字符串对应的相似地址字符串集合,构建第三训练样本;
通过所述第三训练样本训练深度神经网络模型,得到所述地址语言模型。
6.根据权利要求1所述的方法,所述地址语言模型通过如下方式获得:...
【专利技术属性】
技术研发人员:李响,王伟,
申请(专利权)人:平安银行股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。