基于语义表达的地址要素解析方法及装置制造方法及图纸

技术编号:37781211 阅读:28 留言:0更新日期:2023-06-09 09:11
本发明专利技术公开了一种基于语义表达的地址要素解析方法及装置,该方法包括:当检测到需要进行要素解析操作时,确定地址数据对应的规范地址数据;规范地址数据是进行数据预处理后以设定文本格式表示的地址数据;将规范地址数据输入至训练完成的地址要素解析模型中得到地址要素解析结果;地址要素解析结果是规范地址数据对应的基于确定出的预测地址要素类别执行字符划分操作后得到的解析结果。可见,本发明专利技术能够采用训练完成的地址要素解析模型实现地址数据的要素解析,提高地址要素解析结果的确定准确性和效率,进而提高地址要素的解析准确性和效率,从而有助于更好地解决基于地址要素的地址服务需求,以提高用户针对地址要素涉及功能、应用的使用体验。应用的使用体验。应用的使用体验。

【技术实现步骤摘要】
基于语义表达的地址要素解析方法及装置


[0001]本专利技术涉及地址语义解析
,尤其涉及一种基于语义表达的地址要素解析方法及装置。

技术介绍

[0002]随着物联网大数据时代的到来和快速发展,数据解析应用也逐渐广泛和频繁,其中,地址数据存在知识性强、歧义地名多及数据变迁频繁等特点,地址要素解析作为地址编码的重要组成部分,需求较高以及应用广泛。
[0003]当前,针对地址要素解析方式主要是基于统计信息的方法或基于规则的方法,基于统计信息的方法通过建模单词间的语序信息训练模型以实现地址要素解析,忽略了单词的语义信息,识别效果差,难以满足当前地址服务的需要;而基于规则的方法通过特征字匹配、构建地名词典等实现地址要素解析,匹配速度快但难以解决地址要素命名多样性。可见,上述提及的两种地址要素解析方式皆存在地址要素解析准确性低的问题。因此,提供一种新的地址要素解析方式以提高地址要素的解析准确性显得尤为重要。

技术实现思路

[0004]本
技术实现思路
所要解决的技术问题在于,提供一种基于语义表达的地址要素解析方法及装置,能够提高地址要素的解析准确性。
[0005]为了解决上述技术问题,本专利技术第一方面公开了一种基于语义表达的地址要素解析方法,所述方法包括:
[0006]当检测到存在地址数据需要进行要素解析操作时,确定所述地址数据对应的规范地址数据;所述规范地址数据是进行数据预处理后以设定文本格式表示的地址数据;
[0007]将所述规范地址数据输入至训练完成的地址要素解析模型中,得到对应的地址要素解析结果;所述地址要素解析结果是所述规范地址数据对应的基于确定出的预测地址要素类别执行字符划分操作后得到的解析结果。
[0008]作为一种可选的实施方式,在本专利技术第一方面中,在所述将所述规范地址数据输入至训练完成的地址要素解析模型中,得到对应的地址要素解析结果之前,所述方法还包括:
[0009]获取用于地址要素解析训练的训练集数据,并基于所述训练集数据构建并训练地址要素解析模型,得到训练完成的所述地址要素解析模型;
[0010]以及,所述基于所述训练集数据构建并训练地址要素解析模型,得到训练完成的所述地址要素解析模型,包括:
[0011]根据语义分析模块、隐藏信息获取模块及要素约束模块,构建基础解析模型;
[0012]根据所述训练集数据训练所述基础解析模型中,得到训练后的解析模型;
[0013]根据所述基础解析模型对所述训练集数据进行地址预测的地址预测结果、所述训练集数据对应的标注地址信息,计算模型训练损失值;
[0014]判断所述模型训练损失值是否小于等于设定的模型训练损失值阈值;
[0015]当判断结果为是时,将所述训练后的解析模型确定为训练完成的地址要素解析模型;
[0016]当判断结果为否时,调整模型训练参数,并基于所述调整后的模型训练参数执行模型训练操作,直至模型训练损失值小于等于所述模型训练损失值阈值和/或训练次数达到预设次数阈值。
[0017]作为一种可选的实施方式,在本专利技术第一方面中,所述根据所述训练集数据训练所述基础解析模型中,得到训练后的解析模型,包括:
[0018]对于所述训练集数据中的任一待训练数据,将所述待训练数据输入至对应的所述语义分析模块中,得到所述待训练数据中的字符对应的词向量表示结果;
[0019]将所述词向量表示结果输入至对应的所述隐藏信息获取模块中,得到所述字符对应的隐藏表示结果,所述隐藏表示结果包括正向隐藏语义结果和/或反向隐藏语义结果,并根据所述隐藏表示结果及对所述待训练数据执行数据预处理操作得到的数据,确定所述字符对应的前后语义信息;
[0020]根据所述要素约束模块、所述前后语义信息及所述待训练数据,确定出对应的地址预测结果,并将输出所述地址预测结果后的基础解析模型作为训练后的解析模型。
[0021]作为一种可选的实施方式,在本专利技术第一方面中,所述根据所述要素约束模块、所述前后语义信息及所述待训练数据,确定出对应的地址预测结果,包括:
[0022]将所述前后语义信息输入至所述要素约束模块,得到所述待训练数据中所述字符对应的至少一种序列标签预测结果,并结合标签分析算法计算得到每一所述序列标签预测结果对应的第一有效度;
[0023]根据所述第一有效度及设定的标签分析条件,从所有所述序列标签预测结果中确定出目标序列标签预测结果;
[0024]对所述目标序列标签预测结果中每个预测标签对应的第一有效度执行归一化处理操作,确定所述字符对应的每个预测标签的第二有效度,并根据所有所述预测标签的第二有效度,确定所述字符的目标预测标签;
[0025]根据所述待训练数据对应的所有所述字符的目标预测标签,确定所述待训练数据对应的地址预测结果。
[0026]作为一种可选的实施方式,在本专利技术第一方面中,所述根据所述隐藏表示结果及对所述待训练数据执行数据预处理操作得到的数据,确定所述字符对应的前后语义信息,包括:
[0027]当所述隐藏表示结果包括所述正向隐藏语义结果和所述反向隐藏语义结果时,根据对所述待训练数据执行数据预处理操作得到的数据,确定对应的正向输入文本及反向输入文本;
[0028]将所述正向输入文本及所述反向输入文本分别输入至对应的门控循环神经网络中,得到处理结果;
[0029]根据所述处理结果、所述正向隐藏语义结果、所述反向隐藏语义结果及设定的隐藏语义处理条件,确定所述字符对应的前后语义信息。
[0030]作为一种可选的实施方式,在本专利技术第一方面中,所述根据所述基础解析模型对
所述训练集数据进行地址预测的地址预测结果、所述训练集数据对应的标注地址信息,计算模型训练损失值,包括:
[0031]根据所述基础解析模型对所述训练集数据进行地址预测的地址预测结果、所述训练集数据对应的标注地址信息及设定的解析评判参数,确定所述解析评判参数中的每一子参数对应的解析有效性结果;所述解析评判参数包括准确性参数、召回率参数、平稳度参数、解析效率参数及解析性价比参数中的一种或多种;
[0032]根据设定的参数加权条件及所有所述子参数对应的解析有效性结果,确定所述基础解析模型对应的解析有效性情况,并根据所述解析有效性情况,确定出对应的模型训练损失值。
[0033]作为一种可选的实施方式,在本专利技术第一方面中,所述对所述待训练数据执行数据预处理操作的具体方式为:
[0034]根据所述待训练数据及数据清洗条件,确定第一处理数据;
[0035]根据所述第一处理数据及数据格式预处理条件,确定第二处理数据,作为所述待训练数据对应的已完成数据预处理操作的数据;
[0036]其中,所述数据清洗条件包括全角与半角转换、统一括号形式、删除标点符号、删除空格、外文字母大小写转换、汉字繁简转化、统一语言形式及统一文字形式中的一种或多种。
[0037]本专利技术第二方面公开了一种基于语义表达的地址要素解析装置,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义表达的地址要素解析方法,其特征在于,所述方法包括:当检测到存在地址数据需要进行要素解析操作时,确定所述地址数据对应的规范地址数据;所述规范地址数据是进行数据预处理后以设定文本格式表示的地址数据;将所述规范地址数据输入至训练完成的地址要素解析模型中,得到对应的地址要素解析结果;所述地址要素解析结果是所述规范地址数据对应的基于确定出的预测地址要素类别执行字符划分操作后得到的解析结果。2.根据权利要求1所述的基于语义表达的地址要素解析方法,其特征在于,在所述将所述规范地址数据输入至训练完成的地址要素解析模型中,得到对应的地址要素解析结果之前,所述方法还包括:获取用于地址要素解析训练的训练集数据,并基于所述训练集数据构建并训练地址要素解析模型,得到训练完成的所述地址要素解析模型;以及,所述基于所述训练集数据构建并训练地址要素解析模型,得到训练完成的所述地址要素解析模型,包括:根据语义分析模块、隐藏信息获取模块及要素约束模块,构建基础解析模型;根据所述训练集数据训练所述基础解析模型中,得到训练后的解析模型;根据所述基础解析模型对所述训练集数据进行地址预测的地址预测结果、所述训练集数据对应的标注地址信息,计算模型训练损失值;判断所述模型训练损失值是否小于等于设定的模型训练损失值阈值;当判断结果为是时,将所述训练后的解析模型确定为训练完成的地址要素解析模型;当判断结果为否时,调整模型训练参数,并基于所述调整后的模型训练参数执行模型训练操作,直至模型训练损失值小于等于所述模型训练损失值阈值和/或训练次数达到预设次数阈值。3.根据权利要求2所述的基于语义表达的地址要素解析方法,其特征在于,所述根据所述训练集数据训练所述基础解析模型中,得到训练后的解析模型,包括:对于所述训练集数据中的任一待训练数据,将所述待训练数据输入至对应的所述语义分析模块中,得到所述待训练数据中的字符对应的词向量表示结果;将所述词向量表示结果输入至对应的所述隐藏信息获取模块中,得到所述字符对应的隐藏表示结果,所述隐藏表示结果包括正向隐藏语义结果和/或反向隐藏语义结果,并根据所述隐藏表示结果及对所述待训练数据执行数据预处理操作得到的数据,确定所述字符对应的前后语义信息;根据所述要素约束模块、所述前后语义信息及所述待训练数据,确定出对应的地址预测结果,并将输出所述地址预测结果后的基础解析模型作为训练后的解析模型。4.根据权利要求3所述的基于语义表达的地址要素解析方法,其特征在于,所述根据所述要素约束模块、所述前后语义信息及所述待训练数据,确定出对应的地址预测结果,包括:将所述前后语义信息输入至所述要素约束模块,得到所述待训练数据中所述字符对应的至少一种序列标签预测结果,并结合标签分析算法计算得到每一所述序列标签预测结果对应的第一有效度;根据所述第一有效度及设定的标签分析条件,从所有所述序列标签预测结果中确定出
目标序列标签预测结果;对所述目标序列标签预测结果中每个预测标签对应的第一有效度执行归一化处理操作,确定所述字符对应的每个预测标签的第二有效度,并根据所有所述预测标签的第二有效度,确定所述字符的目标...

【专利技术属性】
技术研发人员:陶闯裘靖宇
申请(专利权)人:上海维智卓新信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1