【技术实现步骤摘要】
地址文本分词方法、装置、计算机设备和存储介质
本申请涉及地理信息
,特别是涉及一种地址文本分词方法、装置、计算机设备和存储介质。
技术介绍
在地理信息系统中,实际应用中的定位方式是通过地址文本来表达目标位置,例如“武汉九峰街九峰欣里社西苑”,为了使得计算机基于地址文本能够确定目标位置,需要建立非空间信息与空间信息之间的关联。地理编码是建立非空间信息与空间信息之间的关联的关键手段,而地址文本匹配是地理编码的重要组成部分,地址文本匹配所涉及的地址文本分词技术直接决定了地理编码的准确度。由此,如何对地址文本进行准确分词是值得关注的问题。目前,通常是采用基于词典的规则匹配方式来进行地址文本分词。但是该种地址文本分词方式,操作复杂度高,且需要不断的更新与维护词典及规则,若词典与规则更新或维护不及时,则会降低地址文本分词的准确性,也即存在分词准确性低的问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高地址文本分词准确性的地址文本分词方法、装置、计算机设备和存储介质。一种地址文 ...
【技术保护点】
1.一种地址文本分词方法,其特征在于,所述方法包括:/n获取目标地址文本;/n对所述目标地址文本逐字生成每个字对应的目标字向量;/n根据所述目标字向量得到所述目标地址文本对应的目标字向量序列;/n将所述目标字向量序列输入已训练好的地址文本分词模型,得到相应的目标标签序列,并根据所述目标标签序列得到所述目标地址文本对应的分词结果;所述地址文本分词模型,是基于预先获取的第一样本地址文本对应的第一样本字向量序列与第一样本标签序列训练得到的;所述第一样本标签序列是由已训练好的序列标注模型,根据所述第一样本字向量序列得到的。/n
【技术特征摘要】
1.一种地址文本分词方法,其特征在于,所述方法包括:
获取目标地址文本;
对所述目标地址文本逐字生成每个字对应的目标字向量;
根据所述目标字向量得到所述目标地址文本对应的目标字向量序列;
将所述目标字向量序列输入已训练好的地址文本分词模型,得到相应的目标标签序列,并根据所述目标标签序列得到所述目标地址文本对应的分词结果;所述地址文本分词模型,是基于预先获取的第一样本地址文本对应的第一样本字向量序列与第一样本标签序列训练得到的;所述第一样本标签序列是由已训练好的序列标注模型,根据所述第一样本字向量序列得到的。
2.根据权利要求1所述的方法,其特征在于,所述地址文本分词模型的训练步骤,包括:
获取第一样本地址文本;
对每个第一样本地址文本生成相应的第一样本字向量序列;
对所述每个第一样本地址文本进行序列标注得到相应第一样本标签序列;
根据所述第一样本字向量序列与所述第一样本标签序列得到第一训练样本集;
根据所述第一训练样本集进行模型训练得到已训练好的地址文本分词模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一训练样本集进行模型训练得到已训练好的地址文本分词模型,包括:
通过待训练的地址文本分词模型,根据所述第一样本字向量序列与相应第一样本标签序列,生成所述第一样本字向量序列对应的新的第一样本标签序列;
通过预配置的评估单元,对所述新的第一样本标签序列进行评分得到相应的标签序列评分;
通过待训练的评判模型,根据所述标签序列评分动态调整所述待训练的地址文本分词模型与所述评判模型各自的模型参数;
返回至所述通过待训练的地址文本分词模型,根据所述第一样本字向量序列与相应第一样本标签序列,生成所述第一样本字向量序列对应的新的第一样本标签序列的步骤继续执行,直至满足迭代停止条件,停止迭代,得到已训练好的地址文本分词模型。
4.根据权利要求3所述的方法,其特征在于,所述对所述新的第一样本标签序列进行评分得到相应的标签序列评分,包括:
根据所述新的第一样本标签序列得到分词后的第一样本地址文本;
根据所述分词后的第一样本地址文本中的分级词与词级,对所述新的第一样本标签序列进行评分得到第一评分;
确定所述分词后的第一样本地址文本中的主体词,根据所述主体词对所述新的第一样本标签序列进行评分得到第二评分;
根据所述分词后的...
【专利技术属性】
技术研发人员:赵云杰,张定棋,殷浩,汪舟,张锦,何昊,金姣,
申请(专利权)人:丰图科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。