一种基于图嵌入与CRF知识融入的地址要素识别方法技术

技术编号:29675105 阅读:18 留言:0更新日期:2021-08-13 21:57
本发明专利技术涉及一种基于图嵌入与CRF知识融入的地址要素识别方法,具体包括如下步骤:S1:构建地址要素关系图;S2:图嵌入模型输出地址要素的向量表征;S3:统计语料中各类地址要素之间的转移矩阵;S4:将S3中的转移矩阵作为CRF模型的转移矩阵;S5:由Word2Vec词嵌入模型输出地址要素的向量表征;S6:构建并训练一个BiLSTM模型,输出抽取出的地址要素的向量表征;S7:将S6中输出的地址要素的向量表征输入S4中的CRF模型,得到地址要素的最终识别结果。本发明专利技术能从两个角度融入地址要素相关的先验知识,加速模型收敛,提升模型的精度。

【技术实现步骤摘要】
一种基于图嵌入与CRF知识融入的地址要素识别方法
本专利技术涉及一种基于图嵌入与CRF知识融入的地址要素识别方法。
技术介绍
网络上存在大量与地址信息相关的文本,如物流服务、智慧城市建设,都需要涉及到地址要素的提取与分析。地址要素识别可以分为传统的基于字符匹配的方法、基于统计机器学习与目前主流的基于深度学习的方法。传统的基于字符匹配的方法需要人为设计特定的规则识别其中的关键字,针对某类比较规范的地址可以取得较好效果,但是费时费力,而且适用场景有限,不能识别未登录词。后来统计机器学习的方法一定程度上避免了人工规则的设计,能取得不错的效果,但是提取到的语义信息有限。有些是同时使用规则匹配与统计机器学习方法,在原有基础上得到提升。之前基于深度学习的地址要素识别方法忽略了先验知识的融入,因此模型收敛速度较慢,同时也一定程度上影响了模型的精度。现有技术中存在的问题:1.现有进行地址要素识别的深度学习方法,没有同时考虑到地址要素的同质性和结构性信息。2.现有的地址要素识别方法中虽然使用了条件随机场,有些是使用了字符间的转移概率,但是忽略了先验的不同种类地址要素之间的转移概率。
技术实现思路
本专利技术的目的是提供一种基于图嵌入与CRF知识融入的地址要素识别方法,使用深度学习方法不仅避免了人工设计规则,自动提取地址文本的深层语义,同时从两个角度融入地址要素相关的先验知识,加速模型收敛,提升模型的精度。为达到上述目的而采用了一种基于图嵌入与CRF知识融入的地址要素识别方法,具体包括如下步骤:S1:构建地址要素关系图;S2:构建并训练一个图嵌入模型,向图嵌入模型输入S1中的地址要素关系图,由图嵌入模型输出地址要素关系图中的地址要素的向量表征;S3:统计语料中各类地址要素之间的转移矩阵;S4:构建一个CRF模型,在CRF模型初始化时,将S3中的转移矩阵作为CRF模型的转移矩阵;S5:构建并训练一个Word2Vec词嵌入模型,向词嵌入模型输入地址要素文本,由词嵌入模型输出地址要素文本中的地址要素的向量表征;S6:构建并训练一个BiLSTM模型,使用S2中与S5中输出的地址要素的向量表征,共同作为BiLSTM模型的输入,由BiLSTM模型抽取出语料中的地址要素,输出抽取出的地址要素的向量表征;S7:将S6中输出的地址要素的向量表征输入S4中的CRF模型对其进行训练,通过收敛后的CRF模型,得到地址要素的最终识别结果。作为本专利技术基于图嵌入与CRF知识融入的地址要素识别方法进一步的改进,S1中:所述地址要素关系图包括:全国行政区划图,其中的市与对应的省连线。作为本专利技术基于图嵌入与CRF知识融入的地址要素识别方法进一步的改进,S2中:所述图嵌入模型中具有Node2Vec网络,设定采样策略,按照采样策略对地址要素关系图进行序列采样,获得序列训练Node2Vec网络,由Node2Vec网络输出地址要素的向量表征。作为本专利技术基于图嵌入与CRF知识融入的地址要素识别方法进一步的改进,S3中,转移矩阵,如公式(1):(1)其中,t是地址要素的总的种类数,ni,j表示第i类地址要素后面是第j类地址要素的样本的数量。本专利技术的有益效果如下:(1)在地址要素识别任务中,本专利技术提出了一个基于图嵌入与CRF知识融入的地址要素识别方法。(2)本专利技术解决了在地址要素识别过程中先验知识不足,精度较低的问题。(3)本专利技术构造了一个表示行政区划的地址要素关系图,来表示各个地址要素之间的关系,然后使用Node2Vec算法学习地址要素的同质性和结构性特征,从而融入各个地址要素的同质性和结构性相关的先验知识。(4)该方法对语料中各类地址要素之间的转移概率进行统计,然后将其作为条件随机场(ConditionalRandomFields,CRF)的转移矩阵,从而融入先验知识。(5)经试验表明,基于图嵌入与CRF知识融入的地址要素识别方法能有效提高地址要素识别的精度。附图说明图1为基于图嵌入与CRF知识融入的地址要素识别方法主要步骤。图2为地址要素关系图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制;术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性;此外,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。1.基于图嵌入与CRF知识融入的地址要素识别方法及其步骤,如图1所示。地址要素识别网络包含BiLSTM和CRF两部分,前一部分为BiLSTM,后一部分为CRF。1.1基于图嵌入表征地址要素的知识融入;训练地址要素的向量表征的具体步骤:步骤一:构建地址要素关系图,如图2。步骤二:使用图嵌入中的Node2Vec算法,首先根据采样策略对地址要素关系图进行序列采样,然后使用神经网络对这些序列进行学习,获取地址要素的向量表征。优点:同时考虑到地址要素的同质性和结构性信息。1.2基于CRF模型的地址要素关系知识融入;基于CRF模型的地址要素关系知识融入的具体步骤:步骤一:统计语料中各类地址要素之间的转移矩阵。如公式(1):(1)其中,t是地址要素的总的种类数,ni,j表示第i类地址要素后面是第j类地址要素的样本的数量。步骤二:在模型初始化时,将上一步骤所得转移矩阵作为CRF模型的转移矩阵。优点:使模型在初始化时拥有正确的先验知识,提升模型性能,加速模型收敛。1.3地址要素识别网络步骤一:使用Node2Vec算法训练得到的地址要素向量表征作为输入的一部分,同时也使用Word2Vec训练地址要素的向量表征,共同作为模型的输入。步骤二:使用BiLSTM抽取地址文本的语义特征。步骤三:使用含有先验知识的CRF模型处理BiLSTM得到的结果,并得到最终结果。本专利技术融入了地址要素相关的先验知识,不仅帮助模型学习到地址要素关键特征,而且缩本文档来自技高网...

【技术保护点】
1.一种基于图嵌入与CRF知识融入的地址要素识别方法,其特征在于,具体包括如下步骤:/nS1:构建地址要素关系图;/nS2:构建并训练一个图嵌入模型,向图嵌入模型输入S1中的地址要素关系图,由图嵌入模型输出地址要素关系图中的地址要素的向量表征;/nS3:统计语料中各类地址要素之间的转移矩阵;/nS4:构建一个CRF模型,在CRF模型初始化时,将S3中的转移矩阵作为CRF模型的转移矩阵;/nS5:构建并训练一个Word2Vec词嵌入模型,向词嵌入模型输入地址要素文本,由词嵌入模型输出地址要素文本中的地址要素的向量表征;/nS6:构建并训练一个BiLSTM模型,使用S2中与S5中输出的地址要素的向量表征,共同作为BiLSTM模型的输入,由BiLSTM模型抽取出语料中的地址要素,输出抽取出的地址要素的向量表征;/nS7:将S6中输出的地址要素的向量表征输入S4中的CRF模型对其进行训练,通过收敛后的CRF模型,得到地址要素的最终识别结果。/n

【技术特征摘要】
1.一种基于图嵌入与CRF知识融入的地址要素识别方法,其特征在于,具体包括如下步骤:
S1:构建地址要素关系图;
S2:构建并训练一个图嵌入模型,向图嵌入模型输入S1中的地址要素关系图,由图嵌入模型输出地址要素关系图中的地址要素的向量表征;
S3:统计语料中各类地址要素之间的转移矩阵;
S4:构建一个CRF模型,在CRF模型初始化时,将S3中的转移矩阵作为CRF模型的转移矩阵;
S5:构建并训练一个Word2Vec词嵌入模型,向词嵌入模型输入地址要素文本,由词嵌入模型输出地址要素文本中的地址要素的向量表征;
S6:构建并训练一个BiLSTM模型,使用S2中与S5中输出的地址要素的向量表征,共同作为BiLSTM模型的输入,由BiLSTM模型抽取出语料中的地址要素,输出抽取出的地址要素的向量表征;
S7:将S6中输出的地址要素的向量表征输入S4中的CRF模型对...

【专利技术属性】
技术研发人员:毛星亮陈晓红路毅恒徐雪松李芳芳
申请(专利权)人:湖南工商大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1