基于跨域特征提取的联合网络中文地址标注方法、系统、设备及存储介质技术方案

技术编号:38424928 阅读:6 留言:0更新日期:2023-08-07 11:23
本发明专利技术公开了一种基于跨域特征提取的联合网络中文地址标注方法、系统、设备及存储介质。利用对抗网络的思想来联合训练中文命名实体识别NER和中文分词CWS数据,从CWS数据集中提取任务共享词边界信息,并防止CWS实体边界信息给中文NER任务带来影响,同时增加更多的通用信息,在少量标注的样本的情况下,提高模型在中文地址序列标注任务中的效果;本发明专利技术提出的基于跨域特征提取的联合网络中文地址标注方法可在少量标注样本的情况下,从不同领域的数据集中学习并提取到不同领域之间的共享特征,同时将我们提出的跨域模型融合到中文地址序列标注模型中形成联合网络模型,来提高中文地址标注任务的预测精度。文地址标注任务的预测精度。文地址标注任务的预测精度。

【技术实现步骤摘要】
基于跨域特征提取的联合网络中文地址标注方法、系统、设备及存储介质


[0001]本专利技术涉及中文自然语言处理领域,尤其涉及一种基于跨域特征提取的联合网络中文地址标注方法、系统、设备及存储介质。

技术介绍

[0002]由于中文地址领域序列数据的结构化特性,其标注数据的规模相对有限。这一点限制了提出模型的效能。另外,地址序列标注任务是较细的token级别,标注人员首先按实体边界标准把地址序列划分成地址token,然后再对每一个地址token进行打标,所以标注成本相对于普通的文本分类任务也更为高昂,这一点也使得获取更大规模和更高质量的标注数据集越发困难。如何缓解当前数据集规模较小所带来的问题也是研究所关注的一个点。
[0003]在中文地址领域中,虽然有通用的全国标准行政区划地址库,但是缺乏对标准地址库之外的庞大地址数据库以及各种复杂组合地址数据库的标注准则。与此同时,缺乏通用的地址域领域词典来划分实体边界,这影响了一些复合实体的识别。且现实世界的地址数据中包含各种复合实体以及各种实体的简称:其中有些小区和兴趣点等名称混淆度极高,需要通过搜索引擎或者是相关的地址数据库来查询。同时存在某些实体表达不同的语义现象。例如,山西这个简称,在全国的标准行政区划地址库里既可以表示山西省也可以表示山西区。中文地址串中实体间的先后顺序和实体几乎100%的覆盖率这两个特性使得现有通用语料库模型和方法无法有效应用于地址领域。
[0004]但是通用领域内的数据集量级很大,需要利用这部分数据信息。中文NER任务和中文分词任务之间有很多相似之处,称之为任务共享信息。所以本专利技术提出一种改进跨域特征提取模型。利用对抗网络的思想来联合训练中文NER和CWS数据,旨在从CWS数据集中提取任务共享词边界信息,并防止CWS实体边界信息给中文NER任务带来影响,同时增加更多的通用信息,提高模型在中文地址序列标注任务中的效果。

技术实现思路

[0005]本专利技术目的在于针对现有技术的不足,提出一种基于跨域特征提取的联合网络中文地址标注方法及装置,在少量标注样本的情况下,在少量标注样本的情况下,从不同领域的数据集中学习并提取到不同领域之间的共享特征,同时将本专利技术提出的跨域模型融合到中文地址序列标注模型中形成联合网络模型,来提高中文地址标注任务的预测精度。
[0006]本专利技术的目的是通过以下技术方案来实现的:第一方面,一种基于跨域特征提取的联合网络中文地址标注方法,该方法包括以下步骤:
[0007](1)私有特征提取层:仅用于从中文地址标注数据集中提取NER任务特征信息进行编码;
[0008](2)共享特征提取层:基于Common Bi

LSTM提取来自中文地址特征信息,同时与中
文分词数据训练得到的CWS Bi

LSTM中的编码信息融合输出到任务判别器中,进行任务判断;
[0009](3)任务判别层:根据CNN提取的文本特征来判断共享特征提取层输出的文本信息来自哪个任务,进行对抗训练;
[0010](4)基于中文地址序列提取特征信息,输入到对抗训练后得到的Common Bi

LSTM进行编码,并与私有特征提取层的编码输出融合后经过CRF输出中文地址标注结果。
[0011]进一步地,所述提取NER任务特征信息为,将中文地址文本经过BERT模型,得到中文地址序列,作为私有特征提取层和共享特征提取层中Common Bi

LSTM的输入。
[0012]进一步地,私有特征提取层基于private Bi

LSTM实现编码,输出特征为LSTM实现编码,输出特征为其中代表第t个字x
t
的私有隐藏状态,即:
[0013][0014][0015]其中,和分别表示第t个字的前向和后向隐藏状态。
[0016]进一步地,private Bi

LSTM和Common Bi

LSTM的隐藏状态表示如下:
[0017][0018][0019]其中,θ
common
和θ
private
分别为Common Bi

LSTM参数和private Bi

LSTM参数;将private Bi

LSTM和Common Bi

LSTM输出拼接在一起,引入一个包含权重分布w和偏置项b的线性前馈神经层,得到:
[0020][0021]其中,用于输入CRF,得到中文地址标注结果。
[0022]进一步地,private Bi

LSTM、Common Bi

LSTM和CWS Bi

LSTM的模型结构相同,模型参数不同,由不同的训练数据确定各自的参数。
[0023]第二方面,本专利技术还提供了一种基于跨域特征提取的联合网络中文地址标注系统,该系统包括私有特征提取模块、共享特征提取模块、任务判别模块和中文地址标注模块;
[0024]所述私有特征提取模块用于从中文地址标注数据集中提取NER任务特征信息进行编码;
[0025]所述共享特征提取模块用于基于Common Bi

LSTM提取来自中文地址特征信息,同时与中文分词数据训练得到的CWS Bi

LSTM中的编码信息融合输出到任务判别模块中,进行任务判断;
[0026]所述任务判别模块用于根据CNN提取的文本特征来判断共享特征提取模块输出的文本信息来自哪个任务,进行对抗训练;
[0027]所述中文地址标注模块用于基于中文地址序列提取特征信息,输入到对抗训练后得到的Common Bi

LSTM进行编码,并与私有特征提取模块的编码输出融合后经过CRF输出中文地址标注结果。
[0028]第三方面,一种基于跨域特征提取的联合网络中文地址标注设备,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的一种基于跨域特征提取的联合网络中文地址标注方法。
[0029]第四方面,一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现所述的一种基于跨域特征提取的联合网络中文地址标注方法。
[0030]本专利技术的有益效果:本专利技术提出一种改进跨域特征提取模型。利用对抗网络的思想来联合训练中文NER和CWS数据,从CWS数据集中提取任务共享词边界信息,防止CWS实体边界信息给中文NER任务带来影响;同时增加更多的通用信息,提高模型在中文地址序列标注任务中的效果。
附图说明
[0031]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于跨域特征提取的联合网络中文地址标注方法,其特征在于,该方法包括以下步骤:(1)私有特征提取层:仅用于从中文地址标注数据集中提取NER任务特征信息进行编码;(2)共享特征提取层:基于Common Bi

LSTM提取来自中文地址特征信息,同时与中文分词数据训练得到的CWS Bi

LSTM中的编码信息融合输出到任务判别器中,进行任务判断;(3)任务判别层:根据CNN提取的文本特征来判断共享特征提取层输出的文本信息来自哪个任务,进行对抗训练;(4)基于中文地址序列提取特征信息,输入到对抗训练后得到的Common Bi

LSTM进行编码,并与私有特征提取层的编码输出融合后经过CRF输出中文地址标注结果。2.根据权利要求1所述的一种基于跨域特征提取的联合网络中文地址标注方法,其特征在于,所述提取NER任务特征信息为,将中文地址文本经过BERT模型,得到中文地址序列,作为私有特征提取层和共享特征提取层中Common Bi

LSTM的输入。3.根据权利要求1所述的一种基于跨域特征提取的联合网络中文地址标注方法,其特征在于,私有特征提取层基于private Bi

LSTM实现编码,输出特征为其中代表第t个字x
t
的私有隐藏状态,即:私有隐藏状态,即:其中,和分别表示第t个字的前向和后向隐藏状态。4.根据权利要求3所述的一种基于跨域特征提取的联合网络中文地址标注方法,其特征在于,private Bi

LSTM和Common Bi

LSTM的隐藏状态表示如下:LSTM的隐藏状态表示如下:其中,θ
common
和θ
private
分别为Common Bi

LSTM参数和private Bi

LSTM参数;将private Bi
...

【专利技术属性】
技术研发人员:王雷汪陈笑卢伶俐于辉王小燕
申请(专利权)人:杭州邦睿科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1