基于跨域特征提取的联合网络中文地址标注方法、系统、设备及存储介质技术方案

技术编号：38424928 阅读：6 留言：0更新日期：2023-08-07 11:23

本发明专利技术公开了一种基于跨域特征提取的联合网络中文地址标注方法、系统、设备及存储介质。利用对抗网络的思想来联合训练中文命名实体识别NER和中文分词CWS数据，从CWS数据集中提取任务共享词边界信息，并防止CWS实体边界信息给中文NER任务带来影响，同时增加更多的通用信息，在少量标注的样本的情况下，提高模型在中文地址序列标注任务中的效果；本发明专利技术提出的基于跨域特征提取的联合网络中文地址标注方法可在少量标注样本的情况下，从不同领域的数据集中学习并提取到不同领域之间的共享特征，同时将我们提出的跨域模型融合到中文地址序列标注模型中形成联合网络模型，来提高中文地址标注任务的预测精度。文地址标注任务的预测精度。文地址标注任务的预测精度。

全部详细技术资料下载

【技术实现步骤摘要】
基于跨域特征提取的联合网络中文地址标注方法、系统、设备及存储介质

[0001]本专利技术涉及中文自然语言处理领域，尤其涉及一种基于跨域特征提取的联合网络中文地址标注方法、系统、设备及存储介质。

技术介绍

[0002]由于中文地址领域序列数据的结构化特性，其标注数据的规模相对有限。这一点限制了提出模型的效能。另外，地址序列标注任务是较细的token级别，标注人员首先按实体边界标准把地址序列划分成地址token，然后再对每一个地址token进行打标，所以标注成本相对于普通的文本分类任务也更为高昂，这一点也使得获取更大规模和更高质量的标注数据集越发困难。如何缓解当前数据集规模较小所带来的问题也是研究所关注的一个点。
[0003]在中文地址领域中，虽然有通用的全国标准行政区划地址库，但是缺乏对标准地址库之外的庞大地址数据库以及各种复杂组合地址数据库的标注准则。与此同时，缺乏通用的地址域领域词典来划分实体边界，这影响了一些复合实体的识别。且现实世界的地址数据中包含各种复合实体以及各种实体的简称：其中有些小区和兴趣点等名称混淆度极高，需要通过搜索引擎或者是相关的地址数据库来查询。同时存在某些实体表达不同的语义现象。例如，山西这个简称，在全国的标准行政区划地址库里既可以表示山西省也可以表示山西区。中文地址串中实体间的先后顺序和实体几乎100％的覆盖率这两个特性使得现有通用语料库模型和方法无法有效应用于地址领域。
[0004]但是通用领域内的数据集量级很大，需要利用这部分数据信息。中文NER任务和中文分词任务之间有很...

【技术保护点】

【技术特征摘要】
1.一种基于跨域特征提取的联合网络中文地址标注方法，其特征在于，该方法包括以下步骤：(1)私有特征提取层：仅用于从中文地址标注数据集中提取NER任务特征信息进行编码；(2)共享特征提取层：基于Common Bi
‑
LSTM提取来自中文地址特征信息，同时与中文分词数据训练得到的CWS Bi
‑
LSTM中的编码信息融合输出到任务判别器中，进行任务判断；(3)任务判别层：根据CNN提取的文本特征来判断共享特征提取层输出的文本信息来自哪个任务，进行对抗训练；(4)基于中文地址序列提取特征信息，输入到对抗训练后得到的Common Bi
‑
LSTM进行编码，并与私有特征提取层的编码输出融合后经过CRF输出中文地址标注结果。2.根据权利要求1所述的一种基于跨域特征提取的联合网络中文地址标注方法，其特征在于，所述提取NER任务特征信息为，将中文地址文本经过BERT模型，得到中文地址序列，作为私有特征提取层和共享特征提取层中Common Bi
‑
LSTM的输入。3.根据权利要求1所述的一种基于跨域特征提取的联合网络中文地址标注方法，其特征在于，私有特征提取层基于private Bi
‑
LSTM实现编码，输出特征为其中代表第t个字x
t
的私有隐藏状态，即：私有隐藏状态，即：其中，和分别表示第t个字的前向和后向隐藏状态。4.根据权利要求3所述的一种基于跨域特征提取的联合网络中文地址标注方法，其特征在于，private Bi
‑
LSTM和Common Bi
‑
LSTM的隐藏状态表示如下：LSTM的隐藏状态表示如下：其中，θ
common
和θ
private
分别为Common Bi
‑
LSTM参数和private Bi
‑
LSTM参数；将private Bi
...

【专利技术属性】
技术研发人员：王雷，汪陈笑，卢伶俐，于辉，王小燕，
申请(专利权)人：杭州邦睿科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人