【技术实现步骤摘要】
一种字词信息融合的中文地址命名实体识别方法及装置
[0001]本专利技术涉及中文地址命名实体识别领域,尤其涉及一种字词信息融合的中文地址命名实体识别方法及装置。
技术介绍
[0002]随着信息化的高速发展,外卖、邮政和金融风控等与地址高度相关领域也纷纷踏上数字化脚步。中文地址命名实体识别是指从文本中识别出地址相关各类实体,基于实体展开后续相关工作,实体识别效率会极大影响后续任务进行。特别在中文领域,由于缺少像英文领域里类似空格的明显间隔,单独一个字并没有特殊语义信息。中文命名实体识别任务中,首要就是能对一个中文语句进行正确分词,在缺少人类先验知识情况下十分不易。例如:“她说的确实在理”这句话,单纯从分词角度来看,“的确”,“实在”也都是正确词汇,但在实际语境中,基于人先验知识这句话应该这样断句“她/说的/确实/在理”。而命名实体识别还需要对词汇进行识别,依据上下文和词汇本身属性对其进行分类。
[0003]目前在中文命名实体识别中在字符向量上融入额外信息的方式主要分为三种:一是在词表中查找以当前字符为结尾的词,将找到的 ...
【技术保护点】
【技术特征摘要】
1.一种字词信息融合的中文地址命名实体识别方法,其特征在于,该方法包括以下步骤:(1)获取中文地址的n
‑
gram片段向量表示为X=(x1,x2,
…
,x
n
),以及获取对应的真实词汇片段Y=(y1,y2,
…
,y
m
);其中n是n
‑
gram片段中的字符数量,m是真实词汇片段中的字符数量;(2)构建词汇信息生成网络,采用双塔模型的结构,该网络具体操作如下:(2.1)将n
‑
gram片段和真实词汇片段输入到词汇信息生成网络中,经过Embedding层获取随机字符向量编码;(2.2)将字符向量编码经ELMO层和Dense层学习字符向量表示;(2.3)字符向量表示经平均池化层(mean pooling)后,文本片段表征为词向量;(2.4)在分类学习器中,将n
‑
gram片段的词向量和真实词汇片段的词向量拼接,然后继续拼接两个词向量间差值与点乘,以获得词语间关系特征,经过全连接层后,将向量维度映射到二维空间中,判断两向量间的相似性;(3)构建词汇信息获取网络,包含标签分布学习网络和字符标签学习网络两部分;所述标签分布学习网络用和词汇信息生成网络同样的方式获取n
‑
gram片段的字符向量表示,并提取文本特征编码,使用全连接层作为解码器,获取词汇对应标签的概率分布P
label
作为条件随机场的状态矩阵,通过条件随机场进行标签推断;所述字符标签学习网络具体操作如下:(3.1)选取标签分布学习网络经过Embedding层输出的字符向量E
C
作为嵌入层输出的一部分;(3.2)根据当前字在n
‑
gram中的不同位置以及词位标注种类q,通过词汇信息生成网络,获取最后一个Dense层之前的词向量集合络,获取最后一个Dense层之前的词向量集合为标注种类q的词向量;(3.3)根据标签分布学习网络得到的标签的概率分布P
label
,学习每个字符标签属于各词位标注的概率P
pos
;(3.4)根据步骤(3.2)所得的词向量集合E
τ
和步骤(3.3)所得的词位标注概率P
pos
,通过张量积获取嵌入层中词汇信息E
W
;(3.5)结合字符向量E
C
和嵌入层中词汇信息E
W
,输入WP
‑
LSTM模型,然后使用Dense层和条件随机场作为解码器和标签推断层,输出Z=(z1,z2,
…
,z
n
)为预测的标签,最终学习中文地址命名实体识别中的字符关系,实现中文地址命名实体识别。2.根据权利要求1所述的一种字词信息融合的中文地址命名实体识别方法,其特征在于,ELMO是由两个双向LSTM(Bidirectional LSTM)组成的网络结构;ELMO层最终向量表示为:其中为第i个位置的字符...
【专利技术属性】
技术研发人员:汪陈笑,鲍迪恩,蒋炜,邓静,陈盼盼,
申请(专利权)人:杭州邦睿科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。