一种融合多种外部语义特征的中文司法领域命名实体识别方法技术

技术编号：39765466 阅读：8 留言：0更新日期：2023-12-22 02:20

本发明专利技术公开了一种融合多种外部语义特征的中文司法领域命名实体识别方法，包括如下步骤：1）构建司法语料库；2）在数据集的全局层面构建无向字形图，利用字形图对模型嵌入层的输入数据进行字形增强；3）对模型嵌入层的输入数据进行多词汇增强；4）将步骤2）和步骤3）得到的两种外部语义特征增强后的输入通过门控机制进行特征融合，然后输入到

全部详细技术资料下载

【技术实现步骤摘要】
Processing Systems
；
Curran Associates,Inc.:Red Hook,NY,USA,2019
；
Volume32.)
，该网络通过
CNN
网络对汉字图片进行特征提取，得到汉字的字形信息，并通过图像分类的方式将字形信息和字符信息融合，最后进行命名实体的识别
。
类似的，
Wu
等人
(Wu,S.
；
Song,X.
；
Feng,Z.MECT:Multi
‑
Metadata Embedding based Cross
‑
Transformer for Chinese Named Entity Recognition.In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing(Volume 1:Long Papers),Virtual Event,1
–
6August 2021
；
Association for Computational Linguistics:Stroudsburg,PA,USA,2021
；
pp.1529
–r/>1539.)
通过
CNN
提取汉字的部首，然后通过
Cross
‑
Transformer
模块和随机注意力机制将部首和字符信息融入模型中，以提高中文命名实体识别的准确性
。
但这些模型主要通过
CNN
对单个汉字进行字形信息的提取，字形和上下文之间的交互知识被忽略
。
[0005]在上述工作中，中文命名实体识别达到了较高的准确率，但是对于复杂语境下的数据集效果仍然比较差，且模型结构较为复杂
。
本文提出的模型基于通用的
BiLSTM
‑
CRF
网络结构，通过建立一个低耦合的自适应嵌入层引入汉字部首等字形信息和多种分词等语义知识，对输入进行字形增强和词汇增强，从而提升中文命名实体识别的准确率
。

技术实现思路

[0006]针对现有技术中存在的不足，本专利技术提供一种融合多种外部语义特征的中文司法领域命名实体识别方法
。
这种方法构建了司法标注语料，并通过多种外部语义特征对命名实体识别模型的输入进行增强，在对“案发地点
、
地名
、
人名
、
组织机构名
、
罪名
、
法条以及刑期”七类实体的识别上，能获得较高的
F1
值和识别准确率
。
[0007]实现本专利技术目的的技术方案是：
[0008]一种融合多种外部语义特征的中文司法领域命名实体识别方法，包括如下步骤：
[0009]1)
构建司法语料库，首先对原始数据进行序列标注
,
将标注后的司法语料数据集按
6:2:2
的比例划分为训练集
、
验证集和测试集；
[0010]2)
在数据集的全局层面构建无向字形图，利用字形图对模型嵌入层的输入数据进行字形增强；
[0011]3)
对模型嵌入层的输入数据进行多词汇增强；
[0012]4)
将步骤
2)
和步骤
3)
得到的两种外部语义特征增强后的输入通过门控机制进行特征融合，然后输入到
BiLSTM
‑
CRF
网络对司法领域的命名实体进行识别
。
[0013]进一步的，步骤
1)
中原始数据为公开的司法裁判文书，通过构建动态词典，对司法裁判文书的七种实体类型进行序列标注，得到标注后的司法语料库，其中实体类型分别为：案发地点
、
地名
、
人名
、
组织机构名
、
罪名
、
法条以及刑期，标注的标签为
BIO
格式，具体标注方法为：对于每个字符，定义
M
为其实体类型的标签，则
B
‑
M
表示命名实体的开始，
I
‑
M
即命名实体的其余部分，
O
则为非命名实体字符
。
[0014]进一步的，步骤
2)
中字形增强的方法为：
[0015]2.1)
构造汉字拆解字典，格式为：“字符
+
部首
1+
部首2……”
；
[0016]2.2)
将数据集中每一个字符和部首映射成一个
one
‑
hot
向量作为字形图的初始节
点表示，从而构建数据集层面的全局特征矩阵其中
N
为数据集中所有不同字符和部首的数量；
[0017]2.3)
构造邻接矩阵用以表示字形图的边，利用汉字拆解字典和长度为
l
的滑动窗口对数据集进行共现统计，并通过公式
(1)
计算出不同节点之间的权重，
[0018][0019]公式
(1)
中
PMI(i,j)
为节点互信息，反映了两个节点
i,j
之间的关联程度，当
PMI>0
时，表示两个字符之间具有强语义相关性，当
PMI<0
时，表示两个字符之间几乎没有语义相关性，最后在权重大于0的节点之间添加边，得到所有边构成的集合为：其中
(i,j)
为节点
i,j
之间的边，
ε
为所有节点构成的边的集合；
[0020]2.4)
利用动态注意力机制计算其他节点对该字符的重要性分数，首先通过公式
(2)
计算邻居节点
j
的特征对于节点
i
的重要性分数
e(h
i
,h
j
),
[0021]e(h
i
,h
j
)
＝
a
T
LeakyReLU(W
·
[h
i
‖h
j
])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0022]其中，和是可学习的参数，
h
i
和
h
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种融合多种外部语义特征的中文司法领域命名实体识别方法，其特征在于，包括如下步骤：
1)
构建司法语料库，首先对原始数据进行序列标注，将标注后的司法语料数据集按
6:2:2
的比例划分为训练集
、
验证集和测试集；
2)
在数据集的全局层面构建无向字形图，利用字形图对模型嵌入层的输入数据进行字形增强；
3)
对模型嵌入层的输入数据进行多词汇增强；
4)
将步骤
2)
和步骤
3)
得到的两种外部语义特征增强后的输入通过门控机制进行特征融合，然后输入到
BiLSTM
‑
CRF
网络对司法领域的命名实体进行识别
。2.
根据权利要求1所述的中文司法领域命名实体识别方法，其特征在于：步骤
1)
中原始数据为公开的司法裁判文书，通过构建动态词典，对司法裁判文书的七种实体类型进行序列标注，得到标注后的司法语料库，其中实体类型分别为：案发地点
、
地名
、
人名
、
组织机构名
、
罪名
、
法条以及刑期，标注的标签为
BIO
格式，具体标注方法为：对于每个字符，定义
M
为其实体类型的标签，则
B
‑
M
表示命名实体的开始，
I
‑
M
即命名实体的其余部分，
O
则为非命名实体字符
。3.
根据权利要求2所述的中文司法领域命名实体识别方法，其特征在于：步骤
2)
中字形增强的方法为：
2.1)
构造汉字拆解字典，格式为：“字符
+
部首
1+
部首2……”
；
2.2)
将数据集中每一个字符和部首映射成一个
one
‑
hot
向量作为字形图的初始节点表示，从而构建数据集层面的全局特征矩阵其中
N
为数据集中所有不同字符和部首的数量；
2.3)
构造邻接矩阵用以表示字形图的边，利用汉字拆解字典和长度为
l
的滑动窗口对数据集进行共现统计，并通过公式
(1)
计算出不同节点之间的权重，公式
(1)
中
PMI(i,j)
为节点互信息，反映了两个节点
i,j
之间的关联程度，当
PMI>0
时，表示两个字符之间具有强语义相关性，当
PMI<0
时，表示两个字符之间几乎没有语义相关性，最后在权重大于0的节点之间添加边，得到所有边构成的集合为：其中
(i,j)
为节点
i,j
之间的边，
ε
为所有节点构成的边的集合；
2.4)
利用动态注意力机制计算其他节点对该字符的重要性分数，首先通过公式
(2)
计算邻居节点
j
的特征对于节点
i
的重要性分数
e(h
i
,h
j
),
其中，和是可学习的参数，
h
i
和
h
j
分别为节点
i,j
的字符表示，
LeakyReLU
为损失函数，随后通过公式
(3)
对这些重要性分数进行归一化计算出邻居节点
j
的特征对于节点
i
的注意力得分
α
ij
，
其中，为节点
i
所有邻居节点构成的集合，最后通过公式
(4)
对邻居节点进行加权求和并进行层归一化，得到最终的节点
i
的部首表示
e
i
，
4.
根据权利要求3所述的中文司法领域命名实体识别方法，其特征在于：步骤
3)
中多词汇增强的步骤为：
3.1)
利用三个不同的标记器对输入的文本序列
S
＝
{c1,c2,
…
,c
n
}
进行分词，其中
c
i
为字符，得到三组不同的分割结果：符，得到三组不同的分割结果：符，得到三组不同的分割结果：其中
w
为划分出的潜在词，所有的分词结果构成潜在词集合
w
all
＝
S
J
∪S
S

【专利技术属性】
技术研发人员：邓珍荣，陶勇，杨睿，蓝如师，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人