【技术实现步骤摘要】
基于主动学习的文本关系抽取方法、电子设备及存储介质
[0001]本专利技术涉及计算机
,特别是涉及一种基于主动学习的文本关系抽取方法、电子设备及存储介质。
技术介绍
[0002]文本关系抽取作为自然语言处理的一项重要任务,能够从文本数据中识别出结构化的要素数据,实现从文本数据中抽取人员相关命名实体,通过分布式处理技术实现将自然语言描述的文本数据快速进行结构化处理,形成可以被计算机读懂和理解的知识信息。在神经网络中关系抽取无需考虑特征工程方面的问题。现阶段在文本关系抽取任务中,使用的数据集的质量会影响到深度学习模型的效果。此外,神经网络的模型瓶颈是限制文本关系抽取准确性的重要因素。
[0003]当前,通常采用词性标注的方法对文本进行预处理,获得标签数据。使用词向量预处理模型,将标签数据转化为词向量并输入神经网络训练模型中。在关系抽取任务中主流的神经网络模型包括卷积神经网络(CNN)、循环神经网络(RNN)、长短记忆递归神经网络(LSTM),采用注意力机制(Attention Mechanism)对文本特征进行提取 ...
【技术保护点】
【技术特征摘要】
1.一种基于主动学习的文本关系抽取方法,其特征在于,所述方法包括如下步骤:S100,获取任一训练样本d中的初始实体集S0
d
={S0
d1
,S0 d 2
,
……
,S0 di
,
……
,S0
d md
}和关系类别集R
d
={R
d1
,R
d2
,
……
,R
dj
,
……
,R
dnd
},S0
di
为S0
d
中的第i个实体,i的取值为i到md,md为训练样本d中的实体数量,R
dj
为R
d
中的第j个关系类别,j的取值为1到nd,nd为训练样本d中的关系类别的数量;d的取值为1到H,H为训练样本的数量;S200,获取S0
di
的关系类别概率集P0
di
={P0
di1
,P0
di2
,
……
,P0
dij
,
……
,P0
dind
},P0
dij
为S0
di
属于R
dj
的概率;S300,获取S0
di
对应的分类价值V0
di
=ln(P01
di
/(P02
di
+σ0
di
)),如果V0
di
>0,则赋予S0
di
第一标签,如果V0
di
<0,则赋予S0
di
第二标签;得到具有标签的训练样本d;P01
di
为P0
di
中的最大者,P02
di
为P0
di
中的次大者,σ0
di
为基于P0
di
得到的离散值,σ0
di
=((∑
ndj=1
(AvgP0
di
‑
P0
dij
)2)/nd)
1/2
,AvgP0
di
为P0
...
【专利技术属性】
技术研发人员:袁得嵛,叶乃夫,李欣,孙海春,罗婷,倪培峰,张炜琛,于伟,
申请(专利权)人:中国人民公安大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。