【技术实现步骤摘要】
一种远程监督数据集去噪方法
[0001]本专利技术涉及网络数据处理,具体涉及一种远程监督数据集去噪方法。
技术介绍
[0002]关系分类是信息抽取中的一项基本任务,是知识图谱构建环节中重要的一环。[Robust distant supervision relation extraction via deep reinforcement learning.Qin,P.;Xu,W.;and Wang,W.Y.2018.In ACL,2137
–
2147]指出关系分类是给定一句话,判断该句子中两个实体属于哪种关系,关系分类本质上属于多分类问题。随着神经网络的兴起,越来越多的研究人员使用神经网络来解决该问题,2015年提出的BILSTM与2016年提出的BILSTM+ATT在关系抽取上取得了显著的效果。但使用神经网络解决关系分类问题需要大量的标签数据来保证模型得到有效的训练,然而获取大量的标签数据是需要付出大量代价的。为了降低获取大量的标签数据的成本,2009年提出了远程监督DS,通过知识库与非结构化文本对齐的方式 ...
【技术保护点】
【技术特征摘要】
1.一种远程监督数据集去噪方法,其特征在于,包括如下步骤:S1、获取远程监督数据集并将所获取的数据按照是否有标签分为正样本集和假负样本集;S2、利用基于模式的数据抽取方法提取步骤S1得到的正样本集中的数据,得到高质量正样本数据;S3、利用步骤S2提取的高质量正样本数据集和步骤S1获取的假负样本集中的数据共同作为高质量负样本筛选网络的训练数据进行训练得到高质量负样本集;S4、将步骤S3中识别出的高质量负样本集和步骤S1得到的正样本集数据共同作为去噪模型的训练数据集并进行去噪模型训练,得到正确标注的正样本数据。2.根据权利要求1所述的一种远程监督数据集去噪方法,其特征在于,所述步骤S2具体包括:S21、任意选择正样本集中两个实体句子之间所包含的模式词m
i
;S22、判断步骤S21选择的词m
i
是否在模式pattern中,若不在则将其并入模式集合M中,若是,则模式集合M计数加1;S23、重复步骤S21
‑
S22直至所有的句子处理完毕,对模式集合M中的模式词判定其计数是否大于设定阈值,若是则所选择的模式词m
i
为高频模式,对应选择的正样本数据为高质量正样本数据。3.根据权利要求2所述的一种远程监督数据集去噪方法,其特征在于,所述步骤S22中高质量正样本数据表示为:其中,CTDS为高质量正样本数据,s
i
为步骤S1获取的第i个远程监督数据,n为s
i
的数量,t
j
【专利技术属性】
技术研发人员:李朝忠,梁献兰,蒙彦利,覃晓,何国对,
申请(专利权)人:南宁中平电子衡器股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。