【技术实现步骤摘要】
一种小样本关系分类过滤方法、装置及设备
[0001]本专利技术实施例涉及数据过滤分类
,特别涉及一种小样本关系分类过滤方法
、
装置及设备
。
技术介绍
[0002]近年来,信息技术和互联网迎来了爆炸性的发展,网上存在着包含大量信息的非结构化文本
。
信息提取
(IE)
涉及从这些文本中提取有价值的知识,包括命名实体识别
、
事件检测
(ED)、
关系分类
(RC)
等
。
在这些任务中,关系分类旨在通过检测某个句子中包含的一对实体之间的关系,在现实中具有巨大的实用价值,例如为许多下游应用
(
知识图谱或问答系统
)
提供了输入
。
如图1所示,句子
S1
包含两个实体,即头部实体
"
高速路
"
和尾部实体
"
河流
"。
关系分类的目的是判断上述两个实体之间是否存在 />"
交叉本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种小样本关系分类过滤方法,其特征在于,包括:构建粗粒度过滤器,所述粗粒度过滤器用于对未标记的语料集进行过滤得到与种子实例具有相同实体的第一候选实例及具有相似语义的第二候选实例;构建细粒度过滤器,所述细粒度过滤器用于对所述第一候选实例与第二候选实例进行过滤,得到与所述种子实例的关系概念相同的第三候选实例;将所述第三候选实例定义为阳性实例集,将所述第一候选实例与第二候选实例中与所述种子实例的关系概念不同的候选实例定义为负样本集,所述关系概念用于描述不同实例间的关系;构建假阳性实例修正模块,所述假阳性实例修正模块用于调整
、
控制分类器在训练期间使用的所述负样本集的比例;基于已获得的少量的属于新出现的关系的标注实例,以及经所述假阳性实例修正模块调整后的所述阳性实例集
、
负样本集训练所述分类器;基于训练好的所述分类器对小样本数据进行关系分类
。2.
根据权利要求1所述的小样本关系分类过滤方法,其特征在于,所述构建粗粒度过滤器,包括:设置实体对齐模块,其用于识别出所述语料集中与种子实例具有相同实体的第一候选实例;设置关系孪生网络,其用于通过测量所述语料集中的实例与种子实例中词向量间的距离过滤出与所述种子实例具有相似语义的第二候选实例;基于所述实体对齐模块及关系孪生网络形成所述粗粒度过滤器
。3.
根据权利要求2所述的小样本关系分类过滤方法,其特征在于,所述种子实例包括多个,所述通过测量所述语料集中的实例与种子实例中词向量间的距离过滤出与所述种子实例具有相似语义的第二候选实例,包括:所述关系孪生网络通过测量所述语料集中的实例与种子实例中词向量间的欧式距离以确定两实例间的相似性分数:基于所述语料集中的各实例与各所述种子实例间的相似性分数计算平均相似性分数;基于多个所述平均相似性分数过滤出与各所述种子实例具有相似语义的第二候选实例;其中,
σ
(
·
)
是
sigmoid
激活函数,
f
p
(
·
)
用于编码句子向量,
S
RSN
(
·
)
的范围是0到1,权重
w
p
和偏差
b
p
是可训练的参数,是种子实例,是语料集中的实例
。4.
根据权利要求1所述的小样本关系分类过滤方法,其特征在于,所述构建细粒度过滤器,包括:设置提示模板生成函数,用于将所述第一候选实例
、
第二候选实例分别转化为符合输入模板要求的新文本,所述输入模板包含候选实例中的文本描述
、
关系概念以及标签栏,所述标签栏中用于添加候选实例与种子实例的关系概念是否一致的标签;预训练语言模型,用于根据所述种子实例的关系概念处理对应所述第一候选实例
、
第二候选实例的新文本,以基于处理结果将匹配各所述新文本的标签添加至所述标签栏中,
并根据所述标签实现对所述第一候选实例
、
第二候选实例的过滤,得到所述第三候选实例
。5.
根据权利要求1所述的小样本关系分类过滤方法,其特征在于,还包括:基于获得的满足常出现的关系的标注实例分别对所述...
【专利技术属性】
技术研发人员:蔡飞,李佩宏,陈洪辉,郑建明,邵太华,王梦如,王思远,刘登峰,毛彦颖,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。