【技术实现步骤摘要】
一种文本三元组抽取方法及抽取系统
本专利技术属于信息检索、智能问答、智能对话
,具体涉及一种自然语言处理中文本三元组抽取方法及抽取系统。
技术介绍
文本三元组抽取深度学习方法又分为两大类,Pipeline(先进行实体识别,然后对识别出的实体进行关系分类)和Jointmodel(实体识别和关系抽取作为一个整体的序列标注问题)。其中Pipeline把实体识别和关系分类作为两个完全独立的过程,不会相互影响,关系的识别依赖于实体识别的效果;而JointModel实体识别和关系分类的过程共同优化。网络缺点:先进行实体识别,然后对识别出的实体进行关系分类,但这种思路无法很好地处理同一组(subject,object)对应多个predicate的情况,同时会存在采样效率地的问题;另一种思路是作为一个整体的序列标注来做,但这种设计不能很好地处理同时有多个subject、多个object的情况,而无一例外地,这些方法都不能解决subject、object有重叠的情况。
技术实现思路
为了克服目前文本三 ...
【技术保护点】
1.一种文本三元组抽取方法,其特征在于,包括以下步骤:/n步骤1:对输入句子进行分字分词处理,分别在字级别和词级别进行embedding,把每个词的embedding,重复词中字的个数词,进行卷积和门控线性单元,得到的结果和字embedding进行混合,最后与Position Embedding相加得到总体的embedding层;/n步骤2:将得到字-词-位置Embedding输入到19层膨胀卷积和残差结构中进行编码,得到编码后的特征序列记为F;/n步骤3:将F传入一层Self-Attention后,将输出结果与先验特征进行拼接,其中先验特征是指对数据的每句中的subjec ...
【技术特征摘要】
1.一种文本三元组抽取方法,其特征在于,包括以下步骤:
步骤1:对输入句子进行分字分词处理,分别在字级别和词级别进行embedding,把每个词的embedding,重复词中字的个数词,进行卷积和门控线性单元,得到的结果和字embedding进行混合,最后与PositionEmbedding相加得到总体的embedding层;
步骤2:将得到字-词-位置Embedding输入到19层膨胀卷积和残差结构中进行编码,得到编码后的特征序列记为F;
步骤3:将F传入一层Self-Attention后,将输出结果与先验特征进行拼接,其中先验特征是指对数据的每句中的subject,如果存在于现有的subject知识库中,则相应的位置标记为1,否则标0;
步骤4:将拼接后的结果传入TextCNN、Dense,用0/1序列的结构预测subject的首、尾位置;
步骤5:训练时随机采样一个标注的subject,然后将F对应此subject的子序列传入到一个6层膨胀卷积和残差结构中进行编码,得到subject的编码向量,然后加上相对位置的PositionEmbedding,得到一个与输入序列等长的向量序列;
步骤6:将F传入另一层Self-Attention后,将输出结果与第5步输出的向量序列、先验特征进行拼接,其中先验特征是指对数据的每句中的objec和predicate,如果存在于现有的object和predicate知识库中,则相应的位置标记为1,否则标记0;
步骤7:将拼接后的结果传入TextCNN、Dense,对于每一种predicate,都构建一个用0/1序列结构来预测对应的object的首、尾位置,把object、predicate预测出来。
2.如权利要求1所述的文本三元组抽取方法,其特征在于,所述残差结构对应的公式是式(1)和式(2):
式中,X为残差结构的输入(此发明中是指膨胀卷积之后的结果),公式中有两个卷积:卷积1:X·W1+b1为卷积操作,其中W1和b1为卷积参数;卷积2:X·W2+b2为卷积操作,其中W2和b2为卷积参数;σ为sigmoid激活函数;为乘法操作符;ε是一个常数因子,用于增加模型的鲁棒性。
3.如权利要求2所述的文本三元组抽取方法,其特征在于,所述残差结构中两个Conv1D形式是一样的,包括卷积核数、窗口大小,权值不共享,其中一个用sigmoid函数激活,然后再加一个扰动,以增加模型的鲁棒性,另外一个不加激活函数,然后将它们得到...
【专利技术属性】
技术研发人员:聂桂芝,杨攀攀,
申请(专利权)人:上海方立数码科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。